JP2011238174A - Keyword acquisition device, keyword acquisition method and keyword acquisition program - Google Patents
Keyword acquisition device, keyword acquisition method and keyword acquisition program Download PDFInfo
- Publication number
- JP2011238174A JP2011238174A JP2010111276A JP2010111276A JP2011238174A JP 2011238174 A JP2011238174 A JP 2011238174A JP 2010111276 A JP2010111276 A JP 2010111276A JP 2010111276 A JP2010111276 A JP 2010111276A JP 2011238174 A JP2011238174 A JP 2011238174A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- surface layer
- keywords
- layer pattern
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、コンピュータ内部に存在もしくはコンピュータネットワークを介してアクセスできる文書集合から、予め入力されたキーワード集合と同様の上位概念を持つキーワード集合を獲得する技術に関する。特に、一つ以上のキーワードから構成される検索条件を元に検索する検索エンジンのログを利用して、前記上位概念を持つキーワード集合を獲得する技術に関する。 The present invention relates to a technique for acquiring a keyword set having a superordinate concept similar to a keyword set inputted in advance from a document set existing inside a computer or accessible via a computer network. In particular, the present invention relates to a technique for acquiring a keyword set having the above superordinate concept using a search engine log that searches based on a search condition composed of one or more keywords.
従来、特定の上位概念を持つキーワードを自動的に獲得しようとする手法として、大量のテキストデータを解析して、抽出しようとする方法がある。例えば、非特許文献1によると、英文のテキストから上位下位概念の組合せを獲得するため、例えば“A such as B,C,and D”のようなテキストパターンに基づき、ブートストラップ法を用いる手法が提案されている。
Conventionally, as a method for automatically acquiring a keyword having a specific superordinate concept, there is a method for analyzing and extracting a large amount of text data. For example, according to Non-Patent
また、非特許文献2は、大量のテキスト情報を対象に、特定の上位概念を持つキーワードの例に基づき、それらキーワードがよく出現するパターンを抽出しこのパターンを用いてキーワードを獲得するブートストラップ法によって、予め入力したキーワードの持つ上位概念を持つキーワードを獲得する方法を提案している。
Further, Non-Patent
さらに、非特許文献3では、非特許文献2の手法を検索条件のログ(以下、クエリログ)に適用することで、計算コストを抑えながら、入力したキーワード集合と同等の上位概念を持つキーワード集合を特定する手法が提案されている。
Further, in Non-Patent Document 3, by applying the method of Non-Patent
しかし、非特許文献1のキーワード獲得技術は、さまざまな上位概念、下位概念のキーワードの組合せを網羅的に取得する方法であり、ユーザが指定した上位概念のキーワードを抽出する方法ではない。
However, the keyword acquisition technique of Non-Patent
非特許文献2,3のキーワード獲得技術の問題として、一般的なパターンの存在があげられる。ブートストラップ法でパターンとキーワードを交互に抽出する際に、このような一般的なパターンを採用した場合、獲得されるキーワードに目的外のキーワードが含まれる可能性がある。尚、一般的なパターンとは特定の上位概念を持つキーワードだけでなく、より一般的なキーワードとの関連性も高いパターンを意味する。
The problem of the keyword acquisition technology of Non-Patent
また、非特許文献3の手法においては、クエリログを利用するにあたって、この点について対策が行われているが、パターンにより獲得されたキーワードの数を利用した手法であり、本質的な解決となっていない。 Further, in the method of Non-Patent Document 3, measures are taken for this point when using the query log, but this method uses the number of keywords acquired by the pattern and is an essential solution. Absent.
また、一般的なパターンの問題と同様に、一般的なキーワードの問題もある。これは、一般的なキーワードがパターンの評価に利用されることで、一般的なパターンが選択され、次のキーワード抽出のステップでノイズが混入するというものである。 There are also general keyword issues as well as general pattern issues. This is because a general keyword is used for pattern evaluation, a general pattern is selected, and noise is mixed in the next keyword extraction step.
本発明は、上記の問題を鑑みなされたもので、検索に係るキーワードを抽出する過程において、一般的なパターン及び一般的なキーワードの獲得を防ぎ、高い精度で入力されたキーワード集合と同一の上位概念を持つキーワード集合を獲得することを目的とする。 The present invention has been made in view of the above problems, and in the process of extracting keywords related to a search, prevents acquisition of a general pattern and a general keyword, and is identical to a keyword set inputted with high accuracy. The goal is to acquire a set of keywords with concepts.
本発明は検索条件のログに基づく検索キーワードのテキストパターンを採用するか否かを判定する際にそのパターンにより獲得されるキーワード集合と既に獲得されたキーワード集合の重複を考慮することで前記テキストパターンの一般性を評価する。これにより、一般的なテキストパターンの採用を防ぐ。さらに、テキストパターンの集合に基づきキーワードを抽出する際に、当該テキストパターンの集合と当該キーワードで抽出できるテキストパターンの集合の重なりに基づきキーワードの一般性を評価する。そして、この一般性の高いキーワードを表層パターンの評価に利用しないようにする。 In the present invention, when determining whether or not to adopt a text pattern of a search keyword based on a search condition log, the text pattern is considered by taking into account the overlap between the keyword set acquired by the pattern and the already acquired keyword set. Assess the generality of This prevents the adoption of a general text pattern. Further, when a keyword is extracted based on a set of text patterns, the generality of the keyword is evaluated based on the overlap of the set of text patterns and the set of text patterns that can be extracted with the keyword. This general keyword is not used for the evaluation of the surface layer pattern.
本発明のキーワード獲得装置の態様としては、同一の上位概念を有する複数のキーワードの集合と同一の上位概念を有し且つその集合に属さないキーワード集合を獲得するキーワード獲得装置であって、獲得したいキーワード集合と同一の上位概念を有するキーワード集合が処理対象キーワード集合として供され、この集合に属するキーワードを含むキーワードペアの群を、複数のキーワードの検索条件のログから二つ以上のキーワードの組合せで構成されるキーワードペアをその頻度と対応づけて記録したログ統計情報から取得し、この取得したキーワードペアの群から前記処理対象キーワード集合に属するキーワード毎にそのキーワードを含んだ表層パターンを抽出する表層パターン抽出手段と、前記抽出された全ての表層パターンとその表層パターンの抽出に利用したキーワードの情報と前記ログ統計情報とに基づき、前記処理対象キーワード集合の上位概念に関係するキーワードの取得しやすさを評価する指標である表層パターンのスコアを前記全ての表層パターンについて算出する表層パターンスコア算出手段と、前記抽出された表層パターンに対応するキーワード群からなるキーワード集合と前記ログ統計情報における当該表層パターンと一致するキーワードペア群から抽出した当該表層パターンに含まれるキーワード群からなるキーワード集合とに基づく当該表層パターンの一般性評価値を算出する演算を前記全ての表層パターンについて行う表層パターン一般性評価手段と、前記算出された全ての表層パターンの一般性評価値とスコアとに基づき当該全ての表層パターンから一定数の表層パターンを選択する表層パターン選択手段と、前記選択された各表層パターンと一致するキーワードペアを前記ログ統計情報から取得し、この取得したキーワードペアから当該表層パターンに含まれるキーワードの集合を特定するキーワードインスタンス抽出手段と、前記特定されたキーワードとそのキーワードペアの頻度に基づき、当該キーワードと前記処理対象キーワード集合の上位概念との関連性を評価する指標であるスコアを前記特定された集合に属する全てのキーワードについて算出するキーワードインスタンススコア算出手段と、前記キーワードインスタンス抽出手段によって特定されたキーワード毎に当該キーワードを伴う表層パターンの群からなる表層パターン集合と前記ログ統計情報における当該キーワードを伴うキーワードペア群から抽出された当該キーワードを伴う表層パターンの群からなる表層パターン集合とに基づく当該キーワードの一般性評価値を算出する演算を前記全てのキーワードについて行うキーワードインスタンス一般性評価手段と、前記キーワードインスタンススコア算出手段によって算出されたキーワード集合の各キーワードのスコアに基づき当該キーワード集合から複数のキーワードを前記獲得したいキーワード集合として選択すると共に前記キーワードインスタンス一般性評価手段によって算出されたキーワードの集合の各キーワードの一般性評価値に基づき当該キーワード集合から前記表層パターン抽出手段に供するためのキーワード集合を選択するキーワードインスタンス選択手段とを備える。 As an aspect of the keyword acquisition device of the present invention, there is a keyword acquisition device that acquires a keyword set that has the same superordinate concept as a set of a plurality of keywords having the same superordinate concept and does not belong to the set. A keyword set having the same superordinate concept as the keyword set is provided as a processing target keyword set, and a group of keyword pairs including keywords belonging to the set is combined with a combination of two or more keywords from a plurality of keyword search condition logs. A surface layer that is obtained from log statistical information that is recorded by associating a keyword pair that is configured with its frequency, and that extracts a surface layer pattern that includes the keyword for each keyword that belongs to the processing target keyword set from the obtained keyword pair group Pattern extracting means, all the extracted surface layer patterns and Based on the keyword information used for the extraction of the surface layer pattern and the log statistical information, the score of the surface layer pattern, which is an index for evaluating the ease of acquiring the keyword related to the superordinate concept of the processing target keyword set, is obtained. Included in the surface layer pattern score calculating means for calculating the surface layer pattern, the keyword set consisting of the keyword group corresponding to the extracted surface layer pattern, and the surface layer pattern extracted from the keyword pair group matching the surface layer pattern in the log statistical information A surface pattern generality evaluation unit that performs an operation for calculating a generality evaluation value of the surface layer pattern based on a keyword set including a keyword group, and a generality evaluation of all the calculated surface layer patterns. Based on the value and score A surface layer pattern selecting means for selecting a certain number of surface layer patterns from the screen, and keyword pairs matching the selected surface layer patterns are acquired from the log statistical information and included in the surface layer pattern from the acquired keyword pairs Based on the frequency of the identified keyword and its keyword pair, a keyword instance extraction unit that identifies a set of keywords, and a score that is an index for evaluating the relevance between the keyword and a higher concept of the processing target keyword set A keyword instance score calculating means for calculating all the keywords belonging to the specified set, a surface pattern set comprising a group of surface patterns with the keyword for each keyword specified by the keyword instance extracting means, and the log statistical information The key Keyword instance generality evaluation means for performing an operation for calculating the generality evaluation value of the keyword based on the surface pattern set including the surface pattern group with the keyword extracted from the keyword pair group with the word for all the keywords And a keyword calculated by the keyword instance generality evaluation unit while selecting a plurality of keywords from the keyword set as the keyword set to be acquired based on the score of each keyword of the keyword set calculated by the keyword instance score calculation unit And a keyword instance selection means for selecting a keyword set for use in the surface pattern extraction means from the keyword set based on the generality evaluation value of each keyword of the set.
本発明のキーワード獲得方法の態様としては、同一の上位概念を有する複数のキーワードの集合と同一の上位概念を有し且つその集合に属さないキーワード集合を獲得するキーワード獲得方法であって、表層パターン抽出手段が、獲得したいキーワード集合と同一の上位概念を有するキーワード集合が処理対象キーワード集合として供され、この集合に属するキーワードを含むキーワードペアの群を、複数のキーワードの検索条件のログから二つ以上のキーワードの組合せで構成されるキーワードペアをその頻度と対応づけて記録したログ統計情報から取得し、この取得したキーワードペアの群から前記処理対象キーワード集合に属するキーワード毎にそのキーワードを含んだ表層パターンを抽出するステップと、表層パターンスコア算出手段が、前記抽出された全ての表層パターンとその表層パターンの抽出に利用したキーワードの情報と前記ログ統計情報とに基づき、前記処理対象キーワード集合の上位概念に関係するキーワードの取得しやすさを評価する指標である表層パターンのスコアを前記全ての表層パターンについて算出するステップと、表層パターン一般性評価手段が前記抽出された表層パターンに対応するキーワード群からなるキーワード集合と前記ログ統計情報における当該表層パターンと一致するキーワードペア群から抽出した当該表層パターンに含まれるキーワード群からなるキーワード集合とに基づく当該表層パターンの一般性評価値を算出する演算を前記全ての表層パターンについて行うステップと、表層パターン選択手段が前記算出された全ての表層パターンの一般性評価値とスコアとに基づき当該全ての表層パターンから一定数の表層パターンを選択するステップと、キーワードインスタンス抽出手段が、前記選択された各表層パターンと一致するキーワードペアを前記ログ統計情報から取得し、この取得したキーワードペアから当該表層パターンに含まれるキーワードの集合を特定するステップと、キーワードインスタンススコア算出手段が、前記特定されたキーワードとそのキーワードペアの頻度に基づき、当該キーワードと前記処理対象キーワード集合の上位概念との関連性を評価する指標であるスコアを前記特定された集合に属する全てのキーワードについて算出するステップと、キーワードインスタンス一般性評価手段が、前記キーワードインスタンス抽出手段によって特定されたキーワード毎に当該キーワードを伴う表層パターンの群からなる表層パターン集合と前記ログ統計情報における当該キーワードを伴うキーワードペア群から抽出された当該キーワードを伴う表層パターンの群からなる表層パターン集合とに基づく当該キーワードの一般性評価値を算出する演算を前記全てのキーワードについて行うステップと、キーワードインスタンス選択手段が、前記キーワードインスタンススコア算出手段によって算出されたキーワード集合の各キーワードのスコアに基づき当該キーワード集合から複数のキーワードを前記獲得したいキーワード集合として選択すると共に前記キーワードインスタンス一般性評価手段によって算出されたキーワードの集合の各キーワードの一般性評価値に基づき当該キーワード集合から前記表層パターン抽出手段に供するためのキーワード集合を選択するステップとを有する。 As an aspect of the keyword acquisition method of the present invention, there is provided a keyword acquisition method for acquiring a keyword set that has the same superordinate concept as a set of a plurality of keywords having the same superordinate concept and does not belong to the set. A keyword set having the same superordinate concept as the keyword set to be acquired is provided as a processing target keyword set by the extraction means, and two keyword pairs including keywords belonging to this set are extracted from a log of search conditions for a plurality of keywords. Acquired from the log statistical information recorded in association with the frequency of the keyword pairs composed of the above keyword combinations, the keyword is included for each keyword belonging to the processing target keyword set from the acquired keyword pair group Step of extracting surface layer pattern and surface layer pattern score calculation Evaluates the ease of obtaining keywords related to the high-level concept of the processing target keyword set based on all the extracted surface layer patterns, keyword information used to extract the surface layer patterns, and the log statistical information. Calculating a score of a surface layer pattern that is an index to be performed for all the surface layer patterns, a keyword set consisting of keywords corresponding to the extracted surface layer pattern by the surface pattern generality evaluation means, and the surface layer in the log statistical information Performing a calculation for all the surface layer patterns for calculating a generality evaluation value of the surface layer pattern based on a keyword set including a keyword group included in the surface layer pattern extracted from the keyword pair group matching the pattern, and the surface layer pattern All the surface layers calculated by the selection means A step of selecting a certain number of surface layer patterns from all the surface layer patterns based on the generality evaluation value and the score of the turn, and a keyword instance extracting means assigns a keyword pair that matches each of the selected surface layer patterns to the log statistics A step of specifying a set of keywords included in the surface pattern from the acquired keyword pair, and a keyword instance score calculating means, based on the specified keyword and the frequency of the keyword pair, Calculating a score, which is an index for evaluating the relevance of a higher-level concept of the processing target keyword set, for all keywords belonging to the specified set; and a keyword instance generality evaluating unit, the keyword instance extracting unit Identified Based on a surface pattern set consisting of a group of surface patterns with the keyword for each keyword and a surface pattern set consisting of a group of surface patterns with the keyword extracted from the keyword pair group with the keyword in the log statistical information A step of calculating a generality evaluation value of the keyword for all the keywords, and a keyword instance selecting unit from the keyword set based on a score of each keyword of the keyword set calculated by the keyword instance score calculating unit A plurality of keywords are selected as the keyword set to be acquired, and from the keyword set based on the generality evaluation value of each keyword of the set of keywords calculated by the keyword instance generality evaluation unit And a step of selecting a keyword set to be subjected to serial surface pattern extraction means.
尚、本発明は前記キーワード獲得装置を構成する各手段としてコンピュータを機能させるキーワード獲得プログラムの態様とすることもできる。 Note that the present invention can also be an aspect of a keyword acquisition program that causes a computer to function as each means constituting the keyword acquisition device.
以上の発明によれば、指定された初期キーワード集合と同一の上位概念を持つキーワードの集合を取得するタスクにおいて、高精度にキーワードを収集することができる。 According to the above invention, keywords can be collected with high accuracy in the task of acquiring a set of keywords having the same superordinate concept as the designated initial keyword set.
以下、本発明の実施の形態について図面を参照しながら説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[概要]
図1に示された本実施形態に係るキーワード獲得装置1は検索エンジンを備えた情報検索システムの一構成要素を成す。キーワード獲得装置1は検索エンジンで得られた検索ログに基づく表層パターンから獲得されるキーワード集合と既に獲得されたキーワード集合の重複に基づき前記表層パターンの一般性を評価して一般的なパターンの採用を防ぐ。さらに、表層パターンの集合に基づきキーワードを抽出する際に、当該表層パターンの集合と当該キーワードで抽出できる表層パターンの集合の重なりに基づきキーワードの一般性を評価することで、キーワードの獲得精度のさらなる向上を図る。
[Overview]
A
[装置の構成]
図1に示されたキーワード獲得装置1は図2に示されたCPU21、メモリ22、記憶装置23,24、入力デバイス25、出力デバイス26等のハードウェアリソースを備える。そして、これらのハードウェアリソースがソフトウェアリソース(OS、アプリケーション等)との協働することで図1に示されたログ取得部100、ログ処理部101、シードインスタンス取得部102、出力結果判定部103、結果出力部104、表層パターン抽出部105、表層パターンスコア算出部106、表層パターン一般性評価部107、表層パターン選択部108、キーワードインスタンス抽出部109、キーワードインスタンススコア算出部110、キーワードインスタンス選択部111、キーワードインスタンス一般性評価部200、ログ格納装置201、ログ統計DB(データベース)202、出力結果一時記憶部203が実装される。メモリ22としてはRAM等の揮発性のメモリが挙げられる。記憶装置23,24にはハードディスクドライブ装置等の周知の記憶手段を適用すればよい。以下、各機能部100〜203について説明する。
[Device configuration]
The
ログ取得部100は検索エンジンに対してユーザが入力した検索条件(クエリ)のログを当該検索エンジンから取得してログ格納装置201に格納する。
The
ログ格納装置201はログ取得部100により取得された検索エンジンに入力された検索条件(クエリ)のログを格納している。検索条件の一例を図6に示した。ログ格納装置201はハードディスク装置、サーバ装置等に例示される周知の記憶手段によって実現できる。
The
ログ処理部101は、ログ格納装置201に格納された前記ユーザの検索条件のログのうち、二語の組合せで構成されるクエリを取得し、その頻度を算出する。二語の組合せで構成されるクエリとは、半角もしくは全角のスペースで2つのキーワードが接続されたクエリのことを示し、それをキーワードペアと呼ぶ。前記算出された頻度が前記キーワードペアと対応付けられて記録されたログ統計情報がログ統計DB202に格納される。前記頻度の算出方法は形態素分析等に採用されている周知の頻度算出方法を適用すればよい。
The
ログ統計DB202の一例を図7に示した。ログ統計DB202は、ログ処理部101により検索エンジンのログから抽出される、キーワードペアとその出現頻度を記録する記憶装置である。ログ統計DB202はハードディスクドライブ装置やサーバ装置等に例示される記憶装置24によって実現すればよい。
An example of the
シードインスタンス取得部102は、ユーザが語彙獲得を行いたい上位概念に含まれる複数のキーワードの入力を受け付ける。 The seed instance acquisition unit 102 receives input of a plurality of keywords included in a higher concept that the user wants to acquire vocabulary.
表層パターン抽出部105は、シードインスタンス取得部102または出力結果判定部103から受信したキーワードのリスト(集合)に基づきログ格納装置201にアクセスしてログ統計DB202から前記キーワードを含むキーワードペアとその頻度を取得する。そして、この取得したキーワードペアのうち、問い合わせ(検索)に利用したキーワードを予め決められていた文字列(下記の事例では、###)で置き換えて表層パターンを抽出する。問い合わせキーワード、取得されるキーワードペアとその頻度、表層パターンの事例を表1に示した。表層パターン抽出部105はキーワード毎に抽出した全てのキーワードペアとその頻度及び表層パターンを集計してキーワードインスタンススコア算出部110に供する。
The surface layer
表層パターンスコア算出部106は、表層パターン抽出部105から取得したキーワード毎に抽出した全てのキーワードペアとその頻度及び表層パターンとその表層パターンの抽出に利用したキーワードの情報とに基づき、それぞれの表層パターンのスコアを算出する。表層パターンのスコアとは、初期の入力として与えられたキーワード集合の上位概念に関係するキーワードの取得しやすさを評価するための指標であり、例えば以下の式(1)で算出される。算出された表層パターンのスコアは当該表層パターンと共に表層パターン選択部108に供される。
The surface layer pattern score calculation unit 106 determines whether each surface layer is based on all keyword pairs extracted for each keyword acquired from the surface layer
式(1)において、Scorepattern(p)は表層パターンpのスコアを表す。Scorekeyword(k)は、表層パターンの抽出に利用したキーワードの情報であって、キーワードkのスコア(スコアが定義されていない場合すなわち初期値の場合は1)を表し、後述の式(4)によって算出できる。Kは表層パターンpで取得できるキーワードの集合を表す。また、pmi(k,p)はキーワードkと表層パターンpの関連性の強さを表す相互情報量を示し、以下の式(2)で算出される(式(4)についても同様)。 In Formula (1), Score pattern (p) represents the score of the surface layer pattern p. Score keyword (k) is keyword information used for extracting the surface layer pattern, and represents the score of keyword k (when the score is not defined, that is, when it is an initial value, 1). Can be calculated. K represents a set of keywords that can be acquired by the surface layer pattern p. Further, pmi (k, p) indicates a mutual information amount indicating the strength of relevance between the keyword k and the surface layer pattern p, and is calculated by the following equation (2) (the same applies to equation (4)).
式(2)において、Nは全キーワードペアの数、|k,p|はキーワードkを持つキーワードペアの頻度、|k,*|はキーワードkを持つキーワードペアの数、|*,p|は表層パターンpを持つキーワードペアの数を表す。これらの情報はログ統計DB202から取得できる。
In Expression (2), N is the number of all keyword pairs, | k, p | is the frequency of keyword pairs having the keyword k, | k, * | is the number of keyword pairs having the keyword k, and | *, p | This represents the number of keyword pairs having the surface layer pattern p. Such information can be acquired from the
表層パターン一般性評価部107は表層パターン抽出部105によって抽出された表層パターンに対応するキーワード群からなるキーワード集合とログ統計DB202における当該表層パターンと一致するキーワードペア群から抽出した当該表層パターンに含まれるキーワード群からなるキーワード集合とに基づく当該表層パターンの一般性評価値を算出する演算を前記抽出された全ての表層パターンについて行う。
The surface layer pattern generality evaluation unit 107 is included in the surface layer pattern extracted from the keyword set consisting of the keyword group corresponding to the surface layer pattern extracted by the surface layer
表層パターン一般性評価部107は具体的には以下の処理1〜4によって表層パターンの一般性評価値を算出する。
Specifically, the surface layer pattern generality evaluation unit 107 calculates the generality evaluation value of the surface layer pattern by the following
(処理1)表層パターン抽出部105からキーワード毎に抽出した表層パターンを取得する。取得される情報の一例を表2に示す。
(Process 1) The surface layer pattern extracted for each keyword is acquired from the surface layer
(処理2)処理1で得られた情報からパターン毎にどのキーワードから抽出されたかを示す情報を作成する。作成される情報の一例を表3に示す。そして、この情報における一つの表層パターンに対応するキーワード群をキーワード集合(K1)と特定する。表3の事例では表層パターン「### 偏差値」に対応したキーワード集合(K1)は「ABC大学 DE大学 JK大学」となる。
(Process 2) Information indicating which keyword is extracted for each pattern from the information obtained in
(処理3)処理2で作成された情報における一つの表層パターンをキーとしてログ統計DB202にアクセスして当該表層パターンと一致するキーワードペア群を取得し、この取得したキーワードペア群から当該表層パターンに含まれるキーワード群を抽出する。この抽出されたキーワード群をキーワード集合(K2)と特定する。表層パターンとこれによって取得されるキーワード群の例を表4に示した。表4の事例では、表層パターンが「### 偏差値」である場合、キーワードペア群から抽出された当該表層パターンに含まれるキーワード群すなわちキーワード集合(K2)は「T大学 K大学 ABC大学 DE大学 H大学」となる。
(Process 3) The
(処理4)処理2で取得されたキーワード集合(K1)と処理3で取得されたキーワード集合(K2)とに基づき前記一つの表層パターンの一般性評価値を算出する。一般性評価値は例えば以下の式(3)によって算出する。式(3)において、Generality(p)は表層パターンpの一般性を評価する値である。K1はキーワード集合(K1)を、K2はキーワード集合(K2)を示す。表層パターンとその一般性評価値は、表層パターン選択部108に供される。
(Process 4) Based on the keyword set (K1) acquired in
表層パターン選択部108は、表層パターンスコア算出部106から供された各表層パターンとそのスコアと、表層パターン一般性評価部107から供された各表層パターンの一般性評価値とに基づき、キーワードを選択するための一定数の表層パターンを選択する。具体的には、一般性評価値に一定の閾値を設け、この閾値以上の一般性評価値の表層パターンの群を一般的ではない表層パターンの群と特定し、これらの特定した表層パターンをそのスコアの降順にならべ、スコアの高いものから順に一定数のパターンを取得する。 The surface layer pattern selection unit 108 selects a keyword based on each surface layer pattern provided from the surface layer pattern score calculation unit 106 and its score, and the generality evaluation value of each surface layer pattern provided from the surface layer pattern generality evaluation unit 107. Select a certain number of surface layer patterns for selection. Specifically, a certain threshold value is set for the generality evaluation value, a group of surface layer patterns having a generality evaluation value equal to or greater than this threshold value is identified as a group of uncommon surface layer patterns, and these identified surface layer patterns are identified as A certain number of patterns are acquired in descending order of the score, in descending order of score.
キーワードインスタンス抽出部109は、表層パターン選択部108から供された表層パターン集合におけるそれぞれの表層パターンと一致するキーワードペアとその頻度をログ統計DB202から取得し、この取得したキーワードペアから前記表層パターンに含まれるキーワードの集合を特定する。表層パターン毎に抽出した全てのキーワードとそのキーワードペアの頻度をキーワードインスタンススコア算出部110に供する。
The keyword
キーワードインスタンススコア算出部110は、キーワードインスタンス抽出部109から供された表層パターン毎に含まれるキーワードの集合とこれに属する個々のキーワードペアの頻度に基づき、個々のキーワードのスコアを算出する。キーワードインスタンス(前記キーワードの集合)とこれに属する個々のキーワードのスコアは、キーワードインスタンス選択部111に供される。
The keyword instance score calculation unit 110 calculates the score of each keyword based on the set of keywords included in each surface pattern provided from the keyword
前記キーワードインスタンスのスコアは、キーワードの取得に利用した表層パターンとの関連性を元に、予め指定されたキーワード集合の上位概念と該キーワードの関連性を評価する指標である。このスコアの算出式の例としては以下の式(4)が挙げられる。 The score of the keyword instance is an index that evaluates the relevance of the keyword and the superordinate concept of the keyword set specified in advance based on the relevance with the surface layer pattern used to acquire the keyword. The following formula (4) is given as an example of the score calculation formula.
式(4)において、Scorekeyword(k)はキーワードkのスコアを表す。Pはキーワードkが出現する表層パターンの集合を表し、pはその表層パターン集合中の一つの表層パターンを表す。これらの情報はログ統計DB202から取得できる。尚、Scorepattern(p)は式(1)で算出された値である。
In equation (4), Score keyword (k) represents the score of keyword k. P represents a set of surface layer patterns in which the keyword k appears, and p represents one surface layer pattern in the surface layer pattern set. Such information can be acquired from the
キーワードインスタンス一般性評価部200はキーワードインスタンス抽出部109によって特定されたキーワード毎に当該キーワードを伴う表層パターンの群からなる表層パターン集合とログ統計DB202における当該キーワードを伴うキーワードペア群から抽出された当該キーワードを伴う表層パターンの群からなる表層パターン集合とに基づく当該キーワードの一般性評価値を算出する演算を前記全てのキーワードについて行う。
The keyword instance generality evaluation unit 200 extracts, for each keyword specified by the keyword
キーワードインスタンス一般性評価部200は具体的には以下の処理11〜14によってキーワードの一般性評価値を算出する。 Specifically, the keyword instance generality evaluation unit 200 calculates the generality evaluation value of the keyword by the following processes 11 to 14.
(処理11)キーワードインスタンス抽出部109で特定された各表層パターンに含まれるキーワードの集合を当該抽出部109から取得する。取得される情報の一例を表5に示す。
(Process 11) A set of keywords included in each surface pattern specified by the keyword
(処理12)処理11で得られた情報からキーワード毎に当該キーワードが伴う表層パターンの情報を作成する。作成される情報の一例を表6に示す。そして、この情報における一つのキーワードを伴う表層パターンの群を表層パターン集合(P1)と特定する。表6の事例ではキーワード「ABC大学」を伴う表層パターン集合(P1)は「### 偏差値 , ### 理工学部 ,### T市」となる。 (Process 12) Information on the surface layer pattern associated with the keyword is created for each keyword from the information obtained in Process 11. An example of the created information is shown in Table 6. A group of surface layer patterns with one keyword in this information is specified as a surface layer pattern set (P1). In the case of Table 6, the surface layer pattern set (P1) with the keyword “ABC University” is “## Deviation Value, ## Faculty of Science and Engineering, ## T City”.
(処理13)処理12で作成された情報における一つのキーワードを検索キーとしてログ統計DB202にアクセスして当該キーワードを伴うキーワードペア群を取得し、この取得したキーワードペア群に含まれるキーワードを伴う表層パターンの群を抽出する。この抽出された表層パターン群を表層パターン集合(P2)と特定する。前記一つのキーワードとこれによって取得される表層パターンの群の例を表7に示した。
(Process 13) The
(処理14)処理12で取得された表層パターン集合(P1)と処理13で取得された表層パターン集合(P2)とに基づき前記一つのキーワードの一般性評価値を算出する。一般性評価値は例えば以下の式(5)によって算出する。式(5)において、Generality(k)はキーワードkの一般性を評価する値である。P1は表層パターン集合(P1)を、P2は表層パターン集合(P2)を示す。キーワードとその一般性評価値は、キーワードインスタンス選択部111に供される。 (Process 14) Based on the surface layer pattern set (P1) acquired in Process 12 and the surface layer pattern set (P2) acquired in Process 13, a generality evaluation value of the one keyword is calculated. The generality evaluation value is calculated by, for example, the following formula (5). In Expression (5), Generality (k) is a value for evaluating the generality of the keyword k. P1 represents a surface layer pattern set (P1), and P2 represents a surface layer pattern set (P2). The keyword and its generality evaluation value are provided to the keyword instance selection unit 111.
キーワードインスタンス選択部111は、キーワードインスタンススコア算出部110によって算出されたキーワード集合の各キーワードのスコアに基づき当該キーワード集合から複数のキーワードを出力用のキーワード集合として選択する。具体的にはキーワードインスタンススコア算出部110から供された各キーワードをそのスコアの降順にならべ、スコアの高いものから順に一定数のキーワードを選択する。この選択された一定数のキーワードが出力用のキーワード集合(獲得したいキーワード集合)となる。 The keyword instance selection unit 111 selects a plurality of keywords from the keyword set as an output keyword set based on the keyword score of the keyword set calculated by the keyword instance score calculation unit 110. Specifically, the keywords provided from the keyword instance score calculation unit 110 are arranged in descending order of their scores, and a certain number of keywords are selected in descending order of score. The fixed number of selected keywords becomes an output keyword set (keyword set to be acquired).
また、キーワードインスタンス選択部111は、キーワードインスタンス一般性評価200によって算出されたキーワードの集合の各キーワードの一般性評価値に基づき当該キーワード集合から表層パターン評価用のキーワード集合を選択する。具体的には、キーワードインスタンス一般性評価部200から供されたキーワード集合から、同評価部200で算出された一般性評価値が予め設定された閾値を上回るキーワードを選択する。この選択されたキーワード群が表層パターン評価用のキーワード集合(表層パターン抽出部105に供するためのキーワード集合)となる。 Further, the keyword instance selection unit 111 selects a keyword set for surface pattern evaluation from the keyword set based on the generality evaluation value of each keyword of the keyword set calculated by the keyword instance generality evaluation 200. Specifically, a keyword whose generality evaluation value calculated by the evaluation unit 200 exceeds a preset threshold is selected from the keyword set provided by the keyword instance generality evaluation unit 200. The selected keyword group becomes a keyword set for evaluating the surface layer pattern (a keyword set for use in the surface layer pattern extracting unit 105).
出力結果判定部103は、キーワードインスタンス選択部111からスコア付きの出力用キーワードリストと表層パターン評価用のキーワードリストとを取得する。スコア付きの出力用キーワードリストの情報を、キーワード抽出結果として出力結果一時記憶203に記憶させる。出力結果一時記憶部203において既に記憶していたキーワード抽出結果が存在する場合には、既に存在する抽出結果に追加する態様で記憶させる。 The output result determination unit 103 acquires an output keyword list with a score and a keyword list for surface layer pattern evaluation from the keyword instance selection unit 111. Information on the output keyword list with scores is stored in the output result temporary storage 203 as a keyword extraction result. If there is a keyword extraction result that has already been stored in the output result temporary storage unit 203, it is stored in such a manner that it is added to the existing extraction result.
また、出力結果判定部103は、一度の入力に対して行ったキーワード抽出の回数が、予め決められている回数に到達したか否かを判定し、当該回数が前記決められている回数に到達していれば、結果出力部104に結果をスコアと共に出力する旨を送信する。一方、当該回数が前記決められている回数に到達していなければ、表層パターン評価用のキーワード群とその各キーワードのスコアを表層パターン抽出部105に送信する。尚、前記回数は任意である。
Further, the output result determination unit 103 determines whether or not the number of keyword extractions performed for one input has reached a predetermined number of times, and the number of times reaches the predetermined number of times. If so, the
出力結果一時記憶部203は、出力結果判定部103から送信されたデータを一時的に記憶する記憶装置である。出力結果一時記憶部203に対しては結果出力部104からもアクセスできるようになっている。出力結果データの一例を図8に示す。出力結果一時記憶部203は図2に示されたメモリ22によって実現すればよい。
The output result temporary storage unit 203 is a storage device that temporarily stores the data transmitted from the output result determination unit 103. The output result temporary storage unit 203 can also be accessed from the
結果出力部104は、出力結果判定部103から結果を出力する旨を受信すると、出力結果一時記憶部203にアクセスし、記憶しているキーワード抽出結果をすべて取得し、この取得した抽出結果を出力する。
When the
[処理手順の説明]
キーワード獲得装置1による処理手順について説明する。処理手順は図3に示したようにログ収集処理手順(S1)とログ利用キーワード抽出処理手順(S2)とからなる。
[Description of processing procedure]
A processing procedure by the
ログ収集処理手順(S1)では、検索エンジンから検索条件のログを取得してログ格納装置201に格納し、このログ格納装置201に格納されたクエリの分析(頻度算出)をバッチ方式で実行して分析結果(ログ統計情報)をログ統計DB202に格納する。
In the log collection processing procedure (S1), a search condition log is acquired from a search engine, stored in the
ログ利用キーワード抽出処理手順(S2)では、ログ収集処理手順(S1)で得られたログ統計DB202に含まれる分析結果を利用して、ユーザの指定したキーワード集合と同一の上位概念を持つキーワード集合の中で前記ユーザの指定したキーワード集合に含まれないキーワードを抽出する。
In the log use keyword extraction processing procedure (S2), a keyword set having the same superordinate concept as the keyword set specified by the user using the analysis result contained in the
以上のログ収集処理手順(S1),ログ利用キーワード抽出処理手順(S2)の具体的な手順について図4,図5を参照しながら説明する。 Specific procedures of the above log collection processing procedure (S1) and log use keyword extraction processing procedure (S2) will be described with reference to FIGS.
先ず、ログ収集処理手順(S1)について説明する。処理手順(S1)は図4に示したステップS11,S12からなる。 First, the log collection processing procedure (S1) will be described. The processing procedure (S1) includes steps S11 and S12 shown in FIG.
S11:ログ取得部100はWebサーチエンジン等の検索装置に対して利用者が入力した検索条件のログを当該検索装置から取得してログ格納装置201に格納する。例えば、図6に示したような検索条件のログが取得されログ格納装置201に格納される。
S11: The
S12:ログ処理部101はログ格納装置201に格納された検索条件のログから二つ以上のキーワードの組合せで構成されるキーワードペアを取得し、これをその頻度と対応づけて記録したログ統計情報をログ統計DB202に格納する。例えば、図7に示したログ統計情報がログ統計DB202に格納される。
S12: The
次に、ログ利用キーワード抽出処理手順(S2)について説明する。処理手順(S2)は図4に示したステップS21〜S36からなる。 Next, the log use keyword extraction processing procedure (S2) will be described. The processing procedure (S2) includes steps S21 to S36 shown in FIG.
S21:シードインスタンス取得部102は獲得したいキーワードと同じ上位概念を有するキーワード集合を処理対象キーワード集合として入力デバイス25から受ける。
S21: The seed instance acquisition unit 102 receives a keyword set having the same superordinate concept as the keyword to be acquired from the
S22:シードインスタンス取得部102はS21で受け付けた処理対象キーワード集合を表層パターン抽出部105に供する。
S22: The seed instance acquisition unit 102 supplies the processing target keyword set received in S21 to the surface layer
S23:表層パターン抽出部105はシードインスタンス取得部102から供された処理対象キーワード集合の情報に基づきログ統計DB202にアクセスして当該キーワード集合のキーワードを含むキーワードペアとその頻度を取得する。例えば、表1に示したようにキーワードを含むキーワードペア「ABC大学 偏差値」とその頻度「2000」が取得される。
S23: The surface layer
S24:表層パターン抽出部105はS23で取得されたキーワードペアのうち、問い合わせ(検索)に利用したキーワードを予め決められていた文字列(例えば、###)で置き換えて表層パターンを抽出する。例えば、表1に示したような表層パターン「### 偏差値」が取得される。そして、表層パターン抽出部105はキーワード毎に抽出した全てのキーワードペアとその頻度及び表層パターンを集計したものを表層パターンスコア算出部106と表層パターン一般性評価部107とに供する。
S24: The surface layer
S25:表層パターンスコア算出部106は、表層パターン抽出部105から供されたキーワード毎に抽出した表層パターンを式(1)の演算に供して各表層パターンのスコアを算出する。そして、この算出した全ての表層パターンのスコアを表層パターン選択部108に供する。
S25: The surface layer pattern score calculation unit 106 calculates the score of each surface layer pattern by using the surface layer pattern extracted for each keyword provided from the surface layer
S26:表層パターン一般性評価部107は、表層パターン抽出部105から供されたキーワード毎に抽出した表層パターンを前述の(処理2)〜(処理4)に供して各表層パターンの一般性評価値を算出する。そして、この算出した各表層パターンの一般性評価値を表層パターン選択部108に供する。
S26: The surface layer pattern generality evaluation unit 107 supplies the surface layer pattern extracted for each keyword provided from the surface layer
S27:表層パターン選択部108は、表層パターン一般性評価部107から各表層パターンの一般性評価値を受けると、閾値以上の一般性評価値である表層パターンの群を一般的ではない表層パターンの群と特定する。次いで、この特定した表層パターンの群をS25で算出されたスコアの降順にならべ、スコアの高いものから順に一定数の表層パターンを取得する。そして、この特定した表層パターンの集合をキーワードインスタンス抽出部109に供する。
S27: When the surface layer pattern selection unit 108 receives the generality evaluation value of each surface layer pattern from the surface layer pattern generality evaluation unit 107, the surface layer pattern selection unit 108 selects a surface layer pattern group that is a generality evaluation value equal to or greater than a threshold value as an uncommon surface layer pattern. Identify as a group. Next, the identified surface layer pattern group is arranged in descending order of the score calculated in S25, and a certain number of surface layer patterns are acquired in descending order of score. The specified set of surface layer patterns is provided to the keyword
S28:キーワードインスタンス抽出部109は、表層パターン選択部108から表層パターンの集合を受けると当該集合における各表層パターンと一致するキーワードペアとその頻度をログ統計DB202から取得する。そして、この取得したキーワードペアから表層パターンに含まれるキーワードの集合を特定する。表層パターン毎に抽出した全てのキーワードとそのキーワードペアの頻度をキーワードインスタンススコア算出部110に供する。
S28: Upon receiving a set of surface layer patterns from the surface layer pattern selection unit 108, the keyword
S29:キーワードインスタンススコア算出部110は、キーワードインスタンス抽出部109から供されたキーワード集合とキーワードペアの頻度を式(4)の演算に供して各キーワードのスコアを算出する。そして、この算出された全てのキーワードと各キーワードのスコアをキーワードインスタンス選択部111に供する。
S29: The keyword instance score calculation unit 110 calculates the score of each keyword by using the keyword set and keyword pair frequency provided from the keyword
S30:キーワードインスタンス一般性評価部200は、キーワードインスタンス抽出部109から供された各表層パターンに含まれるキーワードの集合を前述の(処理12)〜(処理14)に供して各キーワードの一般性評価値を算出する。そして、この算出した各キーワードの一般性評価値をキーワードインスタンス選択部111に供する。
S30: The keyword instance generality evaluation unit 200 uses the set of keywords included in each surface layer pattern provided from the keyword
S31:キーワードインスタンス選択部111は、キーワードインスタンススコア算出部110から供されたキーワード集合から各キーワードのスコアに基づき出力用のキーワードを選択する。例えば、キーワードインスタンススコア算出部110から供された各キーワードをそのスコアの降順にならべ、スコアの高いものから順に一定数のキーワードを選択する。この選択された一定数のキーワードを出力用のキーワード集合として出力結果判定部103に供する。 S31: The keyword instance selection unit 111 selects an output keyword from the keyword set provided by the keyword instance score calculation unit 110 based on the score of each keyword. For example, the keywords provided from the keyword instance score calculation unit 110 are arranged in descending order of their scores, and a certain number of keywords are selected in descending order of score. The selected fixed number of keywords are provided to the output result determination unit 103 as an output keyword set.
また、S31では、キーワードインスタンス選択部111は、キーワードインスタンス一般性評価部200から供されたキーワードの集合から各キーワードの一般性評価値に基づき、表層パターン評価用のキーワードを選択する。例えば、キーワードインスタンス一般性評価部200から供されたキーワード集合から、同評価部200で算出された一般性評価値が予め設定された閾値を上回るキーワードを選択する。この選択されたキーワード群を前記表層パターン評価用のキーワード集合として出力結果判定部103に供する。 In S31, the keyword instance selection unit 111 selects a keyword for surface pattern evaluation based on the generality evaluation value of each keyword from the set of keywords provided from the keyword instance generality evaluation unit 200. For example, a keyword whose generality evaluation value calculated by the evaluation unit 200 exceeds a preset threshold is selected from the keyword set provided by the keyword instance generality evaluation unit 200. The selected keyword group is provided to the output result determination unit 103 as the surface pattern evaluation keyword set.
S32:出力結果判定部103はS31で選択されたキーワードの集合を出力結果一時記憶部203に格納する。 S 32: The output result determination unit 103 stores the set of keywords selected in S 31 in the output result temporary storage unit 203.
S33:出力結果判定部103はS23〜S32のキーワード抽出処理が予め決められた回数実行されたか否かを判定する。 S33: The output result determination unit 103 determines whether or not the keyword extraction process of S23 to S32 has been executed a predetermined number of times.
S34:出力結果判定部103は、S33のステップで前記キーワード抽出処理が決められた回数実行されたと判断すると、S31で選択されたキーワードの集合を出力する旨のメッセージを結果出力部104に供する。
S34: If the output result determination unit 103 determines that the keyword extraction process has been executed a predetermined number of times in step S33, the output result determination unit 103 provides a message to the
S35:結果出力部104は、出力結果判定部103から前記メッセージを受けると、出力結果一時記憶部203に格納してあるキーワードの集合を取得する。そして、この出力されたキーワードの集合がユーザにとって適切なキーワード集合として出力デバイス26から出力させる。例えば図8に示した出力結果データが出力される。図示された事例では出力される各キーワードにはS29で算出されたスコアが付される。
S35: Upon receiving the message from the output result determination unit 103, the
S36:出力結果判定部103は、S33のステップで前記キーワード抽出処理が決められた回数実行されていないと判断すると、出力結果一時記憶部203に格納された前記表層パターン評価用のキーワード集合をS23に係る表層パターン抽出部105に供する。また、出力結果判定部103は前記キーワード集合の各キーワードのスコアをS25での表層パターンのスコアを表層パターン抽出部105に供する。この表層パターン抽出部105に供された各キーワードのスコアはS25で表層パターンスコア算出部106によって実行される表層パターンのスコアを算出する演算に係る式(1)のScorekeyword(k)として利用される。
S36: When the output result determination unit 103 determines that the keyword extraction process has not been executed the determined number of times in step S33, the output result temporary storage unit 203 stores the surface pattern evaluation keyword set stored in S23. This is provided to the surface layer
[本実施形態の効果]
以上のように、キーワード獲得装置1は、ユーザが指定した初期キーワード集合と同一の上位概念を持つキーワードの集合を取得するタスクにおいて、与えられたキーワード集合と関連性の高い表層パターンを抽出する際に、該キーワード集合と該パターンで抽出できるキーワード集合の重なりを元に表層パターンの一般性を評価することで、一般性の高い表層パターンを把握できる。これにより、一般性の高い表層パターンのキーワードを利用しないようにすることができ、入力されたキーワード集合の上位概念と関係のないキーワードの抽出を抑えることできる。したがって、検索キーワードを精度高く収集できる。
[Effect of this embodiment]
As described above, the
ブートストラッピングを用いた情報抽出においては、インスタンスを取得するためのパターンに広義なものを選択してしまうと、意にそぐわないインスタンスを抽出してしまう、意味ドリフトという問題がある。キーワード獲得装置1では、表層パターンの選択時に、今までに抽出したインスタンス集合と表層パターンによって得られるインスタンス集合の重複が、後者の集合の半分になると最も値が高くなる指標である一般性評価値を利用しているので、キーワードの獲得精度が向上する。
In information extraction using bootstrapping, there is a problem of semantic drift that, if a broad pattern is selected for acquiring an instance, an unintentional instance is extracted. In the
また、キーワード獲得装置1では、表層パターンの集合に基づきキーワードを抽出する際に、当該表層パターンの集合と当該キーワードで抽出できる表層パターンの集合の重なりに基づきキーワードの一般性を評価する。そして、この一般性の高いキーワードは表層パターンの評価に利用しないようにしている。これにより、目的以外のキーワードを多く抽出する一般性の高いテキストパターンの採用を防ぐことができ、キーワード獲得の精度がさらに向上する。
Further, when the
さらに、キーワード獲得装置1では、出力結果判定部103が、前記キーワードの選択の回数が予め決められた回数に達しているか否かの判定を行い、前記選択の回数が前記決められた回数に達していると判断すると前記キーワードインスタンス選択部111にて選択されたキーワードの集合を出力させる一方で、前記キーワードの選択の回数が予め決められた回数に達していないと判断すると前記選択部111にて選択されたキーワードの集合を前記処理対象キーワード集合としこのキーワード集合とその各キーワードのスコアを表層パターン抽出部105に供するようにすることで、より多くの適切なキーワードの集合を得られる。
Further, in the
また、表層パターン選択部108が、前記算出された一般性評価値のうちで閾値以上の一般性評価値である表層パターンの群を一般的ではない表層パターンの群と特定し、この特定した表層パターンの群を当該各表層パターンのスコアの降順にならべ、スコアの高いものから順に一定数の表層パターンを選択することで、より一層確実に一般性の高い表層パターンを除外できる。 Further, the surface layer pattern selection unit 108 identifies a group of surface layer patterns that are generality evaluation values equal to or greater than a threshold value among the calculated generality evaluation values as a group of uncommon surface layer patterns, and specifies the identified surface layer By arranging a group of patterns in descending order of the score of each surface layer pattern and selecting a certain number of surface layer patterns in descending order of the score, the surface layer patterns with higher generality can be more reliably excluded.
さらに、キーワードインスタンス選択部111が、スコアが算出されたキーワードの集合からスコアの高いものから予め決められた個数分のキーワードを選択することで、一般性の高い表層パターンの除外能がさらに高まる。 Further, the keyword instance selection unit 111 selects a predetermined number of keywords from a set of keywords with a high score from the set of keywords whose scores are calculated, thereby further enhancing the ability to exclude a general surface layer pattern.
[本発明のプログラムとしての態様]
本発明は、専用のハードウェアにより実現されるもの以外に、上述のキーワード獲得装置1を構成する機能部100〜111,200〜203としてコンピュータを機能させるキーワード獲得プログラムの態様とすることもできる。また、このプログラムを格納したコンピュータ読み取り可能な記録媒体も本発明の一態様となる。前記記録媒体としては、フレキシブルディスク、光磁気ディスク、CD−ROM、DVD−ROM、その他の既知の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置が例示される。さらに、前記記録媒体としては、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含まれる。
[Aspect as Program of the Present Invention]
The present invention can be implemented as a keyword acquisition program that causes a computer to function as the
1…キーワード獲得装置
101…ログ処理部
102…シードインスタンス取得部
103…出力結果判定部
104…結果出力部
105…表層パターン抽出部(表層パターン抽出手段)
106…表層パターンスコア算出部(表層パターンスコア算出手段)
107…表層パターン一般性評価部(表層パターン一般性評価手段)
108…表層パターン選択部(表層パターン選択手段)
109…キーワードインスタンス抽出部(キーワードインスタンス抽出手段)
110…キーワードインスタンススコア算出部(キーワードインスタンススコア算出手段)
111…キーワードインスタンス選択部(キーワードインスタンス選択手段)
200…キーワードインスタンス一般性評価部
202…ログ統計DB(ログ統計情報)
DESCRIPTION OF
106 ... Surface pattern score calculation unit (surface pattern score calculation means)
107 ... surface layer pattern generality evaluation section (surface layer pattern generality evaluation means)
108 ... Surface layer pattern selection section (surface layer pattern selection means)
109: Keyword instance extraction unit (keyword instance extraction means)
110: Keyword instance score calculation unit (keyword instance score calculation means)
111 ... Keyword instance selection unit (keyword instance selection means)
200: Keyword instance generality evaluation unit 202: Log statistics DB (log statistics information)
Claims (9)
獲得したいキーワード集合と同一の上位概念を有するキーワード集合が処理対象キーワード集合として供され、この集合に属するキーワードを含むキーワードペアの群を、複数のキーワードの検索条件のログから二つ以上のキーワードの組合せで構成されるキーワードペアをその頻度と対応づけて記録したログ統計情報から取得し、この取得したキーワードペアの群から前記処理対象キーワード集合に属するキーワード毎にそのキーワードを含んだ表層パターンを抽出する表層パターン抽出手段と、
前記抽出された全ての表層パターンとその表層パターンの抽出に利用したキーワードの情報と前記ログ統計情報とに基づき、前記処理対象キーワード集合の上位概念に関係するキーワードの取得しやすさを評価する指標である表層パターンのスコアを前記全ての表層パターンについて算出する表層パターンスコア算出手段と、
前記抽出された一つの表層パターンに対応するキーワード群からなるキーワード集合と前記ログ統計情報における前記一つの表層パターンと一致するキーワードペア群から抽出した当該表層パターンに含まれるキーワード群からなるキーワード集合とに基づく前記一つの表層パターンの一般性評価値を算出する演算を前記全ての表層パターンについて行う表層パターン一般性評価手段と、
前記算出された全ての表層パターンの一般性評価値とスコアとに基づき当該全ての表層パターンから一定数の表層パターンを選択する表層パターン選択手段と、
前記選択された各表層パターンと一致するキーワードペアを前記ログ統計情報から取得し、この取得したキーワードペアから当該表層パターンに含まれるキーワードの集合を特定するキーワードインスタンス抽出手段と、
前記特定されたキーワードとそのキーワードペアの頻度に基づき、当該キーワードと前記処理対象キーワード集合の上位概念との関連性を評価する指標であるスコアを前記特定された集合に属する全てのキーワードについて算出するキーワードインスタンススコア算出手段と、
前記キーワードインスタンス抽出手段によって特定されたキーワード毎に当該キーワードを伴う表層パターンの群からなる表層パターン集合と前記ログ統計情報における当該キーワードを伴うキーワードペア群から抽出された当該キーワードを伴う表層パターンの群からなる表層パターン集合とに基づく当該キーワードの一般性評価値を算出する演算を前記全てのキーワードについて行うキーワードインスタンス一般性評価手段と、
前記キーワードインスタンススコア算出手段によって算出されたキーワード集合の各キーワードのスコアに基づき当該キーワード集合から複数のキーワードを前記獲得したいキーワード集合として選択すると共に前記キーワードインスタンス一般性評価手段によって算出されたキーワードの集合の各キーワードの一般性評価値に基づき当該キーワード集合から前記表層パターン抽出手段に供するためのキーワード集合を選択するキーワードインスタンス選択手段と
を備えたこと
を特徴とするキーワード獲得装置。 A keyword acquisition device that acquires a keyword set that has the same superordinate concept as a set of a plurality of keywords having the same superordinate concept and does not belong to the set,
A keyword set having the same superordinate concept as the keyword set to be acquired is provided as a processing target keyword set, and a group of keyword pairs including keywords belonging to this set is searched for from two or more keyword search condition logs. Acquires keyword pairs composed of combinations from log statistical information recorded in association with their frequencies, and extracts a surface layer pattern including the keywords for each keyword belonging to the processing target keyword set from the group of acquired keyword pairs. Surface layer pattern extraction means to
An index for evaluating the ease of acquiring keywords related to the superordinate concept of the processing target keyword set based on all the extracted surface patterns, keyword information used for extracting the surface patterns, and the log statistical information Surface layer pattern score calculating means for calculating the score of the surface layer pattern for all the surface layer patterns;
A keyword set consisting of a keyword group corresponding to the extracted one surface pattern and a keyword set consisting of a keyword group included in the surface pattern extracted from the keyword pair group matching the one surface pattern in the log statistical information; A surface layer pattern generality evaluation means for performing an operation for calculating the generality evaluation value of the one surface layer pattern based on the above-mentioned all surface layer patterns;
Surface layer pattern selecting means for selecting a certain number of surface layer patterns from all the surface layer patterns based on the generality evaluation values and scores of all the calculated surface layer patterns,
Keyword instance extraction means for acquiring a keyword pair that matches each of the selected surface layer patterns from the log statistical information, and identifying a set of keywords included in the surface layer pattern from the acquired keyword pairs;
Based on the frequency of the specified keyword and its keyword pair, a score, which is an index for evaluating the relevance between the keyword and the superordinate concept of the processing target keyword set, is calculated for all keywords belonging to the specified set. A keyword instance score calculating means;
For each keyword specified by the keyword instance extraction means, a surface pattern set including a surface pattern group with the keyword and a group of surface patterns with the keyword extracted from a keyword pair group with the keyword in the log statistical information A keyword instance generality evaluation unit that performs an operation for calculating the generality evaluation value of the keyword based on the surface pattern set of
Based on the score of each keyword of the keyword set calculated by the keyword instance score calculating means, a plurality of keywords are selected from the keyword set as the keyword set to be acquired, and the keyword set calculated by the keyword instance generality evaluating means And a keyword instance selecting means for selecting a keyword set for use in the surface pattern extraction means from the keyword set based on the generality evaluation value of each keyword.
を特徴とする請求項1に記載のキーワード獲得装置。 It is determined whether or not the number of times of selection of the keyword has reached a predetermined number of times, and if it is determined that the number of times of selection has reached the predetermined number of times, the keyword instance selection means has selected While outputting a set of keywords, if it is determined that the number of selections of the keyword has not reached a predetermined number, the keyword set selected by the keyword instance selection means is set as the processing target keyword set. 2. The keyword acquisition apparatus according to claim 1, further comprising output result determination means for providing a set and a score of each keyword to the surface layer pattern extraction means.
を特徴とする請求項1または2に記載のキーワード獲得装置。 The surface layer pattern selection means identifies a group of surface layer patterns that are generality evaluation values equal to or greater than a threshold value among the calculated generality evaluation values as a group of surface layer patterns that are not general, and 3. The keyword acquiring apparatus according to claim 1, wherein groups are arranged in descending order of scores of the respective surface layer patterns, and a predetermined number of surface layer patterns are selected in descending order of score.
を特徴とする請求項1から3のいずれか1項に記載のキーワード獲得装置。 4. The keyword instance selecting unit selects a predetermined number of keywords from a set of keywords with a high score from the set of keywords for which the score is calculated. 5. Keyword acquisition device.
表層パターン抽出手段が、獲得したいキーワード集合と同一の上位概念を有するキーワード集合が処理対象キーワード集合として供され、この集合に属するキーワードを含むキーワードペアの群を、複数のキーワードの検索条件のログから二つ以上のキーワードの組合せで構成されるキーワードペアをその頻度と対応づけて記録したログ統計情報から取得し、この取得したキーワードペアの群から前記処理対象キーワード集合に属するキーワード毎にそのキーワードを含んだ表層パターンを抽出するステップと、
表層パターンスコア算出手段が、前記抽出された全ての表層パターンとその表層パターンの抽出に利用したキーワードの情報と前記ログ統計情報とに基づき、前記処理対象キーワード集合の上位概念に関係するキーワードの取得しやすさを評価する指標である表層パターンのスコアを前記全ての表層パターンについて算出するステップと、
表層パターン一般性評価手段が、前記抽出された一つの表層パターンに対応するキーワード群からなるキーワード集合と前記ログ統計情報における前記一つの表層パターンと一致するキーワードペア群から抽出した当該表層パターンに含まれるキーワード群からなるキーワード集合とに基づく前記一つの表層パターンの一般性評価値を算出する演算を前記全ての表層パターンについて行うステップと、
表層パターン選択手段が前記算出された全ての表層パターンの一般性評価値とスコアとに基づき当該全ての表層パターンから一定数の表層パターンを選択するステップと、
キーワードインスタンス抽出手段が、前記選択された各表層パターンと一致するキーワードペアを前記ログ統計情報から取得し、この取得したキーワードペアから当該表層パターンに含まれるキーワードの集合を特定するステップと、
キーワードインスタンススコア算出手段が、前記特定されたキーワードとそのキーワードペアの頻度に基づき、当該キーワードと前記処理対象キーワード集合の上位概念との関連性を評価する指標であるスコアを前記特定された集合に属する全てのキーワードについて算出するステップと、
キーワードインスタンス一般性評価手段が、前記キーワードインスタンス抽出手段によって特定されたキーワード毎に当該キーワードを伴う表層パターンの群からなる表層パターン集合と前記ログ統計情報における当該キーワードを伴うキーワードペア群から抽出された当該キーワードを伴う表層パターンの群からなる表層パターン集合とに基づく当該キーワードの一般性評価値を算出する演算を前記全てのキーワードについて行うステップと、
キーワードインスタンス選択手段が、前記キーワードインスタンススコア算出手段によって算出されたキーワード集合の各キーワードのスコアに基づき当該キーワード集合から複数のキーワードを前記獲得したいキーワード集合として選択すると共に、前記キーワードインスタンス一般性評価手段によって算出されたキーワードの集合の各キーワードの一般性評価値に基づき当該キーワード集合から前記表層パターン抽出手段に供するためのキーワード集合を選択するステップと
を有すること
を特徴とするキーワード獲得方法。 A keyword acquisition method for acquiring a keyword set that has the same superordinate concept as a set of a plurality of keywords having the same superordinate concept and does not belong to the set,
A keyword set having the same superordinate concept as the keyword set that the surface layer extraction means wants to acquire is provided as a processing target keyword set, and a group of keyword pairs including keywords belonging to this set is retrieved from a log of search conditions for a plurality of keywords. A keyword pair composed of a combination of two or more keywords is acquired from log statistical information recorded in association with the frequency, and the keyword is assigned to each keyword belonging to the processing target keyword set from the acquired keyword pair group. Extracting the included surface pattern; and
Based on all the extracted surface layer patterns, the keyword information used for extracting the surface layer pattern, and the log statistical information, the surface layer pattern score calculation means obtains keywords related to the superordinate concept of the processing target keyword set Calculating a score of a surface layer pattern, which is an index for evaluating easiness, for all the surface layer patterns;
The surface layer pattern generality evaluation means is included in the surface layer pattern extracted from the keyword set consisting of the keyword group corresponding to the extracted one surface layer pattern and the keyword pair group matching the one surface layer pattern in the log statistical information Performing an operation on all the surface layer patterns to calculate a generality evaluation value of the one surface layer pattern based on a keyword set consisting of a keyword group that includes:
A step of selecting a certain number of surface layer patterns from all the surface layer patterns based on the generality evaluation values and scores of all the surface layer patterns calculated by the surface layer pattern selecting means;
A keyword instance extraction unit acquires a keyword pair that matches each of the selected surface layer patterns from the log statistical information, and identifies a set of keywords included in the surface layer pattern from the acquired keyword pairs;
The keyword instance score calculation means assigns a score, which is an index for evaluating the relevance between the keyword and a higher concept of the processing target keyword set, to the specified set based on the frequency of the specified keyword and the keyword pair. Calculating for all the keywords to which it belongs;
The keyword instance generality evaluation means is extracted from a surface pattern set consisting of a group of surface patterns with the keyword for each keyword specified by the keyword instance extraction means and a keyword pair group with the keyword in the log statistical information Performing an operation on all the keywords to calculate a generality evaluation value of the keyword based on a surface pattern set consisting of a group of surface patterns with the keyword;
The keyword instance selecting means selects a plurality of keywords as the keyword set to be acquired from the keyword set based on the score of each keyword of the keyword set calculated by the keyword instance score calculating means, and the keyword instance generality evaluating means Selecting a keyword set for use in the surface pattern extraction means from the keyword set based on the generality evaluation value of each keyword of the keyword set calculated by the method.
をさらに有すること
を特徴とする請求項5に記載のキーワード獲得方法。 When the output result determination means determines whether the number of times of selection of the keyword has reached a predetermined number of times and determines that the number of times of selection has reached the predetermined number of times, the keyword instance While outputting a set of keywords selected by the selection means, if it is determined that the number of times of selection of the keyword has not reached a predetermined number of times, the set of keywords selected by the keyword instance selection means is 6. The keyword acquiring method according to claim 5, further comprising a step of providing the keyword set and a score of each keyword as processing target keyword sets to the surface layer pattern extracting means.
を特徴とする請求項5または6に記載のキーワード獲得方法。 In the step of selecting the surface layer pattern, a group of surface layer patterns having a generality evaluation value equal to or greater than a threshold value among the calculated generality evaluation values is specified as a group of uncommon surface layer patterns, and the specified The keyword acquisition method according to claim 5 or 6, wherein a group of surface layer patterns is arranged in descending order of the score of each surface layer pattern, and a certain number of surface layer patterns are selected in descending order of score.
を特徴とする請求項5から7のいずれか1項に記載のキーワード獲得方法。 8. The method according to claim 5, wherein in the step of selecting as a keyword set to be acquired, a predetermined number of keywords are selected from a set of keywords having a high score from the set of keywords for which the score is calculated. The keyword acquisition method according to item 1.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010111276A JP5416652B2 (en) | 2010-05-13 | 2010-05-13 | Keyword acquisition device, keyword acquisition program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010111276A JP5416652B2 (en) | 2010-05-13 | 2010-05-13 | Keyword acquisition device, keyword acquisition program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011238174A true JP2011238174A (en) | 2011-11-24 |
JP5416652B2 JP5416652B2 (en) | 2014-02-12 |
Family
ID=45326056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010111276A Expired - Fee Related JP5416652B2 (en) | 2010-05-13 | 2010-05-13 | Keyword acquisition device, keyword acquisition program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5416652B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110688448A (en) * | 2019-09-18 | 2020-01-14 | 上海擎创信息技术有限公司 | Real-time log clustering analysis method based on reverse table |
-
2010
- 2010-05-13 JP JP2010111276A patent/JP5416652B2/en not_active Expired - Fee Related
Non-Patent Citations (5)
Title |
---|
CSNG200700136007; 酒井 浩之、外1名: '経済新聞記事内容の個々の企業におけるインパクトの判定' 情報処理学会研究報告 第2006巻,第94号, 20060913, p.43-50, 社団法人情報処理学会 * |
CSNG200900092035; 牧本 慎平、外2名: 'ブートストラップを用いた検索クエリログからの意味カテゴリ獲得の分析' 言語処理学会第15回年次大会発表論文集 , 20090302, p.156-159, 言語処理学会 * |
JPN6013041789; 酒井 浩之、外1名: '経済新聞記事内容の個々の企業におけるインパクトの判定' 情報処理学会研究報告 第2006巻,第94号, 20060913, p.43-50, 社団法人情報処理学会 * |
JPN6013041790; 牧本 慎平、外2名: 'ブートストラップを用いた検索クエリログからの意味カテゴリ獲得の分析' 言語処理学会第15回年次大会発表論文集 , 20090302, p.156-159, 言語処理学会 * |
JPN6013041791; 小町 守、外1名: '検索ログからの半教師あり 意味知識獲得の改善' 人工知能学会論文誌[online] 第23巻,第3号, 20130816, p.217-225, 人工知能学会 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110688448A (en) * | 2019-09-18 | 2020-01-14 | 上海擎创信息技术有限公司 | Real-time log clustering analysis method based on reverse table |
CN110688448B (en) * | 2019-09-18 | 2023-03-31 | 上海擎创信息技术有限公司 | Real-time log clustering analysis method based on reverse table |
Also Published As
Publication number | Publication date |
---|---|
JP5416652B2 (en) | 2014-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9684713B2 (en) | Methods and systems for retrieval of experts based on user customizable search and ranking parameters | |
US8527487B2 (en) | Method and system for automatic construction of information organization structure for related information browsing | |
JP2013529805A5 (en) | Search method, search system and computer program | |
KR101577376B1 (en) | System and method for determining infringement of copyright based on the text reference point | |
US11232137B2 (en) | Methods for evaluating term support in patent-related documents | |
JP5341847B2 (en) | Search query recommendation method, search query recommendation device, search query recommendation program | |
US9552415B2 (en) | Category classification processing device and method | |
JP2013168177A (en) | Information provision program, information provision apparatus, and provision method of retrieval service | |
JP4912384B2 (en) | Document search device, document search method, and document search program | |
KR100899930B1 (en) | System and Method for Generating Relating Data Class | |
JP2014078084A (en) | Forensic system, forensic method, and forensic program | |
JP2013054606A (en) | Document retrieval device, method and program | |
JP5416652B2 (en) | Keyword acquisition device, keyword acquisition program | |
JP5321258B2 (en) | Information collecting system, information collecting method and program thereof | |
JP5315726B2 (en) | Information providing method, information providing apparatus, and information providing program | |
JP5944867B2 (en) | Search intention dictionary creation device, search intention dictionary creation method, and search intention dictionary creation program | |
JP2011164718A (en) | Device, method and program for acquisition of keyword | |
JP5308918B2 (en) | Keyword extraction method, keyword extraction device, and keyword extraction program | |
JP5153390B2 (en) | Related word dictionary creation method and apparatus, and related word dictionary creation program | |
KR101414999B1 (en) | Search result providing system and method using tag based boolean query matching | |
KR101096285B1 (en) | Method and system for identifying related search terms in the internet search system | |
KR100914647B1 (en) | Method and apparatus for creating recommendation keyword | |
CN103995849B (en) | Event tracing method and system | |
KR100525616B1 (en) | Method and system for identifying related search terms in the internet search system | |
Elnahaas et al. | Query Expansion for Arabic Information Retrieval Model: Performance Analysis and Modification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120904 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130802 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130827 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131021 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131112 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131115 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5416652 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |