JP2011238174A - Keyword acquisition device, keyword acquisition method and keyword acquisition program - Google Patents

Keyword acquisition device, keyword acquisition method and keyword acquisition program Download PDF

Info

Publication number
JP2011238174A
JP2011238174A JP2010111276A JP2010111276A JP2011238174A JP 2011238174 A JP2011238174 A JP 2011238174A JP 2010111276 A JP2010111276 A JP 2010111276A JP 2010111276 A JP2010111276 A JP 2010111276A JP 2011238174 A JP2011238174 A JP 2011238174A
Authority
JP
Japan
Prior art keywords
keyword
surface layer
keywords
layer pattern
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010111276A
Other languages
Japanese (ja)
Other versions
JP5416652B2 (en
Inventor
Hiroyuki Toda
浩之 戸田
Yumiko Matsuura
由美子 松浦
Ryoji Kataoka
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010111276A priority Critical patent/JP5416652B2/en
Publication of JP2011238174A publication Critical patent/JP2011238174A/en
Application granted granted Critical
Publication of JP5416652B2 publication Critical patent/JP5416652B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To collect keywords with high accuracy in performing a task of acquiring a set of keywords having the same superordinate concept as a designated set of initial keywords.SOLUTION: In a keyword acquisition device 1, a keyword instance selecting unit 111 selects, on the basis of the score of each keyword in a keyword set calculated by a keyword instance score counting unit 110, a plurality of keywords out of the keyword set as the desired keyword set and selects, on the basis of the generality evaluation value of each keyword in the keyword set calculated by the keyword instance generality evaluating unit 200, a keyword set to be subjected to a surface layer pattern extracting unit 105 out of the pertinent keyword set. When the keyword selection is to be executed a prescribed number of times, the selected keyword set and the score of each keyword in the set are subjected to extraction of the surface layer pattern and calculation of the score thereof based on the keyword set to be processed.

Description

本発明は、コンピュータ内部に存在もしくはコンピュータネットワークを介してアクセスできる文書集合から、予め入力されたキーワード集合と同様の上位概念を持つキーワード集合を獲得する技術に関する。特に、一つ以上のキーワードから構成される検索条件を元に検索する検索エンジンのログを利用して、前記上位概念を持つキーワード集合を獲得する技術に関する。   The present invention relates to a technique for acquiring a keyword set having a superordinate concept similar to a keyword set inputted in advance from a document set existing inside a computer or accessible via a computer network. In particular, the present invention relates to a technique for acquiring a keyword set having the above superordinate concept using a search engine log that searches based on a search condition composed of one or more keywords.

従来、特定の上位概念を持つキーワードを自動的に獲得しようとする手法として、大量のテキストデータを解析して、抽出しようとする方法がある。例えば、非特許文献1によると、英文のテキストから上位下位概念の組合せを獲得するため、例えば“A such as B,C,and D”のようなテキストパターンに基づき、ブートストラップ法を用いる手法が提案されている。   Conventionally, as a method for automatically acquiring a keyword having a specific superordinate concept, there is a method for analyzing and extracting a large amount of text data. For example, according to Non-Patent Document 1, there is a method using a bootstrap method based on a text pattern such as “A succi as B, C, and D” in order to acquire a combination of upper and lower concepts from English text. Proposed.

また、非特許文献2は、大量のテキスト情報を対象に、特定の上位概念を持つキーワードの例に基づき、それらキーワードがよく出現するパターンを抽出しこのパターンを用いてキーワードを獲得するブートストラップ法によって、予め入力したキーワードの持つ上位概念を持つキーワードを獲得する方法を提案している。   Further, Non-Patent Document 2 describes a bootstrap method for extracting a pattern in which keywords frequently appear based on examples of keywords having a specific superordinate concept for a large amount of text information and acquiring the keywords using the patterns. Proposed a method for acquiring a keyword having a superordinate concept of a keyword input in advance.

さらに、非特許文献3では、非特許文献2の手法を検索条件のログ(以下、クエリログ)に適用することで、計算コストを抑えながら、入力したキーワード集合と同等の上位概念を持つキーワード集合を特定する手法が提案されている。   Further, in Non-Patent Document 3, by applying the method of Non-Patent Document 2 to a search condition log (hereinafter referred to as query log), a keyword set having a superordinate concept equivalent to the input keyword set is suppressed while reducing calculation cost. An identifying method has been proposed.

Hearst,M.:“Automatic Acquisition of Hyponyms from Large Text Corpora.”,Proc.of COLING,NANTES,AUG,1992,p.539−545Hearst, M.M. : "Automatic Acquisition of Hyponyms from Large Text Corp.", Proc. of CORING, NANTES, AUG, 1992, p. 539-545 Patrick Pantel,Marco Pennacchiotti:“Espresso:Leveraging Generic Patterns for Automatically Harvesting Semantic Relations”.Proc.of ACL,July,2006,p.113−120Patrick Pantel, Marco Pennacchioti: “Espresso: Leveraging Generic Patterns for Automatic Harvesting Semantic Relations”. Proc. of ACL, July, 2006, p. 113-120 小町守,鈴木久美,「検索ログからの半教師あり意味知識獲得の改善」,人工知能学会論文誌,Vol.23,No.3,March,2008,p.217−225Mamoru Komachi and Kumi Suzuki, “Improvement of semi-supervised acquisition of semantic knowledge from search logs”, Journal of the Japanese Society for Artificial Intelligence, Vol. 23, no. 3, March, 2008, p. 217-225

しかし、非特許文献1のキーワード獲得技術は、さまざまな上位概念、下位概念のキーワードの組合せを網羅的に取得する方法であり、ユーザが指定した上位概念のキーワードを抽出する方法ではない。   However, the keyword acquisition technique of Non-Patent Document 1 is a method for comprehensively acquiring combinations of keywords of various superordinate concepts and subordinate concepts, and is not a method of extracting superordinate concept keywords specified by the user.

非特許文献2,3のキーワード獲得技術の問題として、一般的なパターンの存在があげられる。ブートストラップ法でパターンとキーワードを交互に抽出する際に、このような一般的なパターンを採用した場合、獲得されるキーワードに目的外のキーワードが含まれる可能性がある。尚、一般的なパターンとは特定の上位概念を持つキーワードだけでなく、より一般的なキーワードとの関連性も高いパターンを意味する。   The problem of the keyword acquisition technology of Non-Patent Documents 2 and 3 is the existence of a general pattern. When such a general pattern is adopted when alternately extracting patterns and keywords by the bootstrap method, there is a possibility that an unintended keyword is included in the acquired keyword. Note that a general pattern means a pattern that is not only a keyword having a specific superordinate concept but also highly related to a general keyword.

また、非特許文献3の手法においては、クエリログを利用するにあたって、この点について対策が行われているが、パターンにより獲得されたキーワードの数を利用した手法であり、本質的な解決となっていない。   Further, in the method of Non-Patent Document 3, measures are taken for this point when using the query log, but this method uses the number of keywords acquired by the pattern and is an essential solution. Absent.

また、一般的なパターンの問題と同様に、一般的なキーワードの問題もある。これは、一般的なキーワードがパターンの評価に利用されることで、一般的なパターンが選択され、次のキーワード抽出のステップでノイズが混入するというものである。   There are also general keyword issues as well as general pattern issues. This is because a general keyword is used for pattern evaluation, a general pattern is selected, and noise is mixed in the next keyword extraction step.

本発明は、上記の問題を鑑みなされたもので、検索に係るキーワードを抽出する過程において、一般的なパターン及び一般的なキーワードの獲得を防ぎ、高い精度で入力されたキーワード集合と同一の上位概念を持つキーワード集合を獲得することを目的とする。   The present invention has been made in view of the above problems, and in the process of extracting keywords related to a search, prevents acquisition of a general pattern and a general keyword, and is identical to a keyword set inputted with high accuracy. The goal is to acquire a set of keywords with concepts.

本発明は検索条件のログに基づく検索キーワードのテキストパターンを採用するか否かを判定する際にそのパターンにより獲得されるキーワード集合と既に獲得されたキーワード集合の重複を考慮することで前記テキストパターンの一般性を評価する。これにより、一般的なテキストパターンの採用を防ぐ。さらに、テキストパターンの集合に基づきキーワードを抽出する際に、当該テキストパターンの集合と当該キーワードで抽出できるテキストパターンの集合の重なりに基づきキーワードの一般性を評価する。そして、この一般性の高いキーワードを表層パターンの評価に利用しないようにする。   In the present invention, when determining whether or not to adopt a text pattern of a search keyword based on a search condition log, the text pattern is considered by taking into account the overlap between the keyword set acquired by the pattern and the already acquired keyword set. Assess the generality of This prevents the adoption of a general text pattern. Further, when a keyword is extracted based on a set of text patterns, the generality of the keyword is evaluated based on the overlap of the set of text patterns and the set of text patterns that can be extracted with the keyword. This general keyword is not used for the evaluation of the surface layer pattern.

本発明のキーワード獲得装置の態様としては、同一の上位概念を有する複数のキーワードの集合と同一の上位概念を有し且つその集合に属さないキーワード集合を獲得するキーワード獲得装置であって、獲得したいキーワード集合と同一の上位概念を有するキーワード集合が処理対象キーワード集合として供され、この集合に属するキーワードを含むキーワードペアの群を、複数のキーワードの検索条件のログから二つ以上のキーワードの組合せで構成されるキーワードペアをその頻度と対応づけて記録したログ統計情報から取得し、この取得したキーワードペアの群から前記処理対象キーワード集合に属するキーワード毎にそのキーワードを含んだ表層パターンを抽出する表層パターン抽出手段と、前記抽出された全ての表層パターンとその表層パターンの抽出に利用したキーワードの情報と前記ログ統計情報とに基づき、前記処理対象キーワード集合の上位概念に関係するキーワードの取得しやすさを評価する指標である表層パターンのスコアを前記全ての表層パターンについて算出する表層パターンスコア算出手段と、前記抽出された表層パターンに対応するキーワード群からなるキーワード集合と前記ログ統計情報における当該表層パターンと一致するキーワードペア群から抽出した当該表層パターンに含まれるキーワード群からなるキーワード集合とに基づく当該表層パターンの一般性評価値を算出する演算を前記全ての表層パターンについて行う表層パターン一般性評価手段と、前記算出された全ての表層パターンの一般性評価値とスコアとに基づき当該全ての表層パターンから一定数の表層パターンを選択する表層パターン選択手段と、前記選択された各表層パターンと一致するキーワードペアを前記ログ統計情報から取得し、この取得したキーワードペアから当該表層パターンに含まれるキーワードの集合を特定するキーワードインスタンス抽出手段と、前記特定されたキーワードとそのキーワードペアの頻度に基づき、当該キーワードと前記処理対象キーワード集合の上位概念との関連性を評価する指標であるスコアを前記特定された集合に属する全てのキーワードについて算出するキーワードインスタンススコア算出手段と、前記キーワードインスタンス抽出手段によって特定されたキーワード毎に当該キーワードを伴う表層パターンの群からなる表層パターン集合と前記ログ統計情報における当該キーワードを伴うキーワードペア群から抽出された当該キーワードを伴う表層パターンの群からなる表層パターン集合とに基づく当該キーワードの一般性評価値を算出する演算を前記全てのキーワードについて行うキーワードインスタンス一般性評価手段と、前記キーワードインスタンススコア算出手段によって算出されたキーワード集合の各キーワードのスコアに基づき当該キーワード集合から複数のキーワードを前記獲得したいキーワード集合として選択すると共に前記キーワードインスタンス一般性評価手段によって算出されたキーワードの集合の各キーワードの一般性評価値に基づき当該キーワード集合から前記表層パターン抽出手段に供するためのキーワード集合を選択するキーワードインスタンス選択手段とを備える。   As an aspect of the keyword acquisition device of the present invention, there is a keyword acquisition device that acquires a keyword set that has the same superordinate concept as a set of a plurality of keywords having the same superordinate concept and does not belong to the set. A keyword set having the same superordinate concept as the keyword set is provided as a processing target keyword set, and a group of keyword pairs including keywords belonging to the set is combined with a combination of two or more keywords from a plurality of keyword search condition logs. A surface layer that is obtained from log statistical information that is recorded by associating a keyword pair that is configured with its frequency, and that extracts a surface layer pattern that includes the keyword for each keyword that belongs to the processing target keyword set from the obtained keyword pair group Pattern extracting means, all the extracted surface layer patterns and Based on the keyword information used for the extraction of the surface layer pattern and the log statistical information, the score of the surface layer pattern, which is an index for evaluating the ease of acquiring the keyword related to the superordinate concept of the processing target keyword set, is obtained. Included in the surface layer pattern score calculating means for calculating the surface layer pattern, the keyword set consisting of the keyword group corresponding to the extracted surface layer pattern, and the surface layer pattern extracted from the keyword pair group matching the surface layer pattern in the log statistical information A surface pattern generality evaluation unit that performs an operation for calculating a generality evaluation value of the surface layer pattern based on a keyword set including a keyword group, and a generality evaluation of all the calculated surface layer patterns. Based on the value and score A surface layer pattern selecting means for selecting a certain number of surface layer patterns from the screen, and keyword pairs matching the selected surface layer patterns are acquired from the log statistical information and included in the surface layer pattern from the acquired keyword pairs Based on the frequency of the identified keyword and its keyword pair, a keyword instance extraction unit that identifies a set of keywords, and a score that is an index for evaluating the relevance between the keyword and a higher concept of the processing target keyword set A keyword instance score calculating means for calculating all the keywords belonging to the specified set, a surface pattern set comprising a group of surface patterns with the keyword for each keyword specified by the keyword instance extracting means, and the log statistical information The key Keyword instance generality evaluation means for performing an operation for calculating the generality evaluation value of the keyword based on the surface pattern set including the surface pattern group with the keyword extracted from the keyword pair group with the word for all the keywords And a keyword calculated by the keyword instance generality evaluation unit while selecting a plurality of keywords from the keyword set as the keyword set to be acquired based on the score of each keyword of the keyword set calculated by the keyword instance score calculation unit And a keyword instance selection means for selecting a keyword set for use in the surface pattern extraction means from the keyword set based on the generality evaluation value of each keyword of the set.

本発明のキーワード獲得方法の態様としては、同一の上位概念を有する複数のキーワードの集合と同一の上位概念を有し且つその集合に属さないキーワード集合を獲得するキーワード獲得方法であって、表層パターン抽出手段が、獲得したいキーワード集合と同一の上位概念を有するキーワード集合が処理対象キーワード集合として供され、この集合に属するキーワードを含むキーワードペアの群を、複数のキーワードの検索条件のログから二つ以上のキーワードの組合せで構成されるキーワードペアをその頻度と対応づけて記録したログ統計情報から取得し、この取得したキーワードペアの群から前記処理対象キーワード集合に属するキーワード毎にそのキーワードを含んだ表層パターンを抽出するステップと、表層パターンスコア算出手段が、前記抽出された全ての表層パターンとその表層パターンの抽出に利用したキーワードの情報と前記ログ統計情報とに基づき、前記処理対象キーワード集合の上位概念に関係するキーワードの取得しやすさを評価する指標である表層パターンのスコアを前記全ての表層パターンについて算出するステップと、表層パターン一般性評価手段が前記抽出された表層パターンに対応するキーワード群からなるキーワード集合と前記ログ統計情報における当該表層パターンと一致するキーワードペア群から抽出した当該表層パターンに含まれるキーワード群からなるキーワード集合とに基づく当該表層パターンの一般性評価値を算出する演算を前記全ての表層パターンについて行うステップと、表層パターン選択手段が前記算出された全ての表層パターンの一般性評価値とスコアとに基づき当該全ての表層パターンから一定数の表層パターンを選択するステップと、キーワードインスタンス抽出手段が、前記選択された各表層パターンと一致するキーワードペアを前記ログ統計情報から取得し、この取得したキーワードペアから当該表層パターンに含まれるキーワードの集合を特定するステップと、キーワードインスタンススコア算出手段が、前記特定されたキーワードとそのキーワードペアの頻度に基づき、当該キーワードと前記処理対象キーワード集合の上位概念との関連性を評価する指標であるスコアを前記特定された集合に属する全てのキーワードについて算出するステップと、キーワードインスタンス一般性評価手段が、前記キーワードインスタンス抽出手段によって特定されたキーワード毎に当該キーワードを伴う表層パターンの群からなる表層パターン集合と前記ログ統計情報における当該キーワードを伴うキーワードペア群から抽出された当該キーワードを伴う表層パターンの群からなる表層パターン集合とに基づく当該キーワードの一般性評価値を算出する演算を前記全てのキーワードについて行うステップと、キーワードインスタンス選択手段が、前記キーワードインスタンススコア算出手段によって算出されたキーワード集合の各キーワードのスコアに基づき当該キーワード集合から複数のキーワードを前記獲得したいキーワード集合として選択すると共に前記キーワードインスタンス一般性評価手段によって算出されたキーワードの集合の各キーワードの一般性評価値に基づき当該キーワード集合から前記表層パターン抽出手段に供するためのキーワード集合を選択するステップとを有する。   As an aspect of the keyword acquisition method of the present invention, there is provided a keyword acquisition method for acquiring a keyword set that has the same superordinate concept as a set of a plurality of keywords having the same superordinate concept and does not belong to the set. A keyword set having the same superordinate concept as the keyword set to be acquired is provided as a processing target keyword set by the extraction means, and two keyword pairs including keywords belonging to this set are extracted from a log of search conditions for a plurality of keywords. Acquired from the log statistical information recorded in association with the frequency of the keyword pairs composed of the above keyword combinations, the keyword is included for each keyword belonging to the processing target keyword set from the acquired keyword pair group Step of extracting surface layer pattern and surface layer pattern score calculation Evaluates the ease of obtaining keywords related to the high-level concept of the processing target keyword set based on all the extracted surface layer patterns, keyword information used to extract the surface layer patterns, and the log statistical information. Calculating a score of a surface layer pattern that is an index to be performed for all the surface layer patterns, a keyword set consisting of keywords corresponding to the extracted surface layer pattern by the surface pattern generality evaluation means, and the surface layer in the log statistical information Performing a calculation for all the surface layer patterns for calculating a generality evaluation value of the surface layer pattern based on a keyword set including a keyword group included in the surface layer pattern extracted from the keyword pair group matching the pattern, and the surface layer pattern All the surface layers calculated by the selection means A step of selecting a certain number of surface layer patterns from all the surface layer patterns based on the generality evaluation value and the score of the turn, and a keyword instance extracting means assigns a keyword pair that matches each of the selected surface layer patterns to the log statistics A step of specifying a set of keywords included in the surface pattern from the acquired keyword pair, and a keyword instance score calculating means, based on the specified keyword and the frequency of the keyword pair, Calculating a score, which is an index for evaluating the relevance of a higher-level concept of the processing target keyword set, for all keywords belonging to the specified set; and a keyword instance generality evaluating unit, the keyword instance extracting unit Identified Based on a surface pattern set consisting of a group of surface patterns with the keyword for each keyword and a surface pattern set consisting of a group of surface patterns with the keyword extracted from the keyword pair group with the keyword in the log statistical information A step of calculating a generality evaluation value of the keyword for all the keywords, and a keyword instance selecting unit from the keyword set based on a score of each keyword of the keyword set calculated by the keyword instance score calculating unit A plurality of keywords are selected as the keyword set to be acquired, and from the keyword set based on the generality evaluation value of each keyword of the set of keywords calculated by the keyword instance generality evaluation unit And a step of selecting a keyword set to be subjected to serial surface pattern extraction means.

尚、本発明は前記キーワード獲得装置を構成する各手段としてコンピュータを機能させるキーワード獲得プログラムの態様とすることもできる。   Note that the present invention can also be an aspect of a keyword acquisition program that causes a computer to function as each means constituting the keyword acquisition device.

以上の発明によれば、指定された初期キーワード集合と同一の上位概念を持つキーワードの集合を取得するタスクにおいて、高精度にキーワードを収集することができる。   According to the above invention, keywords can be collected with high accuracy in the task of acquiring a set of keywords having the same superordinate concept as the designated initial keyword set.

発明の実施形態に係るキーワード獲得装置のブロック構成図。The block block diagram of the keyword acquisition apparatus which concerns on embodiment of invention. 発明の実施形態に係るキーワード獲得装置を実装するハードウェア構成図。The hardware block diagram which mounts the keyword acquisition apparatus which concerns on embodiment of invention. 発明の実施形態に係る処理手順を説明したチャート図。The chart explaining the processing procedure which concerns on embodiment of invention. 発明の実施形態に係るログ収集処理手順を説明したチャート図。The chart figure explaining the log collection processing procedure concerning the embodiment of the invention. 発明の実施形態に係るログ利用キーワード抽出処理手順を説明したフローチャート図。The flowchart figure explaining the log utilization keyword extraction processing procedure which concerns on embodiment of invention. ログ格納装置201のデータの一例。An example of the data of the log storage device 201. ログ統計DB202に格納されたログ統計情報の一例。An example of log statistical information stored in the log statistical DB 202. 出力結果一時記憶部203に格納されるデータの一例。An example of data stored in the output result temporary storage unit 203.

以下、本発明の実施の形態について図面を参照しながら説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

[概要]
図1に示された本実施形態に係るキーワード獲得装置1は検索エンジンを備えた情報検索システムの一構成要素を成す。キーワード獲得装置1は検索エンジンで得られた検索ログに基づく表層パターンから獲得されるキーワード集合と既に獲得されたキーワード集合の重複に基づき前記表層パターンの一般性を評価して一般的なパターンの採用を防ぐ。さらに、表層パターンの集合に基づきキーワードを抽出する際に、当該表層パターンの集合と当該キーワードで抽出できる表層パターンの集合の重なりに基づきキーワードの一般性を評価することで、キーワードの獲得精度のさらなる向上を図る。
[Overview]
A keyword acquisition apparatus 1 according to the present embodiment shown in FIG. 1 constitutes one component of an information search system including a search engine. The keyword acquisition apparatus 1 evaluates the generality of the surface layer pattern based on the overlap between the keyword set acquired from the surface pattern based on the search log obtained by the search engine and the already acquired keyword set, and adopts the general pattern. prevent. Furthermore, when extracting a keyword based on a set of surface layer patterns, the generality of the keyword is evaluated based on the overlap of the set of surface layer patterns and the set of surface layer patterns that can be extracted with the keyword, thereby further improving the keyword acquisition accuracy. Improve.

[装置の構成]
図1に示されたキーワード獲得装置1は図2に示されたCPU21、メモリ22、記憶装置23,24、入力デバイス25、出力デバイス26等のハードウェアリソースを備える。そして、これらのハードウェアリソースがソフトウェアリソース(OS、アプリケーション等)との協働することで図1に示されたログ取得部100、ログ処理部101、シードインスタンス取得部102、出力結果判定部103、結果出力部104、表層パターン抽出部105、表層パターンスコア算出部106、表層パターン一般性評価部107、表層パターン選択部108、キーワードインスタンス抽出部109、キーワードインスタンススコア算出部110、キーワードインスタンス選択部111、キーワードインスタンス一般性評価部200、ログ格納装置201、ログ統計DB(データベース)202、出力結果一時記憶部203が実装される。メモリ22としてはRAM等の揮発性のメモリが挙げられる。記憶装置23,24にはハードディスクドライブ装置等の周知の記憶手段を適用すればよい。以下、各機能部100〜203について説明する。
[Device configuration]
The keyword acquisition device 1 shown in FIG. 1 includes hardware resources such as the CPU 21, the memory 22, the storage devices 23 and 24, the input device 25, and the output device 26 shown in FIG. Then, these hardware resources cooperate with software resources (OS, applications, etc.) so that the log acquisition unit 100, log processing unit 101, seed instance acquisition unit 102, and output result determination unit 103 shown in FIG. , Result output unit 104, surface layer pattern extraction unit 105, surface layer pattern score calculation unit 106, surface layer pattern generality evaluation unit 107, surface layer pattern selection unit 108, keyword instance extraction unit 109, keyword instance score calculation unit 110, keyword instance selection unit 111, a keyword instance generality evaluation unit 200, a log storage device 201, a log statistics DB (database) 202, and an output result temporary storage unit 203 are implemented. Examples of the memory 22 include a volatile memory such as a RAM. Known storage means such as a hard disk drive may be applied to the storage devices 23 and 24. Hereinafter, each functional unit 100 to 203 will be described.

ログ取得部100は検索エンジンに対してユーザが入力した検索条件(クエリ)のログを当該検索エンジンから取得してログ格納装置201に格納する。   The log acquisition unit 100 acquires a search condition (query) log input by the user to the search engine from the search engine and stores it in the log storage device 201.

ログ格納装置201はログ取得部100により取得された検索エンジンに入力された検索条件(クエリ)のログを格納している。検索条件の一例を図6に示した。ログ格納装置201はハードディスク装置、サーバ装置等に例示される周知の記憶手段によって実現できる。   The log storage device 201 stores a log of search conditions (queries) input to the search engine acquired by the log acquisition unit 100. An example of the search condition is shown in FIG. The log storage device 201 can be realized by a known storage unit exemplified by a hard disk device, a server device, and the like.

ログ処理部101は、ログ格納装置201に格納された前記ユーザの検索条件のログのうち、二語の組合せで構成されるクエリを取得し、その頻度を算出する。二語の組合せで構成されるクエリとは、半角もしくは全角のスペースで2つのキーワードが接続されたクエリのことを示し、それをキーワードペアと呼ぶ。前記算出された頻度が前記キーワードペアと対応付けられて記録されたログ統計情報がログ統計DB202に格納される。前記頻度の算出方法は形態素分析等に採用されている周知の頻度算出方法を適用すればよい。   The log processing unit 101 acquires a query composed of a combination of two words from the log of the search condition of the user stored in the log storage device 201, and calculates its frequency. A query composed of a combination of two words indicates a query in which two keywords are connected by a single-byte or two-byte space, and is called a keyword pair. Log statistical information in which the calculated frequency is recorded in association with the keyword pair is stored in the log statistical DB 202. The frequency calculation method may be a well-known frequency calculation method employed in morphological analysis or the like.

ログ統計DB202の一例を図7に示した。ログ統計DB202は、ログ処理部101により検索エンジンのログから抽出される、キーワードペアとその出現頻度を記録する記憶装置である。ログ統計DB202はハードディスクドライブ装置やサーバ装置等に例示される記憶装置24によって実現すればよい。   An example of the log statistics DB 202 is shown in FIG. The log statistics DB 202 is a storage device that records keyword pairs extracted from the search engine log by the log processing unit 101 and their appearance frequencies. The log statistics DB 202 may be realized by the storage device 24 exemplified by a hard disk drive device or a server device.

シードインスタンス取得部102は、ユーザが語彙獲得を行いたい上位概念に含まれる複数のキーワードの入力を受け付ける。   The seed instance acquisition unit 102 receives input of a plurality of keywords included in a higher concept that the user wants to acquire vocabulary.

表層パターン抽出部105は、シードインスタンス取得部102または出力結果判定部103から受信したキーワードのリスト(集合)に基づきログ格納装置201にアクセスしてログ統計DB202から前記キーワードを含むキーワードペアとその頻度を取得する。そして、この取得したキーワードペアのうち、問い合わせ(検索)に利用したキーワードを予め決められていた文字列(下記の事例では、###)で置き換えて表層パターンを抽出する。問い合わせキーワード、取得されるキーワードペアとその頻度、表層パターンの事例を表1に示した。表層パターン抽出部105はキーワード毎に抽出した全てのキーワードペアとその頻度及び表層パターンを集計してキーワードインスタンススコア算出部110に供する。   The surface layer pattern extraction unit 105 accesses the log storage device 201 based on the keyword list (set) received from the seed instance acquisition unit 102 or the output result determination unit 103 and the keyword pair including the keyword from the log statistics DB 202 and its frequency. To get. Then, the surface layer pattern is extracted by replacing the keyword used for the inquiry (search) in the acquired keyword pair with a predetermined character string (## in the following example). Table 1 shows examples of inquiry keywords, acquired keyword pairs and their frequencies, and surface layer patterns. The surface layer pattern extraction unit 105 aggregates all keyword pairs extracted for each keyword, their frequencies, and surface layer patterns, and provides them to the keyword instance score calculation unit 110.

Figure 2011238174
Figure 2011238174

表層パターンスコア算出部106は、表層パターン抽出部105から取得したキーワード毎に抽出した全てのキーワードペアとその頻度及び表層パターンとその表層パターンの抽出に利用したキーワードの情報とに基づき、それぞれの表層パターンのスコアを算出する。表層パターンのスコアとは、初期の入力として与えられたキーワード集合の上位概念に関係するキーワードの取得しやすさを評価するための指標であり、例えば以下の式(1)で算出される。算出された表層パターンのスコアは当該表層パターンと共に表層パターン選択部108に供される。   The surface layer pattern score calculation unit 106 determines whether each surface layer is based on all keyword pairs extracted for each keyword acquired from the surface layer pattern extraction unit 105, their frequencies, and the surface layer pattern and keyword information used for extracting the surface layer pattern. Calculate the pattern score. The score of the surface layer pattern is an index for evaluating the ease of acquiring keywords related to the superordinate concept of the keyword set given as the initial input, and is calculated by the following formula (1), for example. The calculated score of the surface layer pattern is provided to the surface layer pattern selection unit 108 together with the surface layer pattern.

Figure 2011238174
Figure 2011238174

式(1)において、Scorepattern(p)は表層パターンpのスコアを表す。Scorekeyword(k)は、表層パターンの抽出に利用したキーワードの情報であって、キーワードkのスコア(スコアが定義されていない場合すなわち初期値の場合は1)を表し、後述の式(4)によって算出できる。Kは表層パターンpで取得できるキーワードの集合を表す。また、pmi(k,p)はキーワードkと表層パターンpの関連性の強さを表す相互情報量を示し、以下の式(2)で算出される(式(4)についても同様)。 In Formula (1), Score pattern (p) represents the score of the surface layer pattern p. Score keyword (k) is keyword information used for extracting the surface layer pattern, and represents the score of keyword k (when the score is not defined, that is, when it is an initial value, 1). Can be calculated. K represents a set of keywords that can be acquired by the surface layer pattern p. Further, pmi (k, p) indicates a mutual information amount indicating the strength of relevance between the keyword k and the surface layer pattern p, and is calculated by the following equation (2) (the same applies to equation (4)).

Figure 2011238174
Figure 2011238174

式(2)において、Nは全キーワードペアの数、|k,p|はキーワードkを持つキーワードペアの頻度、|k,*|はキーワードkを持つキーワードペアの数、|*,p|は表層パターンpを持つキーワードペアの数を表す。これらの情報はログ統計DB202から取得できる。   In Expression (2), N is the number of all keyword pairs, | k, p | is the frequency of keyword pairs having the keyword k, | k, * | is the number of keyword pairs having the keyword k, and | *, p | This represents the number of keyword pairs having the surface layer pattern p. Such information can be acquired from the log statistics DB 202.

表層パターン一般性評価部107は表層パターン抽出部105によって抽出された表層パターンに対応するキーワード群からなるキーワード集合とログ統計DB202における当該表層パターンと一致するキーワードペア群から抽出した当該表層パターンに含まれるキーワード群からなるキーワード集合とに基づく当該表層パターンの一般性評価値を算出する演算を前記抽出された全ての表層パターンについて行う。   The surface layer pattern generality evaluation unit 107 is included in the surface layer pattern extracted from the keyword set consisting of the keyword group corresponding to the surface layer pattern extracted by the surface layer pattern extraction unit 105 and the keyword pair group matching the surface layer pattern in the log statistics DB 202. The calculation for calculating the generality evaluation value of the surface layer pattern based on the keyword set including the keyword group is performed on all the extracted surface layer patterns.

表層パターン一般性評価部107は具体的には以下の処理1〜4によって表層パターンの一般性評価値を算出する。   Specifically, the surface layer pattern generality evaluation unit 107 calculates the generality evaluation value of the surface layer pattern by the following processes 1 to 4.

(処理1)表層パターン抽出部105からキーワード毎に抽出した表層パターンを取得する。取得される情報の一例を表2に示す。   (Process 1) The surface layer pattern extracted for each keyword is acquired from the surface layer pattern extraction unit 105. An example of the acquired information is shown in Table 2.

Figure 2011238174
Figure 2011238174

(処理2)処理1で得られた情報からパターン毎にどのキーワードから抽出されたかを示す情報を作成する。作成される情報の一例を表3に示す。そして、この情報における一つの表層パターンに対応するキーワード群をキーワード集合(K1)と特定する。表3の事例では表層パターン「### 偏差値」に対応したキーワード集合(K1)は「ABC大学 DE大学 JK大学」となる。   (Process 2) Information indicating which keyword is extracted for each pattern from the information obtained in Process 1 is created. An example of the created information is shown in Table 3. Then, a keyword group corresponding to one surface layer pattern in this information is specified as a keyword set (K1). In the case of Table 3, the keyword set (K1) corresponding to the surface layer pattern “#### Deviation Value” is “ABC University DE University JK University”.

Figure 2011238174
Figure 2011238174

(処理3)処理2で作成された情報における一つの表層パターンをキーとしてログ統計DB202にアクセスして当該表層パターンと一致するキーワードペア群を取得し、この取得したキーワードペア群から当該表層パターンに含まれるキーワード群を抽出する。この抽出されたキーワード群をキーワード集合(K2)と特定する。表層パターンとこれによって取得されるキーワード群の例を表4に示した。表4の事例では、表層パターンが「### 偏差値」である場合、キーワードペア群から抽出された当該表層パターンに含まれるキーワード群すなわちキーワード集合(K2)は「T大学 K大学 ABC大学 DE大学 H大学」となる。   (Process 3) The log statistics DB 202 is accessed using one surface layer pattern in the information created in Process 2 as a key, and a keyword pair group that matches the surface layer pattern is acquired. Extract keywords included. The extracted keyword group is specified as a keyword set (K2). Table 4 shows examples of surface layer patterns and keyword groups obtained thereby. In the case of Table 4, when the surface layer pattern is “## deviation value”, the keyword group included in the surface layer pattern extracted from the keyword pair group, that is, the keyword set (K2) is “T University K University ABC University DE “University H University”.

Figure 2011238174
Figure 2011238174

(処理4)処理2で取得されたキーワード集合(K1)と処理3で取得されたキーワード集合(K2)とに基づき前記一つの表層パターンの一般性評価値を算出する。一般性評価値は例えば以下の式(3)によって算出する。式(3)において、Generality(p)は表層パターンpの一般性を評価する値である。K1はキーワード集合(K1)を、K2はキーワード集合(K2)を示す。表層パターンとその一般性評価値は、表層パターン選択部108に供される。   (Process 4) Based on the keyword set (K1) acquired in Process 2 and the keyword set (K2) acquired in Process 3, the generality evaluation value of the one surface layer pattern is calculated. The generality evaluation value is calculated by, for example, the following formula (3). In Formula (3), Generality (p) is a value for evaluating the generality of the surface layer pattern p. K1 indicates a keyword set (K1), and K2 indicates a keyword set (K2). The surface layer pattern and its generality evaluation value are provided to the surface layer pattern selection unit 108.

Figure 2011238174
Figure 2011238174

表層パターン選択部108は、表層パターンスコア算出部106から供された各表層パターンとそのスコアと、表層パターン一般性評価部107から供された各表層パターンの一般性評価値とに基づき、キーワードを選択するための一定数の表層パターンを選択する。具体的には、一般性評価値に一定の閾値を設け、この閾値以上の一般性評価値の表層パターンの群を一般的ではない表層パターンの群と特定し、これらの特定した表層パターンをそのスコアの降順にならべ、スコアの高いものから順に一定数のパターンを取得する。   The surface layer pattern selection unit 108 selects a keyword based on each surface layer pattern provided from the surface layer pattern score calculation unit 106 and its score, and the generality evaluation value of each surface layer pattern provided from the surface layer pattern generality evaluation unit 107. Select a certain number of surface layer patterns for selection. Specifically, a certain threshold value is set for the generality evaluation value, a group of surface layer patterns having a generality evaluation value equal to or greater than this threshold value is identified as a group of uncommon surface layer patterns, and these identified surface layer patterns are identified as A certain number of patterns are acquired in descending order of the score, in descending order of score.

キーワードインスタンス抽出部109は、表層パターン選択部108から供された表層パターン集合におけるそれぞれの表層パターンと一致するキーワードペアとその頻度をログ統計DB202から取得し、この取得したキーワードペアから前記表層パターンに含まれるキーワードの集合を特定する。表層パターン毎に抽出した全てのキーワードとそのキーワードペアの頻度をキーワードインスタンススコア算出部110に供する。   The keyword instance extraction unit 109 acquires from the log statistics DB 202 a keyword pair that matches each surface layer pattern in the surface layer pattern set provided from the surface layer pattern selection unit 108 and the frequency thereof, and converts the acquired keyword pair into the surface layer pattern. Identify the set of included keywords. All the keywords extracted for each surface layer pattern and the frequency of the keyword pairs are provided to the keyword instance score calculation unit 110.

キーワードインスタンススコア算出部110は、キーワードインスタンス抽出部109から供された表層パターン毎に含まれるキーワードの集合とこれに属する個々のキーワードペアの頻度に基づき、個々のキーワードのスコアを算出する。キーワードインスタンス(前記キーワードの集合)とこれに属する個々のキーワードのスコアは、キーワードインスタンス選択部111に供される。   The keyword instance score calculation unit 110 calculates the score of each keyword based on the set of keywords included in each surface pattern provided from the keyword instance extraction unit 109 and the frequency of each keyword pair belonging thereto. The keyword instance (the set of keywords) and the score of each keyword belonging to the keyword instance are provided to the keyword instance selection unit 111.

前記キーワードインスタンスのスコアは、キーワードの取得に利用した表層パターンとの関連性を元に、予め指定されたキーワード集合の上位概念と該キーワードの関連性を評価する指標である。このスコアの算出式の例としては以下の式(4)が挙げられる。   The score of the keyword instance is an index that evaluates the relevance of the keyword and the superordinate concept of the keyword set specified in advance based on the relevance with the surface layer pattern used to acquire the keyword. The following formula (4) is given as an example of the score calculation formula.

Figure 2011238174
Figure 2011238174

式(4)において、Scorekeyword(k)はキーワードkのスコアを表す。Pはキーワードkが出現する表層パターンの集合を表し、pはその表層パターン集合中の一つの表層パターンを表す。これらの情報はログ統計DB202から取得できる。尚、Scorepattern(p)は式(1)で算出された値である。 In equation (4), Score keyword (k) represents the score of keyword k. P represents a set of surface layer patterns in which the keyword k appears, and p represents one surface layer pattern in the surface layer pattern set. Such information can be acquired from the log statistics DB 202. The score pattern (p) is a value calculated by the equation (1).

キーワードインスタンス一般性評価部200はキーワードインスタンス抽出部109によって特定されたキーワード毎に当該キーワードを伴う表層パターンの群からなる表層パターン集合とログ統計DB202における当該キーワードを伴うキーワードペア群から抽出された当該キーワードを伴う表層パターンの群からなる表層パターン集合とに基づく当該キーワードの一般性評価値を算出する演算を前記全てのキーワードについて行う。   The keyword instance generality evaluation unit 200 extracts, for each keyword specified by the keyword instance extraction unit 109, a surface layer pattern set including a group of surface layer patterns with the keyword and a keyword pair group with the keyword in the log statistics DB 202. An operation for calculating the generality evaluation value of the keyword based on a surface pattern set including a group of surface patterns with keywords is performed for all the keywords.

キーワードインスタンス一般性評価部200は具体的には以下の処理11〜14によってキーワードの一般性評価値を算出する。   Specifically, the keyword instance generality evaluation unit 200 calculates the generality evaluation value of the keyword by the following processes 11 to 14.

(処理11)キーワードインスタンス抽出部109で特定された各表層パターンに含まれるキーワードの集合を当該抽出部109から取得する。取得される情報の一例を表5に示す。   (Process 11) A set of keywords included in each surface pattern specified by the keyword instance extraction unit 109 is acquired from the extraction unit 109. An example of the acquired information is shown in Table 5.

Figure 2011238174
Figure 2011238174

(処理12)処理11で得られた情報からキーワード毎に当該キーワードが伴う表層パターンの情報を作成する。作成される情報の一例を表6に示す。そして、この情報における一つのキーワードを伴う表層パターンの群を表層パターン集合(P1)と特定する。表6の事例ではキーワード「ABC大学」を伴う表層パターン集合(P1)は「### 偏差値 , ### 理工学部 ,### T市」となる。   (Process 12) Information on the surface layer pattern associated with the keyword is created for each keyword from the information obtained in Process 11. An example of the created information is shown in Table 6. A group of surface layer patterns with one keyword in this information is specified as a surface layer pattern set (P1). In the case of Table 6, the surface layer pattern set (P1) with the keyword “ABC University” is “## Deviation Value, ## Faculty of Science and Engineering, ## T City”.

Figure 2011238174
Figure 2011238174

(処理13)処理12で作成された情報における一つのキーワードを検索キーとしてログ統計DB202にアクセスして当該キーワードを伴うキーワードペア群を取得し、この取得したキーワードペア群に含まれるキーワードを伴う表層パターンの群を抽出する。この抽出された表層パターン群を表層パターン集合(P2)と特定する。前記一つのキーワードとこれによって取得される表層パターンの群の例を表7に示した。   (Process 13) The log statistics DB 202 is accessed using one keyword in the information created in Process 12 as a search key to acquire a keyword pair group with the keyword, and the surface layer with the keyword included in the acquired keyword pair group Extract a group of patterns. The extracted surface layer pattern group is specified as a surface layer pattern set (P2). Table 7 shows an example of the one keyword and a group of surface layer patterns obtained thereby.

Figure 2011238174
Figure 2011238174

(処理14)処理12で取得された表層パターン集合(P1)と処理13で取得された表層パターン集合(P2)とに基づき前記一つのキーワードの一般性評価値を算出する。一般性評価値は例えば以下の式(5)によって算出する。式(5)において、Generality(k)はキーワードkの一般性を評価する値である。P1は表層パターン集合(P1)を、P2は表層パターン集合(P2)を示す。キーワードとその一般性評価値は、キーワードインスタンス選択部111に供される。   (Process 14) Based on the surface layer pattern set (P1) acquired in Process 12 and the surface layer pattern set (P2) acquired in Process 13, a generality evaluation value of the one keyword is calculated. The generality evaluation value is calculated by, for example, the following formula (5). In Expression (5), Generality (k) is a value for evaluating the generality of the keyword k. P1 represents a surface layer pattern set (P1), and P2 represents a surface layer pattern set (P2). The keyword and its generality evaluation value are provided to the keyword instance selection unit 111.

Figure 2011238174
Figure 2011238174

キーワードインスタンス選択部111は、キーワードインスタンススコア算出部110によって算出されたキーワード集合の各キーワードのスコアに基づき当該キーワード集合から複数のキーワードを出力用のキーワード集合として選択する。具体的にはキーワードインスタンススコア算出部110から供された各キーワードをそのスコアの降順にならべ、スコアの高いものから順に一定数のキーワードを選択する。この選択された一定数のキーワードが出力用のキーワード集合(獲得したいキーワード集合)となる。   The keyword instance selection unit 111 selects a plurality of keywords from the keyword set as an output keyword set based on the keyword score of the keyword set calculated by the keyword instance score calculation unit 110. Specifically, the keywords provided from the keyword instance score calculation unit 110 are arranged in descending order of their scores, and a certain number of keywords are selected in descending order of score. The fixed number of selected keywords becomes an output keyword set (keyword set to be acquired).

また、キーワードインスタンス選択部111は、キーワードインスタンス一般性評価200によって算出されたキーワードの集合の各キーワードの一般性評価値に基づき当該キーワード集合から表層パターン評価用のキーワード集合を選択する。具体的には、キーワードインスタンス一般性評価部200から供されたキーワード集合から、同評価部200で算出された一般性評価値が予め設定された閾値を上回るキーワードを選択する。この選択されたキーワード群が表層パターン評価用のキーワード集合(表層パターン抽出部105に供するためのキーワード集合)となる。   Further, the keyword instance selection unit 111 selects a keyword set for surface pattern evaluation from the keyword set based on the generality evaluation value of each keyword of the keyword set calculated by the keyword instance generality evaluation 200. Specifically, a keyword whose generality evaluation value calculated by the evaluation unit 200 exceeds a preset threshold is selected from the keyword set provided by the keyword instance generality evaluation unit 200. The selected keyword group becomes a keyword set for evaluating the surface layer pattern (a keyword set for use in the surface layer pattern extracting unit 105).

出力結果判定部103は、キーワードインスタンス選択部111からスコア付きの出力用キーワードリストと表層パターン評価用のキーワードリストとを取得する。スコア付きの出力用キーワードリストの情報を、キーワード抽出結果として出力結果一時記憶203に記憶させる。出力結果一時記憶部203において既に記憶していたキーワード抽出結果が存在する場合には、既に存在する抽出結果に追加する態様で記憶させる。   The output result determination unit 103 acquires an output keyword list with a score and a keyword list for surface layer pattern evaluation from the keyword instance selection unit 111. Information on the output keyword list with scores is stored in the output result temporary storage 203 as a keyword extraction result. If there is a keyword extraction result that has already been stored in the output result temporary storage unit 203, it is stored in such a manner that it is added to the existing extraction result.

また、出力結果判定部103は、一度の入力に対して行ったキーワード抽出の回数が、予め決められている回数に到達したか否かを判定し、当該回数が前記決められている回数に到達していれば、結果出力部104に結果をスコアと共に出力する旨を送信する。一方、当該回数が前記決められている回数に到達していなければ、表層パターン評価用のキーワード群とその各キーワードのスコアを表層パターン抽出部105に送信する。尚、前記回数は任意である。   Further, the output result determination unit 103 determines whether or not the number of keyword extractions performed for one input has reached a predetermined number of times, and the number of times reaches the predetermined number of times. If so, the result output unit 104 is notified that the result is output together with the score. On the other hand, if the number of times does not reach the predetermined number, the surface pattern evaluation keyword group and the score of each keyword are transmitted to the surface pattern extraction unit 105. The number of times is arbitrary.

出力結果一時記憶部203は、出力結果判定部103から送信されたデータを一時的に記憶する記憶装置である。出力結果一時記憶部203に対しては結果出力部104からもアクセスできるようになっている。出力結果データの一例を図8に示す。出力結果一時記憶部203は図2に示されたメモリ22によって実現すればよい。   The output result temporary storage unit 203 is a storage device that temporarily stores the data transmitted from the output result determination unit 103. The output result temporary storage unit 203 can also be accessed from the result output unit 104. An example of the output result data is shown in FIG. The output result temporary storage unit 203 may be realized by the memory 22 shown in FIG.

結果出力部104は、出力結果判定部103から結果を出力する旨を受信すると、出力結果一時記憶部203にアクセスし、記憶しているキーワード抽出結果をすべて取得し、この取得した抽出結果を出力する。   When the result output unit 104 receives that the result is output from the output result determination unit 103, the result output unit 104 accesses the output result temporary storage unit 203, acquires all stored keyword extraction results, and outputs the acquired extraction results. To do.

[処理手順の説明]
キーワード獲得装置1による処理手順について説明する。処理手順は図3に示したようにログ収集処理手順(S1)とログ利用キーワード抽出処理手順(S2)とからなる。
[Description of processing procedure]
A processing procedure by the keyword acquisition device 1 will be described. As shown in FIG. 3, the processing procedure includes a log collection processing procedure (S1) and a log use keyword extraction processing procedure (S2).

ログ収集処理手順(S1)では、検索エンジンから検索条件のログを取得してログ格納装置201に格納し、このログ格納装置201に格納されたクエリの分析(頻度算出)をバッチ方式で実行して分析結果(ログ統計情報)をログ統計DB202に格納する。   In the log collection processing procedure (S1), a search condition log is acquired from a search engine, stored in the log storage device 201, and analysis (frequency calculation) of queries stored in the log storage device 201 is executed in a batch manner. The analysis result (log statistical information) is stored in the log statistical DB 202.

ログ利用キーワード抽出処理手順(S2)では、ログ収集処理手順(S1)で得られたログ統計DB202に含まれる分析結果を利用して、ユーザの指定したキーワード集合と同一の上位概念を持つキーワード集合の中で前記ユーザの指定したキーワード集合に含まれないキーワードを抽出する。   In the log use keyword extraction processing procedure (S2), a keyword set having the same superordinate concept as the keyword set specified by the user using the analysis result contained in the log statistics DB 202 obtained in the log collection processing procedure (S1). Keywords not included in the keyword set designated by the user are extracted.

以上のログ収集処理手順(S1),ログ利用キーワード抽出処理手順(S2)の具体的な手順について図4,図5を参照しながら説明する。   Specific procedures of the above log collection processing procedure (S1) and log use keyword extraction processing procedure (S2) will be described with reference to FIGS.

先ず、ログ収集処理手順(S1)について説明する。処理手順(S1)は図4に示したステップS11,S12からなる。   First, the log collection processing procedure (S1) will be described. The processing procedure (S1) includes steps S11 and S12 shown in FIG.

S11:ログ取得部100はWebサーチエンジン等の検索装置に対して利用者が入力した検索条件のログを当該検索装置から取得してログ格納装置201に格納する。例えば、図6に示したような検索条件のログが取得されログ格納装置201に格納される。   S11: The log acquisition unit 100 acquires a search condition log input by a user to a search device such as a Web search engine from the search device and stores the log in the log storage device 201. For example, a search condition log as shown in FIG. 6 is acquired and stored in the log storage device 201.

S12:ログ処理部101はログ格納装置201に格納された検索条件のログから二つ以上のキーワードの組合せで構成されるキーワードペアを取得し、これをその頻度と対応づけて記録したログ統計情報をログ統計DB202に格納する。例えば、図7に示したログ統計情報がログ統計DB202に格納される。   S12: The log processing unit 101 obtains a keyword pair composed of a combination of two or more keywords from the search condition log stored in the log storage device 201, and records the log pairs in association with the frequency. Are stored in the log statistics DB 202. For example, the log statistical information illustrated in FIG. 7 is stored in the log statistical DB 202.

次に、ログ利用キーワード抽出処理手順(S2)について説明する。処理手順(S2)は図4に示したステップS21〜S36からなる。   Next, the log use keyword extraction processing procedure (S2) will be described. The processing procedure (S2) includes steps S21 to S36 shown in FIG.

S21:シードインスタンス取得部102は獲得したいキーワードと同じ上位概念を有するキーワード集合を処理対象キーワード集合として入力デバイス25から受ける。   S21: The seed instance acquisition unit 102 receives a keyword set having the same superordinate concept as the keyword to be acquired from the input device 25 as a processing target keyword set.

S22:シードインスタンス取得部102はS21で受け付けた処理対象キーワード集合を表層パターン抽出部105に供する。   S22: The seed instance acquisition unit 102 supplies the processing target keyword set received in S21 to the surface layer pattern extraction unit 105.

S23:表層パターン抽出部105はシードインスタンス取得部102から供された処理対象キーワード集合の情報に基づきログ統計DB202にアクセスして当該キーワード集合のキーワードを含むキーワードペアとその頻度を取得する。例えば、表1に示したようにキーワードを含むキーワードペア「ABC大学 偏差値」とその頻度「2000」が取得される。   S23: The surface layer pattern extraction unit 105 accesses the log statistics DB 202 based on the information of the processing target keyword set provided from the seed instance acquisition unit 102, and acquires the keyword pair including the keyword of the keyword set and its frequency. For example, as shown in Table 1, the keyword pair “ABC university deviation value” including the keyword and the frequency “2000” are acquired.

S24:表層パターン抽出部105はS23で取得されたキーワードペアのうち、問い合わせ(検索)に利用したキーワードを予め決められていた文字列(例えば、###)で置き換えて表層パターンを抽出する。例えば、表1に示したような表層パターン「### 偏差値」が取得される。そして、表層パターン抽出部105はキーワード毎に抽出した全てのキーワードペアとその頻度及び表層パターンを集計したものを表層パターンスコア算出部106と表層パターン一般性評価部107とに供する。   S24: The surface layer pattern extraction unit 105 extracts the surface layer pattern by replacing the keyword used in the inquiry (search) with the predetermined character string (for example, ##) among the keyword pairs acquired in S23. For example, the surface layer pattern “#### deviation value” as shown in Table 1 is acquired. Then, the surface layer pattern extraction unit 105 supplies all the keyword pairs extracted for each keyword, their frequencies, and surface layer patterns to the surface layer pattern score calculation unit 106 and the surface layer pattern generality evaluation unit 107.

S25:表層パターンスコア算出部106は、表層パターン抽出部105から供されたキーワード毎に抽出した表層パターンを式(1)の演算に供して各表層パターンのスコアを算出する。そして、この算出した全ての表層パターンのスコアを表層パターン選択部108に供する。   S25: The surface layer pattern score calculation unit 106 calculates the score of each surface layer pattern by using the surface layer pattern extracted for each keyword provided from the surface layer pattern extraction unit 105 for the calculation of Expression (1). The calculated scores of all surface layer patterns are provided to the surface layer pattern selecting unit 108.

S26:表層パターン一般性評価部107は、表層パターン抽出部105から供されたキーワード毎に抽出した表層パターンを前述の(処理2)〜(処理4)に供して各表層パターンの一般性評価値を算出する。そして、この算出した各表層パターンの一般性評価値を表層パターン選択部108に供する。   S26: The surface layer pattern generality evaluation unit 107 supplies the surface layer pattern extracted for each keyword provided from the surface layer pattern extraction unit 105 to the above-described (Process 2) to (Process 4), and the generality evaluation value of each surface layer pattern Is calculated. Then, the calculated generality evaluation value of each surface layer pattern is provided to the surface layer pattern selection unit 108.

S27:表層パターン選択部108は、表層パターン一般性評価部107から各表層パターンの一般性評価値を受けると、閾値以上の一般性評価値である表層パターンの群を一般的ではない表層パターンの群と特定する。次いで、この特定した表層パターンの群をS25で算出されたスコアの降順にならべ、スコアの高いものから順に一定数の表層パターンを取得する。そして、この特定した表層パターンの集合をキーワードインスタンス抽出部109に供する。   S27: When the surface layer pattern selection unit 108 receives the generality evaluation value of each surface layer pattern from the surface layer pattern generality evaluation unit 107, the surface layer pattern selection unit 108 selects a surface layer pattern group that is a generality evaluation value equal to or greater than a threshold value as an uncommon surface layer pattern. Identify as a group. Next, the identified surface layer pattern group is arranged in descending order of the score calculated in S25, and a certain number of surface layer patterns are acquired in descending order of score. The specified set of surface layer patterns is provided to the keyword instance extraction unit 109.

S28:キーワードインスタンス抽出部109は、表層パターン選択部108から表層パターンの集合を受けると当該集合における各表層パターンと一致するキーワードペアとその頻度をログ統計DB202から取得する。そして、この取得したキーワードペアから表層パターンに含まれるキーワードの集合を特定する。表層パターン毎に抽出した全てのキーワードとそのキーワードペアの頻度をキーワードインスタンススコア算出部110に供する。   S28: Upon receiving a set of surface layer patterns from the surface layer pattern selection unit 108, the keyword instance extraction unit 109 acquires from the log statistics DB 202 the keyword pairs that match each surface layer pattern in the set and the frequency thereof. Then, a set of keywords included in the surface layer pattern is specified from the acquired keyword pair. All the keywords extracted for each surface layer pattern and the frequency of the keyword pairs are provided to the keyword instance score calculation unit 110.

S29:キーワードインスタンススコア算出部110は、キーワードインスタンス抽出部109から供されたキーワード集合とキーワードペアの頻度を式(4)の演算に供して各キーワードのスコアを算出する。そして、この算出された全てのキーワードと各キーワードのスコアをキーワードインスタンス選択部111に供する。   S29: The keyword instance score calculation unit 110 calculates the score of each keyword by using the keyword set and keyword pair frequency provided from the keyword instance extraction unit 109 for the calculation of Expression (4). The calculated keyword and the score of each keyword are provided to the keyword instance selection unit 111.

S30:キーワードインスタンス一般性評価部200は、キーワードインスタンス抽出部109から供された各表層パターンに含まれるキーワードの集合を前述の(処理12)〜(処理14)に供して各キーワードの一般性評価値を算出する。そして、この算出した各キーワードの一般性評価値をキーワードインスタンス選択部111に供する。   S30: The keyword instance generality evaluation unit 200 uses the set of keywords included in each surface layer pattern provided from the keyword instance extraction unit 109 for the above (Process 12) to (Process 14), and evaluates the generality of each keyword. Calculate the value. Then, the calculated generality evaluation value of each keyword is provided to the keyword instance selection unit 111.

S31:キーワードインスタンス選択部111は、キーワードインスタンススコア算出部110から供されたキーワード集合から各キーワードのスコアに基づき出力用のキーワードを選択する。例えば、キーワードインスタンススコア算出部110から供された各キーワードをそのスコアの降順にならべ、スコアの高いものから順に一定数のキーワードを選択する。この選択された一定数のキーワードを出力用のキーワード集合として出力結果判定部103に供する。   S31: The keyword instance selection unit 111 selects an output keyword from the keyword set provided by the keyword instance score calculation unit 110 based on the score of each keyword. For example, the keywords provided from the keyword instance score calculation unit 110 are arranged in descending order of their scores, and a certain number of keywords are selected in descending order of score. The selected fixed number of keywords are provided to the output result determination unit 103 as an output keyword set.

また、S31では、キーワードインスタンス選択部111は、キーワードインスタンス一般性評価部200から供されたキーワードの集合から各キーワードの一般性評価値に基づき、表層パターン評価用のキーワードを選択する。例えば、キーワードインスタンス一般性評価部200から供されたキーワード集合から、同評価部200で算出された一般性評価値が予め設定された閾値を上回るキーワードを選択する。この選択されたキーワード群を前記表層パターン評価用のキーワード集合として出力結果判定部103に供する。   In S31, the keyword instance selection unit 111 selects a keyword for surface pattern evaluation based on the generality evaluation value of each keyword from the set of keywords provided from the keyword instance generality evaluation unit 200. For example, a keyword whose generality evaluation value calculated by the evaluation unit 200 exceeds a preset threshold is selected from the keyword set provided by the keyword instance generality evaluation unit 200. The selected keyword group is provided to the output result determination unit 103 as the surface pattern evaluation keyword set.

S32:出力結果判定部103はS31で選択されたキーワードの集合を出力結果一時記憶部203に格納する。   S 32: The output result determination unit 103 stores the set of keywords selected in S 31 in the output result temporary storage unit 203.

S33:出力結果判定部103はS23〜S32のキーワード抽出処理が予め決められた回数実行されたか否かを判定する。   S33: The output result determination unit 103 determines whether or not the keyword extraction process of S23 to S32 has been executed a predetermined number of times.

S34:出力結果判定部103は、S33のステップで前記キーワード抽出処理が決められた回数実行されたと判断すると、S31で選択されたキーワードの集合を出力する旨のメッセージを結果出力部104に供する。   S34: If the output result determination unit 103 determines that the keyword extraction process has been executed a predetermined number of times in step S33, the output result determination unit 103 provides a message to the result output unit 104 indicating that the set of keywords selected in S31 is output.

S35:結果出力部104は、出力結果判定部103から前記メッセージを受けると、出力結果一時記憶部203に格納してあるキーワードの集合を取得する。そして、この出力されたキーワードの集合がユーザにとって適切なキーワード集合として出力デバイス26から出力させる。例えば図8に示した出力結果データが出力される。図示された事例では出力される各キーワードにはS29で算出されたスコアが付される。   S35: Upon receiving the message from the output result determination unit 103, the result output unit 104 acquires a set of keywords stored in the output result temporary storage unit 203. Then, the output keyword set is output from the output device 26 as an appropriate keyword set for the user. For example, the output result data shown in FIG. 8 is output. In the illustrated example, the score calculated in S29 is attached to each keyword to be output.

S36:出力結果判定部103は、S33のステップで前記キーワード抽出処理が決められた回数実行されていないと判断すると、出力結果一時記憶部203に格納された前記表層パターン評価用のキーワード集合をS23に係る表層パターン抽出部105に供する。また、出力結果判定部103は前記キーワード集合の各キーワードのスコアをS25での表層パターンのスコアを表層パターン抽出部105に供する。この表層パターン抽出部105に供された各キーワードのスコアはS25で表層パターンスコア算出部106によって実行される表層パターンのスコアを算出する演算に係る式(1)のScorekeyword(k)として利用される。 S36: When the output result determination unit 103 determines that the keyword extraction process has not been executed the determined number of times in step S33, the output result temporary storage unit 203 stores the surface pattern evaluation keyword set stored in S23. This is provided to the surface layer pattern extraction unit 105 according to FIG. Further, the output result determination unit 103 provides the score of each keyword in the keyword set to the surface layer pattern extraction unit 105 as the score of the surface layer pattern in S25. The score of each keyword provided to the surface pattern extraction unit 105 is used as the score keyword (k) of the equation (1) related to the calculation for calculating the score of the surface layer pattern executed by the surface layer pattern score calculation unit 106 in S25. The

[本実施形態の効果]
以上のように、キーワード獲得装置1は、ユーザが指定した初期キーワード集合と同一の上位概念を持つキーワードの集合を取得するタスクにおいて、与えられたキーワード集合と関連性の高い表層パターンを抽出する際に、該キーワード集合と該パターンで抽出できるキーワード集合の重なりを元に表層パターンの一般性を評価することで、一般性の高い表層パターンを把握できる。これにより、一般性の高い表層パターンのキーワードを利用しないようにすることができ、入力されたキーワード集合の上位概念と関係のないキーワードの抽出を抑えることできる。したがって、検索キーワードを精度高く収集できる。
[Effect of this embodiment]
As described above, the keyword acquiring apparatus 1 extracts a surface layer pattern highly relevant to a given keyword set in a task of acquiring a set of keywords having the same superordinate concept as the initial keyword set specified by the user. In addition, by evaluating the generality of the surface layer pattern based on the overlap between the keyword set and the keyword set that can be extracted by the pattern, a highly general surface layer pattern can be grasped. As a result, it is possible to prevent the use of keywords having a general surface layer pattern, and it is possible to suppress the extraction of keywords that are not related to the superordinate concept of the input keyword set. Therefore, search keywords can be collected with high accuracy.

ブートストラッピングを用いた情報抽出においては、インスタンスを取得するためのパターンに広義なものを選択してしまうと、意にそぐわないインスタンスを抽出してしまう、意味ドリフトという問題がある。キーワード獲得装置1では、表層パターンの選択時に、今までに抽出したインスタンス集合と表層パターンによって得られるインスタンス集合の重複が、後者の集合の半分になると最も値が高くなる指標である一般性評価値を利用しているので、キーワードの獲得精度が向上する。   In information extraction using bootstrapping, there is a problem of semantic drift that, if a broad pattern is selected for acquiring an instance, an unintentional instance is extracted. In the keyword acquisition device 1, when selecting the surface layer pattern, the generality evaluation value that is the index that becomes the highest when the overlap between the instance set extracted so far and the instance set obtained by the surface layer pattern becomes half of the latter set Improves the keyword acquisition accuracy.

また、キーワード獲得装置1では、表層パターンの集合に基づきキーワードを抽出する際に、当該表層パターンの集合と当該キーワードで抽出できる表層パターンの集合の重なりに基づきキーワードの一般性を評価する。そして、この一般性の高いキーワードは表層パターンの評価に利用しないようにしている。これにより、目的以外のキーワードを多く抽出する一般性の高いテキストパターンの採用を防ぐことができ、キーワード獲得の精度がさらに向上する。   Further, when the keyword acquisition device 1 extracts a keyword based on a set of surface layer patterns, the generality of the keyword is evaluated based on the overlap of the set of surface layer patterns and the set of surface layer patterns that can be extracted with the keyword. This general keyword is not used for the evaluation of the surface layer pattern. As a result, it is possible to prevent the adoption of a highly general text pattern that extracts many keywords other than the purpose, and the accuracy of keyword acquisition is further improved.

さらに、キーワード獲得装置1では、出力結果判定部103が、前記キーワードの選択の回数が予め決められた回数に達しているか否かの判定を行い、前記選択の回数が前記決められた回数に達していると判断すると前記キーワードインスタンス選択部111にて選択されたキーワードの集合を出力させる一方で、前記キーワードの選択の回数が予め決められた回数に達していないと判断すると前記選択部111にて選択されたキーワードの集合を前記処理対象キーワード集合としこのキーワード集合とその各キーワードのスコアを表層パターン抽出部105に供するようにすることで、より多くの適切なキーワードの集合を得られる。   Further, in the keyword acquisition device 1, the output result determination unit 103 determines whether or not the number of selections of the keyword has reached a predetermined number, and the number of selections reaches the predetermined number. If it is determined that the number of keywords selected by the keyword instance selection unit 111 is output, the selection unit 111 determines that the number of selections of the keyword has not reached a predetermined number. By setting the selected keyword set as the processing target keyword set and providing the keyword set and the score of each keyword to the surface layer pattern extraction unit 105, a more appropriate set of keywords can be obtained.

また、表層パターン選択部108が、前記算出された一般性評価値のうちで閾値以上の一般性評価値である表層パターンの群を一般的ではない表層パターンの群と特定し、この特定した表層パターンの群を当該各表層パターンのスコアの降順にならべ、スコアの高いものから順に一定数の表層パターンを選択することで、より一層確実に一般性の高い表層パターンを除外できる。   Further, the surface layer pattern selection unit 108 identifies a group of surface layer patterns that are generality evaluation values equal to or greater than a threshold value among the calculated generality evaluation values as a group of uncommon surface layer patterns, and specifies the identified surface layer By arranging a group of patterns in descending order of the score of each surface layer pattern and selecting a certain number of surface layer patterns in descending order of the score, the surface layer patterns with higher generality can be more reliably excluded.

さらに、キーワードインスタンス選択部111が、スコアが算出されたキーワードの集合からスコアの高いものから予め決められた個数分のキーワードを選択することで、一般性の高い表層パターンの除外能がさらに高まる。   Further, the keyword instance selection unit 111 selects a predetermined number of keywords from a set of keywords with a high score from the set of keywords whose scores are calculated, thereby further enhancing the ability to exclude a general surface layer pattern.

[本発明のプログラムとしての態様]
本発明は、専用のハードウェアにより実現されるもの以外に、上述のキーワード獲得装置1を構成する機能部100〜111,200〜203としてコンピュータを機能させるキーワード獲得プログラムの態様とすることもできる。また、このプログラムを格納したコンピュータ読み取り可能な記録媒体も本発明の一態様となる。前記記録媒体としては、フレキシブルディスク、光磁気ディスク、CD−ROM、DVD−ROM、その他の既知の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置が例示される。さらに、前記記録媒体としては、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含まれる。
[Aspect as Program of the Present Invention]
The present invention can be implemented as a keyword acquisition program that causes a computer to function as the function units 100 to 111 and 200 to 203 included in the keyword acquisition device 1 in addition to those realized by dedicated hardware. A computer-readable recording medium storing this program is also an embodiment of the present invention. Examples of the recording medium include a flexible disk, a magneto-optical disk, a CD-ROM, a DVD-ROM, other known recording media, and a storage device such as a hard disk device built in a computer system. Further, as the recording medium, a program system that dynamically holds a program for a short time (transmission medium or transmission wave) as in the case of transmitting a program via the Internet, and a computer system that serves as a server in that case Some of them hold a program for a certain period of time, such as an internal volatile memory.

1…キーワード獲得装置
101…ログ処理部
102…シードインスタンス取得部
103…出力結果判定部
104…結果出力部
105…表層パターン抽出部(表層パターン抽出手段)
106…表層パターンスコア算出部(表層パターンスコア算出手段)
107…表層パターン一般性評価部(表層パターン一般性評価手段)
108…表層パターン選択部(表層パターン選択手段)
109…キーワードインスタンス抽出部(キーワードインスタンス抽出手段)
110…キーワードインスタンススコア算出部(キーワードインスタンススコア算出手段)
111…キーワードインスタンス選択部(キーワードインスタンス選択手段)
200…キーワードインスタンス一般性評価部
202…ログ統計DB(ログ統計情報)
DESCRIPTION OF SYMBOLS 1 ... Keyword acquisition apparatus 101 ... Log processing part 102 ... Seed instance acquisition part 103 ... Output result determination part 104 ... Result output part 105 ... Surface layer pattern extraction part (surface layer pattern extraction means)
106 ... Surface pattern score calculation unit (surface pattern score calculation means)
107 ... surface layer pattern generality evaluation section (surface layer pattern generality evaluation means)
108 ... Surface layer pattern selection section (surface layer pattern selection means)
109: Keyword instance extraction unit (keyword instance extraction means)
110: Keyword instance score calculation unit (keyword instance score calculation means)
111 ... Keyword instance selection unit (keyword instance selection means)
200: Keyword instance generality evaluation unit 202: Log statistics DB (log statistics information)

Claims (9)

同一の上位概念を有する複数のキーワードの集合と同一の上位概念を有し且つその集合に属さないキーワード集合を獲得するキーワード獲得装置であって、
獲得したいキーワード集合と同一の上位概念を有するキーワード集合が処理対象キーワード集合として供され、この集合に属するキーワードを含むキーワードペアの群を、複数のキーワードの検索条件のログから二つ以上のキーワードの組合せで構成されるキーワードペアをその頻度と対応づけて記録したログ統計情報から取得し、この取得したキーワードペアの群から前記処理対象キーワード集合に属するキーワード毎にそのキーワードを含んだ表層パターンを抽出する表層パターン抽出手段と、
前記抽出された全ての表層パターンとその表層パターンの抽出に利用したキーワードの情報と前記ログ統計情報とに基づき、前記処理対象キーワード集合の上位概念に関係するキーワードの取得しやすさを評価する指標である表層パターンのスコアを前記全ての表層パターンについて算出する表層パターンスコア算出手段と、
前記抽出された一つの表層パターンに対応するキーワード群からなるキーワード集合と前記ログ統計情報における前記一つの表層パターンと一致するキーワードペア群から抽出した当該表層パターンに含まれるキーワード群からなるキーワード集合とに基づく前記一つの表層パターンの一般性評価値を算出する演算を前記全ての表層パターンについて行う表層パターン一般性評価手段と、
前記算出された全ての表層パターンの一般性評価値とスコアとに基づき当該全ての表層パターンから一定数の表層パターンを選択する表層パターン選択手段と、
前記選択された各表層パターンと一致するキーワードペアを前記ログ統計情報から取得し、この取得したキーワードペアから当該表層パターンに含まれるキーワードの集合を特定するキーワードインスタンス抽出手段と、
前記特定されたキーワードとそのキーワードペアの頻度に基づき、当該キーワードと前記処理対象キーワード集合の上位概念との関連性を評価する指標であるスコアを前記特定された集合に属する全てのキーワードについて算出するキーワードインスタンススコア算出手段と、
前記キーワードインスタンス抽出手段によって特定されたキーワード毎に当該キーワードを伴う表層パターンの群からなる表層パターン集合と前記ログ統計情報における当該キーワードを伴うキーワードペア群から抽出された当該キーワードを伴う表層パターンの群からなる表層パターン集合とに基づく当該キーワードの一般性評価値を算出する演算を前記全てのキーワードについて行うキーワードインスタンス一般性評価手段と、
前記キーワードインスタンススコア算出手段によって算出されたキーワード集合の各キーワードのスコアに基づき当該キーワード集合から複数のキーワードを前記獲得したいキーワード集合として選択すると共に前記キーワードインスタンス一般性評価手段によって算出されたキーワードの集合の各キーワードの一般性評価値に基づき当該キーワード集合から前記表層パターン抽出手段に供するためのキーワード集合を選択するキーワードインスタンス選択手段と
を備えたこと
を特徴とするキーワード獲得装置。
A keyword acquisition device that acquires a keyword set that has the same superordinate concept as a set of a plurality of keywords having the same superordinate concept and does not belong to the set,
A keyword set having the same superordinate concept as the keyword set to be acquired is provided as a processing target keyword set, and a group of keyword pairs including keywords belonging to this set is searched for from two or more keyword search condition logs. Acquires keyword pairs composed of combinations from log statistical information recorded in association with their frequencies, and extracts a surface layer pattern including the keywords for each keyword belonging to the processing target keyword set from the group of acquired keyword pairs. Surface layer pattern extraction means to
An index for evaluating the ease of acquiring keywords related to the superordinate concept of the processing target keyword set based on all the extracted surface patterns, keyword information used for extracting the surface patterns, and the log statistical information Surface layer pattern score calculating means for calculating the score of the surface layer pattern for all the surface layer patterns;
A keyword set consisting of a keyword group corresponding to the extracted one surface pattern and a keyword set consisting of a keyword group included in the surface pattern extracted from the keyword pair group matching the one surface pattern in the log statistical information; A surface layer pattern generality evaluation means for performing an operation for calculating the generality evaluation value of the one surface layer pattern based on the above-mentioned all surface layer patterns;
Surface layer pattern selecting means for selecting a certain number of surface layer patterns from all the surface layer patterns based on the generality evaluation values and scores of all the calculated surface layer patterns,
Keyword instance extraction means for acquiring a keyword pair that matches each of the selected surface layer patterns from the log statistical information, and identifying a set of keywords included in the surface layer pattern from the acquired keyword pairs;
Based on the frequency of the specified keyword and its keyword pair, a score, which is an index for evaluating the relevance between the keyword and the superordinate concept of the processing target keyword set, is calculated for all keywords belonging to the specified set. A keyword instance score calculating means;
For each keyword specified by the keyword instance extraction means, a surface pattern set including a surface pattern group with the keyword and a group of surface patterns with the keyword extracted from a keyword pair group with the keyword in the log statistical information A keyword instance generality evaluation unit that performs an operation for calculating the generality evaluation value of the keyword based on the surface pattern set of
Based on the score of each keyword of the keyword set calculated by the keyword instance score calculating means, a plurality of keywords are selected from the keyword set as the keyword set to be acquired, and the keyword set calculated by the keyword instance generality evaluating means And a keyword instance selecting means for selecting a keyword set for use in the surface pattern extraction means from the keyword set based on the generality evaluation value of each keyword.
前記キーワードの選択の回数が予め決められた回数に達しているか否かの判定を行い、前記選択の回数が前記決められた回数に達していると判断すると前記キーワードインスタンス選択手段にて選択されたキーワードの集合を出力させる一方で、前記キーワードの選択の回数が予め決められた回数に達していないと判断すると前記キーワードインスタンス選択手段にて選択されたキーワードの集合を前記処理対象キーワード集合としこのキーワード集合とその各キーワードのスコアを前記表層パターン抽出手段に供する出力結果判定手段をさらに備えたこと
を特徴とする請求項1に記載のキーワード獲得装置。
It is determined whether or not the number of times of selection of the keyword has reached a predetermined number of times, and if it is determined that the number of times of selection has reached the predetermined number of times, the keyword instance selection means has selected While outputting a set of keywords, if it is determined that the number of selections of the keyword has not reached a predetermined number, the keyword set selected by the keyword instance selection means is set as the processing target keyword set. 2. The keyword acquisition apparatus according to claim 1, further comprising output result determination means for providing a set and a score of each keyword to the surface layer pattern extraction means.
前記表層パターン選択手段は、前記算出された一般性評価値のうちで閾値以上の一般性評価値である表層パターンの群を一般的ではない表層パターンの群と特定し、この特定した表層パターンの群を当該各表層パターンのスコアの降順にならべ、スコアの高いものから順に一定数の表層パターンを選択すること
を特徴とする請求項1または2に記載のキーワード獲得装置。
The surface layer pattern selection means identifies a group of surface layer patterns that are generality evaluation values equal to or greater than a threshold value among the calculated generality evaluation values as a group of surface layer patterns that are not general, and 3. The keyword acquiring apparatus according to claim 1, wherein groups are arranged in descending order of scores of the respective surface layer patterns, and a predetermined number of surface layer patterns are selected in descending order of score.
前記キーワードインスタンス選択手段は前記スコアが算出されたキーワードの集合からスコアの高いものから予め決められた個数分のキーワードを選択すること
を特徴とする請求項1から3のいずれか1項に記載のキーワード獲得装置。
4. The keyword instance selecting unit selects a predetermined number of keywords from a set of keywords with a high score from the set of keywords for which the score is calculated. 5. Keyword acquisition device.
同一の上位概念を有する複数のキーワードの集合と同一の上位概念を有し且つその集合に属さないキーワード集合を獲得するキーワード獲得方法であって、
表層パターン抽出手段が、獲得したいキーワード集合と同一の上位概念を有するキーワード集合が処理対象キーワード集合として供され、この集合に属するキーワードを含むキーワードペアの群を、複数のキーワードの検索条件のログから二つ以上のキーワードの組合せで構成されるキーワードペアをその頻度と対応づけて記録したログ統計情報から取得し、この取得したキーワードペアの群から前記処理対象キーワード集合に属するキーワード毎にそのキーワードを含んだ表層パターンを抽出するステップと、
表層パターンスコア算出手段が、前記抽出された全ての表層パターンとその表層パターンの抽出に利用したキーワードの情報と前記ログ統計情報とに基づき、前記処理対象キーワード集合の上位概念に関係するキーワードの取得しやすさを評価する指標である表層パターンのスコアを前記全ての表層パターンについて算出するステップと、
表層パターン一般性評価手段が、前記抽出された一つの表層パターンに対応するキーワード群からなるキーワード集合と前記ログ統計情報における前記一つの表層パターンと一致するキーワードペア群から抽出した当該表層パターンに含まれるキーワード群からなるキーワード集合とに基づく前記一つの表層パターンの一般性評価値を算出する演算を前記全ての表層パターンについて行うステップと、
表層パターン選択手段が前記算出された全ての表層パターンの一般性評価値とスコアとに基づき当該全ての表層パターンから一定数の表層パターンを選択するステップと、
キーワードインスタンス抽出手段が、前記選択された各表層パターンと一致するキーワードペアを前記ログ統計情報から取得し、この取得したキーワードペアから当該表層パターンに含まれるキーワードの集合を特定するステップと、
キーワードインスタンススコア算出手段が、前記特定されたキーワードとそのキーワードペアの頻度に基づき、当該キーワードと前記処理対象キーワード集合の上位概念との関連性を評価する指標であるスコアを前記特定された集合に属する全てのキーワードについて算出するステップと、
キーワードインスタンス一般性評価手段が、前記キーワードインスタンス抽出手段によって特定されたキーワード毎に当該キーワードを伴う表層パターンの群からなる表層パターン集合と前記ログ統計情報における当該キーワードを伴うキーワードペア群から抽出された当該キーワードを伴う表層パターンの群からなる表層パターン集合とに基づく当該キーワードの一般性評価値を算出する演算を前記全てのキーワードについて行うステップと、
キーワードインスタンス選択手段が、前記キーワードインスタンススコア算出手段によって算出されたキーワード集合の各キーワードのスコアに基づき当該キーワード集合から複数のキーワードを前記獲得したいキーワード集合として選択すると共に、前記キーワードインスタンス一般性評価手段によって算出されたキーワードの集合の各キーワードの一般性評価値に基づき当該キーワード集合から前記表層パターン抽出手段に供するためのキーワード集合を選択するステップと
を有すること
を特徴とするキーワード獲得方法。
A keyword acquisition method for acquiring a keyword set that has the same superordinate concept as a set of a plurality of keywords having the same superordinate concept and does not belong to the set,
A keyword set having the same superordinate concept as the keyword set that the surface layer extraction means wants to acquire is provided as a processing target keyword set, and a group of keyword pairs including keywords belonging to this set is retrieved from a log of search conditions for a plurality of keywords. A keyword pair composed of a combination of two or more keywords is acquired from log statistical information recorded in association with the frequency, and the keyword is assigned to each keyword belonging to the processing target keyword set from the acquired keyword pair group. Extracting the included surface pattern; and
Based on all the extracted surface layer patterns, the keyword information used for extracting the surface layer pattern, and the log statistical information, the surface layer pattern score calculation means obtains keywords related to the superordinate concept of the processing target keyword set Calculating a score of a surface layer pattern, which is an index for evaluating easiness, for all the surface layer patterns;
The surface layer pattern generality evaluation means is included in the surface layer pattern extracted from the keyword set consisting of the keyword group corresponding to the extracted one surface layer pattern and the keyword pair group matching the one surface layer pattern in the log statistical information Performing an operation on all the surface layer patterns to calculate a generality evaluation value of the one surface layer pattern based on a keyword set consisting of a keyword group that includes:
A step of selecting a certain number of surface layer patterns from all the surface layer patterns based on the generality evaluation values and scores of all the surface layer patterns calculated by the surface layer pattern selecting means;
A keyword instance extraction unit acquires a keyword pair that matches each of the selected surface layer patterns from the log statistical information, and identifies a set of keywords included in the surface layer pattern from the acquired keyword pairs;
The keyword instance score calculation means assigns a score, which is an index for evaluating the relevance between the keyword and a higher concept of the processing target keyword set, to the specified set based on the frequency of the specified keyword and the keyword pair. Calculating for all the keywords to which it belongs;
The keyword instance generality evaluation means is extracted from a surface pattern set consisting of a group of surface patterns with the keyword for each keyword specified by the keyword instance extraction means and a keyword pair group with the keyword in the log statistical information Performing an operation on all the keywords to calculate a generality evaluation value of the keyword based on a surface pattern set consisting of a group of surface patterns with the keyword;
The keyword instance selecting means selects a plurality of keywords as the keyword set to be acquired from the keyword set based on the score of each keyword of the keyword set calculated by the keyword instance score calculating means, and the keyword instance generality evaluating means Selecting a keyword set for use in the surface pattern extraction means from the keyword set based on the generality evaluation value of each keyword of the keyword set calculated by the method.
前記出力結果判定手段が、前記キーワードの選択の回数が予め決められた回数に達しているか否かの判定を行い、前記選択の回数が前記決められた回数に達していると判断すると前記キーワードインスタンス選択手段にて選択されたキーワードの集合を出力させる一方で、前記キーワードの選択の回数が予め決められた回数に達していないと判断すると前記キーワードインスタンス選択手段にて選択されたキーワードの集合を前記処理対象キーワード集合としこのキーワード集合とその各キーワードのスコアを前記表層パターン抽出手段に供するステップ
をさらに有すること
を特徴とする請求項5に記載のキーワード獲得方法。
When the output result determination means determines whether the number of times of selection of the keyword has reached a predetermined number of times and determines that the number of times of selection has reached the predetermined number of times, the keyword instance While outputting a set of keywords selected by the selection means, if it is determined that the number of times of selection of the keyword has not reached a predetermined number of times, the set of keywords selected by the keyword instance selection means is 6. The keyword acquiring method according to claim 5, further comprising a step of providing the keyword set and a score of each keyword as processing target keyword sets to the surface layer pattern extracting means.
前記表層パターンを選択するステップでは、前記算出された一般性評価値のうちで閾値以上の一般性評価値である表層パターンの群を一般的ではない表層パターンの群と特定し、この特定された表層パターンの群を当該各表層パターンのスコアの降順にならべ、スコアの高いものから順に一定数の表層パターンを選択すること
を特徴とする請求項5または6に記載のキーワード獲得方法。
In the step of selecting the surface layer pattern, a group of surface layer patterns having a generality evaluation value equal to or greater than a threshold value among the calculated generality evaluation values is specified as a group of uncommon surface layer patterns, and the specified The keyword acquisition method according to claim 5 or 6, wherein a group of surface layer patterns is arranged in descending order of the score of each surface layer pattern, and a certain number of surface layer patterns are selected in descending order of score.
前記獲得したいキーワード集合として選択するステップでは、前記スコアが算出されたキーワードの集合からスコアの高いものから予め決められた個数分のキーワードを選択すること
を特徴とする請求項5から7のいずれか1項に記載のキーワード獲得方法。
8. The method according to claim 5, wherein in the step of selecting as a keyword set to be acquired, a predetermined number of keywords are selected from a set of keywords having a high score from the set of keywords for which the score is calculated. The keyword acquisition method according to item 1.
請求項1から4のいずれか1項に記載のキーワード獲得装置を構成する各手段としてコンピュータを機能させることを特徴とするキーワード獲得プログラム。   5. A keyword acquisition program for causing a computer to function as each means constituting the keyword acquisition device according to claim 1.
JP2010111276A 2010-05-13 2010-05-13 Keyword acquisition device, keyword acquisition program Expired - Fee Related JP5416652B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010111276A JP5416652B2 (en) 2010-05-13 2010-05-13 Keyword acquisition device, keyword acquisition program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010111276A JP5416652B2 (en) 2010-05-13 2010-05-13 Keyword acquisition device, keyword acquisition program

Publications (2)

Publication Number Publication Date
JP2011238174A true JP2011238174A (en) 2011-11-24
JP5416652B2 JP5416652B2 (en) 2014-02-12

Family

ID=45326056

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010111276A Expired - Fee Related JP5416652B2 (en) 2010-05-13 2010-05-13 Keyword acquisition device, keyword acquisition program

Country Status (1)

Country Link
JP (1) JP5416652B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688448A (en) * 2019-09-18 2020-01-14 上海擎创信息技术有限公司 Real-time log clustering analysis method based on reverse table

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CSNG200700136007; 酒井 浩之、外1名: '経済新聞記事内容の個々の企業におけるインパクトの判定' 情報処理学会研究報告 第2006巻,第94号, 20060913, p.43-50, 社団法人情報処理学会 *
CSNG200900092035; 牧本 慎平、外2名: 'ブートストラップを用いた検索クエリログからの意味カテゴリ獲得の分析' 言語処理学会第15回年次大会発表論文集 , 20090302, p.156-159, 言語処理学会 *
JPN6013041789; 酒井 浩之、外1名: '経済新聞記事内容の個々の企業におけるインパクトの判定' 情報処理学会研究報告 第2006巻,第94号, 20060913, p.43-50, 社団法人情報処理学会 *
JPN6013041790; 牧本 慎平、外2名: 'ブートストラップを用いた検索クエリログからの意味カテゴリ獲得の分析' 言語処理学会第15回年次大会発表論文集 , 20090302, p.156-159, 言語処理学会 *
JPN6013041791; 小町 守、外1名: '検索ログからの半教師あり 意味知識獲得の改善' 人工知能学会論文誌[online] 第23巻,第3号, 20130816, p.217-225, 人工知能学会 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688448A (en) * 2019-09-18 2020-01-14 上海擎创信息技术有限公司 Real-time log clustering analysis method based on reverse table
CN110688448B (en) * 2019-09-18 2023-03-31 上海擎创信息技术有限公司 Real-time log clustering analysis method based on reverse table

Also Published As

Publication number Publication date
JP5416652B2 (en) 2014-02-12

Similar Documents

Publication Publication Date Title
US9684713B2 (en) Methods and systems for retrieval of experts based on user customizable search and ranking parameters
US8527487B2 (en) Method and system for automatic construction of information organization structure for related information browsing
JP2013529805A5 (en) Search method, search system and computer program
KR101577376B1 (en) System and method for determining infringement of copyright based on the text reference point
US11232137B2 (en) Methods for evaluating term support in patent-related documents
JP5341847B2 (en) Search query recommendation method, search query recommendation device, search query recommendation program
US9552415B2 (en) Category classification processing device and method
JP2013168177A (en) Information provision program, information provision apparatus, and provision method of retrieval service
JP4912384B2 (en) Document search device, document search method, and document search program
KR100899930B1 (en) System and Method for Generating Relating Data Class
JP2014078084A (en) Forensic system, forensic method, and forensic program
JP2013054606A (en) Document retrieval device, method and program
JP5416652B2 (en) Keyword acquisition device, keyword acquisition program
JP5321258B2 (en) Information collecting system, information collecting method and program thereof
JP5315726B2 (en) Information providing method, information providing apparatus, and information providing program
JP5944867B2 (en) Search intention dictionary creation device, search intention dictionary creation method, and search intention dictionary creation program
JP2011164718A (en) Device, method and program for acquisition of keyword
JP5308918B2 (en) Keyword extraction method, keyword extraction device, and keyword extraction program
JP5153390B2 (en) Related word dictionary creation method and apparatus, and related word dictionary creation program
KR101414999B1 (en) Search result providing system and method using tag based boolean query matching
KR101096285B1 (en) Method and system for identifying related search terms in the internet search system
KR100914647B1 (en) Method and apparatus for creating recommendation keyword
CN103995849B (en) Event tracing method and system
KR100525616B1 (en) Method and system for identifying related search terms in the internet search system
Elnahaas et al. Query Expansion for Arabic Information Retrieval Model: Performance Analysis and Modification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120904

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130802

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130827

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131021

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131115

R150 Certificate of patent or registration of utility model

Ref document number: 5416652

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees