JP5068304B2 - Extraction apparatus, method and program - Google Patents
Extraction apparatus, method and program Download PDFInfo
- Publication number
- JP5068304B2 JP5068304B2 JP2009298413A JP2009298413A JP5068304B2 JP 5068304 B2 JP5068304 B2 JP 5068304B2 JP 2009298413 A JP2009298413 A JP 2009298413A JP 2009298413 A JP2009298413 A JP 2009298413A JP 5068304 B2 JP5068304 B2 JP 5068304B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- query
- extraction
- unit
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 95
- 238000000034 method Methods 0.000 title claims description 24
- 239000000284 extract Substances 0.000 claims description 12
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、コンテンツの検索に使用されたクエリを抽出する抽出装置、方法及びプログラムに関する。 The present invention relates to an extraction apparatus, method, and program for extracting a query used for content search.
従来、インターネット上のコンテンツ検索システムにおいては、端末でのクエリの入力に基づいて、このクエリに含まれているキーワードとのマッチングによりコンテンツを選択する方法が用いられている。 2. Description of the Related Art Conventionally, a content search system on the Internet uses a method of selecting content by matching with a keyword included in a query based on a query input at a terminal.
このとき、検索結果として提示されるコンテンツは、検索システムを利用するユーザがクエリとして指定したキーワードに依存する。すなわち、ユーザが所望のコンテンツに辿り着けるか否かは、効率的なクエリが入力されるか否かに影響される。 At this time, the content presented as a search result depends on a keyword specified as a query by a user using the search system. That is, whether or not the user can reach the desired content is affected by whether or not an efficient query is input.
このような状況において、検索システムが予め蓄積しているデータベースから自動的にキーワードを追加推薦し、これによって、検索結果を絞り込む技術が提案されている(例えば、特許文献1参照)。 In such a situation, a technique has been proposed in which a search system automatically recommends additional keywords from a database stored in advance and thereby narrows down search results (see, for example, Patent Document 1).
ところで、近年、あるユーザからの質問の投稿に対して、別のユーザから回答が投稿される質問・回答型コンテンツを公開するサービスが提供されている。このような質問・回答型コンテンツの内容は、ある対象(直接目的語)に対して、例えば、「違い」、「値段」や「意味」等を質問・回答している。したがって、これらのコンテンツを検索するためには、直接目的語と共に、性質、意図、種類等を表現する抽象名詞(間接目的語)をクエリとして同時に指定することが効果的である。 By the way, in recent years, a service for publishing question / answer type content in which an answer is posted from another user in response to a question posted by a certain user has been provided. The contents of such question / answer type content asks / answers, for example, “difference”, “price”, “meaning”, etc. with respect to a certain target (direct object). Therefore, in order to search for these contents, it is effective to simultaneously specify abstract nouns (indirect objects) expressing properties, intentions, types and the like as queries together with direct objects.
しかしながら、直接目的語と間接目的語とを分類し、これらの組合せをユーザに推薦するためには、使用される辞書及び推薦アルゴリズムを整備するにあたって、その大部分を管理者の手作業によるメンテナンスに頼る必要があった。 However, in order to classify direct objects and indirect objects and recommend these combinations to the user, most of them are manually maintained by the administrator when preparing the dictionary and recommendation algorithm to be used. I had to rely on it.
本発明は、質問・回答型コンテンツを効率的に検索するためのキーワードの候補を自動的に抽出できる抽出装置、方法及びプログラムを提供することを目的とする。 An object of the present invention is to provide an extraction apparatus, method, and program capable of automatically extracting keyword candidates for efficiently searching question / answer type contents.
本発明では、以下のような解決手段を提供する。 The present invention provides the following solutions.
(1)質問・回答型のコンテンツの検索に使用されたクエリを抽出する抽出装置であって、前記抽出装置と接続可能な端末から前記コンテンツのいずれかが閲覧されたときに使用された前記クエリの履歴を記憶するクエリ記憶手段と、前記クエリ記憶手段に記憶されている前記クエリのそれぞれから、当該クエリを構成しているキーワードを抽出する抽出手段と、前記抽出手段により抽出されたキーワードと共に、同一クエリ内において所定以上の頻度で共起する一又は複数のキーワードのそれぞれが属するカテゴリを判定する判定手段と、前記判定手段により判定された前記カテゴリのばらつきが所定未満である場合、前記抽出手段により抽出されたキーワードを第1キーワードに、前記カテゴリのばらつきが所定以上である場合、前記抽出手段により抽出されたキーワードを第2キーワードに分類する分類手段と、前記分類手段により分類された前記第1キーワード及び前記第2キーワードを記憶するキーワード記憶手段と、を備える抽出装置。 (1) An extraction device for extracting a query used for searching for question / answer type content, wherein the query is used when any of the content is viewed from a terminal connectable to the extraction device. Together with a query storage means for storing a history of the above, an extraction means for extracting a keyword constituting the query from each of the queries stored in the query storage means, and a keyword extracted by the extraction means, Determining means for determining a category to which each of one or a plurality of keywords co-occurring at a predetermined frequency or more in the same query belongs, and when the variation of the category determined by the determining means is less than a predetermined value, the extracting means If the variation extracted in the category is greater than or equal to a predetermined keyword, Extracting apparatus comprising: a classifying means for classifying the keywords extracted by the means to the second keyword, and a keyword storage means for storing classified the first keyword and the second keyword by the classifying means.
このような構成によれば、当該抽出装置は、質問・回答型コンテンツのいずれかが閲覧されたときに使用されたクエリの履歴を記憶し、記憶されているクエリのそれぞれから、当該クエリを構成しているキーワードを抽出する。そして、当該抽出装置は、抽出されたキーワードと共に、同一クエリ内において所定以上の頻度で共起する一又は複数のキーワードのそれぞれが属するカテゴリを判定し、カテゴリのばらつきが所定未満である場合、抽出されたキーワードを第1キーワードに、カテゴリのばらつきが所定以上である場合、抽出されたキーワードを第2キーワードに分類して記憶する。 According to such a configuration, the extraction device stores a history of queries used when any of the question / answer type contents is browsed, and configures the query from each of the stored queries. Extract keywords Then, the extraction device determines a category to which each of one or a plurality of keywords co-occurring in the same query together with the extracted keywords belongs, and if the variation in the categories is less than a predetermined value, If the extracted keyword is the first keyword and the variation of the category is a predetermined value or more, the extracted keyword is classified and stored as the second keyword.
したがって、当該抽出装置は、抽出した対象キーワードについて、共起するキーワードが属するカテゴリのばらつき度合いを判断材料として自動的に分類できる。すなわち、第1キーワード(直接目的語)では、このばらつきが小さく(所定未満)、逆に第2キーワード(間接目的語)では、このばらつきが大きい(所定以上)特徴があることを利用し、当該抽出装置は、直接目的語と間接目的語とを自動的に分類できる。その結果、当該抽出装置は、質問・回答型コンテンツが閲覧できたときに使用されたキーワードの中から、このコンテンツを効率的に検索するためのキーワードの候補を自動的に抽出できる。 Therefore, the extraction device can automatically classify the extracted degree of the target keyword as the determination material based on the degree of variation of the category to which the co-occurring keyword belongs. That is, using the fact that the first keyword (direct object) has a small variation (less than a predetermined value) and the second keyword (indirect object) has a large variation (a predetermined value or more), The extraction device can automatically classify direct objects and indirect objects. As a result, the extraction device can automatically extract keyword candidates for efficiently searching for the content from the keywords used when the question / answer type content can be browsed.
(2)前記キーワード記憶手段は、前記分類手段により分類された結果、同一クエリ内で共起しているキーワードが前記第1キーワードと前記第2キーワードとの組合せである場合に、当該組合せを対応付けて記憶する(1)に記載の抽出装置。 (2) The keyword storage means corresponds to the combination when the keyword co-occurred in the same query is a combination of the first keyword and the second keyword as a result of the classification by the classification means. The extraction device according to (1), which is attached and stored.
このような構成によれば、当該抽出装置は、第1キーワード(直接目的語)と第2キーワード(間接目的語)とを、共起する組合せとして記憶するので、コンテンツが閲覧できた実績のあるクエリを、推薦クエリとして利用することができる。その結果、当該抽出装置は、推薦クエリの精度を向上させることができる。 According to such a configuration, the extraction device stores the first keyword (direct object) and the second keyword (indirect object) as a co-occurring combination, and thus has a track record of browsing the content. The query can be used as a recommendation query. As a result, the extraction device can improve the accuracy of the recommendation query.
(3)前記組合せが含まれるクエリを使用して前記コンテンツのいずれかが閲覧された回数を集計する集計手段をさらに備え、前記キーワード記憶手段は、前記集計手段により集計された前記回数を、前記組合せと対応付けて記憶する(2)に記載の抽出装置。 (3) It further includes a counting unit that counts the number of times any of the contents has been viewed using a query including the combination, and the keyword storage unit calculates the number of times counted by the counting unit as The extraction device according to (2), which stores the information in association with the combination.
このような構成によれば、当該抽出装置は、第1キーワード(直接目的語)と第2キーワード(間接目的語)との組合せに基づく検索により、質問・回答型コンテンツのいずれかが閲覧された回数を集計する。したがって、当該抽出装置は、この集計した回数を、組合せと対応付けて記憶することにより、検索でコンテンツに辿り着きやすい(回数が多い)クエリを容易に選択できる。その結果、当該抽出装置は、コンテンツに辿り着きやすいクエリを優先して推薦することができる。 According to such a configuration, the extraction device browses any of the question / answer type contents by the search based on the combination of the first keyword (direct object) and the second keyword (indirect object). Count the number of times. Therefore, the extraction device can easily select a query that can easily reach the content (a large number of times) by searching by storing the total number of times in association with the combination. As a result, the extraction device can preferentially recommend a query that can easily reach the content.
(4)前記クエリ記憶手段は、前記コンテンツのいずれかが閲覧されたときに使用された前記クエリ、及び当該コンテンツのURLとを対応付けて記憶し、前記クエリ記憶手段を参照し、前記組合せが含まれるクエリを使用して閲覧された前記コンテンツのうち、相対的に閲覧頻度が高いコンテンツを選択する選択手段をさらに備え、前記キーワード記憶手段は、前記選択手段により選択された前記コンテンツのURLを、前記組合せと対応付けて記憶する(2)又は(3)に記載の抽出装置。 (4) The query storage means stores the query used when any of the contents is browsed and the URL of the content in association with each other, refers to the query storage means, and the combination is A selection unit configured to select a content having a relatively high browsing frequency among the content browsed using the included query, wherein the keyword storage unit stores the URL of the content selected by the selection unit; The extraction device according to (2) or (3), which stores the information in association with the combination.
このような構成によれば、当該抽出装置は、検索の履歴として、質問・回答型コンテンツのいずれかが閲覧されたときに使用されたクエリ、及び閲覧されたコンテンツのURLとを対応付けて記憶する。また、当該抽出装置は、これらの閲覧されたコンテンツのうち、相対的に閲覧頻度が高いコンテンツを選択する。したがって、当該抽出装置は、この選択されたコンテンツのURLを、第1キーワード(直接目的語)と第2キーワード(間接目的語)との組合せに対応づけて記憶することにより、この組合せをクエリとした場合に、閲覧頻度が高く有用なコンテンツを効率的に提供することができる。 According to such a configuration, the extraction device stores, as a search history, the query used when any of the question / answer type contents is browsed and the URL of the browsed content in association with each other. To do. In addition, the extraction device selects content having a relatively high browsing frequency from among the browsed content. Therefore, the extraction device stores the URL of the selected content in association with the combination of the first keyword (direct object) and the second keyword (indirect object), thereby making this combination a query. In this case, it is possible to efficiently provide useful content with high browsing frequency.
(5)前記キーワード記憶手段は、前記分類手段により分類された結果、同一クエリ内で複数の前記第1キーワードが共起している場合に、当該複数の前記第1キーワードを対応付けて記憶する(1)から(4)のいずれかに記載の抽出装置。 (5) When the plurality of first keywords co-occur in the same query as a result of the classification by the classification unit, the keyword storage unit stores the plurality of first keywords in association with each other. The extraction device according to any one of (1) to (4).
このような構成によれば、当該抽出装置は、複数の第1キーワード(直接目的語)を、共起する組合せとして記憶するので、組合せることに意味のある、又は組合せることにより所望のコンテンツに辿り着きやすい直接目的語を、効率的に推薦することができる。 According to such a configuration, the extraction device stores a plurality of first keywords (direct objects) as co-occurring combinations, so that it is meaningful to combine or desired content by combining It is possible to efficiently recommend direct objects that are easy to reach.
(6)質問・回答型のコンテンツの検索に使用されたクエリを抽出装置が抽出する方法であって、前記抽出装置と接続可能な端末から前記コンテンツのいずれかが閲覧されたときに使用された前記クエリの履歴を記憶するクエリ記憶ステップと、前記クエリ記憶ステップにおいて記憶されている前記クエリのそれぞれから、当該クエリを構成しているキーワードを抽出する抽出ステップと、前記抽出ステップにおいて抽出されたキーワードと共に、同一クエリ内において所定以上の頻度で共起する一又は複数のキーワードのそれぞれが属するカテゴリを判定する判定ステップと、前記判定ステップにおいて判定された前記カテゴリのばらつきが所定未満である場合、前記抽出ステップにおいて抽出されたキーワードを第1キーワードに、前記カテゴリのばらつきが所定以上である場合、前記抽出ステップにおいて抽出されたキーワードを第2キーワードに分類する分類ステップと、前記分類ステップにおいて分類された前記第1キーワード及び前記第2キーワードを記憶するキーワード記憶ステップと、を含む方法。 (6) A method in which an extraction device extracts a query used to search for question / answer type content, and is used when any of the content is viewed from a terminal connectable to the extraction device A query storage step for storing a history of the query, an extraction step for extracting a keyword constituting the query from each of the queries stored in the query storage step, and a keyword extracted in the extraction step And a determination step of determining a category to which each of one or a plurality of keywords co-occurring at a predetermined frequency or more in the same query belongs, and the variation of the category determined in the determination step is less than a predetermined value, The keyword extracted in the extraction step as the first keyword, A classification step for classifying the keyword extracted in the extraction step into a second keyword when the variation in the category is equal to or greater than a predetermined value; and a keyword storage for storing the first keyword and the second keyword classified in the classification step And a method comprising:
このような構成によれば、当該方法を抽出装置が実行することにより、(1)と同様の効果が期待できる。 According to such a configuration, the same effect as in (1) can be expected when the extraction apparatus executes the method.
(7)(6)に記載の方法を前記抽出装置に実行させるプログラム。 (7) A program that causes the extraction device to execute the method according to (6).
このような構成によれば、当該プログラムを抽出装置に実行させることにより、(1)と同様の効果が期待できる。 According to such a configuration, the same effect as in (1) can be expected by causing the extraction apparatus to execute the program.
本発明によれば、質問・回答型コンテンツを効率的に検索するためのキーワードの候補を自動的に抽出できる。 According to the present invention, keyword candidates for efficiently searching for question / answer type content can be automatically extracted.
<第1実施形態>
以下、本発明の実施形態の一例である第1実施形態について図を参照しながら説明する。
<First Embodiment>
Hereinafter, a first embodiment, which is an example of an embodiment of the present invention, will be described with reference to the drawings.
[機能構成]
図1は、本実施形態に係る抽出サーバ1(抽出装置)の機能構成を示す図である。抽出サーバ1は、Webページ、特に質問・回答型コンテンツを検索するシステムを管理する管理者によって主に利用される装置である。すなわち、抽出サーバ1は、検索システムにより推薦されるべき、質問・回答型のコンテンツを検索するためのクエリを決定するアルゴリズム又は辞書データのメンテナンスのため、このクエリを構成する検索キーワードの候補を抽出する。
[Function configuration]
FIG. 1 is a diagram illustrating a functional configuration of an extraction server 1 (extraction apparatus) according to the present embodiment. The extraction server 1 is an apparatus mainly used by an administrator who manages a system that searches a Web page, particularly a question / answer type content. In other words, the extraction server 1 extracts search keyword candidates that constitute this query for the purpose of algorithm or dictionary data maintenance for determining a query for searching for question / answer type content to be recommended by the search system. To do.
本実施形態は、コンピュータ(抽出サーバ1)及びその周辺装置に適用される。本実施形態における各部は、コンピュータ及びその周辺装置が備えるハードウェア並びに該ハードウェアを制御するソフトウェアによって構成される。 This embodiment is applied to a computer (extraction server 1) and its peripheral devices. Each unit in the present embodiment is configured by hardware included in a computer and its peripheral devices, and software that controls the hardware.
上記ハードウェアには、制御部10としてのCPUの他、記憶部20、通信部、表示部及び入力部が含まれる。記憶部20としては、例えば、メモリ(RAM、ROM等)、ハードディスクドライブ(HDD)及び光ディスク(CD、DVD等)ドライブが挙げられる。通信部としては、例えば、各種有線及び無線インターフェース装置が挙げられる。表示部としては、例えば、液晶ディスプレイ、プラズマディスプレイ等の各種ディスプレイが挙げられる。入力部としては、例えば、キーボード及びポインティング・デバイス(マウス、トラッキングボール等)が挙げられる。
In addition to the CPU as the
上記ソフトウェアには、上記ハードウェアを制御するコンピュータ・プログラムやデータが含まれる。コンピュータ・プログラムやデータは、記憶部20により記憶され、制御部10により適宜実行、参照される。また、コンピュータ・プログラムやデータは、通信回線を介して配布することも可能であり、CD−ROM等のコンピュータ可読媒体に記録して配布することも可能である。
The software includes a computer program and data for controlling the hardware. The computer program and data are stored in the
抽出サーバ1の制御部10は、キーワード抽出部11(抽出手段)と、カテゴリ判定部12(判定手段)と、キーワード分類部13(分類手段)とを備える。また、抽出サーバ1の記憶部20は、クエリログDB(データベース)21(クエリ記憶手段)と、キーワード候補DB22(キーワード記憶手段)とを備える。
The
キーワード抽出部11は、クエリログDB21に記憶されているクエリのそれぞれから、このクエリを構成しているキーワードを抽出する。具体的には、キーワード抽出部11は、クエリのテキストを既定の区切り文字(例えば、スペース)を境界にして区切り、区切られたテキストのそれぞれを、キーワードとして抽出する。これにより、ユーザが明示的に指定した語句をキーワードとすることができる。また、クエリのテキストに区切り文字が含まれていない等の場合には、キーワード抽出部11は、クエリのテキストを形態素解析し、予め設定されている所定の種類の単語をキーワードとして抽出してもよい。
The
なお、キーワード抽出部11は、抽出された語句について、既存の辞書において同義語又は類義語が登録されている場合に、いずれかの同義語又は類義語を代表語として、語句を代表語に変換することとしてよい。これにより、クエリ毎の表現のばらつきが統一される。
Note that the
ここで、クエリログDB21は、抽出サーバ1と接続可能な端末から質問・回答型コンテンツのいずれかが閲覧されたときに使用されたクエリの履歴を記憶する。
図2は、本実施形態に係るクエリログDB21に格納されているクエリログテーブルの一例を示す図である。
Here, the
FIG. 2 is a diagram illustrating an example of a query log table stored in the
クエリログテーブルには、各種検索エンジンに入力されたクエリと、このクエリにより検索された検索結果リストの中から選択された(クリックされた)コンテンツのURLとが記憶される。なお、クエリログテーブルに記憶されるクエリとURLとの組合せは、選択されたコンテンツが所定のサイト(質問・回答型コンテンツ)の場合に限ることとしてよい。 The query log table stores a query input to various search engines and a URL of content selected (clicked) from a search result list searched by the query. The combination of the query and URL stored in the query log table may be limited to a case where the selected content is a predetermined site (question / answer type content).
カテゴリ判定部12は、キーワード抽出部11により抽出されたキーワードと共に、同一クエリ内において所定以上の頻度で共起する一又は複数のキーワードのそれぞれが属するカテゴリを判定する。具体的には、カテゴリ判定部12は、あるキーワード(対象語)が抽出されると、このキーワード(対象語)と共に、所定以上の頻度(例えば、割合)で同一のクエリを構成する別のキーワード(共起語)を抽出する。そして、カテゴリ判定部12は、予め複数のカテゴリに対して設定されている分類ルールに基づいて、共起語がいずれのカテゴリに属するかを判定する。
The
なお、分類ルールとしては、例えば、カテゴリ毎に設けられている特徴語と共起語との類似度が相対的に高いカテゴリに判定する手法が用いられるが、これには限られず、様々な手法が適用可能である。 As a classification rule, for example, a method for determining a category having a relatively high similarity between a feature word and a co-occurrence word provided for each category is used, but the method is not limited to this, and various methods are used. Is applicable.
キーワード分類部13は、カテゴリ判定部12により判定されたカテゴリのばらつきが所定未満である場合、キーワード抽出部11により抽出された対象語を直接目的語(第1キーワード)に分類する。一方、カテゴリのばらつきが所定以上である場合、キーワード抽出部11により抽出された対象語を間接目的語(第2キーワード)に分類する。
When the variation of the category determined by the
直接目的語は、例えば、様々な種類(カテゴリ)の商品名を含む。この直接目的語と対になる間接目的語は、例えば、「値段」や「使い方」等、比較的限定された種類(カテゴリ)となる。つまり、ある商品名と共起するキーワードのカテゴリは、ばらつきが小さいので、キーワード分類部13は、商品名を直接目的語と判定できる。逆に、「値段」と共起するキーワードは、様々な商品を含み、カテゴリのばらつきが大きいので、キーワード分類部13は、「値段」を間接目的語と判定できる。
The direct object includes, for example, various types (categories) of product names. The indirect object paired with the direct object is a relatively limited type (category) such as “price” or “how to use”. That is, since the category of a keyword that co-occurs with a certain product name has little variation, the
なお、カテゴリのばらつきとは、例えば、判定されたカテゴリの数をいい、このカテゴリの数は、判定された共起語の数が相対的に少ない(例えば、絶対数が所定未満、又は最大値に対する割合が所定未満等)カテゴリを除いてカウントされてもよい。 The category variation means, for example, the number of determined categories, and the number of categories is relatively small in the number of determined co-occurrence words (for example, the absolute number is less than a predetermined value or the maximum value). The ratio may be counted excluding categories).
そして、キーワード分類部13は、このようにして分類された直接目的語及び間接目的語を、キーワード候補DB22に記憶させる。
図3は、本実施形態に係るキーワード候補DB22に格納されている直接目的語候補テーブル及び間接目的語候補テーブルの一例を示す図である。
Then, the
FIG. 3 is a diagram illustrating an example of a direct object candidate table and an indirect object candidate table stored in the
直接目的語候補テーブル(a)には、キーワード分類部13により直接目的語に分類されたキーワードが、間接目的語候補テーブル(b)には、キーワード分類部13により間接目的語に分類されたキーワードが、それぞれ独立して記憶される。
In the direct object candidate table (a), keywords classified as direct objects by the
[処理フロー]
図4は、本実施形態に係る抽出サーバ1の制御部10における処理を示すフローチャートである。なお、制御部10は、質問・回答型コンテンツが閲覧されたときに使用されたクエリの履歴であるクエリログを、クエリログDB21に十分に蓄積しているものとする(クエリ記憶ステップ)。
[Processing flow]
FIG. 4 is a flowchart showing processing in the
ステップS1において、制御部10(キーワード抽出部11)は、クエリログDB21から、質問・回答型コンテンツへ検索により辿り着くことができたクエリの履歴であるクエリログを読込む。
In step S <b> 1, the control unit 10 (keyword extraction unit 11) reads a query log that is a history of queries that have been able to reach the question / answer type content from the
ステップS2(抽出ステップ)において、制御部10(キーワード抽出部11)は、ステップS1で読込んだクエリログの各々のクエリを解析し、対象語を抽出する。 In step S2 (extraction step), the control unit 10 (keyword extraction unit 11) analyzes each query of the query log read in step S1 and extracts a target word.
ステップS3において、制御部10(カテゴリ判定部12)は、ステップS2で抽出された対象語とクエリ内で所定以上の頻度で共起する共起語を抽出する。 In step S3, the control unit 10 (category determination unit 12) extracts the co-occurrence words that co-occur with the target word extracted in step S2 at a predetermined frequency or more in the query.
ステップS4(判定ステップ)において、制御部10(カテゴリ判定部12)は、ステップS3で抽出された共起語のそれぞれが属するカテゴリを判定する。 In step S4 (determination step), the control unit 10 (category determination unit 12) determines the category to which each of the co-occurrence words extracted in step S3 belongs.
ステップS5(分類ステップ)において、制御部10(キーワード分類部13)は、ステップS4で判定されたカテゴリのばらつきが所定未満か否かを判定する。制御部10は、この判定がYESの場合、処理をステップS6に移し、判定がNOの場合、処理をステップS7に移す。
In step S5 (classification step), the control unit 10 (keyword classification unit 13) determines whether or not the variation of the category determined in step S4 is less than a predetermined value. When this determination is YES, the
ステップS6(分類ステップ)において、制御部10(キーワード分類部13)は、共起語が属するカテゴリのばらつきが小さいので、ステップS2で抽出された対象語を直接目的語に分類する。 In step S6 (classification step), the control unit 10 (keyword classification unit 13) classifies the target word extracted in step S2 directly as a target word because the variation of the category to which the co-occurrence word belongs is small.
ステップS7(分類ステップ)において、制御部10(キーワード分類部13)は、共起語が属するカテゴリのばらつきが大きいので、ステップS2で抽出された対象語を間接目的語に分類する。 In step S7 (classification step), the control unit 10 (keyword classification unit 13) classifies the target word extracted in step S2 as an indirect object because the variation of the category to which the co-occurrence word belongs is large.
ステップS8(キーワード記憶ステップ)において、制御部10(キーワード分類部13)は、ステップS6で直接目的語に分類された対象語、及びステップS7で間接目的語に分類された対象語を、キーワード候補DB22にキーワード候補として記憶する。 In step S8 (keyword storage step), the control unit 10 (keyword classifying unit 13) uses the target words classified as direct objects in step S6 and the target words classified as indirect objects in step S7 as keyword candidates. Store as keyword candidates in DB22.
ステップS9において、制御部10は、全ての対象語を処理したか否かを判定する。制御部10は、この判定がYESの場合、処理を終了し、判定がNOの場合、処理をステップS2に戻して次の対象語について処理を継続する。
In step S9, the
以上のように、本実施形態によれば、抽出サーバ1は、共起性の高いキーワードが属するカテゴリのばらつき度合いを判断材料として、抽出した対象語を自動的に、直接目的語又は間接目的語に分類できる。したがって、抽出サーバ1は、質問・回答型コンテンツが閲覧されたときに使用されたクエリの中から、このコンテンツを効率的に検索するためのキーワードの候補を自動的に抽出できる。 As described above, according to the present embodiment, the extraction server 1 automatically selects the extracted target word as a direct object or an indirect object using the degree of variation of the category to which the highly co-occurrence keyword belongs as a determination material. Can be classified. Therefore, the extraction server 1 can automatically extract keyword candidates for efficiently searching for the content from the query used when the question / answer type content is browsed.
<第2実施形態>
以下、本発明の実施形態の一例である第2実施形態について図を参照しながら説明する。なお、第1実施形態と同様の構成については、同一の符号を付し、説明を省略又は簡略化する。
Second Embodiment
Hereinafter, a second embodiment, which is an example of an embodiment of the present invention, will be described with reference to the drawings. In addition, about the structure similar to 1st Embodiment, the same code | symbol is attached | subjected and description is abbreviate | omitted or simplified.
[機能構成]
図5は、本実施形態に係る抽出サーバ1a(抽出装置)の機能構成を示す図である。
抽出サーバ1aは、第1実施形態の構成に加えて、制御部10aに、集計部14及び選択部15をさらに備える。また、記憶部20aのキーワード候補DB22aに記憶される情報が第1実施形態のキーワード候補DB22と異なる。
[Function configuration]
FIG. 5 is a diagram illustrating a functional configuration of the extraction server 1a (extraction apparatus) according to the present embodiment.
In addition to the configuration of the first embodiment, the extraction server 1a further includes a totaling
集計部14は、キーワード分類部13により分類された結果、同一クエリに直接目的語と間接目的語との組合せが含まれる場合、この組合せが含まれるクエリを使用して質問・回答型コンテンツのいずれかが閲覧された回数を集計する。この回数は、具体的には、検索システムによる検索結果リストの中からユーザにより質問・回答型コンテンツが選択(クリック)された回数である。
When the result of the classification by the
選択部15は、キーワード分類部13により分類された結果、同一クエリに直接目的語と間接目的語との組合せが含まれる場合、キーワード抽出部11を介してクエリログDB21を参照し、この組合せが含まれるクエリを使用して閲覧されたコンテンツのうち、相対的に閲覧頻度が高いコンテンツを選択する。選択部15は、最も閲覧頻度が高いコンテンツを選択してもよいし、所定以上の閲覧頻度である複数のコンテンツを選択してもよい。
As a result of the classification by the
キーワード候補DB22aは、同一クエリ内で共起している直接目的語と間接目的語との組合せと共に、集計部14により集計された回数、及び選択部15により選択されたコンテンツのURLを、対応付けて記憶する。
The
また、キーワード候補DB22aは、キーワード分類部13により分類された結果、同一クエリ内で複数の直接目的語が共起している場合に、この複数の直接目的語を対応付けて記憶する。
In addition, as a result of the classification by the
図6は、本実施形態に係るキーワード候補DB22aに格納されているキーワード候補テーブルの一例を示す図である。
FIG. 6 is a diagram showing an example of a keyword candidate table stored in the
キーワード候補テーブルには、直接目的語と間接目的語との組合せと、この組合せを含むクエリを使用してコンテンツが閲覧された回数(クリック数)と、この組合せを使用して高頻度で閲覧されたコンテンツのURLとが対応付けて記憶される。 In the keyword candidate table, the combination of the direct object and the indirect object, the number of times the content is viewed using a query including this combination (the number of clicks), and the combination is frequently used. The content URL is stored in association with each other.
例えば、「○○と□□の違い」のような「○○」、「□□」及び「違い」を含むクエリからは、質問・回答型コンテンツが1000回クリックされ、「http://ccc〜」が最も多く閲覧されていることが示されている。 For example, from a query including “XX”, “□□”, and “Difference” such as “Difference between XX and □□”, the question / answer type content is clicked 1000 times and “http: // ccc It is shown that "~" is browsed most.
[処理フロー]
図7は、本実施形態に係る抽出サーバ1aの制御部10aにおける処理を示すフローチャートである。
[Processing flow]
FIG. 7 is a flowchart showing processing in the
ステップS11からステップS17は、第1実施形態のステップS1からステップS7と同様であり、制御部10aは、クエリを構成する対象語を、直接目的語又は間接目的語に分類する。
Steps S11 to S17 are the same as steps S1 to S7 in the first embodiment, and the
ステップS18において、制御部10a(集計部14)は、直接目的語と間接目的語との組合せが同一クエリ内に含まれる場合、このクエリに基づく検索結果から、質問・回答型コンテンツがクリックされた回数を集計する。
In step S18, when the combination of the direct object and the indirect object is included in the same query, the
ステップS19において、制御部10a(選択部15)は、直接目的語と間接目的語との組合せが同一クエリ内に含まれる場合、このクエリに基づく検索結果から高頻度でクリックされたコンテンツのURLを選択する。
In step S19, when the combination of the direct object and the indirect object is included in the same query, the
ステップS20において、制御部10a(キーワード分類部13)は、ステップS16で直接目的語に分類された対象語と、ステップS17で間接目的語に分類された対象語との組合せを、ステップS18で集計された回数及びステップS19で選択されたURLと対応付けて、キーワード候補DB22aにキーワード候補として記憶する。
In step S20, the
ステップS21において、制御部10aは、全ての対象語を処理したか否かを判定する。制御部10aは、この判定がYESの場合、処理を終了し、判定がNOの場合、処理をステップS12に戻して次の対象語について処理を継続する。
In step S21, the
以上のように、本実施形態によれば、抽出サーバ1aは、直接目的語と間接目的語とを、共起する組合せとして記憶する。したがって、管理者は、コンテンツが閲覧できた実績のあるクエリを、推薦クエリとして利用することができるので、抽出サーバ1aは、推薦クエリの精度を向上させることができる。 As described above, according to the present embodiment, the extraction server 1a stores the direct object and the indirect object as a co-occurring combination. Accordingly, since the administrator can use a query with a track record of browsing the content as a recommendation query, the extraction server 1a can improve the accuracy of the recommendation query.
また、抽出サーバ1aは、直接目的語と間接目的語との組合せに基づく検索により、質問・回答型コンテンツがクリックされた回数を記憶する。したがって、抽出サーバ1aは、クリック回数が多く、検索でコンテンツに辿り着きやすいクエリを容易に選択できるので、コンテンツに辿り着きやすい効率的なクエリを優先して推薦することができる。 Further, the extraction server 1a stores the number of times the question / answer type content is clicked by the search based on the combination of the direct object and the indirect object. Therefore, since the extraction server 1a can easily select a query that has a large number of clicks and can easily reach the content by the search, an efficient query that can easily reach the content can be preferentially recommended.
例えば、図6のキーワード候補テーブルによれば、検索システムにおいてキーワード「○○」が指定された場合に、抽出サーバ1aは、クリック数が多い順に、「口コミ」、「値段」、「違い」を組合せたクエリを推薦することができる。 For example, according to the keyword candidate table of FIG. 6, when the keyword “XX” is specified in the search system, the extraction server 1a displays “word of mouth”, “price”, and “difference” in descending order of the number of clicks. A combined query can be recommended.
また、抽出サーバ1aは、直接目的語と間接目的語との組合せに基づく検索により、閲覧頻度が高い質問・回答型コンテンツを記憶する。したがって、抽出サーバ1aは、この組合せをクエリとした場合に、閲覧頻度が高く有用なコンテンツを効率的に提供することができる。 Further, the extraction server 1a stores question / answer type content with a high browsing frequency by a search based on a combination of a direct object and an indirect object. Therefore, when this combination is used as a query, the extraction server 1a can efficiently provide useful content with a high browsing frequency.
さらに、抽出サーバ1aは、複数の直接目的語を、共起する組合せとして記憶するので、組合せることに意味のある、又は組合せることにより所望のコンテンツに辿り着きやすい直接目的語を、効率的に推薦することができる。 Furthermore, since the extraction server 1a stores a plurality of direct objects as co-occurring combinations, it is efficient to generate direct objects that are meaningful for the combination or that can easily reach the desired content by the combination. Can be recommended.
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。 As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. The effects described in the embodiments of the present invention are only the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. is not.
前述の実施形態では、抽出サーバ1又は1aが各部を備えることとして説明したが、これには限られず、各部は、適宜複数のサーバに分散されてもよい。 In the above-described embodiment, the extraction server 1 or 1a has been described as including each unit. However, the present invention is not limited to this, and each unit may be appropriately distributed to a plurality of servers.
1、1a 抽出サーバ(抽出装置)
10、10a 制御部
11 キーワード抽出部(抽出手段)
12 カテゴリ判定部(判定手段)
13 キーワード分類部(分類手段)
14 集計部
15 選択部
20、20a 記憶部
21 クエリログDB(クエリ記憶手段)
22、22a キーワード候補DB(キーワード記憶手段)
1, 1a Extraction server (extraction device)
10,
12 Category determination unit (determination means)
13 Keyword classification part (classification means)
14
22, 22a Keyword candidate DB (keyword storage means)
Claims (7)
前記抽出装置と接続可能な端末から前記コンテンツのいずれかが閲覧されたときに使用された前記クエリの履歴を記憶するクエリ記憶手段と、
前記クエリ記憶手段に記憶されている前記クエリのそれぞれから、当該クエリを構成しているキーワードを抽出する抽出手段と、
前記抽出手段により抽出されたキーワードと共に、同一クエリ内において所定以上の頻度で共起する一又は複数のキーワードのそれぞれが属するカテゴリを判定する判定手段と、
前記判定手段により判定された前記カテゴリのばらつきが所定未満である場合、前記抽出手段により抽出されたキーワードを第1キーワードに、前記カテゴリのばらつきが所定以上である場合、前記抽出手段により抽出されたキーワードを第2キーワードに分類する分類手段と、
前記分類手段により分類された前記第1キーワード及び前記第2キーワードを記憶するキーワード記憶手段と、を備える抽出装置。 An extraction device that extracts a query used to search for question / answer type content,
Query storage means for storing a history of the query used when any of the contents is viewed from a terminal connectable to the extraction device;
Extraction means for extracting a keyword constituting the query from each of the queries stored in the query storage means;
Determining means for determining a category to which each of one or a plurality of keywords co-occurring at a predetermined frequency or more in the same query together with the keywords extracted by the extracting means;
When the variation of the category determined by the determination unit is less than a predetermined value, the keyword extracted by the extraction unit is the first keyword, and when the variation of the category is a predetermined value or more, the keyword is extracted by the extraction unit A classifying means for classifying the keyword into a second keyword;
An extraction apparatus comprising: keyword storage means for storing the first keyword and the second keyword classified by the classification means.
前記キーワード記憶手段は、前記集計手段により集計された前記回数を、前記組合せと対応付けて記憶する請求項2に記載の抽出装置。 A totaling unit that counts the number of times any of the contents is viewed using a query including the combination;
The extraction device according to claim 2, wherein the keyword storage unit stores the number of times counted by the counting unit in association with the combination.
前記クエリ記憶手段を参照し、前記組合せが含まれるクエリを使用して閲覧された前記コンテンツのうち、相対的に閲覧頻度が高いコンテンツを選択する選択手段をさらに備え、
前記キーワード記憶手段は、前記選択手段により選択された前記コンテンツのURLを、前記組合せと対応付けて記憶する請求項2又は請求項3に記載の抽出装置。 The query storage means stores the query used when one of the contents is browsed and the URL of the content in association with each other,
A selection unit that refers to the query storage unit, and selects a content having a relatively high browsing frequency among the content browsed using a query including the combination;
The extraction device according to claim 2, wherein the keyword storage unit stores a URL of the content selected by the selection unit in association with the combination.
前記抽出装置と接続可能な端末から前記コンテンツのいずれかが閲覧されたときに使用された前記クエリの履歴を記憶するクエリ記憶ステップと、
前記クエリ記憶ステップにおいて記憶されている前記クエリのそれぞれから、当該クエリを構成しているキーワードを抽出する抽出ステップと、
前記抽出ステップにおいて抽出されたキーワードと共に、同一クエリ内において所定以上の頻度で共起する一又は複数のキーワードのそれぞれが属するカテゴリを判定する判定ステップと、
前記判定ステップにおいて判定された前記カテゴリのばらつきが所定未満である場合、前記抽出ステップにおいて抽出されたキーワードを第1キーワードに、前記カテゴリのばらつきが所定以上である場合、前記抽出ステップにおいて抽出されたキーワードを第2キーワードに分類する分類ステップと、
前記分類ステップにおいて分類された前記第1キーワード及び前記第2キーワードを記憶するキーワード記憶ステップと、を含む方法。 A method in which an extraction device extracts a query used to search for question / answer type content,
A query storage step of storing a history of the query used when any of the contents is viewed from a terminal connectable to the extraction device;
An extraction step of extracting a keyword constituting the query from each of the queries stored in the query storage step;
A determination step of determining a category to which each of one or a plurality of keywords co-occurring at a predetermined frequency or more in the same query together with the keywords extracted in the extraction step,
When the variation of the category determined in the determination step is less than a predetermined value, the keyword extracted in the extraction step is the first keyword, and when the variation of the category is a predetermined value or more, the extraction is performed in the extraction step A classification step of classifying the keyword into a second keyword;
A keyword storage step of storing the first keyword and the second keyword classified in the classification step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009298413A JP5068304B2 (en) | 2009-12-28 | 2009-12-28 | Extraction apparatus, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009298413A JP5068304B2 (en) | 2009-12-28 | 2009-12-28 | Extraction apparatus, method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011138347A JP2011138347A (en) | 2011-07-14 |
JP5068304B2 true JP5068304B2 (en) | 2012-11-07 |
Family
ID=44349715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009298413A Active JP5068304B2 (en) | 2009-12-28 | 2009-12-28 | Extraction apparatus, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5068304B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7069615B2 (en) | 2017-09-26 | 2022-05-18 | カシオ計算機株式会社 | Information processing systems, electronic devices, information processing methods and programs |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3596210B2 (en) * | 1997-01-16 | 2004-12-02 | 富士ゼロックス株式会社 | Related word dictionary creation device |
JP4874828B2 (en) * | 2007-02-02 | 2012-02-15 | ヤフー株式会社 | Method and apparatus for creating search index by community extraction |
-
2009
- 2009-12-28 JP JP2009298413A patent/JP5068304B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011138347A (en) | 2011-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9836511B2 (en) | Computer-generated sentiment-based knowledge base | |
TWI452476B (en) | Method,computer readable storage media,and system for relevancy sorting of user's browser history | |
US7783644B1 (en) | Query-independent entity importance in books | |
US7769771B2 (en) | Searching a document using relevance feedback | |
JP5727512B2 (en) | Cluster and present search suggestions | |
EP2159715B1 (en) | System and method for providing a topic-directed search | |
US8538989B1 (en) | Assigning weights to parts of a document | |
US9251185B2 (en) | Classifying results of search queries | |
US20090287676A1 (en) | Search results with word or phrase index | |
US20090144240A1 (en) | Method and systems for using community bookmark data to supplement internet search results | |
US20070250501A1 (en) | Search result delivery engine | |
US20020073079A1 (en) | Method and apparatus for searching a database and providing relevance feedback | |
WO2011080899A1 (en) | Information recommendation method | |
US10152478B2 (en) | Apparatus, system and method for string disambiguation and entity ranking | |
US9116992B2 (en) | Providing time series information with search results | |
US20110040769A1 (en) | Query-URL N-Gram Features in Web Ranking | |
KR20070038146A (en) | Personalization of placed content ordering in search results | |
CN102982153A (en) | Information retrieval method and device | |
EP2307951A1 (en) | Method and apparatus for relating datasets by using semantic vectors and keyword analyses | |
WO2011062598A1 (en) | System and method for automated filtering of reviews for marketability | |
US20150339387A1 (en) | Method of and system for furnishing a user of a client device with a network resource | |
JP5427694B2 (en) | Related content presentation apparatus and program | |
JP4912384B2 (en) | Document search device, document search method, and document search program | |
JP5068304B2 (en) | Extraction apparatus, method and program | |
JP4428703B2 (en) | Information retrieval method and system, and computer program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120705 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120717 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120814 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150824 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5068304 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |