JP6731826B2 - Extraction device, extraction method, and extraction program - Google Patents

Extraction device, extraction method, and extraction program Download PDF

Info

Publication number
JP6731826B2
JP6731826B2 JP2016199399A JP2016199399A JP6731826B2 JP 6731826 B2 JP6731826 B2 JP 6731826B2 JP 2016199399 A JP2016199399 A JP 2016199399A JP 2016199399 A JP2016199399 A JP 2016199399A JP 6731826 B2 JP6731826 B2 JP 6731826B2
Authority
JP
Japan
Prior art keywords
cluster
user
information
search query
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016199399A
Other languages
Japanese (ja)
Other versions
JP2018060469A (en
Inventor
保則 西本
保則 西本
武 天野
武 天野
正行 野尻
正行 野尻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2016199399A priority Critical patent/JP6731826B2/en
Publication of JP2018060469A publication Critical patent/JP2018060469A/en
Application granted granted Critical
Publication of JP6731826B2 publication Critical patent/JP6731826B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、抽出装置、抽出方法、及び抽出プログラムに関する。 The present invention relates to an extraction device, an extraction method, and an extraction program.

従来、種々の情報から抽出された特徴量等の情報が用いられている。例えば、検索クエリ(以下、単に「クエリ」ともいう)のコンテンツの特徴量を抽出し、その特徴量と同一性の高い特徴量を有するコンテンツを選択し、そのコンテンツの持つ関連メタ情報に基づいて類似度を判定し、グルーピングして表示する技術が提供されている。 Conventionally, information such as a feature amount extracted from various information has been used. For example, the feature amount of the content of the search query (hereinafter, also simply referred to as a “query”) is extracted, the content having the feature amount that is highly identical to the feature amount is selected, and based on the related meta information that the content has. There is provided a technique of determining the degree of similarity, grouping and displaying.

特開2007−164633号公報JP, 2007-164633, A

“word2vec”、[online]、[平成28年7月29日検索]、インターネット<URL:https://code.google.com/p/word2vec/>"Word2vec", [online], [July 29, 2016 search], Internet <URL: https://code.google.com/p/word2vec/>

しかしながら、上記の従来技術では、特定のユーザに特徴的な情報を抽出することができるとは限らない。例えば、類似しているユーザの情報のみに基づいて情報を抽出するだけでは、特定のユーザに特徴的な情報を抽出することができない場合がある。 However, in the above-mentioned conventional technology, it is not always possible to extract information characteristic of a specific user. For example, it may not be possible to extract information characteristic of a specific user only by extracting information based on information of similar users.

本願は、上記に鑑みてなされたものであって、特定のユーザに特徴的な情報を抽出する抽出装置、抽出方法、及び抽出プログラムを提供することを目的とする。 The present application has been made in view of the above, and an object thereof is to provide an extraction device, an extraction method, and an extraction program that extract characteristic information for a specific user.

本願に係る抽出装置は、所定の行動を行った対象ユーザが用いた検索クエリに関する情報と、前記所定の行動を行わなかった他のユーザが用いた検索クエリに関する情報とを取得する取得部と、前記対象ユーザが用いた各検索クエリに関する情報に対応するベクトル間の類似度に基づいて前記対象ユーザが用いた検索クエリに関する情報を第1クラスタに分類し、前記他のユーザが用いた各検索クエリに関する情報に対応するベクトル間の類似度に基づいて前記他のユーザが用いた検索クエリに関する情報を第2クラスタに分類する分類部と、前記第1クラスタと前記第2クラスタとの差異に基づいて、前記第1クラスタから前記対象ユーザに特徴的な行動を示すクラスタである特徴クラスタを抽出する抽出部と、を備えたことを特徴とする。 An extraction device according to the present application, an acquisition unit that acquires information regarding a search query used by a target user who performed a predetermined action, and information regarding a search query used by another user who did not perform the predetermined action, The information about the search query used by the target user is classified into the first cluster based on the similarity between the vectors corresponding to the information about the search query used by the target user, and the search queries used by the other users are classified. Based on a difference between the first cluster and the second cluster, and a classification unit that classifies information about a search query used by the other user into a second cluster based on a similarity between vectors corresponding to the information about An extraction unit that extracts a characteristic cluster, which is a cluster showing a characteristic behavior of the target user, from the first cluster.

実施形態の一態様によれば、特定のユーザに特徴的な情報を抽出することができるという効果を奏する。 According to one aspect of the embodiment, it is possible to extract information characteristic of a specific user.

図1は、実施形態に係る抽出処理の一例を示す図である。FIG. 1 is a diagram illustrating an example of an extraction process according to the embodiment. 図2は、実施形態に係る抽出装置の構成例を示す図である。FIG. 2 is a diagram illustrating a configuration example of the extraction device according to the embodiment. 図3は、実施形態に係るユーザ情報記憶部の一例を示す図である。FIG. 3 is a diagram illustrating an example of the user information storage unit according to the embodiment. 図4は、実施形態に係る検索履歴情報記憶部の一例を示す図である。FIG. 4 is a diagram illustrating an example of the search history information storage unit according to the embodiment. 図5は、実施形態に係るベクトル情報記憶部の一例を示す図である。FIG. 5 is a diagram illustrating an example of the vector information storage unit according to the embodiment. 図6は、実施形態に係る特徴クラスタ情報記憶部の一例を示す図である。FIG. 6 is a diagram illustrating an example of the feature cluster information storage unit according to the embodiment. 図7は、実施形態に係る広告情報記憶部の一例を示す図である。FIG. 7 is a diagram illustrating an example of the advertisement information storage unit according to the embodiment. 図8は、実施形態に係る抽出処理手順を示すフローチャートである。FIG. 8 is a flowchart showing an extraction processing procedure according to the embodiment. 図9は、実施形態に係る広告配信処理の一例を示す図である。FIG. 9 is a diagram illustrating an example of the advertisement distribution process according to the embodiment. 図10は、実施形態に係る広告配信処理手順を示すフローチャートである。FIG. 10 is a flowchart showing an advertisement distribution processing procedure according to the embodiment. 図11は、抽出装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。FIG. 11 is a hardware configuration diagram illustrating an example of a computer that realizes the function of the extraction device.

以下に、本願に係る抽出装置、抽出方法、及び抽出プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る抽出装置、抽出方法、及び抽出プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。 Hereinafter, modes (hereinafter, referred to as “embodiments”) for carrying out an extraction device, an extraction method, and an extraction program according to the present application will be described in detail with reference to the drawings. Note that the extraction device, the extraction method, and the extraction program according to the present application are not limited by this embodiment. Also, in each of the following embodiments, the same parts are designated by the same reference numerals, and duplicated description will be omitted.

(実施形態)
〔1.抽出処理〕
まず、図1を用いて、実施形態に係る抽出処理の一例について説明する。図1は、実施形態に係る抽出処理の一例を示す図である。図1では、抽出装置100(図2参照)が複数のユーザを所定の行動を行った対象ユーザのグループと、所定の行動を行わなかった他のユーザのグループとの2つのグループに基づいて、特徴クラスタを抽出する場合を示す。図1の例では、所定の行動がA社のパソコンの購入である場合を示す。また、図1の例では、ユーザの行動情報が、ユーザが検索において用いたトークンである場合を示す。例えば、ここでいう「トークン」とは、ユーザが検索に用いたクエリに含まれる所定の区切り文字で区切られた文字列を意味する。例えば、「トークン」は、ユーザが検索に用いたクエリにおいてスペースで区切られた各文字列を意味する。例えば、検索クエリが「パソコン 性能」であった場合、文字列「パソコン」や文字列「性能」がトークンとなる。
(Embodiment)
[1. Extraction process]
First, an example of the extraction process according to the embodiment will be described with reference to FIG. FIG. 1 is a diagram illustrating an example of an extraction process according to the embodiment. In FIG. 1, the extraction device 100 (see FIG. 2) is based on two groups: a group of target users who have performed a predetermined action on a plurality of users, and a group of other users who have not performed a predetermined action, The case where a feature cluster is extracted is shown. In the example of FIG. 1, the case where the predetermined action is the purchase of the personal computer of company A is shown. Moreover, in the example of FIG. 1, the case where the user's action information is the token used in the search by the user is shown. For example, the "token" here means a character string delimited by a predetermined delimiter included in the query used by the user. For example, "token" means each character string delimited by a space in the query used by the user. For example, if the search query is “personal computer performance”, the character string “personal computer” or the character string “performance” becomes a token.

例えば、図1中のユーザ群GL1(グループA)は、A社のパソコンを購入したユーザであるユーザU1やユーザU2等が含まれる。図1の例では、A社のパソコン購入ユーザ群であるユーザ群GL1には、1000人のユーザが含まれるものとする。また、例えば、図1中のユーザ群GL2(グループB)は、A社のパソコンを購入しなかったユーザであるユーザU3やユーザU4等が含まれる。図1の例では、A社のパソコン非購入ユーザ群であるユーザ群GL2には、2000人のユーザが含まれるものとする。 For example, the user group GL1 (group A) in FIG. 1 includes users U1 and U2 who are users who purchased the personal computer of company A. In the example of FIG. 1, it is assumed that 1000 users are included in the user group GL1 which is a personal computer purchasing user group of the company A. Further, for example, the user group GL2 (group B) in FIG. 1 includes users U3 and U4 who are users who have not purchased the personal computer of company A. In the example of FIG. 1, it is assumed that 2000 users are included in the user group GL2, which is the personal computer non-purchasing user group of Company A.

また、抽出装置100は、各ユーザが所定の期間における検索で用いたトークンを収集する。また、所定の行動を行ったユーザに関する所定の期間は、対応するユーザが所定の行動を行う前の一定期間(例えば1ヶ月)等であってもよい。例えば、ユーザU1についてトークンを収集する期間は、ユーザU1がパソコンAを購入した時点から1ヶ月前までの期間であってもよい。また、所定の行動を行わなかったユーザに関する所定の期間は、抽出処理を行う前の一定期間(例えば1ヶ月)等であってもよい。例えば、ユーザU3についてトークンを収集する期間は、抽出装置100が抽出処理を行う時点から1ヶ月前までの期間であってもよい。なお、上記所定の期間は一例であり、目的等に応じて種々の期間に変更されてもよい。 Further, the extraction device 100 collects the tokens used by each user in the search in a predetermined period. Further, the predetermined period regarding the user who has performed the predetermined action may be a certain period (for example, one month) before the corresponding user performs the predetermined action, or the like. For example, the period for collecting tokens for the user U1 may be a period from the time when the user U1 purchased the personal computer A to one month ago. Further, the predetermined period regarding the user who did not perform the predetermined action may be a certain period (for example, one month) before performing the extraction process. For example, the period for collecting tokens for the user U3 may be a period from the time when the extraction device 100 performs the extraction process to one month ago. The above-mentioned predetermined period is an example, and may be changed to various periods according to the purpose and the like.

図1に示す例において、使用トークン情報TK1は、ユーザU1が所定の期間における検索において用いたトークンを示す。例えば、使用トークン情報TK1には、「パソコン」、「B社型番X」、「強度」、「充電」等といったトークンが含まれる。また、図1に示す例において、使用トークン情報TK2は、ユーザU2が所定の期間における検索において用いたトークンを示す。例えば、使用トークン情報TK2には、「ノートPC」、「B社型番Y」、「軽量」、「値段」等といったトークンが含まれる。 In the example shown in FIG. 1, the used token information TK1 indicates the token used by the user U1 in the search in a predetermined period. For example, the used token information TK1 includes tokens such as “personal computer”, “company B model number X”, “strength”, and “charge”. Further, in the example shown in FIG. 1, the used token information TK2 indicates the token used by the user U2 in the search in the predetermined period. For example, the used token information TK2 includes tokens such as “notebook PC”, “company B model number Y”, “light weight”, “price” and the like.

図1に示す例において、使用トークン情報TK3は、ユーザU3が所定の期間における検索において用いたトークンを示す。例えば、使用トークン情報TK3には、「スマホ」、「株価」、「PC」、「サッカー」等といったトークンが含まれる。また、図1に示す例において、使用トークン情報TK4は、ユーザU4が所定の期間における検索において用いたトークンを示す。例えば、使用トークン情報TK4には、「転職」、「メール」、「交通費」、「ノーパソ」等といったトークンが含まれる。 In the example shown in FIG. 1, the used token information TK3 indicates the token used by the user U3 in the search in a predetermined period. For example, the used token information TK3 includes tokens such as “smartphone”, “stock price”, “PC”, and “soccer”. Further, in the example shown in FIG. 1, the used token information TK4 indicates the token used by the user U4 in the search in the predetermined period. For example, the used token information TK4 includes tokens such as "job change", "mail", "transportation expense", "no-paso", and the like.

まず、抽出装置100は、グループAに含まれるユーザが用いたトークンをクラスタに分類する(ステップS11)。具体的には、抽出装置100は、トークンの類似度に基づいて、グループAに含まれるユーザが用いたトークンを第1クラスタに分類する。図1の例では、抽出装置100は、各トークンに対応するベクトルの類似度に基づいて、グループAに含まれるユーザが用いたトークンを第1クラスタに分類する。 First, the extraction device 100 classifies tokens used by users included in group A into clusters (step S11). Specifically, the extraction device 100 classifies the tokens used by the users included in the group A into the first cluster based on the similarity of the tokens. In the example of FIG. 1, the extraction device 100 classifies the tokens used by the users included in the group A into the first cluster based on the similarity of the vector corresponding to each token.

例えば、抽出装置100は、非特許文献1の「word2vec」に関する技術に基づいて導出された各トークンのベクトルを用いてもよい。なお、抽出装置100は、各トークンに対応するベクトルが導出可能であれば、どのような技術により導出された各トークンのベクトルを用いてもよい。例えば、抽出装置100は、各トークンの意味が近い程、各トークンのベクトルが類似する各トークンのベクトルを用いてもよい。この場合、例えば、トークン「パソコン」に対応するベクトルとトークン「PC」に対応するベクトルとは類似する。 For example, the extraction device 100 may use the vector of each token derived based on the technique related to “word2vec” in Non-Patent Document 1. Note that the extraction device 100 may use the vector of each token derived by any technique as long as the vector corresponding to each token can be derived. For example, the extraction device 100 may use the vector of each token that the vector of each token is more similar as the meaning of each token is closer. In this case, for example, the vector corresponding to the token "PC" and the vector corresponding to the token "PC" are similar.

また、例えば、抽出装置100は、上述した各トークンのベクトルやKmeans等の種々の従来技術を適宜用いて、グループAに含まれるユーザが用いたトークンを第1クラスタに分類する。例えば、抽出装置100は、クラスタ数が所定数(例えば1000個)になるように、グループAに含まれるユーザが用いたトークンを第1クラスタに分類する。なお、抽出装置100は、上述した各トークンのベクトルの類似度に基づいて、トークンを複数のクラスタに分類可能であれば、どのようなクラスタリング技術を用いてもよい。 Further, for example, the extraction device 100 classifies the tokens used by the users included in the group A into the first cluster by appropriately using various conventional techniques such as the vector of each token described above and Kmeans. For example, the extraction device 100 classifies the tokens used by the users included in the group A into the first cluster so that the number of clusters becomes a predetermined number (for example, 1000). Note that the extraction device 100 may use any clustering technique as long as the tokens can be classified into a plurality of clusters based on the above-described similarity of the vector of each token.

図1の例では、抽出装置100は、第1クラスタ群CL11に示すように、グループAに含まれるユーザが用いたトークンを第1クラスタに分類する。例えば、第1クラスタ群CL11中のクラスタID「C11」により識別されるクラスタ(以下、「クラスタC11」と記載する場合がある)には、「パソコン」や「ノートPC」や「PC」や「ノーパソ」といったトークンが含まれることを示す。例えば、「パソコン」や「ノートPC」や「PC」や「ノーパソ」は、共通のパーソナルコンピュータを示す単語であるため、意味的に類似するトークンとして抽出装置100によりクラスタC11に分類される。また、例えば、第1クラスタ群CL11中のクラスタID「C12」により識別されるクラスタ(以下、「クラスタC12」と記載する場合がある)には、「B社型番X」や「B社型番Y」や「ZAシリーズ」や「ZBシリーズ」といったトークンが含まれることを示す。例えば、抽出装置100は、「B社型番X」や「B社型番Y」がB社のパソコンであり、「ZAシリーズ」や「ZBシリーズ」がB社のパソコンのシリーズであるため、意味的に類似するトークンとして、クラスタC12に分類する。また、例えば、第1クラスタ群CL11中のクラスタID「C13」により識別されるクラスタ(以下、「クラスタC13」と記載する場合がある)には、「値段」や「費用」や「代金」や「交通費」といったトークンが含まれることを示す。 In the example of FIG. 1, the extraction device 100 classifies the tokens used by the users included in the group A into the first cluster, as shown in the first cluster group CL11. For example, in the cluster identified by the cluster ID “C11” in the first cluster group CL11 (hereinafter sometimes referred to as “cluster C11”), “PC”, “notebook PC”, “PC”, “ Indicates that a token such as "Nopaso" is included. For example, “personal computer”, “notebook PC”, “PC”, and “no-paso” are words indicating a common personal computer, and are therefore classified by the extraction device 100 into the cluster C11 as semantically similar tokens. Further, for example, in the cluster identified by the cluster ID “C12” in the first cluster group CL11 (hereinafter sometimes referred to as “cluster C12”), “B company model number X” and “B company model number Y” are included. ”, “ZA series”, and “ZB series” are included. For example, in the extraction device 100, “B company model number X” and “B company model number Y” are B company personal computers, and “ZA series” and “ZB series” are B company personal computer series. Is classified as a cluster C12 as a token similar to. Further, for example, in the cluster identified by the cluster ID “C13” in the first cluster group CL11 (hereinafter sometimes referred to as “cluster C13”), “price”, “cost”, “price”, Indicates that a token such as "transportation expenses" is included.

また、抽出装置100は、グループBに含まれるユーザが用いたトークンをクラスタに分類する(ステップS12)。具体的には、抽出装置100は、トークンの類似度に基づいて、グループBに含まれるユーザが用いたトークンを第2クラスタに分類する。図1の例では、説明を簡単にするために、抽出装置100は、グループBに含まれるユーザが用いたトークンを第1クラスタと同様の第2クラスタに分類する。図1の例では、抽出装置100は、第2クラスタ群CL12に示すように、グループBに含まれるユーザが用いたトークンを第2クラスタに分類する。すなわち、図1の例では、抽出装置100は、グループBに含まれるユーザが用いたトークンを、第1クラスタ群CL11中の第1クラスタと同様の第2クラスタに分類する。 Further, the extraction device 100 classifies the tokens used by the users included in the group B into clusters (step S12). Specifically, the extraction device 100 classifies the tokens used by the users included in the group B into the second cluster based on the similarity of the tokens. In the example of FIG. 1, for simplification of description, the extraction device 100 classifies the tokens used by the users included in the group B into the second cluster similar to the first cluster. In the example of FIG. 1, the extraction device 100 classifies the tokens used by the users included in the group B into the second cluster, as shown in the second cluster group CL12. That is, in the example of FIG. 1, the extraction device 100 classifies the tokens used by the users included in the group B into the second cluster similar to the first cluster in the first cluster group CL11.

そして、抽出装置100は、第1クラスタと第2クラスタとの差異に基づいて、第1クラスタから対象ユーザに特徴的な行動を示すクラスタである特徴クラスタを抽出する(ステップS13)。図1の例では、抽出装置100は、第1クラスタ群CL11や第2クラスタ群CL12に示す各クラスタに属するトークンの使用率に関する情報に基づいて特徴クラスタを抽出する。 Then, the extraction device 100 extracts, from the first cluster, a characteristic cluster that is a cluster that shows a characteristic behavior of the target user, based on the difference between the first cluster and the second cluster (step S13). In the example of FIG. 1, the extraction device 100 extracts the characteristic cluster based on the information regarding the usage rate of the tokens belonging to each cluster shown in the first cluster group CL11 and the second cluster group CL12.

図1の例では、第1クラスタ群CL11に示すように、クラスタC11に含まれるトークンのグループAにおける使用率は80%である。すなわち、図1の例では、クラスタC11に含まれるトークンはグループA中の1000人のユーザのうち、800人のユーザが使用したことを示す。なお、ここでいう「使用率」は、対応するクラスタに属するトークンを使用したユーザの割合を示すものであり、例えば、あるユーザが、「パソコン」や「ノートPC」や「PC」や「ノーパソ」等複数のトークンを使用していた場合であっても、そのユーザは「1(ユーザ)」として集計される。 In the example of FIG. 1, as shown in the first cluster group CL11, the usage rate of the tokens included in the cluster C11 in the group A is 80%. That is, in the example of FIG. 1, the token included in the cluster C11 is used by 800 users out of 1000 users in the group A. It should be noted that the “usage rate” mentioned here indicates the proportion of users who have used the tokens belonging to the corresponding clusters. For example, a certain user may select “personal computer”, “notebook PC”, “PC”, or “no-personal computer” Even if a plurality of tokens such as “” are used, the user is totaled as “1 (user)”.

また、図1の例では、第1クラスタ群CL11に示すように、クラスタC12に含まれるトークンのグループAにおける使用率は60%である。すなわち、図1の例では、クラスタC12に含まれるトークンはグループA中の1000人のユーザのうち、600人のユーザが使用したことを示す。また、図1の例では、第1クラスタ群CL11に示すように、クラスタC13に含まれるトークンのグループAにおける使用率は20%である。すなわち、図1の例では、クラスタC13に含まれるトークンはグループA中の1000人のユーザのうち、200人のユーザが使用したことを示す。 Further, in the example of FIG. 1, as shown in the first cluster group CL11, the usage rate of the tokens included in the cluster C12 in the group A is 60%. That is, in the example of FIG. 1, the token included in the cluster C12 is used by 600 users of the 1000 users in the group A. Further, in the example of FIG. 1, as shown in the first cluster group CL11, the usage rate of the tokens included in the cluster C13 in the group A is 20%. That is, in the example of FIG. 1, the token included in the cluster C13 is used by 200 users of the 1000 users in the group A.

また、図1の例では、第2クラスタ群CL12に示すように、クラスタC11に含まれるトークンのグループBにおける使用率は60%である。すなわち、図1の例では、クラスタC11に含まれるトークンはグループB中の2000人のユーザのうち、1200人のユーザが使用したことを示す。また、図1の例では、第2クラスタ群CL12に示すように、クラスタC12に含まれるトークンのグループBにおける使用率は5%である。すなわち、図1の例では、クラスタC12に含まれるトークンはグループB中の2000人のユーザのうち、100人のユーザが使用したことを示す。また、図1の例では、第2クラスタ群CL12に示すように、クラスタC13に含まれるトークンのグループBにおける使用率は20%である。すなわち、図1の例では、クラスタC13に含まれるトークンはグループB中の2000人のユーザのうち、400人のユーザが使用したことを示す。 Further, in the example of FIG. 1, as shown in the second cluster group CL12, the usage rate of the tokens included in the cluster C11 in the group B is 60%. That is, in the example of FIG. 1, the token included in the cluster C11 is used by 1200 of the 2000 users in group B. Further, in the example of FIG. 1, as shown in the second cluster group CL12, the usage rate of the tokens included in the cluster C12 in the group B is 5%. That is, in the example of FIG. 1, the token included in the cluster C12 is used by 100 users out of 2000 users in the group B. Further, in the example of FIG. 1, as shown in the second cluster group CL12, the usage rate of the tokens included in the cluster C13 in the group B is 20%. That is, in the example of FIG. 1, the token included in the cluster C13 is used by 400 users of the 2000 users in the group B.

上記の使用率に関する情報を用いて抽出装置100は、グループAにおける使用率とグループBにおける使用率との差異に基づく評価値が所定の閾値以上であるクラスタを特徴クラスタとして抽出する。図1の例では、抽出装置100は、グループBにおける使用率に対するグループAにおける使用率の比(評価値)が3以上であるクラスタを特徴クラスタとして抽出する。 The extraction device 100 uses the above-mentioned information about the usage rate to extract, as a feature cluster, a cluster whose evaluation value based on the difference between the usage rate in the group A and the usage rate in the group B is equal to or more than a predetermined threshold value. In the example of FIG. 1, the extraction device 100 extracts a cluster in which the ratio (evaluation value) of the usage rate in the group A to the usage rate in the group B is 3 or more as a feature cluster.

例えば、抽出装置100は、クラスタC11については、グループAにおける使用率が80%であり、グループBにおける使用率が60%であるため、評価値が「1.33(=80/60)」となるため、クラスタC11を特徴クラスタとして抽出しない。また、例えば、抽出装置100は、クラスタC13については、グループAにおける使用率が20%であり、グループBにおける使用率が20%であるため、評価値が「1(=20/20)」となるため、クラスタC13を特徴クラスタとして抽出しない。 For example, in the extraction device 100, as for the cluster C11, the usage rate in the group A is 80% and the usage rate in the group B is 60%, and thus the evaluation value is “1.33 (=80/60)”. Therefore, the cluster C11 is not extracted as a feature cluster. Further, for example, in the extraction device 100, as for the cluster C13, the usage rate in the group A is 20% and the usage rate in the group B is 20%, so that the evaluation value is “1 (=20/20)”. Therefore, the cluster C13 is not extracted as a feature cluster.

また、例えば、抽出装置100は、クラスタC12については、グループAにおける使用率が60%であり、グループBにおける使用率が5%であるため、評価値が「12(=60/5)」となるため、クラスタC13を特徴クラスタとして抽出する。このように、抽出装置100は、A社のパソコンを購入したユーザに特徴的なクラスタを特徴クラスタとして抽出する。図1の例では、抽出装置100は、特徴クラスタ情報記憶部124に示すように、クラスタC12やクラスタC21のような評価値が3以上であるクラスタを特徴クラスタとして抽出する。 Further, for example, in the extraction device 100, for the cluster C12, the usage rate in the group A is 60%, and the usage rate in the group B is 5%, so that the evaluation value is “12 (=60/5)”. Therefore, the cluster C13 is extracted as a feature cluster. In this way, the extraction device 100 extracts a cluster characteristic of the user who purchased the personal computer of the company A as a characteristic cluster. In the example of FIG. 1, the extraction device 100 extracts, as the characteristic cluster information storage unit 124, a cluster having an evaluation value of 3 or more, such as the cluster C12 or the cluster C21, as a characteristic cluster.

上記のように、第1クラスタと第2クラスタとの差異に基づいて、第1クラスタから対象ユーザに特徴的な行動を示すクラスタである特徴クラスタを抽出することにより、抽出装置100は、特定のユーザに特徴的な情報を抽出することができる。また、抽出装置100は、抽出した特徴クラスタを外部の情報処理装置に提供してもよい。また、抽出装置100は、抽出した特徴クラスタに基づいて種々のサービスを提供してもよい。なお、抽出装置100による抽出した特徴クラスタに基づくサービスの提供についての詳細は後述する。また、上記の例では、行動情報としてクエリに含まれるトークンを用いる場合を示したが、抽出装置100は、ユーザの行動情報であればどのような情報を用いて上記のような特徴クラスタを抽出する処理を行ってもよい。例えば、抽出装置100は、ユーザの行動情報であって、その行動情報に対応するベクトルが取得可能であれば、どのような情報を用いて上記の抽出処理を行ってもよい。 As described above, the extraction device 100 extracts the characteristic cluster, which is a cluster showing the characteristic behavior of the target user, from the first cluster based on the difference between the first cluster and the second cluster. Information characteristic of the user can be extracted. The extraction device 100 may provide the extracted feature cluster to an external information processing device. The extraction device 100 may also provide various services based on the extracted feature cluster. The details of the service provision based on the feature cluster extracted by the extraction device 100 will be described later. Further, in the above example, the case where the token included in the query is used as the action information has been described, but the extraction device 100 extracts any of the above feature clusters using any information as long as it is the action information of the user. You may perform the process. For example, the extraction device 100 may perform the above extraction process using any information as long as it is the behavior information of the user and a vector corresponding to the behavior information can be acquired.

例えば、抽出装置100は、ユーザの移動を伴う行動情報に基づいて、ある場所へ行くことを所定の行動として、特徴クラスタを抽出してもよい。例えば、抽出装置100は、ユーザの移動を伴う行動情報に基づいて、場所A(例えば海やレストラン等)へ行ったユーザを対象ユーザとし、その対象ユーザが場所Aへ行く前の所定の期間の行動情報をクラスタリングした第1クラスタを用いて、特徴クラスタを抽出してもよい。この場合、例えば、抽出装置100は、場所Aへ行かなかったユーザを他のユーザとし、その他のユーザの所定の期間の行動情報をクラスタリングして、第2クラスタとして用いてもよい。また、例えば、抽出装置100は、ユーザの行動情報として、ユーザによる自動車等の運転に関する行動情報を用いてもよい。なお、上記は一例であり、抽出装置100は、上記の特徴クラスタの抽出処理が可能な情報であれば、どのような情報を用いて上記の特徴クラスタの抽出処理を行ってもよい。 For example, the extraction device 100 may extract the feature cluster based on the action information that accompanies the movement of the user, with the predetermined action of going to a certain place. For example, the extraction device 100 sets a user who has gone to the place A (for example, the sea, a restaurant, etc.) as a target user based on the action information that accompanies the movement of the user, and the target user has a predetermined period of time before going to the place A. The feature cluster may be extracted using the first cluster in which the behavior information is clustered. In this case, for example, the extraction device 100 may use a user who did not go to the place A as another user, cluster the behavior information of the other user for a predetermined period, and use the clustered information as the second cluster. In addition, for example, the extraction device 100 may use, as the user's action information, action information related to the user driving a car or the like. Note that the above is an example, and the extraction device 100 may perform the above-described feature cluster extraction processing by using any information as long as the information allows the above-described feature cluster extraction processing.

〔2.抽出装置の構成〕
次に、図2を用いて、実施形態に係る抽出装置100の構成について説明する。図2は、実施形態に係る抽出装置の構成例を示す図である。図2に示すように、抽出装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、抽出装置100は、各種の情報を表示する表示部や、各種の情報を入力する入力部を有してもよい。
[2. Configuration of extraction device]
Next, the configuration of the extraction device 100 according to the embodiment will be described with reference to FIG. FIG. 2 is a diagram illustrating a configuration example of the extraction device according to the embodiment. As shown in FIG. 2, the extraction device 100 includes a communication unit 110, a storage unit 120, and a control unit 130. The extraction device 100 may include a display unit that displays various types of information and an input unit that inputs various types of information.

(通信部110)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、所定のネットワークと有線または無線で接続され、端末装置10(図9参照)等の外部の情報処理装置との間で情報の送受信を行う。
(Communication unit 110)
The communication unit 110 is realized by, for example, a NIC (Network Interface Card) or the like. The communication unit 110 is connected to a predetermined network in a wired or wireless manner, and transmits/receives information to/from an external information processing device such as the terminal device 10 (see FIG. 9).

(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部120は、図2に示すように、ユーザ情報記憶部121と、検索履歴情報記憶部122と、ベクトル情報記憶部123と、特徴クラスタ情報記憶部124と、広告情報記憶部125とを有する。
(Storage unit 120)
The storage unit 120 is realized by, for example, a semiconductor memory device such as a RAM (Random Access Memory) or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk. As shown in FIG. 2, the storage unit 120 according to the embodiment has a user information storage unit 121, a search history information storage unit 122, a vector information storage unit 123, a feature cluster information storage unit 124, and an advertisement information storage unit. 125 and.

(ユーザ情報記憶部121)
実施形態に係るユーザ情報記憶部121は、ユーザ属性に関する各種情報を記憶する。例えば、ユーザ情報記憶部121は、ユーザ属性情報を記憶する。図3は、実施形態に係るユーザ情報記憶部の一例を示す図である。図3に示すユーザ情報記憶部121は、「ユーザID」、「グループ(A社パソコン購入有無)」、「年齢」、「性別」、「居住地」、「興味」といった項目が含まれる。
(User information storage unit 121)
The user information storage unit 121 according to the embodiment stores various information regarding user attributes. For example, the user information storage unit 121 stores user attribute information. FIG. 3 is a diagram illustrating an example of the user information storage unit according to the embodiment. The user information storage unit 121 shown in FIG. 3 includes items such as “user ID”, “group (whether or not a company A personal computer is purchased)”, “age”, “sex”, “place of residence”, and “interest”.

「ユーザID」は、ユーザを識別するための識別情報を示す。例えば、ユーザID「U1」により識別されるユーザは、図1の例に示したユーザU1に対応する。「グループ(A社パソコン購入有無)」は、対応するユーザがA社パソコン購入の有無に応じて属するグループを示す。また、「年齢」は、ユーザIDにより識別されるユーザの年齢を示す。なお、「年齢」は、例えば35歳など、ユーザIDにより識別されるユーザの具体的な年齢であってもよい。また、「性別」は、ユーザIDにより識別されるユーザの性別を示す。また、「居住地」は、ユーザIDにより識別されるユーザの居住する地域を示す。なお、「居住地」は、ユーザIDにより識別されるユーザの具体的な住所であってもよい。また、「興味」は、ユーザIDにより識別されるユーザが関心のある対象を示す。なお、「興味」は、複数登録されてもよい。 The “user ID” indicates identification information for identifying the user. For example, the user identified by the user ID “U1” corresponds to the user U1 shown in the example of FIG. “Group (Purchase of PC of A company)” indicates a group to which the corresponding user belongs according to whether or not the PC of A company is purchased. The "age" indicates the age of the user identified by the user ID. The “age” may be a specific age of the user identified by the user ID, such as 35 years old. Further, "sex" indicates the sex of the user identified by the user ID. In addition, "residential location" indicates an area where the user identified by the user ID resides. Note that the "residential place" may be a specific address of the user identified by the user ID. Further, "interest" indicates a target of interest to the user identified by the user ID. A plurality of “interests” may be registered.

例えば、図3に示す例において、ユーザID「U1」により識別されるユーザは、グループAに属するユーザであり、A社パソコンを購入したユーザであることを示す。また、ユーザID「U1」により識別されるユーザの年齢は、「30代」であり、性別は、「男性」であることを示す。また、例えば、図3に示す例において、ユーザID「U1」により識別されるユーザは、居住地が「地域A」であり、関心のある対象が「スポーツ」であることを示す。 For example, in the example shown in FIG. 3, the user identified by the user ID “U1” is a user belonging to the group A and a user who purchased the personal computer of company A. The age of the user identified by the user ID “U1” is “30s” and the gender is “male”. Further, for example, in the example illustrated in FIG. 3, the user identified by the user ID “U1” indicates that the place of residence is “region A” and the target of interest is “sports”.

なお、ユーザ情報記憶部121は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、ユーザ情報記憶部121は、ユーザのデモグラフィック属性に関する情報やサイコグラフィック属性に関する情報を記憶してもよい。例えば、ユーザ情報記憶部121は、氏名、家族構成、収入、ライフスタイル等の情報を記憶してもよい。 The user information storage unit 121 is not limited to the above, and may store various information according to the purpose. For example, the user information storage unit 121 may store information regarding the demographic attribute of the user and information regarding the psychographic attribute. For example, the user information storage unit 121 may store information such as name, family structure, income, and lifestyle.

(検索履歴情報記憶部122)
実施形態に係る検索履歴情報記憶部122は、検索に関する各種情報を記憶する。例えば、図4では、検索履歴情報記憶部122は、所定の検索システムにおいて使用されたクエリに関する情報を記憶する。図4に、実施形態に係る検索履歴情報記憶部122の一例を示す。図4に示す検索履歴情報記憶部122は、「検索クエリID」、「検索クエリ」、「入力ユーザ」、「日時」といった項目を有する。「検索クエリ」には、「トークン1」、「トークン2」といった項目が含まれる。
(Search history information storage unit 122)
The search history information storage unit 122 according to the embodiment stores various kinds of information regarding searches. For example, in FIG. 4, the search history information storage unit 122 stores information about queries used in a predetermined search system. FIG. 4 shows an example of the search history information storage unit 122 according to the embodiment. The search history information storage unit 122 illustrated in FIG. 4 has items such as “search query ID”, “search query”, “input user”, and “date and time”. The "search query" includes items such as "token 1" and "token 2".

「検索クエリID」は、クエリを識別するための識別情報を示す。「検索クエリ」の「トークン1」や「トークン2」は、対応するクエリに含まれるトークンを示す。「入力ユーザ」は、対応するクエリを入力(使用)したユーザを示す。また、「日時」は、対応するクエリが入力(使用)された日時を示す。 The “search query ID” indicates identification information for identifying the query. The "token 1" and "token 2" of the "search query" indicate the tokens included in the corresponding query. “Input user” indicates a user who has input (used) the corresponding query. Further, “date and time” indicates the date and time when the corresponding query was input (used).

図4の例では、検索クエリID「Q11」により識別されるクエリは、「パソコン」や「B社型番X」といったトークンを含むことを示す。また、検索クエリID「Q11」により識別されるクエリを用いたユーザがユーザU1であることを示す。また、検索クエリID「Q11」により識別されるクエリを用いた検索が日時DAに行われたことを示す。なお、図4の例では、日時DAのように日時を抽象的な記号で表記するが、例えば「2016年7月27日21時28分54秒」のような具体的な日時であってもよい。 In the example of FIG. 4, it is shown that the query identified by the search query ID “Q11” includes a token such as “personal computer” or “company B model number X”. It also indicates that the user who used the query identified by the search query ID “Q11” is the user U1. It also indicates that the search using the query identified by the search query ID “Q11” was performed on the date DA. In the example of FIG. 4, the date and time is represented by an abstract symbol such as the date and time DA, but a specific date and time such as “July 27, 2016, 21:28:54” may be used. Good.

なお、検索履歴情報記憶部122は、上記に限らず、目的に応じて種々の情報を記憶してもよい。 The search history information storage unit 122 is not limited to the above, and may store various information according to the purpose.

(ベクトル情報記憶部123)
実施形態に係るベクトル情報記憶部123は、各単語(トークン)のベクトル情報を記憶する。図5は、実施形態に係るベクトル情報記憶部の一例を示す図である。図5に示すように、ベクトル情報記憶部123は、各単語に関する情報を記憶する。具体的には、ベクトル情報記憶部123は、分散表現により学習された各単語の素性の重みに関する情報を記憶する。図5に示すように、ベクトル情報記憶部123は、ベクトル情報として、「単語ID」「単語(トークン)」、「素性1」〜「素性3」等の項目を有する。
(Vector information storage unit 123)
The vector information storage unit 123 according to the embodiment stores vector information of each word (token). FIG. 5 is a diagram illustrating an example of the vector information storage unit according to the embodiment. As shown in FIG. 5, the vector information storage unit 123 stores information about each word. Specifically, the vector information storage unit 123 stores information about the feature weight of each word learned by the distributed expression. As shown in FIG. 5, the vector information storage unit 123 has items such as “word ID”, “word (token)”, and “feature 1” to “feature 3” as vector information.

「単語ID」は、単語(トークン)を識別するための識別情報を示す。「単語(トークン)」は、対応する単語(トークン)を示す。「素性1」〜「素性3」は、対応する単語(トークン)の各素性の重みを示す。 The “word ID” indicates identification information for identifying a word (token). "Word (token)" indicates a corresponding word (token). "Feature 1" to "feature 3" indicate the weight of each feature of the corresponding word (token).

例えば、図5に示す例において、単語ID「W1」により識別されるトークン「パソコン」は、素性1の重みが「1.5」、素性2の重みが「0」、素性3の重みが「0.8」等であることを示す。例えば、各単語(トークン)がm次元のベクトルで表現される場合、素性数はm個になり、素性1〜素性mの重みが記憶される。 For example, in the example shown in FIG. 5, the token “PC” identified by the word ID “W1” has a feature 1 weight of “1.5”, a feature 2 weight of “0”, and a feature 3 weight of “0”. 0.8" or the like. For example, when each word (token) is represented by an m-dimensional vector, the number of features is m, and the weights of the features 1 to m are stored.

なお、ベクトル情報記憶部123は、上記に限らず、目的に応じて種々の情報を記憶してもよく、各単語(トークン)のベクトル表現であれば、どのような情報が記憶されてもよい。 The vector information storage unit 123 is not limited to the above, and may store various kinds of information according to the purpose, and any information may be stored as long as it is a vector expression of each word (token). ..

(特徴クラスタ情報記憶部124)
実施形態に係る特徴クラスタ情報記憶部124は、特徴クラスタに関する各種情報を記憶する。例えば、図6では、特徴クラスタ情報記憶部124は、特徴クラスタに関する情報を記憶する。図6に、実施形態に係る特徴クラスタ情報記憶部124の一例を示す。図6に示す特徴クラスタ情報記憶部124は、「クラスタID」、「トークン一覧」、「評価値(グループA)」といった項目を有する。トークン一覧には、「トークン1」〜「トークン4」等の項目が含まれる。
(Feature cluster information storage unit 124)
The feature cluster information storage unit 124 according to the embodiment stores various types of information regarding feature clusters. For example, in FIG. 6, the feature cluster information storage unit 124 stores information about feature clusters. FIG. 6 shows an example of the feature cluster information storage unit 124 according to the embodiment. The characteristic cluster information storage unit 124 illustrated in FIG. 6 has items such as “cluster ID”, “token list”, and “evaluation value (group A)”. The token list includes items such as "token 1" to "token 4".

「クラスタID」は、クラスタを識別するための識別情報を示す。「トークン一覧」の「トークン1」〜「トークン4」等は、対応するクラスタに属するトークンを示す。「評価値(グループA)」は、対応するクラスタの評価を示す。 “Cluster ID” indicates identification information for identifying a cluster. “Token 1” to “token 4” and the like in the “token list” indicate tokens belonging to the corresponding cluster. The “evaluation value (group A)” indicates the evaluation of the corresponding cluster.

図6の例では、クラスタID「C12」により識別されるクラスタC12が特徴クラスタとして抽出されていることを示す。また、クラスタC12は、「B社型番X」や「B社型番Y」や「ZAシリーズ」や「ZBシリーズ」といったトークンを含むことを示す。また、クラスタC12のグループAについての評価値は「12」であることを示す。 The example of FIG. 6 shows that the cluster C12 identified by the cluster ID “C12” is extracted as a feature cluster. Further, it is indicated that the cluster C12 includes tokens such as "B company model number X", "B company model number Y", "ZA series", and "ZB series". The evaluation value of the group A of the cluster C12 is “12”.

なお、特徴クラスタ情報記憶部124は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、特徴クラスタ情報記憶部124は、特徴クラスタを抽出した日時に関する情報を記憶してもよい。 The feature cluster information storage unit 124 is not limited to the above, and may store various information according to the purpose. For example, the feature cluster information storage unit 124 may store information regarding the date and time when the feature cluster was extracted.

(広告情報記憶部125)
実施形態に係る広告情報記憶部125は、広告に関する各種情報を記憶する。図7に、実施形態に係る広告情報記憶部125の一例を示す。図7に示す広告情報記憶部125は、「広告ID」、「広告コンテンツ」、「商品等」といった項目を有する。
(Advertisement information storage unit 125)
The advertisement information storage unit 125 according to the embodiment stores various information regarding advertisements. FIG. 7 shows an example of the advertisement information storage unit 125 according to the embodiment. The advertisement information storage unit 125 illustrated in FIG. 7 has items such as “advertisement ID”, “advertisement content”, and “product”.

「広告ID」は、広告を識別するための識別情報を示す。「広告コンテンツ」は、広告主や代理店等から入稿された広告を示す。図7では「広告コンテンツ」に「広告A」といった概念的な情報が格納される例を示したが、実際には、静止画像や動画像やテキストデータやURL、または、これらの格納場所を示すファイルパス名などが格納される。以下では、「広告主」といった表記は、広告主だけでなく代理店を含む概念であるものとする。「商品等」は、広告の対象となる商品やサービスを示す。なお、商品やサービスを識別する情報としては「商品等」に限らず、商品やサービスを識別するための「商品ID」等の情報を記憶してもよい。 The “advertisement ID” indicates identification information for identifying the advertisement. The “advertisement content” indicates an advertisement submitted by an advertiser, an agency, or the like. FIG. 7 shows an example in which conceptual information such as “advertisement A” is stored in “advertising content”, but actually, still images, moving images, text data, URLs, or storage locations of these are shown. File path name etc. are stored. In the following, the notation “advertiser” is a concept that includes not only the advertiser but also the agency. “Products and the like” indicate products and services targeted for advertisement. The information for identifying the product or service is not limited to the "product or the like", and information such as a "product ID" for identifying the product or the service may be stored.

例えば、図7に示す例において、広告ID「AC1」により識別される広告Aは、商品「A社パソコンXA」を対象とする広告であることを示す。 For example, in the example illustrated in FIG. 7, the advertisement A identified by the advertisement ID “AC1” indicates that the advertisement is for the product “Company A PC XA”.

なお、広告情報記憶部125は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、広告情報記憶部125は、入札価格に関する情報等を記憶してもよい。 The advertisement information storage unit 125 is not limited to the above, and may store various information according to the purpose. For example, the advertisement information storage unit 125 may store information regarding a bid price and the like.

(制御部130)
図2の説明に戻って、制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、抽出装置100内部の記憶装置に記憶されている各種プログラム(抽出プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
(Control unit 130)
Returning to the description of FIG. 2, the control unit 130 is a controller, and is stored in a storage device inside the extraction device 100 by, for example, a CPU (Central Processing Unit) or an MPU (Micro Processing Unit). It is realized by executing various programs (corresponding to an example of the extraction program) using the RAM as a work area. The control unit 130 is a controller, and is realized by an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).

図2に示すように、制御部130は、取得部131と、分類部132と、抽出部133と、配信部134とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図2に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。 As illustrated in FIG. 2, the control unit 130 includes an acquisition unit 131, a classification unit 132, an extraction unit 133, and a distribution unit 134, and realizes or executes the functions and actions of information processing described below. .. The internal configuration of the control unit 130 is not limited to the configuration shown in FIG. 2 and may be another configuration as long as it is a configuration for performing information processing described later.

(取得部131)
例えば、取得部131は、各種情報を取得する。例えば、取得部131は、ユーザ情報記憶部121からユーザに関する情報を取得する。また、例えば、取得部131は、検索履歴情報記憶部122から検索履歴に関する情報を取得する。また、例えば、取得部131は、ベクトル情報記憶部123から各単語(トークン)のベクトル情報を取得する。また、例えば、取得部131は、特徴クラスタ情報記憶部124から特徴クラスタに関する情報を取得する。また、例えば、取得部131は、広告情報記憶部125から広告に関する情報を取得する。例えば、取得部131は、所定の行動を行った対象ユーザが用いた検索クエリに関する情報と、所定の行動を行わなかった他のユーザが用いた検索クエリに関する情報とを取得する。例えば、取得部131は、対象ユーザの属性に類似する属性を有する他のユーザが用いた検索クエリに関する情報を取得する。例えば、取得部131は、対象ユーザが用いた検索クエリに関する情報として、対象ユーザが用いた検索クエリに含まれるトークンを取得し、他のユーザが用いた検索クエリに関する情報として、他のユーザが用いた検索クエリに含まれるトークンを取得する。例えば、取得部131は、所定の商品を購入した対象ユーザが用いた検索クエリに関する情報と、所定の商品を購入しなかった他のユーザが用いた検索クエリに関する情報とを取得する。
(Acquisition unit 131)
For example, the acquisition unit 131 acquires various kinds of information. For example, the acquisition unit 131 acquires information about the user from the user information storage unit 121. Further, for example, the acquisition unit 131 acquires information regarding the search history from the search history information storage unit 122. Further, for example, the acquisition unit 131 acquires vector information of each word (token) from the vector information storage unit 123. Further, for example, the acquisition unit 131 acquires information about the feature cluster from the feature cluster information storage unit 124. Further, for example, the acquisition unit 131 acquires information regarding an advertisement from the advertisement information storage unit 125. For example, the acquisition unit 131 acquires information regarding the search query used by the target user who has performed the predetermined action and information regarding the search query used by the other user who has not performed the predetermined action. For example, the acquisition unit 131 acquires information regarding a search query used by another user having an attribute similar to the attribute of the target user. For example, the acquisition unit 131 acquires the token included in the search query used by the target user as the information related to the search query used by the target user, and the token used by the other user is used as the information related to the search query used by the other user. Get the token included in the search query. For example, the acquisition unit 131 acquires information about a search query used by a target user who purchased a predetermined product and information about a search query used by another user who did not purchase the predetermined product.

例えば、取得部131は、所定の行動を行った対象ユーザの行動情報と、所定の行動を行わなかった他のユーザの行動情報とを取得する。例えば、取得部131は、所定の商品を購入した対象ユーザの行動情報と、所定の商品を購入しなかった他のユーザの行動情報とを取得する。例えば、取得部131は、対象ユーザの行動情報として、対象ユーザが用いた検索クエリに関する情報を取得し、他のユーザの行動情報として、他のユーザが用いた検索クエリに関する情報を取得する。例えば、取得部131は、対象ユーザの行動情報として、対象ユーザが用いた検索クエリに含まれるトークンを取得し、他のユーザの行動情報として、他のユーザが用いた検索クエリに含まれるトークンを取得する。 For example, the acquisition unit 131 acquires the action information of the target user who has performed the predetermined action and the action information of the other user who has not performed the predetermined action. For example, the acquisition unit 131 acquires the behavior information of the target user who purchased the predetermined product and the behavior information of another user who did not purchase the predetermined product. For example, the acquisition unit 131 acquires information regarding the search query used by the target user as the behavior information of the target user, and acquires information regarding the search query used by the other user as the behavior information of the other user. For example, the acquisition unit 131 acquires the token included in the search query used by the target user as the behavior information of the target user, and the token included in the search query used by the other user as the behavior information of the other user. get.

例えば、取得部131は、対象ユーザが検索に用いたクエリに関する情報を、検索履歴情報記憶部122から取得する。例えば、取得部131は、対象ユーザが検索に用いたクエリに含まれるトークンに関する情報を、検索履歴情報記憶部122から取得する。図1の例では、例えば、取得部131は、対象ユーザであるユーザU1の使用トークン情報TK1を、検索履歴情報記憶部122から取得する。 For example, the acquisition unit 131 acquires information regarding the query used by the target user for the search from the search history information storage unit 122. For example, the acquisition unit 131 acquires, from the search history information storage unit 122, information about the token included in the query used by the target user for the search. In the example of FIG. 1, for example, the acquisition unit 131 acquires the usage token information TK1 of the user U1 who is the target user from the search history information storage unit 122.

例えば、取得部131は、対象ユーザの属性に類似する属性を有する他のユーザの行動情報を取得する。例えば、取得部131は、対象ユーザ以外のユーザが検索に用いたクエリに含まれるトークンに関する情報を、検索履歴情報記憶部122から取得する。図1の例では、例えば、取得部131は、対象ユーザ以外のユーザであるユーザU3の使用トークン情報TK3を、検索履歴情報記憶部122から取得する。例えば、取得部131は、対象ユーザであるユーザU1の属性に類似する30代男性のユーザであるユーザU3の使用トークン情報TK3を取得する。また、取得部131は、各トークンのベクトル情報を外部の処理装置から取得してもよい。 For example, the acquisition unit 131 acquires the behavior information of another user having an attribute similar to the attribute of the target user. For example, the acquisition unit 131 acquires, from the search history information storage unit 122, information about the token included in the query used by the users other than the target user for the search. In the example of FIG. 1, for example, the acquisition unit 131 acquires the usage token information TK3 of the user U3 who is a user other than the target user from the search history information storage unit 122. For example, the acquisition unit 131 acquires the use token information TK3 of the user U3 who is a user in his thirties who is similar to the attribute of the user U1 who is the target user. The acquisition unit 131 may acquire the vector information of each token from an external processing device.

(分類部132)
分類部132は、種々の情報を分類する。分類部132は、対象ユーザの各行動情報間の類似度に基づいて対象ユーザの行動情報を第1クラスタに分類し、他のユーザの各行動情報間の類似度に基づいて他のユーザの行動情報を第2クラスタに分類する。例えば、分類部132は、対象ユーザの各行動情報に対応するベクトル間の類似度に基づいて対象ユーザの行動情報を第1クラスタに分類し、他のユーザの各行動情報に対応するベクトル間の類似度に基づいて他のユーザの行動情報を第2クラスタに分類する。例えば、分類部132は、対象ユーザが用いた各トークン間の類似度に基づいて対象ユーザが用いたトークンを第1クラスタに分類し、他のユーザが用いた各トークン間の類似度に基づいて他のユーザが用いたトークンを第2クラスタに分類する。例えば、分類部132は、対象ユーザが用いた各検索クエリに関する情報に対応するベクトル間の類似度に基づいて対象ユーザが用いた検索クエリに関する情報を第1クラスタに分類し、他のユーザが用いた各検索クエリに関する情報に対応するベクトル間の類似度に基づいて他のユーザが用いた検索クエリに関する情報を第2クラスタに分類する。
(Classification unit 132)
The classification unit 132 classifies various information. The classifying unit 132 classifies the behavior information of the target user into the first cluster based on the similarity between the behavior information of the target user, and the behavior of the other user based on the similarity between the behavior information of other users. Classify the information into the second cluster. For example, the classification unit 132 classifies the behavior information of the target user into the first cluster based on the degree of similarity between the vectors corresponding to the behavior information of the target user, and divides between the vectors corresponding to the behavior information of other users. The behavior information of other users is classified into the second cluster based on the similarity. For example, the classification unit 132 classifies the tokens used by the target user into the first cluster based on the similarity between the tokens used by the target user, and based on the similarity between the tokens used by other users. Tokens used by other users are classified into the second cluster. For example, the classification unit 132 classifies the information regarding the search query used by the target user into the first cluster based on the similarity between the vectors corresponding to the information regarding each search query used by the target user, and is used by other users. The information about the search query used by another user is classified into the second cluster based on the similarity between the vectors corresponding to the information about each search query.

例えば、分類部132は、単語(トークン)の類似度に関する情報を生成する。例えば、分類部132は、検索履歴情報記憶部122に記憶されたトークンに関する情報に基づいて、分散表現の学習を行い、各単語(トークン)の素性の重みをベクトル情報として生成する。例えば、分類部132は、非特許文献1の「word2vec」に関する技術に基づいて、分散表現の学習を行ってもよい。分類部132は、各単語(トークン)についてm次元の実数値ベクトルである単語ベクトル(例えば、「word embedding」等と称される)を導出する。例えば、各次元の実数値が、ベクトル情報における各素性の重みに対応する。このように、分類部132は、分散表現の学習によりトークンのベクトルに関する情報を生成する。なお、抽出装置100が各トークンのベクトル情報を外部の処理装置から取得する場合、分類部132はベクトル情報の生成を行わなくてもよい。 For example, the classification unit 132 generates information about the similarity of words (tokens). For example, the classification unit 132 learns the distributed expression based on the information about the token stored in the search history information storage unit 122, and generates the feature weight of each word (token) as vector information. For example, the classification unit 132 may perform learning of a distributed expression based on the technique related to “word2vec” in Non-Patent Document 1. The classifying unit 132 derives a word vector (for example, referred to as “word embedding” or the like) that is an m-dimensional real-valued vector for each word (token). For example, the real value of each dimension corresponds to the weight of each feature in the vector information. In this way, the classification unit 132 generates information about the vector of tokens by learning the distributed expression. When the extraction device 100 acquires the vector information of each token from an external processing device, the classification unit 132 does not have to generate the vector information.

図1の例では、分類部132は、グループAに含まれるユーザが用いたトークンをクラスタに分類する。具体的には、分類部132は、トークンの類似度に基づいて、グループAに含まれるユーザが用いたトークンを第1クラスタに分類する。分類部132は、各トークンに対応するベクトルの類似度に基づいて、グループAに含まれるユーザが用いたトークンを第1クラスタに分類する。 In the example of FIG. 1, the classification unit 132 classifies the tokens used by the users included in the group A into clusters. Specifically, the classification unit 132 classifies the tokens used by the users included in the group A into the first cluster based on the similarity of the tokens. The classification unit 132 classifies the tokens used by the users included in the group A into the first cluster based on the similarity of the vector corresponding to each token.

例えば、分類部132は、非特許文献1の「word2vec」に関する技術に基づいて導出された各トークンのベクトルの類似度に基づいて、グループAに含まれるユーザが用いたトークンを第1クラスタに分類する。また、例えば、分類部132は、上述した各トークンのベクトルやKmeans等の種々の従来技術を適宜用いて、グループAに含まれるユーザが用いたトークンを第1クラスタに分類する。例えば、分類部132は、クラスタ数が所定数(例えば1000個)になるように、グループAに含まれるユーザが用いたトークンを第1クラスタに分類する。 For example, the classifying unit 132 classifies the tokens used by the users included in the group A into the first cluster based on the similarity of the vector of each token derived based on the technique regarding “word2vec” in Non-Patent Document 1. To do. Further, for example, the classifying unit 132 classifies the tokens used by the users included in the group A into the first cluster by appropriately using various conventional techniques such as the vector of each token described above and Kmeans. For example, the classification unit 132 classifies the tokens used by the users included in the group A into the first cluster so that the number of clusters becomes a predetermined number (for example, 1000).

図1の例では、分類部132は、第1クラスタ群CL11に示すように、グループAに含まれるユーザが用いたトークンを第1クラスタに分類する。例えば、分類部132は、第1クラスタ群CL11中に示すように、「パソコン」や「ノートPC」や「PC」や「ノーパソ」といったトークンをクラスタC11として分類する。また、例えば、分類部132は、第1クラスタ群CL11中に示すように、「B社型番X」や「B社型番Y」や「ZAシリーズ」や「ZBシリーズ」といったトークンをクラスタC12として分類する。 In the example of FIG. 1, the classification unit 132 classifies the tokens used by the users included in the group A into the first cluster, as shown in the first cluster group CL11. For example, the classification unit 132 classifies tokens such as “personal computer”, “notebook PC”, “PC”, and “no-paso” as the cluster C11, as shown in the first cluster group CL11. In addition, for example, the classification unit 132 classifies tokens such as “company B model number X”, “company B model number Y”, “ZA series”, and “ZB series” as cluster C12 as shown in the first cluster group CL11. To do.

(抽出部133)
抽出部133は、種々の情報を抽出する。例えば、抽出部133は、第1クラスタと第2クラスタとの差異に基づいて、第1クラスタから対象ユーザに特徴的な行動を示すクラスタである特徴クラスタを抽出する。例えば、抽出部133は、対象ユーザのうち第1クラスタに属する行動情報に関する行動を行ったユーザの割合と、他のユーザのうち第2クラスタに属する行動情報に関する行動を行ったユーザの割合との比が所定の閾値以上の場合、第1クラスタを特徴クラスタとして抽出する。例えば、抽出部133は、対象ユーザのうち第1クラスタに属するトークンを用いた検索を行ったユーザの割合と、他のユーザのうち第2クラスタに属するトークンを用いた検索を行ったユーザの割合との比が所定の閾値以上の場合、第1クラスタを特徴クラスタとして抽出する。例えば、抽出部133は、対象ユーザのうち第1クラスタに属する検索クエリに関する情報を用いた検索を行ったユーザの割合と、他のユーザのうち第2クラスタに属する検索クエリに関する情報を用いた検索を行ったユーザの割合との比が所定の閾値以上の場合、第1クラスタを特徴クラスタとして抽出する。
(Extractor 133)
The extraction unit 133 extracts various information. For example, the extraction unit 133 extracts, from the first cluster, a characteristic cluster that is a cluster that shows a characteristic behavior of the target user, based on the difference between the first cluster and the second cluster. For example, the extraction unit 133 sets the ratio of the users who have acted on the behavior information belonging to the first cluster among the target users and the ratio of the users who have acted on the behavior information belonging to the second cluster among other users. When the ratio is equal to or larger than the predetermined threshold value, the first cluster is extracted as the feature cluster. For example, the extraction unit 133, among the target users, the ratio of the users who searched using the tokens belonging to the first cluster, and the ratio of the users who searched using the tokens belonging to the second cluster among other users. When the ratio of and is greater than or equal to a predetermined threshold value, the first cluster is extracted as a feature cluster. For example, the extraction unit 133 uses the ratio of users who have performed a search using the information regarding the search query belonging to the first cluster among the target users and the search using the information regarding the search query belonging to the second cluster among the other users. When the ratio to the ratio of users who have performed the above is greater than or equal to a predetermined threshold value, the first cluster is extracted as a feature cluster.

図1の例では、抽出部133は、第1クラスタ群CL11や第2クラスタ群CL12に示す各クラスタに属するトークンの使用率に関する情報に基づいて特徴クラスタを抽出する。例えば、抽出部133は、グループAにおける使用率とグループBにおける使用率との差異に基づく評価値が所定の閾値以上であるクラスタを特徴クラスタとして抽出する。例えば、抽出部133は、グループBにおける使用率に対するグループAにおける使用率の比(評価値)が3以上であるクラスタを特徴クラスタとして抽出する。また、例えば、抽出部133は、クラスタC12については、グループAにおける使用率が60%であり、グループBにおける使用率が5%であるため、評価値が「12(=60/5)」となるため、クラスタC12を特徴クラスタとして抽出する。例えば、抽出部133は、A社のパソコンを購入したユーザに特徴的なクラスタを特徴クラスタとして抽出する。図1の例では、抽出部133は、特徴クラスタ情報記憶部124に示すように、クラスタC12やクラスタC21のような評価値が3以上であるクラスタを特徴クラスタとして抽出する。 In the example of FIG. 1, the extraction unit 133 extracts the feature cluster based on the information regarding the usage rate of the tokens belonging to each cluster shown in the first cluster group CL11 and the second cluster group CL12. For example, the extraction unit 133 extracts, as a feature cluster, a cluster whose evaluation value based on the difference between the usage rate in the group A and the usage rate in the group B is equal to or greater than a predetermined threshold. For example, the extraction unit 133 extracts, as a characteristic cluster, a cluster in which the ratio (evaluation value) of the usage rate in the group A to the usage rate in the group B is 3 or more. Further, for example, with respect to the cluster C12, the extraction unit 133 has a usage rate of 60% in the group A and a usage rate of 5% in the group B, and thus the evaluation value is “12 (=60/5)”. Therefore, the cluster C12 is extracted as a feature cluster. For example, the extraction unit 133 extracts a cluster characteristic of the user who purchased the personal computer of the company A as a characteristic cluster. In the example of FIG. 1, the extraction unit 133 extracts, as the characteristic cluster information storage unit 124, a cluster having an evaluation value of 3 or more, such as the cluster C12 or the cluster C21, as a characteristic cluster.

また、抽出部133は、広告情報記憶部125から広告を抽出する。例えば、抽出部133は、取得部131が検索を行っているユーザが入力したクエリを取得した際に、クエリ中のトークンが特徴クラスタ情報記憶部124に記憶された特徴クラスタのトークンと一致する場合、特徴クラスタに対応する広告を抽出する。また、例えば、抽出部133は、取得部131が検索を行っているユーザが入力したクエリを取得した際に、クエリ中のトークンが特徴クラスタ情報記憶部124に記憶された特徴クラスタのトークンと一致しない場合、所定の基準に基づき広告を抽出する。例えば、抽出部133は、クエリ中のトークンが特徴クラスタ情報記憶部124に記憶された特徴クラスタのトークンと一致しない場合、各広告の入札価格やユーザに関する情報に基づき広告を抽出してもよい。 The extraction unit 133 also extracts an advertisement from the advertisement information storage unit 125. For example, when the extraction unit 133 acquires the query input by the user who is performing the search by the acquisition unit 131, the token in the query matches the token of the feature cluster stored in the feature cluster information storage unit 124. , Extract advertisements corresponding to feature clusters. Further, for example, when the acquisition unit 131 acquires the query input by the user who is performing the search, the extraction unit 133 matches the token in the query with the token of the feature cluster stored in the feature cluster information storage unit 124. If not, the advertisement is extracted based on a predetermined standard. For example, when the token in the query does not match the token of the feature cluster stored in the feature cluster information storage unit 124, the extraction unit 133 may extract the advertisement based on the bid price of each advertisement or information about the user.

(配信部134)
配信部134は、外部の情報処理装置に各種情報を送信する。例えば、配信部134は、抽出部133により抽出された特徴クラスタに含まれる行動情報に対応する行動を行ったユーザに所定の行動に関するコンテンツを配信する。例えば、配信部134は、抽出部133により抽出された特徴クラスタに含まれる行動情報に対応する行動を行ったユーザに所定の行動に関する広告を配信する。図1の例では、例えば、配信部134は、抽出部133により抽出された特徴クラスタ情報記憶部124に含まれるトークンを用いて検索を行ったユーザにA社のパソコンの広告を配信する。この点についての詳細は、後述する。例えば、配信部134は、抽出部133により抽出された広告を配信する。例えば、配信部134は、抽出部133により抽出された特徴クラスタに含まれる検索クエリに関する情報を用いた検索を行ったユーザに所定の行動に関するコンテンツを配信する。例えば、配信部134は、抽出部133により抽出された特徴クラスタに含まれる検索クエリに関する情報を用いた検索を行ったユーザに所定の行動に関する広告を配信する。
(Distribution unit 134)
The distribution unit 134 transmits various types of information to an external information processing device. For example, the delivery unit 134 delivers the content related to the predetermined action to the user who has performed the action corresponding to the action information included in the feature cluster extracted by the extraction unit 133. For example, the delivery unit 134 delivers an advertisement regarding a predetermined action to the user who has performed the action corresponding to the action information included in the feature cluster extracted by the extraction unit 133. In the example of FIG. 1, for example, the distribution unit 134 distributes the advertisement of the personal computer of the company A to the user who searched using the token included in the feature cluster information storage unit 124 extracted by the extraction unit 133. Details of this point will be described later. For example, the distribution unit 134 distributes the advertisement extracted by the extraction unit 133. For example, the distribution unit 134 distributes the content regarding the predetermined action to the user who has performed the search using the information regarding the search query included in the feature cluster extracted by the extraction unit 133. For example, the delivery unit 134 delivers an advertisement regarding a predetermined action to a user who has performed a search using the information regarding the search query included in the feature cluster extracted by the extraction unit 133.

〔3.抽出処理のフロー〕
次に、図8を用いて、実施形態に係る抽出装置100による抽出処理の手順について説明する。図8は、実施形態に係る抽出処理手順を示すフローチャートである。
[3. Extraction process flow]
Next, the procedure of the extraction processing by the extraction device 100 according to the embodiment will be described with reference to FIG. FIG. 8 is a flowchart showing an extraction processing procedure according to the embodiment.

図8に示すように、抽出装置100は、ユーザが検索に用いた検索クエリに関する情報を取得する(ステップS101)。例えば、抽出装置100は、対象ユーザの行動情報として、対象ユーザが用いた検索クエリに含まれるトークンを取得し、他のユーザの行動情報として、他のユーザが用いた検索クエリに含まれるトークンを取得する。その後、例えば、抽出装置100は、取得部131により取得されたトークンについて分散表現の学習等を行い、各トークンのベクトルに関する情報を生成する。なお、各トークンのベクトル情報が外部の処理装置から取得される場合、抽出装置100はベクトル情報の生成を行わなくてもよい。 As illustrated in FIG. 8, the extraction device 100 acquires information regarding the search query used by the user for the search (step S101). For example, the extraction device 100 acquires the token included in the search query used by the target user as the behavior information of the target user, and the token included in the search query used by the other user as the behavior information of the other user. get. Then, for example, the extraction device 100 performs distributed expression learning or the like on the token acquired by the acquisition unit 131, and generates information about the vector of each token. When the vector information of each token is acquired from the external processing device, the extraction device 100 does not have to generate the vector information.

そして、抽出装置100は、グループA(対象ユーザ群)のトークンを第1クラスタに分類する(ステップS102)。図1の例では、抽出装置100は、第1クラスタ群CL11に示すように、グループAに含まれるユーザが用いたトークンを第1クラスタに分類する。 Then, the extraction device 100 classifies the tokens of group A (target user group) into the first cluster (step S102). In the example of FIG. 1, the extraction device 100 classifies the tokens used by the users included in the group A into the first cluster, as shown in the first cluster group CL11.

また、抽出装置100は、グループB(非対象ユーザ群)のトークンを第2クラスタに分類する(ステップS103)。図1の例では、抽出装置100は、第2クラスタ群CL12に示すように、グループBに含まれるユーザが用いたトークンを第2クラスタに分類する。 Further, the extraction device 100 classifies the tokens of the group B (non-target user group) into the second cluster (step S103). In the example of FIG. 1, the extraction device 100 classifies the tokens used by the users included in the group B into the second cluster, as shown in the second cluster group CL12.

その後、抽出装置100は、第1クラスタと第2クラスタとに基づいて特徴クラスタを抽出する(ステップS104)。図1の例では、抽出装置100は、特徴クラスタ情報記憶部124に示すように、クラスタC12やクラスタC21のような評価値が3以上であるクラスタを特徴クラスタとして抽出する。 Then, the extraction device 100 extracts a feature cluster based on the first cluster and the second cluster (step S104). In the example of FIG. 1, the extraction device 100 extracts, as the characteristic cluster information storage unit 124, a cluster having an evaluation value of 3 or more, such as the cluster C12 or the cluster C21, as a characteristic cluster.

〔4.広告配信処理〕
次に、図9を用いて、実施形態に係る抽出装置100による広告配信処理について説明する。図9は、実施形態に係る広告配信処理の一例を示す図である。図9の例では、ユーザU11が検索を行う際に入力したクエリに基づく広告を配信する場合を示す。
[4. Advertising distribution processing]
Next, the advertisement distribution process by the extraction device 100 according to the embodiment will be described with reference to FIG. 9. FIG. 9 is a diagram illustrating an example of the advertisement distribution process according to the embodiment. The example of FIG. 9 shows a case where an advertisement based on a query input by the user U11 when performing a search is delivered.

まず、抽出装置100は、ユーザU11が利用する端末装置10からクエリを取得する(ステップS21)。図9の例では、抽出装置100は、端末装置10からクエリ「ZAシリーズ」を取得する。図9に示す例において、ユーザU11は、端末装置10の画面に表示された検索画面を表示するページW11中の検索窓にクエリ「ZAシリーズ」を入力し、検索ボタンを押下する。そして、端末装置10は、抽出装置100へ検索クエリ「ZAシリーズ」を送信する。 First, the extraction device 100 acquires a query from the terminal device 10 used by the user U11 (step S21). In the example of FIG. 9, the extraction device 100 acquires the query “ZA series” from the terminal device 10. In the example illustrated in FIG. 9, the user U11 inputs the query “ZA series” in the search window in the page W11 that displays the search screen displayed on the screen of the terminal device 10, and presses the search button. Then, the terminal device 10 transmits the search query “ZA series” to the extraction device 100.

その後、抽出装置100は、取得した検索クエリ「ZAシリーズ」に基づいて、広告を抽出する(ステップS22)。例えば、抽出装置100は、取得した検索クエリ「ZAシリーズ」に含まれるトークンである「ZAシリーズ」が、特徴クラスタ情報記憶部124中のトークンと一致するかに応じて、広告を抽出する。図9の例では、抽出装置100は、広告リストAL11に示すように、トークン「ZAシリーズ」が特徴クラスタ情報記憶部124中のトークンと一致するため、A社のパソコンXAに関する広告Aを抽出する。 Then, the extraction device 100 extracts the advertisement based on the acquired search query “ZA series” (step S22). For example, the extraction device 100 extracts an advertisement depending on whether the token “ZA series” included in the acquired search query “ZA series” matches the token in the feature cluster information storage unit 124. In the example of FIG. 9, the extraction device 100 extracts the advertisement A regarding the personal computer XA of the company A because the token “ZA series” matches the token in the feature cluster information storage unit 124, as shown in the advertisement list AL11. ..

その後、抽出装置100は、ユーザU11が利用する端末装置10へ抽出した広告を配信する(ステップS23)。図9の例では、抽出装置100は、ユーザU11が利用する端末装置10へA社のパソコンXAに関する広告Aを配信する(ステップS23)。 After that, the extraction device 100 delivers the extracted advertisement to the terminal device 10 used by the user U11 (step S23). In the example of FIG. 9, the extraction device 100 delivers the advertisement A regarding the personal computer XA of the company A to the terminal device 10 used by the user U11 (step S23).

上記のように、抽出装置100は、対象ユーザに特徴的なトークンを使用して検索を行ったユーザに対して、A社のパソコンに関する広告を配信することにより、広告効果を向上させることができる。例えば、抽出装置100は、A社のパソコンを購入したユーザに特徴的なトークンが使用された場合、その検索を行ったユーザに対してしてA社のパソコンに関する広告を配信することにより、広告効果を向上させることができる。 As described above, the extraction device 100 can improve the advertising effect by distributing the advertisement regarding the personal computer of the company A to the user who has searched using the token characteristic of the target user. .. For example, when a token that is characteristic of a user who has purchased a personal computer of company A is used, the extraction device 100 distributes an advertisement relating to the personal computer of company A to the user who performed the search, thereby advertising. The effect can be improved.

〔5.広告配信処理のフロー〕
次に、図10を用いて、実施形態に係る抽出装置100による広告配信処理の手順について説明する。図10は、実施形態に係る広告配信処理手順を示すフローチャートである。
[5. Flow of advertisement distribution processing]
Next, with reference to FIG. 10, a procedure of advertisement distribution processing by the extraction device 100 according to the embodiment will be described. FIG. 10 is a flowchart showing an advertisement distribution processing procedure according to the embodiment.

図10に示すように、抽出装置100は、検索クエリを取得する(ステップS201)。そして、抽出装置100は、検索クエリ中のトークンが特徴クラスタのトークンと一致する場合(ステップS202:Yes)、特徴クラスタに対応する広告を抽出する(ステップS203)。 As illustrated in FIG. 10, the extraction device 100 acquires a search query (step S201). Then, when the token in the search query matches the token of the feature cluster (step S202: Yes), the extraction device 100 extracts the advertisement corresponding to the feature cluster (step S203).

一方、抽出装置100は、検索クエリ中のトークンが特徴クラスタのトークンと一致しない場合(ステップS202:No)、所定の基準に基づき広告を抽出する(ステップS204)。その後、抽出装置100は、抽出した広告を配信する(ステップS205)。 On the other hand, when the token in the search query does not match the token of the feature cluster (step S202: No), the extraction device 100 extracts the advertisement based on a predetermined criterion (step S204). Then, the extraction device 100 delivers the extracted advertisement (step S205).

〔6.効果〕
上述してきたように、実施形態に係る抽出装置100は、取得部131と、分類部132と、抽出部133とを有する。取得部131は、所定の行動を行った対象ユーザが用いた検索クエリに関する情報と、所定の行動を行わなかった他のユーザが用いた検索クエリに関する情報とを取得する。分類部132は、対象ユーザが用いた各検索クエリに関する情報に対応するベクトル間の類似度に基づいて対象ユーザが用いた検索クエリに関する情報を第1クラスタに分類し、他のユーザが用いた各検索クエリに関する情報に対応するベクトル間の類似度に基づいて他のユーザが用いた検索クエリに関する情報を第2クラスタに分類する。抽出部133は、第1クラスタと第2クラスタとの差異に基づいて、第1クラスタから対象ユーザに特徴的な行動を示すクラスタである特徴クラスタを抽出する。
[6. effect〕
As described above, the extraction device 100 according to the embodiment has the acquisition unit 131, the classification unit 132, and the extraction unit 133. The acquisition unit 131 acquires information about a search query used by a target user who has performed a predetermined action and information about a search query used by another user who has not performed a predetermined action. The classifying unit 132 classifies the information about the search query used by the target user into the first cluster based on the similarity between the vectors corresponding to the information about each search query used by the target user, and uses each of the information used by other users. Information regarding a search query used by another user is classified into the second cluster based on the similarity between vectors corresponding to the information regarding a search query. The extraction unit 133 extracts, from the first cluster, a characteristic cluster that is a cluster that shows a characteristic behavior of the target user, based on the difference between the first cluster and the second cluster.

これにより、実施形態に係る抽出装置100は、第1クラスタと第2クラスタとの差異に基づいて、第1クラスタから対象ユーザに特徴的な行動を示すクラスタである特徴クラスタを抽出することにより、特定のユーザに特徴的な情報を抽出することができる。 Thereby, the extraction device 100 according to the embodiment extracts a characteristic cluster, which is a cluster showing a characteristic behavior of the target user, from the first cluster based on the difference between the first cluster and the second cluster. Information characteristic of a particular user can be extracted.

また、実施形態に係る抽出装置100において、抽出部133は、対象ユーザのうち第1クラスタに属する検索クエリに関する情報を用いた検索を行ったユーザの割合と、他のユーザのうち第2クラスタに属する検索クエリに関する情報を用いた検索を行ったユーザの割合との比が所定の閾値以上の場合、第1クラスタを特徴クラスタとして抽出する。 Further, in the extraction device 100 according to the embodiment, the extraction unit 133 sets the ratio of the users who have performed the search using the information regarding the search query belonging to the first cluster among the target users and the second cluster among the other users. When the ratio to the ratio of users who have performed a search using the information about the belonging search query is equal to or greater than a predetermined threshold value, the first cluster is extracted as a feature cluster.

これにより、実施形態に係る抽出装置100は、対象ユーザのうち第1クラスタに属する検索クエリに関する情報を用いた検索を行ったユーザの割合と、他のユーザのうち第2クラスタに属する検索クエリに関する情報を用いた検索を行ったユーザの割合との比が所定の閾値以上の場合、第1クラスタを特徴クラスタとして抽出することにより、特定のユーザに特徴的な情報を抽出することができる。 As a result, the extraction device 100 according to the embodiment relates to the ratio of users who have performed a search using the information about the search query belonging to the first cluster among the target users and the search query belonging to the second cluster among other users. When the ratio to the ratio of users who have searched using information is equal to or greater than a predetermined threshold value, the characteristic information of a specific user can be extracted by extracting the first cluster as a characteristic cluster.

また、実施形態に係る抽出装置100において、取得部131は、対象ユーザの属性に類似する属性を有する他のユーザが用いた検索クエリに関する情報を取得する。 Further, in the extraction device 100 according to the embodiment, the acquisition unit 131 acquires information regarding a search query used by another user having an attribute similar to the attribute of the target user.

これにより、実施形態に係る抽出装置100は、対象ユーザの属性に類似する属性を有するユーザとの差異に基づくことにより、特定のユーザに特徴的な情報を抽出することができる。 Thereby, the extraction device 100 according to the embodiment can extract characteristic information of a specific user based on the difference from the user having an attribute similar to the attribute of the target user.

また、実施形態に係る抽出装置100は、配信部134を有する。配信部134は、抽出部133により抽出された特徴クラスタに含まれる検索クエリに関する情報を用いた検索を行ったユーザに所定の行動に関するコンテンツを配信する。 In addition, the extraction device 100 according to the embodiment has a distribution unit 134. The distribution unit 134 distributes the content regarding the predetermined action to the user who has performed the search using the information regarding the search query included in the feature cluster extracted by the extraction unit 133.

これにより、実施形態に係る抽出装置100は、抽出した特徴クラスタに含まれる検索クエリに関する情報を用いた検索を行ったユーザに所定の行動に関するコンテンツを配信することにより、特定のユーザに特徴的な情報に基づいて適切なコンテンツを配信することができる。 As a result, the extraction device 100 according to the embodiment distributes the content related to the predetermined action to the user who has performed the search using the information related to the search query included in the extracted feature cluster, and thereby the characteristic of the specific user is characteristic. Appropriate content can be delivered based on the information.

また、実施形態に係る抽出装置100において、配信部134は、抽出部133により抽出された特徴クラスタに含まれる検索クエリに関する情報を用いた検索を行ったユーザに所定の行動に関する広告を配信する。 Further, in the extraction device 100 according to the embodiment, the distribution unit 134 distributes an advertisement regarding a predetermined action to a user who has performed a search using information about a search query included in the feature cluster extracted by the extraction unit 133.

これにより、実施形態に係る抽出装置100は、抽出した特徴クラスタに含まれる検索クエリに関する情報を用いた検索を行ったユーザに所定の行動に関する広告を配信することにより、特定のユーザに特徴的な情報に基づいて適切な広告を配信することができる。 As a result, the extraction device 100 according to the embodiment distributes an advertisement regarding a predetermined action to a user who has performed a search using the information regarding the search query included in the extracted feature cluster, and thus is characteristic for a specific user. Appropriate advertisements can be delivered based on the information.

また、実施形態に係る抽出装置100において、取得部131は、対象ユーザが用いた検索クエリに関する情報として、対象ユーザが用いた検索クエリに含まれるトークンを取得し、他のユーザが用いた検索クエリに関する情報として、他のユーザが用いた検索クエリに含まれるトークンを取得する。分類部132は、対象ユーザが用いた各トークン間の類似度に基づいて対象ユーザが用いたトークンを第1クラスタに分類し、他のユーザが用いた各トークン間の類似度に基づいて他のユーザが用いたトークンを第2クラスタに分類する。 Further, in the extraction device 100 according to the embodiment, the acquisition unit 131 acquires the token included in the search query used by the target user as the information regarding the search query used by the target user, and the search query used by another user. As information regarding the above, a token included in a search query used by another user is acquired. The classifying unit 132 classifies the tokens used by the target user into the first cluster based on the similarity between the tokens used by the target user, and determines other tokens based on the similarity between the tokens used by other users. The tokens used by the user are classified into the second cluster.

これにより、実施形態に係る抽出装置100は、対象ユーザが用いた検索クエリに関する情報として、対象ユーザが用いた検索クエリに含まれるトークンを用い、他のユーザが用いた検索クエリに関する情報として、他のユーザが用いた検索クエリに含まれるトークンを用いることにより、特定のユーザに特徴的なトークンを抽出することができる。 Thereby, the extraction device 100 according to the embodiment uses the token included in the search query used by the target user as the information regarding the search query used by the target user, and the information regarding the search query used by another user as By using the token included in the search query used by the user, it is possible to extract the token characteristic of the specific user.

また、実施形態に係る抽出装置100において、抽出部133は、対象ユーザのうち第1クラスタに属するトークンを用いた検索を行ったユーザの割合と、他のユーザのうち第2クラスタに属するトークンを用いた検索を行ったユーザの割合との比が所定の閾値以上の場合、第1クラスタを特徴クラスタとして抽出する。 In addition, in the extraction device 100 according to the embodiment, the extraction unit 133 determines the ratio of users who have searched using the tokens belonging to the first cluster among the target users and the tokens belonging to the second cluster among other users. If the ratio of the used search to the ratio of users is equal to or greater than a predetermined threshold, the first cluster is extracted as a feature cluster.

これにより、実施形態に係る抽出装置100は、対象ユーザのうち第1クラスタに属するトークンを用いた検索を行ったユーザの割合と、他のユーザのうち第2クラスタに属するトークンを用いた検索を行ったユーザの割合との比が所定の閾値以上の場合、第1クラスタを特徴クラスタとして抽出することにより、特定のユーザに特徴的なトークンを抽出することができる。 As a result, the extraction device 100 according to the embodiment performs a search using the token belonging to the second cluster among other users and the ratio of the users who performed the search using the token belonging to the first cluster among the target users. When the ratio to the ratio of users who have performed is a predetermined threshold value or more, by extracting the first cluster as a feature cluster, it is possible to extract a token characteristic of a specific user.

また、実施形態に係る抽出装置100において、取得部131は、所定の商品を購入した対象ユーザが用いた検索クエリに関する情報と、所定の商品を購入しなかった他のユーザが用いた検索クエリに関する情報とを取得する。 Further, in the extraction device 100 according to the embodiment, the acquisition unit 131 relates to information about a search query used by a target user who purchased a predetermined product and a search query used by another user who did not purchase the predetermined product. Get information and.

これにより、実施形態に係る抽出装置100は、所定の商品を購入した対象ユーザが用いた検索クエリに関する情報と、所定の商品を購入しなかった他のユーザが用いた検索クエリに関する情報を用いることにより、所定の商品を購入したユーザに特徴的な情報を抽出することができる。 Thereby, the extraction device 100 according to the embodiment uses the information about the search query used by the target user who purchased the predetermined product and the information about the search query used by the other user who did not purchase the predetermined product. This makes it possible to extract information characteristic of the user who purchased the predetermined product.

〔7.ハードウェア構成〕
上述してきた実施形態に係る抽出装置100は、例えば図11に示すような構成のコンピュータ1000によって実現される。図11は、抽出装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
[7. Hardware configuration]
The extraction device 100 according to the above-described embodiment is realized by, for example, a computer 1000 configured as shown in FIG. FIG. 11 is a hardware configuration diagram illustrating an example of a computer that realizes the function of the extraction device. The computer 1000 has a CPU 1100, a RAM 1200, a ROM 1300, an HDD 1400, a communication interface (I/F) 1500, an input/output interface (I/F) 1600, and a media interface (I/F) 1700.

CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。 The CPU 1100 operates based on a program stored in the ROM 1300 or the HDD 1400, and controls each part. The ROM 1300 stores a boot program executed by the CPU 1100 when the computer 1000 starts up, a program dependent on the hardware of the computer 1000, and the like.

HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、所定のネットワークNを介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを所定のネットワークNを介して他の機器へ送信する。 The HDD 1400 stores programs executed by the CPU 1100, data used by the programs, and the like. The communication interface 1500 receives data from another device via the predetermined network N, sends the data to the CPU 1100, and transmits the data generated by the CPU 1100 to the other device via the predetermined network N.

CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。 The CPU 1100 controls output devices such as a display and a printer and input devices such as a keyboard and a mouse via the input/output interface 1600. The CPU 1100 acquires data from the input device via the input/output interface 1600. Further, the CPU 1100 outputs the generated data to the output device via the input/output interface 1600.

メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。 The media interface 1700 reads a program or data stored in the recording medium 1800 and provides the program or data to the CPU 1100 via the RAM 1200. The CPU 1100 loads the program from the recording medium 1800 onto the RAM 1200 via the media interface 1700, and executes the loaded program. The recording medium 1800 is, for example, an optical recording medium such as a DVD (Digital Versatile Disc) and a PD (Phase change rewritable Disk), a magneto-optical recording medium such as an MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory. Etc.

例えば、コンピュータ1000が実施形態に係る抽出装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から所定のネットワークを介してこれらのプログラムを取得してもよい。 For example, when the computer 1000 functions as the extraction device 100 according to the embodiment, the CPU 1100 of the computer 1000 realizes the function of the control unit 130 by executing the program loaded on the RAM 1200. The CPU 1100 of the computer 1000 reads these programs from the recording medium 1800 and executes them, but as another example, these programs may be acquired from another device via a predetermined network.

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の行に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。 As described above, some of the embodiments of the present application have been described in detail based on the drawings, but these are examples, and various modifications based on the knowledge of those skilled in the art, starting from the aspect described in the row of the disclosure of the invention, It is possible to implement the present invention in other forms with improvements.

〔8.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
[8. Other]
Further, of the processes described in the above embodiment, all or part of the processes described as being automatically performed may be manually performed, or the processes described as manually performed may be performed. All or part of the process can be automatically performed by a known method. In addition, the processing procedures, specific names, information including various data and parameters shown in the above-mentioned documents and drawings can be arbitrarily changed unless otherwise specified. For example, the various information shown in each drawing is not limited to the illustrated information. Further, each component of each device shown in the drawings is functionally conceptual and does not necessarily have to be physically configured as shown. That is, the specific form of distribution/integration of each device is not limited to that shown in the figure, and all or part of the device may be functionally or physically distributed/arranged in arbitrary units according to various loads and usage conditions. It can be integrated and configured.

また、上述してきた実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。 In addition, the above-described embodiments can be appropriately combined within the range in which the processing content is not inconsistent.

また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。 Further, the "section (module, unit)" described above can be read as "means" or "circuit". For example, the acquisition unit can be read as an acquisition unit or an acquisition circuit.

100 抽出装置
121 ユーザ情報記憶部
122 検索履歴情報記憶部
123 ベクトル情報記憶部
124 特徴クラスタ情報記憶部
125 広告情報記憶部
130 制御部
131 取得部
132 分類部
133 抽出部
134 配信部
100 extraction device 121 user information storage unit 122 search history information storage unit 123 vector information storage unit 124 feature cluster information storage unit 125 advertisement information storage unit 130 control unit 131 acquisition unit 132 classification unit 133 extraction unit 134 distribution unit

Claims (10)

ユーザ情報記憶部に記憶されるユーザ群のうち、所定の行動を行った対象ユーザが用いた検索クエリに関する情報と、前記ユーザ群のうち、前記所定の行動を行わなかった他のユーザが用いた検索クエリに関する情報とを検索履歴情報記憶部から取得する取得部と、
前記対象ユーザが用いた各検索クエリに関する情報に対応するベクトル間の類似度に基づいて前記対象ユーザが用いた検索クエリに関する情報を第1クラスタに分類し、前記他のユーザが用いた各検索クエリに関する情報に対応するベクトル間の類似度に基づいて前記他のユーザが用いた検索クエリに関する情報を第2クラスタに分類する分類部と、
前記第1クラスタと前記第2クラスタとの差異に基づいて、前記第1クラスタから前記対象ユーザに特徴的な行動を示すクラスタである特徴クラスタを抽出する抽出部と、
を備えることを特徴とする抽出装置。
Information regarding the search query used by the target user who has performed a predetermined action among the user group stored in the user information storage unit and used by another user who has not performed the predetermined action among the user group An acquisition unit that acquires information about the search query from the search history information storage unit ,
The information about the search query used by the target user is classified into the first cluster based on the similarity between the vectors corresponding to the information about the search query used by the target user, and the search queries used by the other users are classified. A classifying unit that classifies information about a search query used by the other user into a second cluster based on the similarity between vectors corresponding to the information about
An extraction unit for extracting a characteristic cluster, which is a cluster showing a characteristic behavior of the target user, from the first cluster based on the difference between the first cluster and the second cluster;
An extraction device comprising:
前記抽出部は、
前記対象ユーザのうち前記第1クラスタに属する検索クエリに関する情報を用いた検索を行ったユーザの割合と、前記他のユーザのうち前記第2クラスタに属する検索クエリに関する情報を用いた検索を行ったユーザの割合との比が所定の閾値以上の場合、前記第1クラスタを前記特徴クラスタとして抽出する
ことを特徴とする請求項1に記載の抽出装置。
The extraction unit is
Among the target users, a ratio of users who performed a search using information about a search query belonging to the first cluster, and a search using information about a search query belonging to the second cluster among the other users was performed. The extraction device according to claim 1, wherein the first cluster is extracted as the feature cluster when the ratio to the user ratio is equal to or greater than a predetermined threshold value.
前記取得部は、
前記対象ユーザの属性に類似する属性を有する前記他のユーザが用いた検索クエリに関する情報を取得する
ことを特徴とする請求項1または請求項2に記載の抽出装置。
The acquisition unit is
The extraction device according to claim 1 or 2, wherein information regarding a search query used by the other user having an attribute similar to the attribute of the target user is acquired.
前記抽出部により抽出された前記特徴クラスタに含まれる検索クエリに関する情報を用いた検索を行ったユーザに前記所定の行動に関するコンテンツを配信する配信部、
をさらに備えることを特徴とする請求項1〜3のいずれか1項に記載の抽出装置。
A distribution unit that distributes the content related to the predetermined action to the user who performed the search using the information related to the search query included in the feature cluster extracted by the extraction unit,
The extraction device according to claim 1, further comprising:
前記配信部は、
前記抽出部により抽出された前記特徴クラスタに含まれる検索クエリに関する情報を用いた検索を行ったユーザに前記所定の行動に関する広告を配信する
ことを特徴とする請求項4に記載の抽出装置。
The delivery unit is
The extraction device according to claim 4, wherein an advertisement regarding the predetermined action is delivered to a user who has performed a search using information regarding a search query included in the feature cluster extracted by the extraction unit.
前記取得部は、
前記対象ユーザが用いた検索クエリに関する情報として、前記対象ユーザが用いた検索クエリに含まれるトークンを取得し、前記他のユーザが用いた検索クエリに関する情報として、前記他のユーザが用いた検索クエリに含まれるトークンを取得し、
前記分類部は、
前記対象ユーザが用いた各トークン間の類似度に基づいて前記対象ユーザが用いたトークンを第1クラスタに分類し、前記他のユーザが用いた各トークン間の類似度に基づいて前記他のユーザが用いたトークンを第2クラスタに分類する
ことを特徴とする請求項1〜5のいずれか1項に記載の抽出装置。
The acquisition unit is
As information on the search query used by the target user, a token included in the search query used by the target user is acquired, and as the information on the search query used by the other user, the search query used by the other user Get the token contained in
The classification unit is
The token used by the target user is classified into a first cluster based on the similarity between the tokens used by the target user, and the other user is based on the similarity between the tokens used by the other user. The extraction device according to any one of claims 1 to 5, characterized in that the token used by is classified into a second cluster.
前記抽出部は、
前記対象ユーザのうち前記第1クラスタに属するトークンを用いた検索を行ったユーザの割合と、前記他のユーザのうち前記第2クラスタに属するトークンを用いた検索を行ったユーザの割合との比が所定の閾値以上の場合、前記第1クラスタを前記特徴クラスタとして抽出する
ことを特徴とする請求項6に記載の抽出装置。
The extraction unit is
Ratio of the ratio of the users who searched using the tokens belonging to the first cluster to the target users and the ratio of the users who searched using the tokens belonging to the second cluster among the other users Is equal to or larger than a predetermined threshold, the first cluster is extracted as the feature cluster.
前記取得部は、
所定の商品を購入した前記対象ユーザが用いた検索クエリに関する情報と、前記所定の商品を購入しなかった前記他のユーザが用いた検索クエリに関する情報とを取得する
ことを特徴とする請求項1〜7のいずれか1項に記載の抽出装置。
The acquisition unit is
The information about the search query used by the target user who purchased a predetermined product and the information about the search query used by the other user who did not purchase the predetermined product are acquired. The extraction device according to any one of 1 to 7.
コンピュータが実行する抽出方法であって、
ユーザ情報記憶部に記憶されるユーザ群のうち、所定の行動を行った対象ユーザが用いた検索クエリに関する情報と、前記ユーザ群のうち、前記所定の行動を行わなかった他のユーザが用いた検索クエリに関する情報とを検索履歴情報記憶部から取得する取得工程と、
前記対象ユーザが用いた各検索クエリに関する情報に対応するベクトル間の類似度に基づいて前記対象ユーザが用いた検索クエリに関する情報を第1クラスタに分類し、前記他のユーザが用いた各検索クエリに関する情報に対応するベクトル間の類似度に基づいて前記他のユーザが用いた検索クエリに関する情報を第2クラスタに分類する分類工程と、
前記第1クラスタと前記第2クラスタとの差異に基づいて、前記第1クラスタから前記対象ユーザに特徴的な行動を示すクラスタである特徴クラスタを抽出する抽出工程と、
を含むことを特徴とする抽出方法。
A computer-implemented extraction method,
Information regarding the search query used by the target user who has performed a predetermined action among the user group stored in the user information storage unit and used by another user who has not performed the predetermined action among the user group An acquisition step of acquiring information about the search query from the search history information storage unit ,
The information about the search query used by the target user is classified into the first cluster based on the similarity between the vectors corresponding to the information about the search query used by the target user, and the search queries used by the other users are classified. A step of classifying information about a search query used by the other user into a second cluster based on a similarity between vectors corresponding to the information about
An extraction step of extracting, from the first cluster, a characteristic cluster that is a cluster showing a characteristic behavior of the target user, based on a difference between the first cluster and the second cluster;
An extraction method comprising:
ユーザ情報記憶部に記憶されるユーザ群のうち、所定の行動を行った対象ユーザが用いた検索クエリに関する情報と、前記ユーザ群のうち、前記所定の行動を行わなかった他のユーザが用いた検索クエリに関する情報とを検索履歴情報記憶部から取得する取得手順と、
前記対象ユーザが用いた各検索クエリに関する情報に対応するベクトル間の類似度に基づいて前記対象ユーザが用いた検索クエリに関する情報を第1クラスタに分類し、前記他のユーザが用いた各検索クエリに関する情報に対応するベクトル間の類似度に基づいて前記他のユーザが用いた検索クエリに関する情報を第2クラスタに分類する分類手順と、
前記第1クラスタと前記第2クラスタとの差異に基づいて、前記第1クラスタから前記対象ユーザに特徴的な行動を示すクラスタである特徴クラスタを抽出する抽出手順と、
をコンピュータに実行させることを特徴とする抽出プログラム。
Information regarding the search query used by the target user who has performed a predetermined action among the user group stored in the user information storage unit and used by another user who has not performed the predetermined action among the user group An acquisition procedure for acquiring information about the search query from the search history information storage unit ,
The information about the search query used by the target user is classified into the first cluster based on the similarity between the vectors corresponding to the information about the search query used by the target user, and the search queries used by the other users are classified. A classification procedure for classifying information on a search query used by the other user into a second cluster based on the similarity between vectors corresponding to the information on
An extraction procedure for extracting a characteristic cluster, which is a cluster showing a characteristic behavior of the target user, from the first cluster based on the difference between the first cluster and the second cluster;
An extraction program characterized by causing a computer to execute.
JP2016199399A 2016-10-07 2016-10-07 Extraction device, extraction method, and extraction program Active JP6731826B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016199399A JP6731826B2 (en) 2016-10-07 2016-10-07 Extraction device, extraction method, and extraction program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016199399A JP6731826B2 (en) 2016-10-07 2016-10-07 Extraction device, extraction method, and extraction program

Publications (2)

Publication Number Publication Date
JP2018060469A JP2018060469A (en) 2018-04-12
JP6731826B2 true JP6731826B2 (en) 2020-07-29

Family

ID=61910046

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016199399A Active JP6731826B2 (en) 2016-10-07 2016-10-07 Extraction device, extraction method, and extraction program

Country Status (1)

Country Link
JP (1) JP6731826B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7088795B2 (en) * 2018-09-19 2022-06-21 ヤフー株式会社 Information processing equipment, information processing methods, and programs
JP6938569B2 (en) * 2019-07-01 2021-09-22 ヤフー株式会社 Information processing equipment, information processing methods and information processing programs
JP7177013B2 (en) * 2019-07-01 2022-11-22 ヤフー株式会社 Information processing device, information processing method and information processing program
JP7008092B2 (en) * 2020-01-22 2022-01-25 ヤフー株式会社 Estimator, estimation method, and estimation program
JP7025578B1 (en) 2021-03-19 2022-02-24 ヤフー株式会社 Information processing equipment, information processing methods, and information processing programs

Also Published As

Publication number Publication date
JP2018060469A (en) 2018-04-12

Similar Documents

Publication Publication Date Title
JP6731826B2 (en) Extraction device, extraction method, and extraction program
US8924265B2 (en) System and process for improving product recommendations for use in providing personalized advertisements to retail customers
US8583524B2 (en) System and process for improving recommendations for use in providing personalized advertisements to retail customers
US8108329B2 (en) System and process for boosting recommendations for use in providing personalized advertisements to retail customers
JP2009193465A (en) Information processor, information providing system, information processing method, and program
JP6074524B1 (en) Learning device, learning method, and learning program
JP5914549B2 (en) Information processing apparatus and information analysis method
US20200111121A1 (en) Systems and methods for automatic processing of marketing documents
Zheng et al. A scalable purchase intention prediction system using extreme gradient boosting machines with browsing content entropy
CN110969473B (en) User tag generation method and device
JP6746442B2 (en) Classification device, classification method, and classification program
CN113327132A (en) Multimedia recommendation method, device, equipment and storage medium
JP2017091054A (en) Advertising system and advertisement distributing method
JP2020095608A (en) Device, method, and program for processing information
JP7212103B2 (en) Information processing device, information processing method and information processing program
JP6243559B2 (en) Learning device, learning method, and learning program
JP2008233295A (en) Advertisement distribution device, advertisement distributing method, and program
JP6708429B2 (en) Generation device, generation method, and generation program
Al Jobaer et al. An advanced recommendation system by combining popularity-based and user-based collaborative filtering using machine learning
JP7388678B2 (en) Generation device, generation method and generation program
US20200111130A1 (en) Systems and methods for automatic processing of marketing documents
Suman et al. Direct marketing with the application of data mining
JP2020091816A (en) Information processing device, information processing method and information processing program
JP7101849B1 (en) Providing equipment, providing method, and providing program
JP2020119102A (en) Information processing device, information processing method, and information processing program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190325

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200303

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200609

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200707

R150 Certificate of patent or registration of utility model

Ref document number: 6731826

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350