JP2017021469A - 分類装置、分類方法、及び分類プログラム - Google Patents

分類装置、分類方法、及び分類プログラム Download PDF

Info

Publication number
JP2017021469A
JP2017021469A JP2015136902A JP2015136902A JP2017021469A JP 2017021469 A JP2017021469 A JP 2017021469A JP 2015136902 A JP2015136902 A JP 2015136902A JP 2015136902 A JP2015136902 A JP 2015136902A JP 2017021469 A JP2017021469 A JP 2017021469A
Authority
JP
Japan
Prior art keywords
classification
user
cluster
information
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015136902A
Other languages
English (en)
Other versions
JP6043840B1 (ja
Inventor
江森 正
Tadashi Emori
正 江森
千絵子 勝野
Chieko Katsuno
千絵子 勝野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2015136902A priority Critical patent/JP6043840B1/ja
Application granted granted Critical
Publication of JP6043840B1 publication Critical patent/JP6043840B1/ja
Publication of JP2017021469A publication Critical patent/JP2017021469A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】柔軟にユーザ分類を行うこと。【解決手段】本願に係る分類装置は、受付部と、第1分類部と、第2分類部とを有する。受付部は、各クラスタに関連付けられた特徴情報を受け付ける。第1分類部は、受付部により受け付けられた特徴情報に基づいて、コンテンツを分類する。第2分類部は、第1分類部により分類されたコンテンツに対するユーザのアクセス情報に基づいて、ユーザを分類する。例えば、第1分類部は、コンテンツに含まれる情報に基づいて、コンテンツを各クラスタのいずれかに分類する。また、例えば、第2分類部は、ユーザのアクセス情報に基づいて、ユーザを各クラスタのいずれかに分類する。【選択図】図3

Description

本発明は、分類装置、分類方法、及び分類プログラムに関する。
従来、アンケートによりユーザから取得した情報に基づいてユーザを分類する技術が提案されている。
特開2009−289068号公報
Blei et al, "Latent Dirichlet Allocation", Journal of Machine Learning Research, Vol. 3, pp. 993-1022, 2003.
しかしながら、上記の従来技術では柔軟にユーザ分類を行うことが難しい。例えば、アンケートを実施するにはコストを要するため、所望のユーザ分類を行う度にアンケートを実施することは難しい。
本願は、上記に鑑みてなされたものであって、柔軟にユーザ分類を行う分類装置、分類方法、及び分類プログラムを提供することを目的とする。
本願に係る分類装置は、各クラスタに関連付けられた特徴情報を受け付ける受付部と、前記受付部により受け付けられた前記特徴情報に基づいて、コンテンツを分類する第1分類部と、前記第1分類部により分類された前記コンテンツに対するユーザのアクセス情報に基づいて、前記ユーザを分類する第2分類部と、を備えたことを特徴とする。
実施形態の一態様によれば、柔軟にユーザ分類を行うことができるという効果を奏する。
図1は、実施形態に係る分類処理の一例を示す図である。 図2は、実施形態に係る分類システムの構成例を示す図である。 図3は、実施形態に係る分類装置の構成例を示す図である。 図4は、実施形態に係る特徴情報記憶部の一例を示す図である。 図5は、実施形態に係るコンテンツ情報記憶部の一例を示す図である。 図6は、実施形態に係る第1ユーザ情報記憶部の一例を示す図である。 図7は、実施形態に係る第2ユーザ情報記憶部の一例を示す図である。 図8は、実施形態に係るユーザ分類情報記憶部の一例を示す図である。 図9は、実施形態に係るユーザ分類に基づく配信処理の一例を示すシーケンス図である。 図10は、分類装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
以下に、本願に係る分類装置、分類方法、及び分類プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る分類装置、分類方法、及び分類プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
(実施形態)
〔1.分類処理〕
まず、図1を用いて、実施形態に係る分類処理の一例について説明する。図1は、実施形態に係る分類処理の一例を示す図である。図1に示す例では、分類装置100(図2参照)が分類A(安全性CT11−1)や分類B(居住性CT12−1)等のそれぞれのクラスタ毎に関連付けられた特徴情報に基づいてユーザ分類を行う場合を説明する。以下では、特徴情報が複数の特徴語(以下、「キーワードリスト」とする場合がある)である場合を示す。また、クラスタ毎に関連付けられたキーワードリストに基づいて分類されるコンテンツが、ウェブページである場合を例に説明する。以下では、キーワードが関連付けられるクラスタとウェブページやユーザが分類されるクラスタが同様である場合を例に説明する。図1に示す例においては、分類装置100は、分類A(安全性CT11−*)や分類B(居住性CT12−*)等のキーワードリストと同様のクラスタに、ウェブページやユーザを分類する場合を示す。なお、以下に示す例において、ウェブページAWP11〜ウェブページEWP15等のウェブページの各々は、いわゆるウェブサイトと称される所定のウェブページ群であってもよい。例えば、ウェブページAWP11〜ウェブページEWP15等は、特定のドメイン名の下にある複数のウェブページの集まりであってもよい。
図1に示す例において、分類装置100は、安全性CT11−1や居住性CT12−1等のクラスタ毎に関連付けられたキーワードリスト群FI11を用いる。例えば、安全性CT11−1には、「子供」や「ブレーキ」等の特徴語を含むキーワードリストFW11が関連付けられる。また、例えば、居住性CT12−1には、「ゆったり」や「解放感」等の特徴語を含むキーワードリストFW12が関連付けられる。例えば、分類装置100は、分類装置100の管理者等から安全性CT11−1や居住性CT12−1等のクラスタ毎に関連付けられたキーワードリスト群FI11を受け付ける。なお、分類装置100は、安全性CT11−1や居住性CT12−1等のクラスタ毎に関連付けられた文章を受け付けて、その文章から特徴語を抽出して、キーワードリスト群FI11を生成してもよい。
そして、分類装置100は、キーワードリスト群FI11を用いてコンテンツであるウェブページを分類する(ステップS11)。例えば、分類装置100は、ウェブページに含まれる情報に基づいて、ウェブページを各クラスタのいずれかに分類する。図1に示す例において、分類装置100は、キーワードリスト群FI11を用いて、ウェブページAWP11〜ウェブページEWP15等を含むウェブページ群WG11を分類する。分類装置100は、キーワードリスト群FI11における各クラスタに関連付けられた特徴語と、各ウェブページに含まれる特徴語とに基づいてウェブページ群WG11を分類するが、詳細は後述する。
図1に示す例においては、分類装置100は、ウェブページAWP11やウェブページCWP13等を安全性CT11−2のクラスタに分類し、ウェブページBWP12やウェブページEWP15等を居住性CT12−2のクラスタに分類する。分類装置100は、ウェブページ群WG11に含まれるウェブページAWP11〜ウェブページEWP15等を安全性CT11−2や居住性CT12−2のクラスタからなる分類ウェブページ群CW11に分類する。
そして、分類装置100は、分類されたウェブページAWP11〜ウェブページEWP15等に対するユーザのアクセス情報に基づいてユーザを分類する(ステップS12)。例えば、分類装置100は、ユーザのアクセス情報に基づいて、ユーザを各クラスタのいずれかに分類する。以下では、分類されたウェブページAWP11〜ウェブページEWP15等に対するアクセス情報に基づいて分類されるユーザを「第1ユーザ」とする場合がある。例えば、分類装置100は、分類されたウェブページAWP11〜ウェブページEWP15等に対するアクセスを所定の閾値以上行ったユーザを第1ユーザとしてもよい。なお、分類装置100は、分類装置100の管理者等が指定したユーザを第1ユーザとしてもよい。なお、アクセス情報の詳細については後述する。
図1に示す例において、分類されたウェブページAWP11〜ウェブページEWP15等に対するアクセス情報に基づくユーザ分類の対象となる第1ユーザ群UG11には、第1ユーザU1〜U4等が含まれる。すなわち、図1に示す例において、分類装置100は、分類されたウェブページAWP11〜ウェブページEWP15等に対する第1ユーザU1〜U4等のアクセス情報AI11に基づいて第1ユーザU1〜U4等を分類する。
例えば、分類装置100は、安全性CT11−2のクラスタに分類されるウェブページAWP11やウェブページCWP13等へのアクセスが所定の閾値以上である第1ユーザを、安全性CT11−3のクラスタに分類する。図1に示す例においては、ウェブページAWP11やウェブページCWP13等へのアクセスが所定の閾値以上である第1ユーザU1、U3等が安全性CT11−3のクラスタに分類される。
また、例えば、分類装置100は、居住性CT12−2のクラスタに分類されるウェブページBWP12やウェブページEWP15等へのアクセスが所定の閾値以上である第1ユーザを、居住性CT12−3のクラスタに分類する。図1に示す例においては、ウェブページBWP12やウェブページEWP15等へのアクセスが所定の閾値以上である第1ユーザU2、U4等が居住性CT12−3のクラスタに分類される。
このように、分類装置100は、第1ユーザ群UG11に含まれる第1ユーザU1〜U4等を安全性CT11−3や居住性CT12−3のクラスタからなる分類ユーザ群CU11に分類する。
そして、分類装置100は、分類ユーザ群CU11のクラスタ毎のユーザモデルを生成する(ステップS13)。例えば、分類装置100は、第1ユーザのインターネットにおける行動情報を用いて、分類ユーザ群CU11のクラスタ毎のユーザモデルを生成する。なお、ここでいうユーザモデルは、例えば未分類のユーザがどのクラスタに属するかを判定するために用いる情報である。図1に示す例において、分類装置100は、第1ユーザU1の行動情報BI11、第1ユーザU2の行動情報BI12、第1ユーザU3の行動情報BI13、第1ユーザU4の行動情報BI14等を含むユーザ行動情報群BG11を用いて、分類ユーザ群CU11のクラスタ毎のユーザモデルを生成する。なお、行動情報の詳細については後述する。
例えば、分類装置100は、安全性CT11−3のクラスタに属するU1、U3等の行動情報BI11や行動情報BI13等を用いて、安全性CT11−3のクラスタに属するユーザのユーザモデルを生成する。図1に示す例において、分類装置100は、U1、U3等の行動情報BI11や行動情報BI13等を用いて、安全性CT11−3のクラスタである分類AのユーザモデルUM11を生成する。
また、例えば、分類装置100は、居住性CT12−3のクラスタに属するU2、U4等の行動情報BI12や行動情報BI14等を用いて、居住性CT12−3のクラスタに属するユーザのユーザモデルを生成する。図1に示す例において、分類装置100は、U2、U4等の行動情報BI12や行動情報BI14等を用いて、居住性CT12−3のクラスタである分類BのユーザモデルUM12を生成する。
このように、分類装置100は、分類ユーザ群CU11に含まれる安全性CT11−3や居住性CT12−3のクラスタ毎のユーザモデル等を含むユーザモデル群MG11を生成する。
そして、分類装置100は、ステップS13において生成したユーザモデル群MG11を用いて、第1ユーザに含まれないユーザ(以下、「第2ユーザ」とする場合がある)を分類する。図1に示す例において、分類装置100は、ユーザモデル群MG11を用いて、第2ユーザ群UG12に含まれる第2ユーザUXを分類する(ステップS14)。
分類装置100は、ユーザモデル群MG11と第2ユーザUXの行動情報BIXとを用いて、第2ユーザUXを分類する。分類装置100は、分類された第1ユーザの行動情報と類似する行動情報に対応する第2ユーザを、その第1ユーザと同じクラスタに属するユーザと判定する。例えば、分類装置100は、分類ユーザ群CU11に含まれる安全性CT11−3や居住性CT12−3等のクラスタのいずれかに第2ユーザUXを分類する。図1に示す例において、分類装置100は、第2ユーザUXを安全性CT11−3のクラスタに分類する。
上述したように、分類装置100は、分類A(安全性CT11−1)や分類B(居住性CT12−1)等のそれぞれのクラスタ毎に関連付けられたキーワードリストを用いることにより、ウェブページをキーワードリストに対応するクラスタに分類する。そして、分類装置100は、分類したウェブページに対するアクセス情報に基づいて第1ユーザを、ウェブページに対応するクラスタに分類する。そして、分類装置100は、分類した第1ユーザの行動情報に基づいて、ユーザを分類するクラスタ毎のユーザモデルを生成する。
このように、分類装置100は、任意に与えられたクラスタに基づいて、コンテンツであるウェブページを適切に分類することができる。つまり、分類装置100は、各クラスタに関連付けられた特徴情報が与えられれば、自動的にウェブページを適切に分類することができる。例えば、分類装置100は、人手によりウェブページに分類を示すタグを付与する場合等と比較して、多数のウェブページに対するアクセス情報に基づいて第1ユーザを分類することができるため、第1ユーザの分類の精度を高めることができる。これにより、分類装置100は、第2ユーザの分類の精度を高めることができる。
また、分類装置100は、任意に与えられたクラスタに基づいて、ユーザモデルを生成することができる。そして、分類装置100は、生成したユーザモデルにより、ユーザを分類することができる。つまり、分類装置100は、各クラスタに関連付けられた特徴情報が与えられれば、ユーザを分類することができる。例えば、アンケート等のコストを要する作業を行うことなく、クラスタ毎に関連付けられた特徴情報を用いることにより、適切にユーザモデルを生成し、生成したユーザモデルにより未分類のユーザである第2ユーザを適切に分類することができる。したがって、分類装置100は、柔軟にユーザ分類を行うことができる。
例えば、事前にアンケートをとる方法は、製品・サービスに合うような設問を設計することによりユーザを分類できるが、アンケートをとること自体にコストがかかる。そのため、アンケートをとる方法でユーザを分類する場合、ユーザ数が制限される。また、事前にアンケートをとる方法では、一度アンケートを実施してしまうと、再びアンケートをとるコストが大きい。一方、分類装置100は、低コストで、任意に与えられたクラスタに基づいて、ユーザモデルを生成することができる。そして、分類装置100は、生成したユーザモデルにより、ユーザを分類することができる。
なお、上記例においては、クラスタ毎に関連付けられた特徴情報としてキーワードリストを用いる場合を示したが、特徴情報には目的に応じて種々の情報が用いられてもよい。例えば、特徴情報にはメーカなどのサイトに記載されているテキストやCMのクローズドキャプション(ナレーション)やマーケティング担当者のインタビュー記事等から抽出された特徴語が用いられてもよい。また、例えば、特徴情報には画像情報等が用いられてもよい。また、分類装置100は、特徴情報が関連付けられたクラスタと同様のクラスタにコンテンツやユーザを分類したが、コンテンツやユーザを分類するクラスタは、目的に応じて種々選択されてもよい。例えば、分類装置100は、コンテンツを特徴情報が関連付けられたクラスタと同様のクラスタに分類し、ユーザを特徴情報が関連付けられたクラスタとは異なるクラスタに分類してもよい。また、分類装置100は、宣伝したい製品・サービスに基づくユーザの分類を行ってもよい。例えば、所定の配信装置50は、分類装置100に分類されたユーザの端末装置10に、分類装置100によるユーザの分類を示す情報に基づく広告を配信することにより、広告効果を高めることも可能となる。例えば、分類装置100は、ユーザの分類を示す情報に基づいて広告を配信する配信装置であってもよい。
〔2.分類システムの構成〕
図2に示すように、分類システム1は、端末装置10と、分類装置100と、配信装置50とが含まれる。端末装置10と、分類装置100と、配信装置50とは所定のネットワークNを介して、有線または無線により通信可能に接続される。なお、図2に示した分類システム1には、複数台の端末装置10や、複数台の分類装置100や、複数台の配信装置50が含まれてもよい。
端末装置10は、ユーザによって利用される情報処理装置である。端末装置10は、ユーザによる操作に従って、ブラウザを起動しウェブページを表示したりする。なお、以下では、端末装置10をユーザと表記する場合がある。すなわち、以下では、ユーザを端末装置10と読み替えることもできる。なお、上述した端末装置10は、例えば、スマートフォンや、タブレット型端末や、ノート型PC(Personal Computer)や、デスクトップPCや、携帯電話機や、PDA(Personal Digital Assistant)等により実現される。
分類装置100は、各クラスタに関連付けられた特徴情報に基づいて、コンテンツを分類する情報処理装置である。また、分類装置100は、コンテンツに対する第1ユーザのアクセス情報に基づいて、第1ユーザを分類する。また、分類装置100は、分類された第1ユーザの行動情報と類似する行動情報に対応する第2ユーザを、その第1ユーザと同じクラスタに属するユーザと判定する。
配信装置50は、端末装置10からの要求に基づいてコンテンツを提供する情報処理装置である。例えば、配信装置50は、端末装置10からの要求に基づいて端末装置10へ広告を配信する。また、例えば、配信装置50は、端末装置10を利用するユーザのユーザ分類に基づく広告を端末装置10へ配信する。
〔3.分類装置の構成〕
次に、図3を用いて、実施形態に係る分類装置100の構成について説明する。図3は、実施形態に係る分類装置100の構成例を示す図である。図3に示すように、分類装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、分類装置100は、分類装置100の管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
通信部110は、例えば、NIC等によって実現される。そして、通信部110は、ネットワークと有線または無線で接続され、配信装置50や端末装置10との間で情報の送受信を行う。
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部120は、図3に示すように、特徴情報記憶部121と、コンテンツ情報記憶部122と、第1ユーザ情報記憶部123と、第2ユーザ情報記憶部124と、ユーザ分類情報記憶部125とを有する。
(特徴情報記憶部121)
実施形態に係る特徴情報記憶部121は、特徴情報に関する情報を記憶する。図4には、特徴情報記憶部121に記憶される特徴情報に関する情報の一例を示す。図4に示す例においては、特徴情報としてキーワードリストが記憶される場合を示す。図4に示すように、特徴情報記憶部121は、特徴情報に関する情報として、「分類ID」、「分類」、「名称」、「特徴情報」、「テキスト」といった項目が含まれる。
「分類ID」は、特徴情報が関連付けられたクラスタ(分類)を識別するための識別情報を示す。「分類」は、分類IDにより識別される分類を示す。「名称」は、分類IDにより識別される分類の名称を示す。「特徴情報」は、分類IDにより識別される分類に関連付けられた特徴情報であるキーワードリストを示す。「テキスト」は、特徴語を抽出するために用いた文章を示す。
図4に示す例において、例えば、分類ID「CT11−1」により識別される分類「分類A」の名称は「安全性」であることを示す。また、図4に示す例において、分類Aに関連付けられた特徴語は、特徴語1「子供」や特徴語2「ブレーキ」等であることを示す。また、図4に示す例において、分類Aに関連付けられた特徴語の抽出に用いた文章は、テキスト「車に子供を乗せる…」であることを示す。
なお、特徴情報記憶部121は、上記は特徴情報に関する情報の一例であって、特徴情報に関する情報であれば目的に応じて種々の情報を記憶してもよい。例えば、特徴情報記憶部121は、各特徴語の重要度(重み)に関する情報などを記憶してもよい。なお、特徴情報記憶部121は、分類装置100がキーワードリストを受け付ける場合、「テキスト」の項目を有さなくてもよい。また、特徴情報が静止画像や動画像等の情報である場合、「特徴情報」には、その静止画像や動画像、または、これらの格納場所を示すファイルパス名などが格納されてもよい。
(コンテンツ情報記憶部122)
実施形態に係るコンテンツ情報記憶部122は、コンテンツに関する情報を記憶する。図5には、コンテンツ情報記憶部122に記憶されるコンテンツに関する情報の一例を示す。図5に示す例においては、コンテンツがウェブページである場合を示す。図5に示すように、コンテンツ情報記憶部122は、コンテンツに関する情報として、「コンテンツID」、「コンテンツ」、「分類」、「URL」、「スコア」といった項目が含まれる。
「コンテンツID」は、コンテンツであるウェブページを識別するための識別情報を示す。「コンテンツ」は、ウェブページの内容等を示す。例えば、「コンテンツ」には、対応するウェブページに記載された記事や、SNS(Social Networking Service)などの書き込みテキスト、EC(Electronic Commerce)サイトのレビュー記事や書き込み、質問サイトの質問内容や回答などのテキスト情報であってもよい。また、「分類」は、対応するウェブページが分類されるクラスタを識別するための識別情報を示す。「URL」は、対応するウェブページのURL(Uniform Resource Locator)を示す。「スコア」は、分類毎に算出されたスコアを示す。
図4に示す例において、例えば、コンテンツID「WP11」により識別されるコンテンツ「ウェブページA」は、分類「CT11−2」のクラスタに分類されるコンテンツであることを示す。また、コンテンツID「WP11」により識別されるコンテンツ「ウェブページA」は、URLが「www.wp11....」であることを示す。また、コンテンツID「WP11」により識別されるコンテンツ「ウェブページA」は、分類「CT11−2」のスコアが0.6であり、分類「CT11−2」のスコアが0.3であることを示す。すなわち、コンテンツID「WP11」により識別されるコンテンツ「ウェブページA」は、全分類のスコアのうち分類「CT11−2」のスコアが最も高いため、分類「CT11−2」のクラスタに分類される。
なお、コンテンツ情報記憶部122は、上記は特徴情報に関する情報の一例であって、特徴情報に関する情報であれば目的に応じて種々の情報を記憶してもよい。図5では「コンテンツ」には、静止画像や動画像やテキストデータやURL、または、これらの格納場所を示すファイルパス名などが格納されてもよい。この場合、コンテンツ情報記憶部122は、「URL」の項目を有さなくてもよい。
(第1ユーザ情報記憶部123)
実施形態に係る第1ユーザ情報記憶部123は、第1ユーザに関する情報を記憶する。図6には、第1ユーザ情報記憶部123に記憶される第1ユーザに関する情報の一例を示す。図6に示すように、第1ユーザ情報記憶部123は、ユーザに関する情報として、「ユーザID」、「分類」、「嗜好」、「アクセス情報」、「行動情報」といった項目が含まれる。
「ユーザID」は、第1ユーザを識別するための識別情報を示す。例えば、ユーザID「U1」により識別されるユーザは、図1の例に示した第1ユーザU1に対応する。「分類」は、対応する第1ユーザが分類されるクラスタを識別するための識別情報を示す。「嗜好」は、対応する第1ユーザが分類されるクラスタに基づき推定されるユーザの嗜好を示す。ここでいう、「嗜好」とは、そのクラスタに分類されたユーザが特に好む性質や価値、すなわち価値基準に関する情報を示す。「アクセス情報」は、対応する第1ユーザのアクセス情報を示す。例えば、「アクセス情報」は、コンテンツに対する第1ユーザのアクセス情報を示す。「行動情報」は、第1ユーザの行動情報を示す。例えば、「行動情報」は、インターネットにおける第1ユーザの行動情報を示す。なお、「行動情報」には、目的に応じて種々の行動が含まれてもよい。例えば、「行動A」は、自動車関連広告をクリックであり、「行動B」は、旅行関連の検索であってもよい。
図6に示す例において、例えば、ユーザID「U1」により識別される第1ユーザは、分類「CT11−3」のクラスタに分類されるコンテンツであることを示す。また、ユーザID「U1」により識別される第1ユーザは、嗜好「安全性」であるユーザであることを示す。すなわち、ユーザID「U1」により識別される第1ユーザは、安全性に関する感度が高く、安全性の価値を他の要素よりも高く判断するユーザであることを示す。また、ユーザID「U1」により識別される第1ユーザは、アクセス情報である「ウェブページA」のアクセス回数が5回であり、「ウェブページB」のアクセス回数が0回であることを示す。また、ユーザID「U1」により識別される第1ユーザは、行動情報である行動1「行動A」を行い、行動2「行動B」を行ったことを示す。
なお、第1ユーザ情報記憶部123は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、第1ユーザ情報記憶部123は、「アクセス情報」として各ウェブページを表示させた時間に関する情報を記憶してもよい。また、例えば、第1ユーザ情報記憶部123は、「行動情報」として各行動を行った日時に関する情報を記憶してもよい。
(第2ユーザ情報記憶部124)
実施形態に係る第2ユーザ情報記憶部124は、第2ユーザに関する情報を記憶する。図7には、第2ユーザ情報記憶部124に記憶される第2ユーザに関する情報の一例を示す。図7に示すように、第2ユーザ情報記憶部124は、ユーザに関する情報として、「ユーザID」、「分類」、「嗜好」、「行動情報」といった項目が含まれる。
「ユーザID」は、第2ユーザを識別するための識別情報を示す。例えば、ユーザID「UX」により識別されるユーザは、図1の例に示したユーザUXに対応する。「分類」は、対応する第2ユーザが分類されるクラスタを識別するための識別情報を示す。「嗜好」は、対応する第2ユーザが分類されるクラスタに基づき推定されるユーザの嗜好を示す。「行動情報」は、第2ユーザの行動情報を示す。例えば、「行動情報」は、インターネットにおける第2ユーザの行動情報を示す。
図7に示す例において、例えば、ユーザID「UX」により識別される第2ユーザは、分類「CT11−3」のクラスタに分類されるコンテンツであることを示す。また、ユーザID「UX」により識別される第2ユーザは、嗜好「安全性」であるユーザであることを示す。すなわち、ユーザID「UX」により識別される第2ユーザは、安全性に関する感度が高く、安全性の価値を他の要素よりも高く判断するユーザであることを示す。また、ユーザID「UX」により識別される第2ユーザは、行動情報である行動1「行動E」を行い、行動2「行動A」を行ったことを示す。
なお、第2ユーザ情報記憶部124は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、第2ユーザ情報記憶部124は、「行動情報」として各行動を行った日時に関する情報を記憶してもよい。
(ユーザ分類情報記憶部125)
実施形態に係るユーザ分類情報記憶部125は、ユーザ分類に関する情報を記憶する。図8には、ユーザ分類情報記憶部125に記憶されるユーザ分類に関する情報の一例を示す。図8に示す例においては、ユーザ分類に関する情報として各ユーザ分類(クラスタ)に対応するユーザモデルの特徴量等が記憶される場合を示す。図8に示すように、ユーザ分類情報記憶部125は、ユーザ分類に関する情報として、「分類ID」、「ユーザ分類」、「名称」、「特徴量」といった項目が含まれる。
「分類ID」は、各ユーザ分類を識別するための識別情報を示す。「ユーザ分類」は、分類IDにより識別される分類を示す。「名称」は、分類IDにより識別される分類の名称を示す。「特徴量」は、各特徴量の重みを示す。なお、「特徴量」には、目的に応じて種々の特徴量が含まれてもよい。例えば、「特徴量1」は、図7に示す「行動A」であってもよく、「特徴量2」は、図7に示す「行動G」であってもよい。また、「特徴量」は、ユーザモデル生成時に自動的に選択されてもよい。
図8に示す例において、例えば、分類ID「CT11−3」により識別されるユーザ分類「分類A」の名称は「安全性」であることを示す。また、図8に示す例において、分類Aにおける特徴量1の重みは「0.8」であり、特徴量2の重みは「0.1」であることを示す。
なお、ユーザ分類情報記憶部125は、上記はユーザ分類に関する情報の一例であって、ユーザ分類に関する情報であれば目的に応じて種々の情報を記憶してもよい。
(制御部130)
図3の説明に戻って、制御部130は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、分類装置100内部の記憶装置に記憶されている各種プログラム(配信プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
図3に示すように、制御部130は、受付部131と、第1分類部132と、第2分類部133と、生成部134と、判定部135と、送信部136とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、図3に示した接続関係に限られず、他の接続関係であってもよい。
(受付部131)
受付部131は、各クラスタに関連付けられた特徴情報を受け付ける。例えば、受付部131は、心理的属性に関するクラスタに関連付けられた特徴情報を受け付ける。例えば、受付部131は、心理的属性として価値基準に関するクラスタに関連付けられた特徴情報を受け付ける。例えば、受付部131は、特徴情報として各クラスタに関連付けられたブログやメーカサイトなどの記事を受け付けてもよい。図1に示す例において、受付部131は、分類装置100の管理者等から安全性CT11−1や居住性CT12−1等のクラスタ毎に関連付けられたキーワードリスト群FI11を受け付ける。
また、受付部131は、インターネットにおけるユーザの行動情報を受け付ける。例えば、受付部131は、インターネットにおける第1ユーザの行動情報を受け付ける。図1に示す例において、受付部131は、第1ユーザU1の行動情報BI11、第1ユーザU2の行動情報BI12、第1ユーザU3の行動情報BI13、第1ユーザU4の行動情報BI14等を含むユーザ行動情報群BG11を受け付ける。
また、例えば、受付部131は、インターネットにおける第2ユーザの行動情報を受け付ける。図1に示す例において、受付部131は、第2ユーザUXの行動情報BIXを受け付ける。
(第1分類部132)
第1分類部132は、受付部131により受け付けられた特徴情報に基づいて、コンテンツを分類する。例えば、第1分類部132は、コンテンツに含まれる情報に基づいて、コンテンツを各クラスタのいずれかに分類する。例えば、第1分類部132は、心理的属性に関するクラスタに属するコンテンツを分類する。例えば、第1分類部132は、価値基準に関するクラスタに属するコンテンツを分類する。
また、第1分類部132は、受付部131により受け付けられた特徴情報が文章である場合、文章から特徴語を抽出してもよい。例えば、第1分類部132は、各クラスタに関連付けられた文章から、クラスタ毎に特徴語を抽出してもよい。図1に示す例において、第1分類部132は、安全性CT11−1のクラスタに関する特徴語として、「ブレーキ」や「クラッシャブル構造」や「子供」などの特徴語を抽出する。なお、第1分類部132が抽出する安全性CT11−1のクラスタに関する特徴語には、「安全性」が含まれてもよい。
また、図1に示す例において、第1分類部132は、居住性CT12−1のクラスタの特徴語として、「解放感」や「ゆったり」などの特徴語を抽出する。なお、第1分類部132は、受付部131により受け付けられたブログやメーカサイトなどの記事から関連する文書を抽出し、抽出した文章中からキーワードを抽出してもよい。なお、第1分類部132は、種々の従来技術を適宜用いて、文章中から特徴語(キーワード)を抽出する。
また、第1分類部132は、各クラスタに関連付けられた特徴情報と各コンテンツに含まれる特徴情報とに基づいて、各コンテンツのクラスタ毎のスコアを算出する。例えば、第1分類部132は、各クラスタに関連付けられた特徴語(キーワード)とコンテンツであるウェブページごとのキーワードとに基づいてスコアを算出する。例えば、第1分類部132は、文書間距離として用いられるコサイン距離などによりスコアを算出してもよい。この場合、第1分類部132は、コサイン距離を、例えば各次元を単語毎の頻度としたベクトル同士の正規化された内積として算出する。例えば、第1分類部132は、「安全性」を第1成分、「居住性」を第2成分として、ベクトルを定義する。そして、第1分類部132は、あるクラスタに関連付けられた特徴情報であるキーワードリストにおける「安全性」の出現頻度が1回であり、「居住性」の出現頻度が0回であれば、あるクラスタのベクトルをx=(1,0)とする。また、第1分類部132は、ウェブページ中の文章における「安全性」の出現頻度が1回であり、「居住性」の出現頻度が0回であれば、ウェブページのベクトルをw=(1,0)とする。また、第1分類部132は、ウェブページ中の文章における「安全性」の出現頻度が0回であり、「居住性」の出現頻度が1回であれば、ウェブページのベクトルをw=(0,1)とする。コサイン距離CDは、以下の式(1)により算出する。
CD = x・w/(|x||w|) ・・・ (1)
上記の式(1)において、「・」は内積を表し、「||」はベクトルのノルムを表す。例えば、「|x|」は、ベクトルxのノルムを表し、「|w|」は、ベクトルwのノルムを表す。例えば、上記の例において、w=(1,0)の場合、コサイン距離CDは1となる。一方、w=(0,1)の場合、コサイン距離は0となる。すなわち、コサイン距離CDの値が大きいほど、クラスタの特徴情報とウェブページとの類似度が大きいといえる。たとえば、第1分類部132は、各ウェブページについてクラスタ毎のスコアを算出する。
例えば、第1分類部132は、図5に示すように、コンテンツID「WP11」により識別されるウェブページAについて、安全性CT11−2のスコアを0.6と算出し、居住性CT12−2のスコアを0.3と算出する。そして、第1分類部132は、コンテンツID「WP11」により識別されるウェブページAを、安全性CT11−2のクラスタに分類する。また、例えば、第1分類部132は、図5に示すように、コンテンツID「WP12」により識別されるウェブページBについて、安全性CT11−2のスコアを0.1と算出し、居住性CT12−2のスコアを0.8と算出する。そして、第1分類部132は、コンテンツID「WP12」により識別されるウェブページBを、居住性CT12−2のクラスタに分類する。
このように、第1分類部132は、各ウェブページを算出したクラスタ毎のスコアに基づいて分類する。なお、第1分類部132は、予め決められた数のウェブページを算出したクラスタ毎のスコアに基づいて分類してもよい。また、第1分類部132は、所定の閾値よりも大きいスコアが算出されたウェブページのみを分類してもよい。例えば、第1分類部132は、クラスタ毎のスコアが全て0.5以下であるウェブページを分類しなくてもよい。
(第2分類部133)
第2分類部133は、第1分類部132により分類されたコンテンツに対するユーザのアクセス情報に基づいて、ユーザを分類する。例えば、第2分類部133は、ユーザのアクセス情報に基づいて、ユーザを各クラスタのいずれかに分類する。例えば、第2分類部133は、心理的属性に関するクラスタに属するコンテンツに対するユーザのアクセス情報に基づいて、心理的属性に関するクラスタに属するユーザを分類する。例えば、第2分類部133は、価値基準に関するクラスタに属するコンテンツに対するユーザのアクセス情報に基づいて、価値基準に関するクラスタに属するユーザを分類する。
例えば、第2分類部133は、受付部131により受け付けられた第1ユーザの行動情報に基づいて、第1ユーザを分類する。また、例えば、第2分類部133は、第1ユーザの行動情報において、クラスタ毎のウェブページへのアクセス数のうち、安全性CT11−2のクラスタに分類されたウェブページへのアクセス数が最も大きい場合、その第1ユーザを安全性CT11−3のクラスタに分類してもよい。
また、第2分類部133は、第1ユーザの行動情報に「安全性」に分類されたウェブページに所定の閾値以上の回数だけアクセスしていた場合、その第1ユーザを安全性CT11−3のクラスタに分類してもよい。この場合、第2分類部133は、第1ユーザの行動情報に「居住性」に分類されたウェブページに所定の閾値以上の回数だけアクセスしていた場合、その第1ユーザを安全性CT11−3と居住性CT12−2との両方のクラスタに属するユーザとしてもよい。
また、第2分類部133は、第1ユーザがウェブページにアクセスした回数とそのウェブページが分類されたクラスタのスコアを乗算して算出した値に基づいて、第1ユーザを分類してもよい。例えば、第2分類部133は、ある第1ユーザ(以下、「第1ユーザA」とする)がウェブページAにアクセスした回数が「5」回とした場合、安全性CT11−3の値を3(=5×0.6)とする。ここで、「0.6」は、図5に示す例におけるウェブページAの安全性CT11−2のスコア「0.6」に対応する。また、第2分類部133は、第1ユーザAがウェブページBにアクセスした回数が「4」回とした場合、居住性CT12−3の値を3.2(=4×0.8)とする。ここで、「0.8」は、図5に示す例におけるウェブページBの安全性CT12−2のスコア「0.8」に対応する。この場合、第2分類部133は、第1ユーザAをより値の大きい居住性CT12−3のクラスタに分類する。なお、第2分類部133は、アクセス回数の多寡によりユーザの分類を行った場合、第1ユーザAをよりアクセス数の大きい安全性CT11−3のクラスタに分類する。
また、第2分類部133は、ウェブページに滞在した時間、すなわちウェブページを閲覧(表示)した時間に基づいて、第1ユーザを分類してもよい。例えば、第2分類部133は、ウェブページに滞在した時間が所定の時間を超える場合、そのウェブページが分類されたクラスタに基づいて第1ユーザを分類してもよい。また、第2分類部133は、ウェブページに滞在した時間に基づいて算出される値が所定の閾値を超えた場合に、そのウェブページが分類されたクラスタに基づいて第1ユーザを分類してもよい。例えば、第2分類部133は、ウェブページに滞在した時間に所定の重みを乗算して算出した値に基づいて、第1ユーザを分類してもよい。なお、ここでいう所定の重みは、例えば、上述したクラスタのスコア等のようにウェブページとクラスタとの関係に基づく重みであり、目的に応じて適宜設定される。
また、例えば、第2分類部133は、ウェブページに滞在した時間に所定の重みを乗算して算出した値と、第1ユーザがウェブページにアクセスした回数とを加算した値に基づいて、第1ユーザを分類してもよい。また、例えば、第2分類部133は、ウェブページに滞在した時間に所定の重みを乗算して算出した値と、第1ユーザがウェブページにアクセスした回数とそのウェブページが分類されたクラスタのスコアを乗算して算出した値とを加算した値に基づいて、第1ユーザを分類してもよい。なお、上記の第1ユーザの分類は一例であり、第2分類部133は、上記に限らず目的に応じて種々の要素に基づいて、第1ユーザを分類してもよい。
第2分類部133は、予め決められたユーザを第1ユーザとしてもよい。例えば、第2分類部133は、予め決められた所定数のユーザを第1ユーザとしてもよい。また、第2分類部133は、第1分類部132により分類されたウェブページに所定数以上のアクセスを行ったユーザを第1ユーザとしてもよい。また、第2分類部133は、スコアに基づいて算出した値が所定の閾値を超えたユーザを、第1ユーザとしてもよい。
(生成部134)
生成部134は、第2分類部133により分類されたユーザの行動情報に基づいてユーザモデルを生成する。生成部134は、第1ユーザの行動情報に基づいて、クラスタ毎のユーザモデルを生成する。例えば、生成部134は、特徴量の抽出等のユーザモデルの生成処理を、非特許文献1に記載されたLDA(Latent Dirichlet Allocation)の技術等の種々の技術を適宜用いて行ってもよい。
例えば、生成部134は、第1ユーザの行動情報に基づいて、安全性CT11−3のクラスタに関するユーザモデルや居住性CT12−3のクラスタに関するユーザモデル等を生成する。例えば、生成部134は、第1ユーザの行動情報に基づいて、図7に示すような特徴量ごとの重みを算出する。なお、生成部134は、第1ユーザの行動情報から特徴量を抽出し、抽出した特徴量ごとの重みを算出してもよい。
また、生成部134は、第1ユーザの行動情報に含まれる各行動を特徴量として重みを算出してもよい。例えば、生成部134は、第1ユーザの行動情報に含まれる各行動A〜行動K等を特徴量として、特徴量ごとの重みを算出してもよい。例えば、図1に示す例において、生成部134は、安全性CT11−3のクラスタに分類される第1ユーザU1や第1ユーザU3の行動情報から特徴量を抽出し、抽出した特徴量ごとの重みを算出することにより、安全性CT11−3のクラスタに関するユーザモデルを生成してもよい。また、例えば、図1に示す例において、生成部134は、居住性CT12−3のクラスタに分類される第1ユーザU2や第1ユーザU4の行動情報から特徴量を抽出し、抽出した特徴量ごとの重みを算出することにより、居住性CT12−3のクラスタに関するユーザモデルを生成してもよい。
(判定部135)
判定部135は、ユーザが属するクラスタを判定する。例えば、判定部135は、第2分類部133により分類されたユーザの行動情報と類似する行動情報が受け付けられた他のユーザをそのユーザと同じクラスタに属するユーザと判定する。例えば、判定部135は、生成部134により生成されたユーザモデルに基づいて、行動情報に対応するユーザが属するクラスタを判定する。
例えば、判定部135は、クラスタ毎のユーザモデルと第2ユーザの行動情報とに基づいて、第2ユーザが属するクラスタを判定する。図1に示す例において、判定部135は、ユーザモデル群MG11と第2ユーザUXの行動情報BIXとを用いて、第2ユーザUXが属するクラスタを判定する。例えば、判定部135は、第2ユーザUXが分類ユーザ群CU11に含まれる安全性CT11−3や居住性CT12−3等のクラスタに属するユーザかを判定する。図1に示す例において、判定部135は、第2ユーザUXを安全性CT11−3のクラスタに属すると判定する。
また、判定部135は、第2ユーザを複数のクラスタに属すると判定してもよい。例えば、判定部135は、クラスタ毎のユーザモデルと第2ユーザの行動情報とに基づいて算出される判定値が所定の閾値を超える場合、その第2ユーザを所定に閾値を超えた判定値に対応するクラスタに属すると判定する。例えば、判定部135は、ある第2ユーザにおける安全性CT11−3の判定値と居住性CT12−3の判定値とが所定の閾値を超えた場合、その第2ユーザを安全性CT11−3のクラスタと居住性CT12−3のクラスタの両方に属するユーザと判定してもよい。
(送信部136)
送信部136は、外部の情報処理装置に種々の情報を送信する。例えば、送信部136は、配信装置50にユーザの分類に関する情報を送信する。例えば、送信部136は、受付部131により配信装置50から配信要求が受け付けられた場合、配信装置50にユーザの分類に関する情報を送信する。また、送信部136は、受付部131により配信装置50から特定のユーザに関する分類情報の要求が受け付けられた場合、配信装置50に特定のユーザの分類に関する情報を送信してもよい。
〔4.配信処理のフロー〕
次に、図9を用いて、実施形態に係る分類システム1による分類処理の結果を用いた配信処理について説明する。図9は、実施形態に係るユーザ分類に基づく配信処理の一例を示すシーケンス図である。
図9に示すように、分類装置100は、分類モデルを生成する(ステップS101)。例えば、分類装置100は、クラスタに関連付けられた特徴情報や第1ユーザのアクセス情報に基づいて、ユーザモデルを生成する。
その後、分類装置100は、第2ユーザの利用する端末装置10から行動情報を受け付ける(ステップS102)。分類装置100は、行動情報に基づいて第2ユーザの分類を判定する(ステップS103)。
その後、端末装置10は、配信装置50へ配信要求を送信する(ステップS104)。例えば、端末装置10は、配信装置50へ広告を要求する。
端末装置10から配信要求を受信した配信装置50は、分類装置100へ分類情報を要求する(ステップS105)。例えば、配信装置50は、分類装置100へ端末装置10を利用する第2ユーザの分類を示す情報を要求する。なお、配信装置50が分類装置100に分類情報を要求するタイミングは、上記に限らず、配信装置50は、例えば1時間や1日等の所定の間隔で分類装置100に分類情報を要求してもよい。
配信装置50から分類情報要求を受信した分類装置100は、配信装置50へ分類情報を送信する(ステップS106)。例えば、分類装置100は、配信装置50へ端末装置10を利用する第2ユーザの分類を示す情報を送信する。
分類装置100から分類情報を受信した配信装置50は、受信した分類情報に基づいて、コンテンツを抽出する(ステップS107)。例えば、配信装置50は、受信した分類情報に基づいて、端末装置10を利用する第2ユーザの嗜好に合う広告を抽出する。その後、配信装置50は、抽出したコンテンツを端末装置10へ配信する(ステップS108)。
なお、配信装置50は、端末装置10へ配信したコンテンツに対する端末装置10を利用するユーザの反応を分類装置100へフィードバックしてもよい。配信装置50からフィードバックを受け付けた分類装置100は、フィードバックに関する情報に基づいて、ユーザモデルを新たに生成してもよい。例えば、配信装置50が、安全性CT11−2のクラスタに属する第1ユーザ(以下、「第1ユーザB」とする)に、安全性に関連する広告を送信したが、例えば広告のクリックなど所望の広告効果を得られなかった場合、その情報を分類装置100へフィードバックしてもよい。
配信装置50からフィードバックを受け付けた分類装置100は、第1ユーザBを第1ユーザから除外してもよい。そして、分類装置100は、第1ユーザBを第1ユーザから除外した状態において、ユーザモデルを生成しなおしてもよい。すなわち、分類装置100は、フィードバックに関する情報に基づいて、第1ユーザの除外、またはユーザの第1ユーザへの追加、または第1ユーザのクラスタ間の移動などを行うことにより、ユーザモデルを生成しなおしてもよい。これにより、分類装置100は、より適切なユーザモデルを生成することが可能となり、第2ユーザが属するクラスタを判定する精度を高めることができる。そして、精度が高められたユーザ分類に関する情報に基づいて広告を配信することにより、配信装置50は、広告効果を向上させることができる。なお、上述したように、分類装置100がユーザの分類を示す情報に基づいて広告を配信する場合、分類装置100は自身の広告配信におけるユーザの反応に基づいて、上述のフィードバックに関する情報に基づいた処理を行う。
〔5.効果〕
上述してきたように、実施形態に係る分類装置100は、受付部131と、第1分類部132と、第2分類部133とを有する。受付部131は、各クラスタに関連付けられた特徴情報を受け付ける。第1分類部132は、受付部131により受け付けられた特徴情報に基づいて、コンテンツ(実施形態においては「ウェブページ」。以下同じ)を分類する。第2分類部133は、第1分類部132により分類されたコンテンツに対するユーザ(実施形態においては「第1ユーザ」。以下同じ)のアクセス情報に基づいて、ユーザを分類する。
これにより、実施形態に係る分類装置100は、分類装置100は、任意に与えられたクラスタに基づいて、コンテンツであるウェブページを適切に分類することができる。つまり、分類装置100は、各クラスタに関連付けられた特徴情報が与えられれば、自動的にウェブページを適切に分類することができる。また、分類装置100は、分類されたウェブページへのアクセス情報に基づいてユーザを適切に分類することができる。そして、分類装置100は、任意に与えられたクラスタに基づいて、ユーザモデルを生成することができる。そして、分類装置100は、生成したユーザモデルにより、ユーザを分類することができる。例えば、分類装置100は人手によりウェブページに分類を示すタグを付与する場合等と比較して、多数のウェブページに対するアクセス情報に基づいて第1ユーザを分類することができるため、第1ユーザの分類の精度を高めることができる。つまり、分類装置100は、各クラスタに関連付けられた特徴情報が与えられれば、ユーザを分類することができる。例えば、アンケート等のコストを要する作業を行うことなく、クラスタ毎に関連付けられた特徴情報を用いることにより、適切にユーザモデルを生成し、生成したユーザモデルにより未分類のユーザである第2ユーザを適切に分類することができる。したがって、分類装置100は、柔軟にユーザ分類を行うことができる。
また、実施形態に係る分類装置100において第1分類部132は、コンテンツに含まれる情報に基づいて、コンテンツを各クラスタのいずれかに分類する。
これにより、実施形態に係る分類装置100は、特徴情報が関連付けられた各クラスタのいずれかにコンテンツを分類することができるため、任意に与えられたクラスタにコンテンツを分類することができる。したがって、分類装置100は、柔軟にコンテンツを分類することができる。
また、実施形態に係る分類装置100において第2分類部133は、ユーザのアクセス情報に基づいて、ユーザを各クラスタのいずれかに分類する。
これにより、実施形態に係る分類装置100は、特徴情報が関連付けられた各クラスタのいずれかにユーザを分類することができるため、任意に与えられたクラスタにユーザを分類することができる。したがって、分類装置100は、柔軟にユーザを分類することができる。
また、実施形態に係る分類装置100は、判定部135を有する。判定部135は、ユーザが属するクラスタを判定する。受付部131は、インターネットにおけるユーザの行動情報を受け付ける。判定部135は、第2分類部133により分類されたユーザの行動情報と類似する行動情報が受け付けられた他のユーザ(実施形態においては「第2ユーザ」)をユーザと同じクラスタに属するユーザと判定する。
これにより、実施形態に係る分類装置100は、分類済のユーザのインターネットにおける行動情報と類似するインターネットにおける行動情報に対応する未分類のユーザを、類似するインターネットにおける行動情報に対応する分類済のユーザが属するクラスタに分類する。すなわち、分類装置100は、インターネットにおけるユーザの行動情報の類似度に基づいて、未分類のユーザが属するクラスタを適切に判定することができる。
また、実施形態に係る分類装置100において受付部131は、心理的属性に関するクラスタに関連付けられた特徴情報を受け付ける。第1分類部132は、心理的属性に関するクラスタに属するコンテンツを分類する。第2分類部133は、心理的属性に関するクラスタに属するコンテンツに対するユーザのアクセス情報に基づいて、心理的属性に関するクラスタに属するユーザを分類する。
これにより、実施形態に係る分類装置100は、心理的属性に関するクラスタに基づいて、コンテンツであるウェブページを適切に分類することができる。つまり、分類装置100は、各クラスタに関連付けられた心理的属性に関する特徴情報が与えられれば、自動的にウェブページを適切に分類することができる。また、分類装置100は、分類されたウェブページへのアクセス情報に基づいてユーザを心理的属性に関するクラスタに適切に分類することができる。そして、例えば、アンケート等のコストを要する作業を行うことなく、クラスタ毎に関連付けられた心理的属性に関する特徴情報を用いることにより、適切に心理的属性に関するユーザモデルを生成し、生成したユーザモデルにより未分類のユーザである第2ユーザを適切に分類することができる。したがって、分類装置100は、柔軟にユーザ分類を行うことができる。
また、実施形態に係る分類装置100において受付部131は、心理的属性として価値基準に関するクラスタに関連付けられた特徴情報を受け付ける。第1分類部132は、価値基準に関するクラスタに属するコンテンツを分類する。第2分類部133は、価値基準に関するクラスタに属するコンテンツに対するユーザのアクセス情報に基づいて、価値基準に関するクラスタに属するユーザを分類する。
これにより、実施形態に係る分類装置100は、価値基準に関するクラスタに基づいて、コンテンツであるウェブページを適切に分類することができる。つまり、分類装置100は、各クラスタに関連付けられた価値基準に関する特徴情報が与えられれば、自動的にウェブページを適切に分類することができる。また、分類装置100は、分類されたウェブページへのアクセス情報に基づいてユーザを価値基準に関するクラスタに適切に分類することができる。そして、例えば、アンケート等のコストを要する作業を行うことなく、クラスタ毎に関連付けられた価値基準に関する特徴情報を用いることにより、適切に価値基準に関するユーザモデルを生成し、生成したユーザモデルにより未分類のユーザである第2ユーザを適切に分類することができる。したがって、分類装置100は、柔軟にユーザ分類を行うことができる。
〔6.ハードウェア構成〕
上述してきた実施形態に係る分類装置100は、例えば図10に示すような構成のコンピュータ1000によって実現される。図10は、分類装置100の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、ネットワークNを介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータをネットワークNを介して他の機器へ送信する。
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が実施形態に係る分類装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置からネットワークNを介してこれらのプログラムを取得してもよい。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の行に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
〔7.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上述してきた実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
1 分類システム
100 分類装置
121 特徴情報記憶部
122 コンテンツ情報記憶部
123 第1ユーザ情報記憶部
124 第2ユーザ情報記憶部
125 ユーザ分類情報記憶部
130 制御部
131 受付部
132 第1分類部
133 第2分類部
134 生成部
135 判定部
136 送信部
10 端末装置
50 配信装置

Claims (8)

  1. 各クラスタに関連付けられた特徴情報を受け付ける受付部と、
    前記受付部により受け付けられた前記特徴情報に基づいて、コンテンツを分類する第1分類部と、
    前記第1分類部により分類された前記コンテンツに対するユーザのアクセス情報に基づいて、前記ユーザを分類する第2分類部と、
    を備えたことを特徴とする分類装置。
  2. 前記第1分類部は、
    前記コンテンツに含まれる情報に基づいて、前記コンテンツを前記各クラスタのいずれかに分類する、
    ことを特徴とする請求項1に記載の分類装置。
  3. 前記第2分類部は、
    前記ユーザのアクセス情報に基づいて、前記ユーザを前記各クラスタのいずれかに分類する、
    ことを特徴とする請求項1または請求項2に記載の分類装置。
  4. ユーザが属するクラスタを判定する判定部、
    をさらに備え、
    前記受付部は、
    インターネットにおけるユーザの行動情報を受け付け、
    前記判定部は、
    前記第2分類部により分類されたユーザの行動情報と類似する行動情報が受け付けられた他のユーザを前記ユーザと同じクラスタに属するユーザと判定する、
    ことを特徴とする請求項1〜3のいずれか1項に記載の分類装置。
  5. 前記受付部は、
    心理的属性に関するクラスタに関連付けられた特徴情報を受け付け、
    前記第1分類部は、
    前記心理的属性に関するクラスタに属するコンテンツを分類し、
    前記第2分類部は、
    前記心理的属性に関するクラスタに属するコンテンツに対するユーザのアクセス情報に基づいて、前記心理的属性に関するクラスタに属するユーザを分類する、
    ことを特徴とする請求項1〜4のいずれか1項に記載の分類装置。
  6. 前記受付部は、
    前記心理的属性として価値基準に関するクラスタに関連付けられた特徴情報を受け付け、
    前記第1分類部は、
    前記価値基準に関するクラスタに属するコンテンツを分類し、
    前記第2分類部は、
    前記価値基準に関するクラスタに属するコンテンツに対するユーザのアクセス情報に基づいて、前記価値基準に関するクラスタに属するユーザを分類する、
    ことを特徴とする請求項5に記載の分類装置。
  7. コンピュータが実行する分類方法であって、
    各クラスタに関連付けられた特徴情報を受け付ける受付工程と、
    前記受付工程により受け付けられた前記特徴情報に基づいて、コンテンツを分類する第1分類工程と、
    前記第1分類工程により分類された前記コンテンツに対するユーザのアクセス情報に基づいて、前記ユーザを分類する第2分類工程と、
    を含むことを特徴とする分類方法。
  8. 各クラスタに関連付けられた特徴情報を受け付ける受付手順と、
    前記受付手順により受け付けられた前記特徴情報に基づいて、コンテンツを分類する第1分類手順と、
    前記第1分類手順により分類された前記コンテンツに対するユーザのアクセス情報に基づいて、前記ユーザを分類する第2分類手順と、
    をコンピュータに実行させることを特徴とする分類プログラム。
JP2015136902A 2015-07-08 2015-07-08 分類装置、分類方法、及び分類プログラム Active JP6043840B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015136902A JP6043840B1 (ja) 2015-07-08 2015-07-08 分類装置、分類方法、及び分類プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015136902A JP6043840B1 (ja) 2015-07-08 2015-07-08 分類装置、分類方法、及び分類プログラム

Publications (2)

Publication Number Publication Date
JP6043840B1 JP6043840B1 (ja) 2016-12-14
JP2017021469A true JP2017021469A (ja) 2017-01-26

Family

ID=57543940

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015136902A Active JP6043840B1 (ja) 2015-07-08 2015-07-08 分類装置、分類方法、及び分類プログラム

Country Status (1)

Country Link
JP (1) JP6043840B1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019040415A (ja) * 2017-08-25 2019-03-14 ヤフー株式会社 解析装置、解析方法、およびプログラム
JPWO2021145400A1 (ja) * 2020-01-16 2021-07-22

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000353174A (ja) * 1999-06-14 2000-12-19 Matsushita Electric Ind Co Ltd 情報取得装置、情報取得方法およびその方法を実行するための記録媒体
JP5100855B2 (ja) * 2011-02-09 2012-12-19 株式会社エヌ・ティ・ティ・ドコモ 潜在クラス分析装置、潜在クラス分析方法及びプログラム
EP2688264B1 (en) * 2012-07-16 2016-08-24 Alcatel Lucent Method and apparatus for privacy protected clustering of user interest profiles
JP5856598B2 (ja) * 2013-10-18 2016-02-10 ヤフー株式会社 情報提供装置、情報提供方法、およびプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019040415A (ja) * 2017-08-25 2019-03-14 ヤフー株式会社 解析装置、解析方法、およびプログラム
JPWO2021145400A1 (ja) * 2020-01-16 2021-07-22
JP7011367B2 (ja) 2020-01-16 2022-01-26 株式会社ウェブジョブズ 情報処理装置、情報処理方法、プログラム、情報処理システム、及び端末

Also Published As

Publication number Publication date
JP6043840B1 (ja) 2016-12-14

Similar Documents

Publication Publication Date Title
Nam et al. Harvesting brand information from social tags
US10599731B2 (en) Method and system of determining categories associated with keywords using a trained model
Kosinski et al. Manifestations of user personality in website choice and behaviour on online social networks
US10503829B2 (en) Book analysis and recommendation
US20120066073A1 (en) User interest analysis systems and methods
JP6023129B2 (ja) 抽出装置、抽出方法及び抽出プログラム
Bhaskaran et al. Enhanced personalized recommendation system for machine learning public datasets: generalized modeling, simulation, significant results and analysis
Beel Towards effective research-paper recommender systems and user modeling based on mind maps
Melucci Contextual search: A computational framework
Wang et al. Database submission—market dynamics and user-generated content about tablet computers
US20150058417A1 (en) Systems and methods of presenting personalized personas in online social networks
Jiang et al. Cloud service recommendation based on unstructured textual information
US20130035996A1 (en) Social advertising technology (so-ad-tec) system and method for advertising for and in documents, and other systems and methods for accessing, structuring, and evaluating documents
US11373210B2 (en) Content interest from interaction information
US9058328B2 (en) Search device, search method, search program, and computer-readable memory medium for recording search program
Menaria et al. Tweet sentiment classification by semantic and frequency base features using hybrid classifier
JP6043840B1 (ja) 分類装置、分類方法、及び分類プログラム
Balakrishnan et al. Improving retrieval relevance using users’ explicit feedback
Ibrahim et al. Extracting behavioural features from smartphone notifications
Mishra et al. Leveraging semantic annotations to link wikipedia and news archives
US20160125061A1 (en) System and method for content selection
JP7073557B2 (ja) 生成装置、生成方法、及び生成プログラム
Wen Development of personalized online systems for web search, recommendations, and e-commerce
US10235679B2 (en) Learning a ranker to rank entities with automatically derived domain-specific preferences
Li et al. Social context analysis for topic-specific expert finding in online learning communities

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161101

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161114

R150 Certificate of patent or registration of utility model

Ref document number: 6043840

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250