JP2017208044A - 観測者検出装置、方法、プログラム、及びコンピュータ読み取り可能な記録媒体 - Google Patents

観測者検出装置、方法、プログラム、及びコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP2017208044A
JP2017208044A JP2016101875A JP2016101875A JP2017208044A JP 2017208044 A JP2017208044 A JP 2017208044A JP 2016101875 A JP2016101875 A JP 2016101875A JP 2016101875 A JP2016101875 A JP 2016101875A JP 2017208044 A JP2017208044 A JP 2017208044A
Authority
JP
Japan
Prior art keywords
item
vector
observer
adopted
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016101875A
Other languages
English (en)
Other versions
JP6614030B2 (ja
Inventor
具治 岩田
Tomoharu Iwata
具治 岩田
卓哉 小西
Takuya Konishi
卓哉 小西
浩平 林
Kohei Hayashi
浩平 林
健一 河原林
Kenichi Kawarabayashi
健一 河原林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Research Organization of Information and Systems
Original Assignee
Nippon Telegraph and Telephone Corp
Research Organization of Information and Systems
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Research Organization of Information and Systems filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016101875A priority Critical patent/JP6614030B2/ja
Publication of JP2017208044A publication Critical patent/JP2017208044A/ja
Application granted granted Critical
Publication of JP6614030B2 publication Critical patent/JP6614030B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】将来多くのユーザが採用するアイテムを早期に採用するユーザである観測者の集合を検出することができる。【解決手段】入力部10が、行動履歴データから、ターゲット変数集合と特徴ベクトル集合とを生成する。学習部20が、ターゲット変数集合と特徴ベクトル集合とに基づいて、特徴ベクトルに基づいてアイテムが多くのユーザが採用しているアイテムであるか否かを分類するための分類器のパラメータベクトルを学習する。特徴選択部30が、学習された前記分類器のパラメータベクトルの要素を選択し、出力部40が、選択されたパラメータベクトルの要素に対応するユーザの集合を、観測者の集合として出力する。【選択図】図1

Description

本発明は、観測者検出装置、方法、プログラム、及びコンピュータ読み取り可能な記録媒体に係り、特に、行動履歴データから、将来多くのユーザが採用するアイテムを早期に採用するユーザである観測者の集合を検出する観測者検出装置、方法、プログラム、及びコンピュータ読み取り可能な記録媒体に関する。
ユーザの行動履歴データに基づき,流行する情報を予測する問題を考える。ここでいう情報とは購買行動における商品やサービス、ソーシャルネットワーク上で投稿される発言や情報、画像、映像などを指し、以後これらを総称してアイテムと呼ぶことにする。これらアイテムの流行予測は、マーケティングや研究開発における戦略立案といった組織レベルの問題から、限りある商品が流行して在庫切れになる前に予約や購入するなど個人レベルの問題まで幅広く応用される。これら流行予測に関連する手法がいくつか提案されている。例えば非特許文献1、2は、将来流行するアイテムを予測する手法を提案している。
Kupavskii, A.; Ostroumova, L.; Umnov, A.; Usachev, S.; Serdyukov, P.;Gusev, G.; Kustarev, A. "Prediction of retweet cascade size over time" . In Proceedings of the 21st ACM International Conference on Information and Knowledge Management (CIKM),2335-2338, 2012. Menjo, T.; Yoshikawa, M. "Trend prediction in social bookmark service using time series of bookmarks". In Proceedings of WWW2008Workshop on Social Search and Mining, 2008. Hannon, J.; McCarthy, K.; Smyth, B. "Finding useful users on twitter: twittomender the followee recommender". Advances in Information Retrieval, 784-787, 2011. Armentano, M. G.; Godoy, D.; Amandi, A. A. "Followee recommendation based on text analysis of micro-blogging activity". Information systems, Vol. 38, No. 8, 1116-1127, 2013.
本発明では流行するアイテムを早期に発見するユーザを検出することを目的とする。こうしたユーザの検出は例えばソーシャルメディア上で有用である。ソーシャルメディアにはユーザ間で取得したアイテムを共有する機能がある。前述の検出されたユーザと情報を共有することで、将来流行が予想されるアイテムを、検出したユーザを経由して入手できる。このようなユーザを以後観測者と呼ぶ。
こうした本発明の目的は上記で挙げた非特許文献1、2のようなアイテムそのものの流行予測とは異なる。また非特許文献3、4ではデータから有用なユーザを抽出する手法を提案しているが、その基準はユーザとの嗜好の近さであるため、こちらも本発明の目的とは異なる。
本発明は、上記の事情を鑑みて成されたものであり、将来多くのユーザが採用するアイテムを早期に採用するユーザである観測者の集合を検出することができる観測者検出装置、方法、プログラム、及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。
上記目的を達成するために、本発明に係る観測者検出装置は、各ユーザが各アイテムを採用した時刻を表す行動履歴データが与えられたときに、将来多くのユーザが採用するアイテムを早期に採用するユーザである観測者の集合を検出する観測者検出装置であって、前記行動履歴データから、各アイテムが、多くのユーザが採用しているアイテムであるかどうかを表すターゲット変数と、各アイテムについての、各ユーザが前記アイテムについて前記観測者として適しているかどうか、又は適している度合いを表す特徴ベクトルとを生成する入力部と、各アイテムの前記ターゲット変数と、各アイテムの前記特徴ベクトルとに基づいて、前記特徴ベクトルに基づいて前記アイテムが多くのユーザが採用しているアイテムであるか否かを分類するための分類器のパラメータベクトルを学習する学習部と、前記学習部によって学習された前記分類器のパラメータベクトルの要素を選択する特徴選択部と、前記特徴選択部によって選択された前記パラメータベクトルの要素に対応するユーザの集合を、前記観測者の集合として出力する出力部と、を含んで構成されている。
また、本発明に係る観測者検出方法は、各ユーザが各アイテムを採用した時刻を表す行動履歴データが与えられたときに、将来多くのユーザが採用するアイテムを早期に採用するユーザである観測者の集合を検出する観測者検出装置における観測者検出方法であって、入力部が、前記行動履歴データから、各アイテムが、多くのユーザが採用しているアイテムであるかどうかを表すターゲット変数と、各アイテムについての、各ユーザが前記アイテムについて前記観測者として適しているかどうか、又は適している度合いを表す特徴ベクトルとを生成し、学習部が、各アイテムの前記ターゲット変数と、各アイテムの前記特徴ベクトルとに基づいて、前記特徴ベクトルに基づいて前記アイテムが多くのユーザが採用しているアイテムであるか否かを分類するための分類器のパラメータベクトルを学習し、特徴選択部が、前記学習部によって学習された前記分類器のパラメータベクトルの要素を選択し、出力部が、前記特徴選択部によって選択された前記パラメータベクトルの要素に対応するユーザの集合を、前記観測者の集合として出力する。
また、本発明に係るプログラムは、コンピュータを、上記の観測者検出装置の各部として機能させるためのプログラムである。
また、本発明に係るコンピュータ読み取り可能な記録媒体は、上記のプログラムを記録したコンピュータ読み取り可能な記録媒体である。
本発明の観測者検出装置、方法、プログラム、及びコンピュータ読み取り可能な記録媒体によれば、行動履歴データから、ターゲット変数と特徴ベクトルとを生成し、アイテムが多くのユーザが採用しているアイテムであるか否かを分類するための分類器のパラメータベクトルを学習し、学習された分類器のパラメータベクトルの要素を選択し、対応するユーザの集合を、観測者の集合とすることにより、将来多くのユーザが採用するアイテムを早期に採用するユーザである観測者の集合を検出することができる、という効果が得られる。
本発明の実施の形態に係る観測者検出装置の構成を示すブロック図である。 本発明の実施の形態に係る観測者検出装置の観測者検出処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
まず、本発明の実施の形態における概要を説明する。本発明の実施の形態では行動履歴を表すデータとしてイベント集合

が得られている状況を想定する。ここで(ie,ue,te)は e番目のイベントであり、ユーザue∈Uがアイテムie∈Iを時刻te≦Tで採用することを表している。ここでいう採用とは、例えば購買履歴における商品の購入や、ソーシャルメディア上での発言などの情報を共有する機能の使用などを指す。Iはアイテム集合、Uはユーザ集合、Tはイベント集合が記録されている時刻の終端である。また|・|は集合の元の個数を表すとする。
このようなデータが与えられた元で、本発明の実施の形態では人気アイテムの分類問題を考える。人気アイテムの定義としては、例えば、(1)採用された回数が全体の上位s%であるアイテム、(2)一定の回数v以上採用されたアイテム、などが考えられるが、イベント集合Eでの採用回数によって、各アイテムが、多くのユーザが採用している人気アイテムかそうでないか区別できれば良いとする。また各アイテムの特徴ベクトルとしては、各要素がユーザ集合Uに対応するU次元ベクトルとして定義する。特徴ベクトルの各要素の値は、対応するユーザが当該アイテムについて観測者として適しているかどうかや、適している度合いなどを表現している必要がある。本発明の実施の形態では、人気アイテムを他のユーザよりも早く採用する傾向があるユーザを観測者として抽出したい。そのため、ユーザがアイテムを採用する順位や時間の情報から、人気アイテムの特徴ベクトルの各要素が、早く採用するユーザで大きな値を、遅く採用するユーザで小さな値をそれぞれ取るように定義すれば良い。具体例は後述する。
このように定義された分類問題における特徴選択によって、ユーザ集合Uの部分集合である観測者集合O⊂Uを抽出する。特徴選択手法としては、分類問題に使用できる方法であれば良い。例えば、L1正則化やL0正則化と、線形分類器とを使用する方法や、決定木やランダムフォレストと、ジニ係数などの情報基準とを組み合わせた方法などが挙げられる。
<観測者検出装置の構成>
次に、本発明の実施の形態に係る観測者検出装置の構成について説明する。図1に示すように、本実施の形態に係る観測者検出装置100は、CPUと、RAMと、後述する観測者検出処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この観測者検出装置100は、機能的には図1に示すように入力部10と、学習部20と、特徴選択部30と、出力部40とを備えている。
入力部10は、取得したい観測者数dと、行動履歴データとしてのイベント集合Eとを受け付ける。また使用する特徴選択手法と分類器に応じて、イベント集合Eを学習用の入力データ集合に変換する。
本実施の形態では、L1正則化と線形分類器を用いた特徴選択手法を使用する場合を例に説明する。
線形分類器は損失関数にパラメータと特徴ベクトルの線形結合を含む分類器であり、例として、ロジスティック回帰やプロビット回帰、サポートベクトルマシンなどが挙げられる。以下では、ロジスティック回帰の例を適宜説明する。
イベント集合Eを、線形分類器に学習させる入力データ集合に変換する。入力データ集合は、各アイテムが、多くのユーザが採用しているアイテムであるかどうかを表すターゲット変数からなるターゲット変数集合と、各アイテムについての、各ユーザが前記アイテムを早期に採用したかどうかを表す特徴ベクトルからなる特徴ベクトル集合とから構成される。
まず、人気アイテムの定義に従い、各アイテムが人気かどうかを表すターゲット変数集合

を計算する。例えば、後述する(1)式のように人気アイテムを定義する場合、

をアイテムiの総採用回数が全アイテム中で上位s%の人気アイテムとなった場合1、それ以外の場合0をとる2値変数として定義する。
次に、特徴ベクトルを定義する。前述のように特徴ベクトルの各要素はユーザに対応し、各要素はそのユーザが当該アイテムについて観測者として適しているかどうか、あるいは適している度合いを表現するように定義する。
一例として、アイテムを採用した順位に基づき2値ベクトルとして特徴ベクトルを構成する例を示す。まず、ユーザuがアイテムiを採用した順位を表す

を計算する。なお最初にアイテムiを採用したユーザuの順位は

とする。この順位を元に以下の特徴ベクトル集合

を定義する。アイテムiに対応する特徴ベクトル

の各要素は、
で表される。ここでzは後述する確率分布 p(z)に従う確率変数であり、どの順位までのユーザを特徴として使用するか決める閾値としての役割を果たす。xi,u(z)は閾値zに依存して決まる。以下では、(1)式の特徴ベクトルを使用する場合を説明する。
次に入力データ集合

の元で損失関数を定義する。損失関数は入力データ集合とパラメータで定義される関数であり、入力データ集合の誤分類が小さいほど小さな値を取る関数として表される。例えば、前述の入力データ集合

に対する損失関数の具体例としては、
が考えられる。このとき線形分類器にロジスティック回帰を使用する場合、各アイテムの損失

は、
で表現される。
σ(・)はシグモイド関数、

は|U|+1次元パラメータベクトルであり、第一要素w0はベクトル全体の位置を定めるバイアスパラメータである。また、(2)式の損失関数は確率分布p(z)の期待値をとることで定義されている。
p(z)は正または非負の値をとる確率分布であれば良い。例えば、ワイブル分布、ガンマ分布、対数正規分布などが考えられる。例えば以下に示すワイブル分布の場合、その確率密度関は、
で定義される。ここでkは形状パラメータ、θは尺度パラメータである。なおワイブル分布のような非負の値をとる確率分布の場合、ちょうどz=0をとるとき対応するxi(z)は第一要素以外の要素が全て0をとるベクトルになる。こうしたベクトルの影響を排除したい場合、正の値をとる確率分布を使用すれば良い。ワイブル分布のような連続型確率分布の場合、ちょうどz=0をとる確率は0であるため、後述する学習部20ではこうしたベクトルの影響をほぼ無視できる。またp(z)としてmでのみ1を取るデルタ関数 δ(z−m)を指定すると、(2)式の損失関数は期待値を含まない以下の形で書くことができる。
分類器の学習では、目的関数の最小化問題を解くことで解ベクトル

を得る。L1正則化を使用する場合、目的関数は損失関数とL1正則化項の和として定義される。例えば、(2)式を損失関数として使用する場合、目的関数は以下のように定義される。
ここで、

はバイアスパラメータw0を除く|U|次元パラメータベクトルであり、

はL1正則化項、λ>0はその正則化パラメータである。L1正則化によって解ベクトル

はw0を除きλが大きいほどゼロの要素が多い疎なベクトルになりやすい。L1正則化による特徴選択では、この非ゼロ要素として残った要素に対応する特徴を分類上有用な特徴として選択する。本発明の実施の形態の場合、残った正値を取る要素に対応するユーザは、人気アイテムを早く採用することが多く、人気でないアイテムを早く採用することが少ないことを意味している。逆に、負値を取る要素に対応するユーザは、人気でないアイテムを早く採用することが多く、人気アイテムを早く採用することが少ないことを意味している。ゆえに、解ベクトルの要素のうち、正値をとる要素に対応するユーザを観測者として抽出すれば良いことになる。
また、(6)式の代わりに以下の最小化問題を解いても良い。
こちらは

のとりうる値が非負の実数値をとる|U|次元空間

上に制約されていると仮定している。この場合、特徴として残る要素は全て正値をとるため、0以外の値を取る解ベクトルの要素を全て観測者として抽出すれば良いことになる。以下では(7)式を解く場合を例に説明する。
学習部20は、各アイテムの前記ターゲット変数と、各アイテムの特徴ベクトルとに基づいて、以下に説明するように、特徴ベクトルに基づいてアイテムが多くのユーザが採用しているアイテムであるか否かを分類するための線形分類器を学習し、線形分類器を学習することで得られるパラメータベクトルを出力する。
本実施の形態では、学習部20は、線形分類器のパラメータベクトル、各アイテムのターゲット変数、及び各アイテムの特徴ベクトルを用いて表される損失関数、及び線形分類器のパラメータベクトルに関する正則化項を含む目的関数を最小化する上記(7)式の最小化問題を解くために、最適化アルゴリズムを実行して、線形分類器のパラメータベクトルを学習する。上記(7)式の損失関数の項にはp(z)に関する期待値が含まれているため、確率的最適化アルゴリズムを使用することが考えられる。例えば、確率的勾配法や、Forward Backward Splittingなどが挙げられるが、ここではAdagrad(非特許文献5:Duchi, D.; Hazan, E.; Singer, Y. "Adaptive Subgradient Methods for Online Learning and Stochastic Optimization". Journal of Machine Learning Research, Vol. 12, 2121 −2159, 2011.)とRegularized Dual Averaging(RDA)(非特許文献6:Xiao, L. "Dual Averaging Methods for Regularized Stochastic Learning and Online Optimization". Journal of Machine Learning Research, Vol. 11, 2543 −2596, 2010.)を使用した確率的最適化アルゴリズム Ada-RDAを用いて(7)式の最小化問題を解く場合を説明する。
Ada-RDAは適当に初期化した

から始め、値を繰り返し更新することで解ベクトルを得る学習アルゴリズムである。nステップにおいて、まず入出力ペア

を1つサンプリングする。アイテムiはアイテム集合Iからランダムに、確率変数zはp(z)に従ってそれぞれサンプリングされる。サンプリングされた入出力ペアによって、パラメータベクトルは現時点の値

を使い、目的関数を最小化する以下の最小化問題を解くことでパラメータベクトルが更新される。
ここでη>0は特徴ベクトル全体の学習率を調整するハイパーパラメータである。

で定義される。ここでgn,uはnステップでの勾配ベクトル

のu番目の要素を示す。ロジスティック回帰の場合、勾配ベクトルは、
で表される。
Hnは対角行列

であり、ベクトル

は以下で定義される。
なおハイパーパラメータ



を満たすよう設定する。これら変数によって定義された上記(8)式の最小化問題を解くことで、u=1,…,|U|について以下の更新式が得られる。
sign(・)は符号関数、[・]+はヒンジ関数である。
学習部20は、サンプリングされた入出力ペアに基づいて、上記(12)式、(13)式に従って、線形分類器のパラメータベクトルを更新する。この更新を繰り返し終了条件を満たすまで繰り返す。繰り返し終了条件としては例えば十分な反復回数を設定しておき、その回数だけ繰り返すなどが挙げられる。繰り返し終了条件を満たせば更新を終了し、その時点で得られたパラメータベクトルを解ベクトル

として出力する。
なお、ここまでで導入したハイパーパラメータ

はパラメータベクトル

とともに事前に初期化しておく必要があるが、交差確認法などを利用することで複数候補の中から選ぶことができる。
特徴選択部30は、学習部20で得た解ベクトルの非ゼロ要素を選択する。なお、本実施の形態のように、L1正則化を用いる手法では、学習部20の出力結果が指定した観測者数dを得るための条件を満たさない場合がある。その場合は学習部20に戻り、条件を変更して再度実行する.
具体的には、得られた解ベクトル

の非ゼロ要素数と取得したい観測者数dを比較する。非ゼロ要素数がd未満であれば、ハイパーパラメータλをより小さい値に初期化して、学習部20に戻ってやり直す。非ゼロ要素数がdであれば、解ベクトル

をそのまま出力する。非ゼロ要素数がdより大きければ、dと一致するように、解ベクトル

の非ゼロ要素のうち、小さい順に要素を0にしてから出力する。
出力部40は、以下の式のように解ベクトルの非ゼロ要素に対応するユーザ集合を観測者集合Oとして検出して出力する。
<本発明の実施の形態に係る観測者検出装置の作用>
次に、本発明の実施の形態に係る観測者検出装置100の作用について説明する。
入力部10において、観測者数dの指定と、行動履歴データであるイベント集合Eを受け付けると、観測者検出装置100は、図2に示す観測者検出処理ルーチンを実行する。
まず、ステップS100において、入力部10は、受け付けたイベント集合Eから、ターゲット変数集合を作成する。次に、ステップS101において、入力部10は、受け付けたイベント集合Eから、ユーザが観測者に適しているかどうか、又は適している度合いを表す特徴ベクトル集合を作成する。
次に、ステップS102において、学習部20は、パラメータベクトル

とハイパーパラメータ

とを初期化する。
ステップS104では、学習部20は、上記ステップS100、S101で得られたターゲット変数集合及び特徴ベクトル集合から、入出力ペア

を1つサンプリングする。
ステップS106では、学習部20は、上記ステップS104でサンプリングした入出力ペア

と、
ハイパーパラメータ

とに基づいて、上記(12)式、(13)式に従って、パラメータベクトル

を更新する。
ステップS108では、学習部20は、予め定められた繰り返し終了条件を満たしか否かを判定し、繰り返し終了条件を満たしていない場合には、上記ステップS104へ戻る。一方、繰り返し終了条件を満たした場合には、ステップS110へ進む。
ステップS110では、特徴選択部30は、上記ステップS106で最終的に得られたパラメータベクトル

の非ゼロ要素の数が、指定された観測者数d未満であるか否かを判定する。非ゼロ要素の数が、指定された観測者数d未満である場合には、ステップS112において、特徴選択部30は、ハイパーパラメータλを小さく更新して、上記ステップS104へ戻る。
一方、非ゼロ要素の数が、指定された観測者数d以上である場合には、ステップS114において、特徴選択部30は、非ゼロ要素の数が、指定された観測者数dであるパラメータベクトル

をそのまま出力する。あるいは、非ゼロ要素数がdより大きければ、dと一致するように、パラメータベクトル

の非ゼロ要素のうち、小さい順に要素を0にしてから出力する。
ステップS116では、出力部40が、非ゼロ要素に対応するユーザ集合を観測者集合Oとして検出して出力し、観測者検出処理ルーチンを終了する。
<実施例>
本発明の実施の形態に係る手法を評価するために、ユーザの行動履歴データが記録された11データセットを用いて実験を行った。イベント集合に含まれるアイテムのうち、採用回数の多い上位s=10%のアイテムを人気アイテムとして定義する。また、m=10人までにアイテムを採用する観測者を探す状況を考える。90%を訓練データ、10%をテストデータとしてランダムに10分割して、訓練とテストを入れ替えながら評価する。訓練データから観測者を選択した後、テストデータ内の各アイテムについて最初のm=10人のユーザに選んだ観測者が1人でも含まれていれば人気アイテムだと判定する。実際に人気アイテムだった場合正解、そうでなかった場合を不正解としてF値を計算する。
選択する観測者数を1人から100人まで変化させて観測者数-F値曲線を描き、そのArea Under Curve(AUC)の値で評価する。
比較手法としてイベント集合から以下の値が大きいユーザを順に観測者として選ぶ5つの手法を用意した。
N adoptions:ユーザの採用回数。
N followers:ユーザが採用した後に同じアイテムを採用したユーザ数の合計値。
N early: m人のユーザが採用する前にアイテムを採用した回数。
N early-pos: m人のユーザが採用する前に人気アイテムを採用した回数。
N early-pos/neg: N early-posをm人のユーザが採用する前に人気でないアイテムを採用した回数で割った値。
上記設定のもとで、実験結果を表1に示す。太字は95%水準の両側t検定において、太字以外の手法よりも有意に良い結果だったことを意味する。
なお、Proposedは本発明においてp(z)にデルタ関数δ(z−m)(m=10)を使用した場合、Proposed with data augmentationは p(z)にワイブル分布を使用した場合(パラメータ (k,θ)は5交差確認法で選択)をそれぞれ表す。全てのデータセットで本発明の実施の形態に係る手法が最も高い精度を達成しており、比較手法よりも適切な観測者を選択できていることを示唆している。
以上説明したように、本実施の形態に係る観測者検出装置によれば、行動履歴データから、ターゲット変数集合と特徴ベクトル集合とからなる入力データ集合を生成し、アイテムが多くのユーザが採用しているアイテムであるか否かを分類するための分類器のパラメータベクトルを学習し、学習された分類器のパラメータベクトルの要素を選択し、対応するユーザの集合を、観測者の集合とすることにより、将来多くのユーザが採用するアイテムを早期に採用するユーザである観測者の集合を検出することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上記実施の形態では、観測者数dの単一の集合のみ検出する場合を説明したが、観測者数が1からDまでの、複数の観測者集合

を一度に検出するように容易に変形できる。L1正則化による特徴選択の場合、まず予め正則化パラメータの集合


を用意しておく。その中で最小のJで学習したときD個以上のパラメータが生き残ることを確認した上で、各jで特徴選択部30と同じ処理を行う。この場合検出したい

の中で欠損している集合が出てくるが、特徴選択部30で行ったように、欠損している集合については、より大きな非ゼロ要素数をもつ解ベクトルの要素を小さい順に削減することで補完すればよい。
また、正則化と線形分類器を用いた特徴選択手法を使用する場合を例に説明したが、これに限定されるものではなく、例えば、決定木やランダムフォレストと、ジニ係数などの情報基準とを組み合わせた方法を使用するようにしてもよい。決定木やランダムフォレストを使用する場合、学習部20は、学習を行った後、スコア計算を行い、特徴ごとのスコア値を出力するようにすればよい。
また、上述の観測者検出装置は、内部にコンピュータシステムを有しているが、コンピュータシステムは、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 入力部
20 学習部
30 特徴選択部
40 出力部
100 観測者検出装置

Claims (7)

  1. 各ユーザが各アイテムを採用した時刻を表す行動履歴データが与えられたときに、将来多くのユーザが採用するアイテムを早期に採用するユーザである観測者の集合を検出する観測者検出装置であって、
    前記行動履歴データから、各アイテムが、多くのユーザが採用しているアイテムであるかどうかを表すターゲット変数と、各アイテムについての、各ユーザが前記アイテムについて前記観測者として適しているかどうか、又は適している度合いを表す特徴ベクトルとを生成する入力部と、
    各アイテムの前記ターゲット変数と、各アイテムの前記特徴ベクトルとに基づいて、前記特徴ベクトルに基づいて前記アイテムが多くのユーザが採用しているアイテムであるか否かを分類するための分類器のパラメータベクトルを学習する学習部と、
    前記学習部によって学習された前記分類器のパラメータベクトルの要素を選択する特徴選択部と、
    前記特徴選択部によって選択された前記パラメータベクトルの要素に対応するユーザの集合を、前記観測者の集合として出力する出力部と、
    を含む観測者検出装置。
  2. 前記特徴選択部は、前記学習部によって学習された前記分類器のパラメータベクトルの要素を選択し、選択した要素の数が、入力された観測者数未満であれば、前記分類器のパラメータベクトルを学習する際に用いるハイパーパラメータを変更して、前記学習部による学習を繰り返させる請求項1記載の観測者検出装置。
  3. 前記学習部は、前記分類器のパラメータベクトル、各アイテムの前記ターゲット変数、及び各アイテムの前記特徴ベクトルを用いて表される損失関数、及び前記分類器のパラメータベクトルに関する正則化項を含む目的関数を最小化するように、前記分類器のパラメータベクトルを学習する請求項1又は2記載の観測者検出装置。
  4. 各アイテムの前記特徴ベクトルは、前記アイテムについて前記観測者として適しているか否かを判断するための閾値に基づいて求められ、
    前記学習部は、前記アイテム及び前記閾値をサンプリングし、サンプリングされた前記アイテムについての前記ターゲット変数、及びサンプリングされた前記閾値に基づいて求められる前記アイテムの前記特徴ベクトルからなる入出力ペアに基づいて、前記目的関数を最小化するように、前記分類器のパラメータベクトルを更新することを繰り返す請求項3記載の観測者検出装置。
  5. 各ユーザが各アイテムを採用した時刻を表す行動履歴データが与えられたときに、将来多くのユーザが採用するアイテムを早期に採用するユーザである観測者の集合を検出する観測者検出装置における観測者検出方法であって、
    入力部が、前記行動履歴データから、各アイテムが、多くのユーザが採用しているアイテムであるかどうかを表すターゲット変数と、各アイテムについての、各ユーザが前記アイテムについて前記観測者として適しているかどうか、又は適している度合いを表す特徴ベクトルとを生成し、
    学習部が、各アイテムの前記ターゲット変数と、各アイテムの前記特徴ベクトルとに基づいて、前記特徴ベクトルに基づいて前記アイテムが多くのユーザが採用しているアイテムであるか否かを分類するための分類器のパラメータベクトルを学習し、
    特徴選択部が、前記学習部によって学習された前記分類器のパラメータベクトルの要素を選択し、
    出力部が、前記特徴選択部によって選択された前記パラメータベクトルの要素に対応するユーザの集合を、前記観測者の集合として出力する
    観測者検出方法。
  6. コンピュータを、請求項1〜請求項4の何れか1項に記載の観測者検出装置の各部として機能させるためのプログラム。
  7. 請求項6に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2016101875A 2016-05-20 2016-05-20 観測者検出装置、方法、プログラム、及びコンピュータ読み取り可能な記録媒体 Active JP6614030B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016101875A JP6614030B2 (ja) 2016-05-20 2016-05-20 観測者検出装置、方法、プログラム、及びコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016101875A JP6614030B2 (ja) 2016-05-20 2016-05-20 観測者検出装置、方法、プログラム、及びコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2017208044A true JP2017208044A (ja) 2017-11-24
JP6614030B2 JP6614030B2 (ja) 2019-12-04

Family

ID=60416544

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016101875A Active JP6614030B2 (ja) 2016-05-20 2016-05-20 観測者検出装置、方法、プログラム、及びコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP6614030B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242239A (zh) * 2020-01-21 2020-06-05 腾讯科技(深圳)有限公司 一种训练样本选取方法、装置、以及计算机存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007140603A (ja) * 2005-11-14 2007-06-07 Nippon Telegr & Teleph Corp <Ntt> アーリーアダプタ抽出方法及び装置及びプログラム及び話題語予測方法及び装置及びプログラム
JP2009238193A (ja) * 2008-03-07 2009-10-15 Nec Corp 普及予測システム、方法およびプログラム、並びに影響度推定システム、方法およびプログラム
JP2011227886A (ja) * 2010-03-30 2011-11-10 Rakuten Inc 商品情報提供システム、商品情報提供方法及びプログラム
JP2012058985A (ja) * 2010-09-08 2012-03-22 Ntt Docomo Inc アプリケーション判別装置及びアプリケーション判別方法
WO2012073718A1 (ja) * 2010-11-29 2012-06-07 日本電気株式会社 コンテンツ分析システム、コンテンツ分析装置、コンテンツ分析方法、コンテンツ分析プログラム
JP2013061756A (ja) * 2011-09-13 2013-04-04 Sony Computer Entertainment Inc 情報処理システム、情報処理方法、プログラム及び情報記憶媒体
US8832006B2 (en) * 2012-02-08 2014-09-09 Nec Corporation Discriminant model learning device, method and program

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007140603A (ja) * 2005-11-14 2007-06-07 Nippon Telegr & Teleph Corp <Ntt> アーリーアダプタ抽出方法及び装置及びプログラム及び話題語予測方法及び装置及びプログラム
JP2009238193A (ja) * 2008-03-07 2009-10-15 Nec Corp 普及予測システム、方法およびプログラム、並びに影響度推定システム、方法およびプログラム
JP2011227886A (ja) * 2010-03-30 2011-11-10 Rakuten Inc 商品情報提供システム、商品情報提供方法及びプログラム
JP2012058985A (ja) * 2010-09-08 2012-03-22 Ntt Docomo Inc アプリケーション判別装置及びアプリケーション判別方法
WO2012073718A1 (ja) * 2010-11-29 2012-06-07 日本電気株式会社 コンテンツ分析システム、コンテンツ分析装置、コンテンツ分析方法、コンテンツ分析プログラム
JP2013061756A (ja) * 2011-09-13 2013-04-04 Sony Computer Entertainment Inc 情報処理システム、情報処理方法、プログラム及び情報記憶媒体
US8832006B2 (en) * 2012-02-08 2014-09-09 Nec Corporation Discriminant model learning device, method and program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
山本 修平 外: "バースト時刻に基づく話題感度の高いユーザの検出", 第7回データ工学と情報マネジメントに関するフォーラム (第13回日本データベース学会年次大会) [O, JPN6019038524, 4 March 2015 (2015-03-04), JP, pages 1 - 7, ISSN: 0004128301 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242239A (zh) * 2020-01-21 2020-06-05 腾讯科技(深圳)有限公司 一种训练样本选取方法、装置、以及计算机存储介质

Also Published As

Publication number Publication date
JP6614030B2 (ja) 2019-12-04

Similar Documents

Publication Publication Date Title
CN110969516B (zh) 一种商品推荐方法及装置
CN108763354B (zh) 一种个性化的学术文献推荐方法
CN108132961B (zh) 一种基于引用预测的参考文献推荐方法
Malherbe et al. Field selection for job categorization and recommendation to social network users
Raza et al. Cloud sentiment accuracy comparison using RNN, LSTM and GRU
Burlutskiy et al. An investigation on online versus batch learning in predicting user behaviour
Oh A YouTube spam comments detection scheme using cascaded ensemble machine learning model
WO2012176863A1 (ja) 情報処理システム、ネットワーク構造学習装置、リンク強度予測装置、リンク強度予測方法およびプログラム
Ben-Shimon et al. An ensemble method for top-N recommendations from the SVD
Antonio et al. Sentiment analysis for covid-19 in Indonesia on Twitter with TF-IDF featured extraction and stochastic gradient descent
Ahmad Tarmizi et al. A case study on student attrition prediction in higher education using data mining techniques
Stańczyk The class imbalance problem in construction of training datasets for authorship attribution
US20220327394A1 (en) Learning support apparatus, learning support methods, and computer-readable recording medium
Roy et al. Prediction of customer satisfaction using Naive Bayes, multiclass classifier, K-star and IBK
JP6614030B2 (ja) 観測者検出装置、方法、プログラム、及びコンピュータ読み取り可能な記録媒体
US20230308360A1 (en) Methods and systems for dynamic re-clustering of nodes in computer networks using machine learning models
Wang et al. Extreme learning machine for multi-class sentiment classification of tweets
Le Falher et al. On the troll-trust model for edge sign prediction in social networks
Hettige et al. Gaussian embedding of large-scale attributed graphs
KR102600697B1 (ko) 제한적 볼츠만 머신 구동 기반의 인터랙티브 맞춤형 검색 방법
Zhao et al. Locality-sensitive linear bandit model for online social recommendation
Patil et al. Machine Learning for Sentiment Analysis and Classification of Restaurant Reviews
Doan et al. Algorithm selection using performance and run time behavior
Khan et al. Histogram based rule verification in lifelong learning models
Islam et al. Developing an intelligent system for recommending products

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160523

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180822

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180822

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190821

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191008

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191021

R150 Certificate of patent or registration of utility model

Ref document number: 6614030

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250