JP2017208044A - 観測者検出装置、方法、プログラム、及びコンピュータ読み取り可能な記録媒体 - Google Patents
観測者検出装置、方法、プログラム、及びコンピュータ読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP2017208044A JP2017208044A JP2016101875A JP2016101875A JP2017208044A JP 2017208044 A JP2017208044 A JP 2017208044A JP 2016101875 A JP2016101875 A JP 2016101875A JP 2016101875 A JP2016101875 A JP 2016101875A JP 2017208044 A JP2017208044 A JP 2017208044A
- Authority
- JP
- Japan
- Prior art keywords
- item
- vector
- observer
- adopted
- classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
まず、本発明の実施の形態における概要を説明する。本発明の実施の形態では行動履歴を表すデータとしてイベント集合
が得られている状況を想定する。ここで(ie,ue,te)は e番目のイベントであり、ユーザue∈Uがアイテムie∈Iを時刻te≦Tで採用することを表している。ここでいう採用とは、例えば購買履歴における商品の購入や、ソーシャルメディア上での発言などの情報を共有する機能の使用などを指す。Iはアイテム集合、Uはユーザ集合、Tはイベント集合が記録されている時刻の終端である。また|・|は集合の元の個数を表すとする。
次に、本発明の実施の形態に係る観測者検出装置の構成について説明する。図1に示すように、本実施の形態に係る観測者検出装置100は、CPUと、RAMと、後述する観測者検出処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この観測者検出装置100は、機能的には図1に示すように入力部10と、学習部20と、特徴選択部30と、出力部40とを備えている。
を計算する。例えば、後述する(1)式のように人気アイテムを定義する場合、
をアイテムiの総採用回数が全アイテム中で上位s%の人気アイテムとなった場合1、それ以外の場合0をとる2値変数として定義する。
を計算する。なお最初にアイテムiを採用したユーザuの順位は
とする。この順位を元に以下の特徴ベクトル集合
を定義する。アイテムiに対応する特徴ベクトル
の各要素は、
の元で損失関数を定義する。損失関数は入力データ集合とパラメータで定義される関数であり、入力データ集合の誤分類が小さいほど小さな値を取る関数として表される。例えば、前述の入力データ集合
に対する損失関数の具体例としては、
は、
σ(・)はシグモイド関数、
は|U|+1次元パラメータベクトルであり、第一要素w0はベクトル全体の位置を定めるバイアスパラメータである。また、(2)式の損失関数は確率分布p(z)の期待値をとることで定義されている。
を得る。L1正則化を使用する場合、目的関数は損失関数とL1正則化項の和として定義される。例えば、(2)式を損失関数として使用する場合、目的関数は以下のように定義される。
はバイアスパラメータw0を除く|U|次元パラメータベクトルであり、
はL1正則化項、λ>0はその正則化パラメータである。L1正則化によって解ベクトル
はw0を除きλが大きいほどゼロの要素が多い疎なベクトルになりやすい。L1正則化による特徴選択では、この非ゼロ要素として残った要素に対応する特徴を分類上有用な特徴として選択する。本発明の実施の形態の場合、残った正値を取る要素に対応するユーザは、人気アイテムを早く採用することが多く、人気でないアイテムを早く採用することが少ないことを意味している。逆に、負値を取る要素に対応するユーザは、人気でないアイテムを早く採用することが多く、人気アイテムを早く採用することが少ないことを意味している。ゆえに、解ベクトルの要素のうち、正値をとる要素に対応するユーザを観測者として抽出すれば良いことになる。
のとりうる値が非負の実数値をとる|U|次元空間
上に制約されていると仮定している。この場合、特徴として残る要素は全て正値をとるため、0以外の値を取る解ベクトルの要素を全て観測者として抽出すれば良いことになる。以下では(7)式を解く場合を例に説明する。
から始め、値を繰り返し更新することで解ベクトルを得る学習アルゴリズムである。nステップにおいて、まず入出力ペア
を1つサンプリングする。アイテムiはアイテム集合Iからランダムに、確率変数zはp(z)に従ってそれぞれサンプリングされる。サンプリングされた入出力ペアによって、パラメータベクトルは現時点の値
を使い、目的関数を最小化する以下の最小化問題を解くことでパラメータベクトルが更新される。
は
のu番目の要素を示す。ロジスティック回帰の場合、勾配ベクトルは、
であり、ベクトル
は以下で定義される。
は
を満たすよう設定する。これら変数によって定義された上記(8)式の最小化問題を解くことで、u=1,…,|U|について以下の更新式が得られる。
として出力する。
はパラメータベクトル
とともに事前に初期化しておく必要があるが、交差確認法などを利用することで複数候補の中から選ぶことができる。
の非ゼロ要素数と取得したい観測者数dを比較する。非ゼロ要素数がd未満であれば、ハイパーパラメータλをより小さい値に初期化して、学習部20に戻ってやり直す。非ゼロ要素数がdであれば、解ベクトル
をそのまま出力する。非ゼロ要素数がdより大きければ、dと一致するように、解ベクトル
の非ゼロ要素のうち、小さい順に要素を0にしてから出力する。
次に、本発明の実施の形態に係る観測者検出装置100の作用について説明する。
とハイパーパラメータ
とを初期化する。
を1つサンプリングする。
と、
ハイパーパラメータ
とに基づいて、上記(12)式、(13)式に従って、パラメータベクトル
を更新する。
の非ゼロ要素の数が、指定された観測者数d未満であるか否かを判定する。非ゼロ要素の数が、指定された観測者数d未満である場合には、ステップS112において、特徴選択部30は、ハイパーパラメータλを小さく更新して、上記ステップS104へ戻る。
をそのまま出力する。あるいは、非ゼロ要素数がdより大きければ、dと一致するように、パラメータベクトル
の非ゼロ要素のうち、小さい順に要素を0にしてから出力する。
本発明の実施の形態に係る手法を評価するために、ユーザの行動履歴データが記録された11データセットを用いて実験を行った。イベント集合に含まれるアイテムのうち、採用回数の多い上位s=10%のアイテムを人気アイテムとして定義する。また、m=10人までにアイテムを採用する観測者を探す状況を考える。90%を訓練データ、10%をテストデータとしてランダムに10分割して、訓練とテストを入れ替えながら評価する。訓練データから観測者を選択した後、テストデータ内の各アイテムについて最初のm=10人のユーザに選んだ観測者が1人でも含まれていれば人気アイテムだと判定する。実際に人気アイテムだった場合正解、そうでなかった場合を不正解としてF値を計算する。
N followers:ユーザが採用した後に同じアイテムを採用したユーザ数の合計値。
N early: m人のユーザが採用する前にアイテムを採用した回数。
N early-pos: m人のユーザが採用する前に人気アイテムを採用した回数。
N early-pos/neg: N early-posをm人のユーザが採用する前に人気でないアイテムを採用した回数で割った値。
を一度に検出するように容易に変形できる。L1正則化による特徴選択の場合、まず予め正則化パラメータの集合
を用意しておく。その中で最小のJで学習したときD個以上のパラメータが生き残ることを確認した上で、各jで特徴選択部30と同じ処理を行う。この場合検出したい
の中で欠損している集合が出てくるが、特徴選択部30で行ったように、欠損している集合については、より大きな非ゼロ要素数をもつ解ベクトルの要素を小さい順に削減することで補完すればよい。
20 学習部
30 特徴選択部
40 出力部
100 観測者検出装置
Claims (7)
- 各ユーザが各アイテムを採用した時刻を表す行動履歴データが与えられたときに、将来多くのユーザが採用するアイテムを早期に採用するユーザである観測者の集合を検出する観測者検出装置であって、
前記行動履歴データから、各アイテムが、多くのユーザが採用しているアイテムであるかどうかを表すターゲット変数と、各アイテムについての、各ユーザが前記アイテムについて前記観測者として適しているかどうか、又は適している度合いを表す特徴ベクトルとを生成する入力部と、
各アイテムの前記ターゲット変数と、各アイテムの前記特徴ベクトルとに基づいて、前記特徴ベクトルに基づいて前記アイテムが多くのユーザが採用しているアイテムであるか否かを分類するための分類器のパラメータベクトルを学習する学習部と、
前記学習部によって学習された前記分類器のパラメータベクトルの要素を選択する特徴選択部と、
前記特徴選択部によって選択された前記パラメータベクトルの要素に対応するユーザの集合を、前記観測者の集合として出力する出力部と、
を含む観測者検出装置。 - 前記特徴選択部は、前記学習部によって学習された前記分類器のパラメータベクトルの要素を選択し、選択した要素の数が、入力された観測者数未満であれば、前記分類器のパラメータベクトルを学習する際に用いるハイパーパラメータを変更して、前記学習部による学習を繰り返させる請求項1記載の観測者検出装置。
- 前記学習部は、前記分類器のパラメータベクトル、各アイテムの前記ターゲット変数、及び各アイテムの前記特徴ベクトルを用いて表される損失関数、及び前記分類器のパラメータベクトルに関する正則化項を含む目的関数を最小化するように、前記分類器のパラメータベクトルを学習する請求項1又は2記載の観測者検出装置。
- 各アイテムの前記特徴ベクトルは、前記アイテムについて前記観測者として適しているか否かを判断するための閾値に基づいて求められ、
前記学習部は、前記アイテム及び前記閾値をサンプリングし、サンプリングされた前記アイテムについての前記ターゲット変数、及びサンプリングされた前記閾値に基づいて求められる前記アイテムの前記特徴ベクトルからなる入出力ペアに基づいて、前記目的関数を最小化するように、前記分類器のパラメータベクトルを更新することを繰り返す請求項3記載の観測者検出装置。 - 各ユーザが各アイテムを採用した時刻を表す行動履歴データが与えられたときに、将来多くのユーザが採用するアイテムを早期に採用するユーザである観測者の集合を検出する観測者検出装置における観測者検出方法であって、
入力部が、前記行動履歴データから、各アイテムが、多くのユーザが採用しているアイテムであるかどうかを表すターゲット変数と、各アイテムについての、各ユーザが前記アイテムについて前記観測者として適しているかどうか、又は適している度合いを表す特徴ベクトルとを生成し、
学習部が、各アイテムの前記ターゲット変数と、各アイテムの前記特徴ベクトルとに基づいて、前記特徴ベクトルに基づいて前記アイテムが多くのユーザが採用しているアイテムであるか否かを分類するための分類器のパラメータベクトルを学習し、
特徴選択部が、前記学習部によって学習された前記分類器のパラメータベクトルの要素を選択し、
出力部が、前記特徴選択部によって選択された前記パラメータベクトルの要素に対応するユーザの集合を、前記観測者の集合として出力する
観測者検出方法。 - コンピュータを、請求項1〜請求項4の何れか1項に記載の観測者検出装置の各部として機能させるためのプログラム。
- 請求項6に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016101875A JP6614030B2 (ja) | 2016-05-20 | 2016-05-20 | 観測者検出装置、方法、プログラム、及びコンピュータ読み取り可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016101875A JP6614030B2 (ja) | 2016-05-20 | 2016-05-20 | 観測者検出装置、方法、プログラム、及びコンピュータ読み取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017208044A true JP2017208044A (ja) | 2017-11-24 |
JP6614030B2 JP6614030B2 (ja) | 2019-12-04 |
Family
ID=60416544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016101875A Active JP6614030B2 (ja) | 2016-05-20 | 2016-05-20 | 観測者検出装置、方法、プログラム、及びコンピュータ読み取り可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6614030B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111242239A (zh) * | 2020-01-21 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 一种训练样本选取方法、装置、以及计算机存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007140603A (ja) * | 2005-11-14 | 2007-06-07 | Nippon Telegr & Teleph Corp <Ntt> | アーリーアダプタ抽出方法及び装置及びプログラム及び話題語予測方法及び装置及びプログラム |
JP2009238193A (ja) * | 2008-03-07 | 2009-10-15 | Nec Corp | 普及予測システム、方法およびプログラム、並びに影響度推定システム、方法およびプログラム |
JP2011227886A (ja) * | 2010-03-30 | 2011-11-10 | Rakuten Inc | 商品情報提供システム、商品情報提供方法及びプログラム |
JP2012058985A (ja) * | 2010-09-08 | 2012-03-22 | Ntt Docomo Inc | アプリケーション判別装置及びアプリケーション判別方法 |
WO2012073718A1 (ja) * | 2010-11-29 | 2012-06-07 | 日本電気株式会社 | コンテンツ分析システム、コンテンツ分析装置、コンテンツ分析方法、コンテンツ分析プログラム |
JP2013061756A (ja) * | 2011-09-13 | 2013-04-04 | Sony Computer Entertainment Inc | 情報処理システム、情報処理方法、プログラム及び情報記憶媒体 |
US8832006B2 (en) * | 2012-02-08 | 2014-09-09 | Nec Corporation | Discriminant model learning device, method and program |
-
2016
- 2016-05-20 JP JP2016101875A patent/JP6614030B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007140603A (ja) * | 2005-11-14 | 2007-06-07 | Nippon Telegr & Teleph Corp <Ntt> | アーリーアダプタ抽出方法及び装置及びプログラム及び話題語予測方法及び装置及びプログラム |
JP2009238193A (ja) * | 2008-03-07 | 2009-10-15 | Nec Corp | 普及予測システム、方法およびプログラム、並びに影響度推定システム、方法およびプログラム |
JP2011227886A (ja) * | 2010-03-30 | 2011-11-10 | Rakuten Inc | 商品情報提供システム、商品情報提供方法及びプログラム |
JP2012058985A (ja) * | 2010-09-08 | 2012-03-22 | Ntt Docomo Inc | アプリケーション判別装置及びアプリケーション判別方法 |
WO2012073718A1 (ja) * | 2010-11-29 | 2012-06-07 | 日本電気株式会社 | コンテンツ分析システム、コンテンツ分析装置、コンテンツ分析方法、コンテンツ分析プログラム |
JP2013061756A (ja) * | 2011-09-13 | 2013-04-04 | Sony Computer Entertainment Inc | 情報処理システム、情報処理方法、プログラム及び情報記憶媒体 |
US8832006B2 (en) * | 2012-02-08 | 2014-09-09 | Nec Corporation | Discriminant model learning device, method and program |
Non-Patent Citations (1)
Title |
---|
山本 修平 外: "バースト時刻に基づく話題感度の高いユーザの検出", 第7回データ工学と情報マネジメントに関するフォーラム (第13回日本データベース学会年次大会) [O, JPN6019038524, 4 March 2015 (2015-03-04), JP, pages 1 - 7, ISSN: 0004128301 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111242239A (zh) * | 2020-01-21 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 一种训练样本选取方法、装置、以及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP6614030B2 (ja) | 2019-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110969516B (zh) | 一种商品推荐方法及装置 | |
CN108763354B (zh) | 一种个性化的学术文献推荐方法 | |
CN108132961B (zh) | 一种基于引用预测的参考文献推荐方法 | |
Malherbe et al. | Field selection for job categorization and recommendation to social network users | |
Raza et al. | Cloud sentiment accuracy comparison using RNN, LSTM and GRU | |
Burlutskiy et al. | An investigation on online versus batch learning in predicting user behaviour | |
Oh | A YouTube spam comments detection scheme using cascaded ensemble machine learning model | |
WO2012176863A1 (ja) | 情報処理システム、ネットワーク構造学習装置、リンク強度予測装置、リンク強度予測方法およびプログラム | |
Ben-Shimon et al. | An ensemble method for top-N recommendations from the SVD | |
Antonio et al. | Sentiment analysis for covid-19 in Indonesia on Twitter with TF-IDF featured extraction and stochastic gradient descent | |
Ahmad Tarmizi et al. | A case study on student attrition prediction in higher education using data mining techniques | |
Stańczyk | The class imbalance problem in construction of training datasets for authorship attribution | |
US20220327394A1 (en) | Learning support apparatus, learning support methods, and computer-readable recording medium | |
Roy et al. | Prediction of customer satisfaction using Naive Bayes, multiclass classifier, K-star and IBK | |
JP6614030B2 (ja) | 観測者検出装置、方法、プログラム、及びコンピュータ読み取り可能な記録媒体 | |
US20230308360A1 (en) | Methods and systems for dynamic re-clustering of nodes in computer networks using machine learning models | |
Wang et al. | Extreme learning machine for multi-class sentiment classification of tweets | |
Le Falher et al. | On the troll-trust model for edge sign prediction in social networks | |
Hettige et al. | Gaussian embedding of large-scale attributed graphs | |
KR102600697B1 (ko) | 제한적 볼츠만 머신 구동 기반의 인터랙티브 맞춤형 검색 방법 | |
Zhao et al. | Locality-sensitive linear bandit model for online social recommendation | |
Patil et al. | Machine Learning for Sentiment Analysis and Classification of Restaurant Reviews | |
Doan et al. | Algorithm selection using performance and run time behavior | |
Khan et al. | Histogram based rule verification in lifelong learning models | |
Islam et al. | Developing an intelligent system for recommending products |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20160523 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180822 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20180822 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190821 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191008 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191021 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6614030 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |