JP5877825B2 - データ処理装置、及びデータ処理方法 - Google Patents
データ処理装置、及びデータ処理方法 Download PDFInfo
- Publication number
- JP5877825B2 JP5877825B2 JP2013243064A JP2013243064A JP5877825B2 JP 5877825 B2 JP5877825 B2 JP 5877825B2 JP 2013243064 A JP2013243064 A JP 2013243064A JP 2013243064 A JP2013243064 A JP 2013243064A JP 5877825 B2 JP5877825 B2 JP 5877825B2
- Authority
- JP
- Japan
- Prior art keywords
- behavior
- granularity
- pattern
- data processing
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 57
- 238000003672 processing method Methods 0.000 title claims description 7
- 238000000034 method Methods 0.000 claims description 90
- 230000008569 process Effects 0.000 claims description 83
- 230000009471 action Effects 0.000 claims description 67
- 238000012795 verification Methods 0.000 claims description 32
- 238000004088 simulation Methods 0.000 claims description 20
- 239000002245 particle Substances 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 14
- 239000012491 analyte Substances 0.000 claims 2
- 230000006399 behavior Effects 0.000 description 161
- 238000010586 diagram Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 7
- 238000002790 cross-validation Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000008520 organization Effects 0.000 description 6
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000033764 rhythmic process Effects 0.000 description 5
- 230000007423 decrease Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
特許文献1に記載のシステムでは、行動履歴データ集合に属する履歴数と、履歴数に対する各行動履歴データの順位情報とをパラメータとしたグラフを用い、ユーザの行動指向を特定するためのべき指数を単位期間毎に算出する。そして、べき指数が小さい負の値である場合に、特定目的を達成することに特化した行動、べき指数が大きい負の値である場合に、多様性が強く、目的自体を探すのが目的であるような行動(多様性指向の行動)として、ユーザの行動指向を判定する。
上記特許文献1に記載のシステムでは、行動履歴データ集合に属する履歴数と、その順位情報からべき指数を単位期間毎に算出する。しかしながら、ユーザによっては、基準とする単位期間がそれぞれ異なり、全ユーザに対して同一単位期間を設定すると、正確な行動予測を実施できない。
ここで、行動予測の単位を10分に設定した場合、即ち、現時点から、10分毎のユーザの行動を予測する場合、ユーザAは、10分単位で決まった時間に決まった行動をするため、現時点までの行動と、複数種の行動パターンから、10分後の行動を高精度に予測できる。これに対して、ユーザBは、20〜30の誤差があるため、現時点までの行動を複数種の行動パターンから、10分後の行動予測を実施しても、その行動が実際に的中する確率は低く、予測精度が低下する。
一方、行動予測の単位を30分に設定した場合、即ち、現時点から、30分毎のユーザの行動を予測する場合、ユーザAに対する行動予測は、上記10分単位の予測時と同様、精度が高いものの、10分単位の行動予測と比較して、詳細な予測まで実施できない。これに対して、ユーザBでは、10分単位の行動予測では、低精度であったが、30分単位の行動予測では、予測精度が向上する。
また、ユーザA,ユーザBの行動ログに基づいて、それぞれの30分間隔の行動パターンを生成した場合、ユーザAでは生成した行動パターンと実際の行動との差が少ないものの、10分単位で生成された行動パターンよりも、詳細な行動予測を実施できない。一方、ユーザBでは生成した行動パターンと実際の行動との差が少なくなり、10分単位で生成された行動パターンよりも高精度な行動予測を行える。
以下、本発明に係る第一実施形態のデータ処理装置を備えたデータ処理システムについて、図面に基づいて説明する。
[全体構成]
図1は、第一実施形態のデータ処理システムの概略構成を示すブロック図である。
図1に示すように、本実施形態のデータ処理システム1は、ユーザ端末10と、本発明のデータ処理装置として機能するサーバ装置20と、を備え、これらのユーザ端末10及びサーバ装置20がネットワーク(例えばインターネット等のWAN(Wide Area Network))を介して通信可能に接続されている。
このデータ処理システム1では、ユーザ端末10からサーバ装置20に対してアクセスがあった際に、サーバ装置20は、そのアクセスログ(行動ログ)を検出して蓄積する。そして、サーバ装置20は、蓄積したアクセスログに基づいて、ユーザ端末10の操作者であるユーザの行動を予測する。以下、各構成について詳細に説明する。
ユーザ端末10としては、例えば、デスクトップ型パーソナルコンピュータ、ノート型パーソナルコンピュータ、スマートフォン、携帯電話、タブレット端末等を例示できる。ここで、本例では、図1に示すように、デスクトップ型パーソナルコンピュータ(PC10A)、スマートフォン10B、タブレット端末10CがユーザAにより使用されるユーザ端末10である場合を例示する。
ユーザ端末10は、図1に示すように、表示部11と、入力操作部12と、端末通信部13と、端末記憶部14と、端末制御部15と、を含んで構成される。
入力操作部12は、ユーザ操作による操作信号を端末制御部15に出力する。入力操作部としては、例えば、表示部11と一体に設けられたタッチパネルや、キーボード、マウス等の入力装置等を例示できる。
端末通信部13は、ネットワーク上の所定の装置と通信する。
また、端末記憶部14には、その他、ユーザ端末を制御するための各種プログラム等が記憶される。
図2は、サーバ装置20の概略構成を示すブロック図である。
サーバ装置20は、コンピュータにより構成され、本発明のデータ処理装置として機能する。このサーバ装置20は、サーバ通信部21と、サーバ記憶部22と、サーバ制御部23と、等を含んで構成されている。
サーバ通信部21は、例えばLAN等を介してネットワークに接続されており、ユーザ端末10と通信する。
ここで、サーバ記憶部22には、ユーザ端末10毎のアクセスログが記録されるが、当該アクセスログにはユーザIDが記録される。したがって、所定のユーザIDを有するアクセスログを取得することで、当該ユーザIDに対応した全てのアクセスログを取得できる。すなわち、本実施形態におけるアクセスログは、本発明におけるユーザ(分析対象)の行動ログに相当する。
パターン生成手段233は、各行動グループの代表的な行動パターンを生成する。
パターン予測手段234は、各ユーザの所定の開始タイミングから現時点までのアクセスログと、当該ユーザに対して生成された行動グループの行動パターンに基づいて、各ユーザの現時点から所定時間後までの行動パターンを予測する。このように、行動パターンを予測することで、サーバ装置20は、各ユーザに対して最適な広告等の情報を提供することが可能となる。
粒度設定手段235は、パターン予測手段234により行動予測を実施する際の、データ処理の細分化の単位となる粒度を設定する。例えば、本実施形態では、粒度として各ユーザに最適な時間を設定する。これにより、パターン予測手段234は、設定された粒度に基づき、粒度の時間ごとのユーザの行動パターンを予測することになる。
なお、以上のサーバ制御部23の各機能構成についての詳細な説明は後述する。
次に、上記のようなデータ処理システム1におけるサーバ装置20のデータ処理方法について説明する。
サーバ装置20は、蓄積されたアクセスログに基づいて、まず、各ユーザの行動パターンをクラスタリングして行動グループを分類し、その代表パターンを生成するクラスタリング処理を実施する。この後、サーバ装置20は、その代表パターンを用いて、各ユーザに最適な粒度を設定する粒度設定処理を実施する。そして、サーバ装置20は、設定された粒度に基づいて、各ユーザの将来の行動を予測する行動予測処理を実施する。
サーバ装置20によるクラスタリング処理について、図面に基づいて説明する。
図3は、クラスタリング処理のフローチャートである。
サーバ装置20は、例えば、分析者からの要求があった場合に、クラスタリング処理を実施する。なお、クラスタリング処理を行うタイミングとしては、その他、ユーザ端末10からのアクセス数が少ない深夜時間帯(例えば2:00から4:00)であってもよい。
図4は、ユーザAからの所定サービス(例えばニュース)に対する所定デバイス(例えばPC10A)からのアクセス数、及び当該アクセス数に基づいて処理された各データを示す図である。
このステップS2では、クラスタリング手段232は、抽出したアクセスログに基づいたアクセス数の推移(図4における上のグラフ)から、行動パターン(図4における下のグラフ)を生成する。
具体的には、クラスタリング手段232は、例えば1時間単位で、サーバ装置20に対してアクセスがあったか否かを検出し、アクセスがある場合に「1」、ない場合に「0」を返した2値化データを行動パターンとして生成する。すなわち、クラスタリング手段232は、アクセス数の推移を、ベルヌーイ分布に落とし込んで、行動パターンを生成する。
なお、図4に示す例では、2つのデバイス(例えばPC10A及びスマートフォン10B)からのアクセス数、及び2値化データを示しているが、実際には、多値のパラメータに対応した分、行動パターンが生成される。つまり、ステップS2では、クラスタリング手段232は、各ユーザに対して、各デバイスデータ毎、各利用サービスデータ毎に、上述のような2値化データである行動パターンを生成する。
上述のようにアクセスログは、デバイスデータや、利用アクセスデータ等、多値により表せる複数のパラメータを有する。
例えば、デバイスデータとして、PC10A、スマートフォン10B、及びタブレット端末10Cの3パターンがあるとした場合、前記行動パターンとしては、PC10Aのアクセスに関する行動パターン、スマートフォン10Bに関する行動パターン、及びタブレット端末10Cに関する行動パターンが得られる。この場合、所定の時間単位(例えば1時間単位)において、デバイスからアクセスがあるか否かを示すパラメータは、例えば、PC10Aのアクセスを「1」、スマートフォン10Bからのアクセスを「2」、タブレット端末10Cからのアクセスを「3」、いずれの端末からもアクセスがない状態を「0」とした4値で表せる。
同様に利用サービスデータに関しても、「対象となるサービスの数+1」の値で、利用サービスに関するパラメータを表せる。クラスタリング手段232は、これらの多値のパラメータを有する複合ディリクレプロセスモデルを用いて、ノンパラメトリックベイズ法によりクラスタリングを実施する。
これにより、各ユーザに対して、それぞれ最適な数の行動グループが算出され、図5に示すように、行動パターンをクラスタリングした複数個の行動グループを生成することができる。なお、図5の左図に示す例は、図4と同様、簡略化のため2つのデバイスに対する行動パターンのみを例示しているが、実際には、多値のパラメータに対する行動パターンが複合的にクラスタリングされた行動グループが生成される。
このステップS4では、パターン生成手段233は、例えば、行動グループに含まれる複数の行動パターンの平均値を算出し、図5の右図に示すような代表パターンとする。
なお、代表パターンとしては、上記のような平均値に限られない。例えば、行動グループに含まれる複数の行動パターンを再クラスタリングし、最も数が多いグループのパターンを代表パターンとしてもよい。また、再クラスタリングした際に分割された各グループの中間点等を代表パターンとしてもよい。その他、行動グループに含まれる複数の行動パターンのうち、最頻値を代表パターンとしてもよい。
次に、サーバ装置20による粒度設定処理について説明する。
図6は、粒度設定処理のフローチャートである。
サーバ装置20は、例えば、上述したクラスタリング処理により得られた、各ユーザの複数種の行動グループに基づいて、当該各ユーザに対してそれぞれ最適な粒度を設定する。本実施形態では、上述のように、粒度として、各ユーザに対してそれぞれ最適な細分化単位となる時間を設定する。
この粒度設定処理は、例えば、上記クラスタリング処理が実施された段階で、適宜実施されることが好ましい。
分割する各ログの個数としては、例えばモデル生成用ログの個数と、検証用ログの個数とが同数となるように分割することが好ましい。
この後、粒度設定手段235は、ステップS12にて生成された各モデルパターンを用いて、粒度を様々に設定した行動予測処理を実施し、検証用ログと比較するシミュレーション処理を実施する。
図7は、所定ユーザにおける行動予測処理の概略を説明するための図である。なお、図7では、説明の簡略化のため、1つのデバイスからサーバ装置20への行動パターン及び代表パターンを例示しているが、実際には、多値の各パラメータに対応した複数の行動パターン及び代表パターンに基づいた予測を行う。
図7に示すように、所定の開始時点T1から予測開始時点T2までの行動ログが与えられた場合に、粒度設定手段235は、検証用ログにおける当該開始時点T1から予測開始時点T2までの期間L1の行動パターンの波形と、ステップS12により生成された各モデルパターン(図7における各グループの代表パターン)における同期間L1における行動パターンの波形とを取得する(ステップS13)。なお、開始時点T1としては、例えば予め設定された時刻(例えば、午前0時)を開始時点T1としてもよく、例えば午前7時等、ユーザが行動を開始し始める時刻等に設定してもよい。また、期間L1としても、例えば午前中(0:00〜12:00)を設定してもよく、その他の時刻を設定してもよい。
次に、検証用ログの期間L1の行動パターンの波形と、モデルパターンの期間L1の行動パターンの波形との類似度を算出し、算出した類似度から当該モデルパターンが検証用ログに的中する確率を算出する(ステップS14)。例えば、モデルパターンに対する類似度を、各モデルパターンの類似度の和で割った値を確率とする。
ステップS19において、Noと判定された場合、粒度設定手段235は、クロスバリデーション処理により、ステップS12からステップS18の処理を繰り返す。つまり、粒度設定手段235は、例えばモデル生成用ログと、検証用ログとを入れ替え(ステップS20)、ステップS12の処理に戻る。
なお、ここでは、ステップS20として、モデル生成用ログと、検証用ログとを入れ替えてシミュレーション処理を実施する例を示すが、例えば、モデル生成用ログの一部と、検証用ログの一部とを入れ替えたシミュレーション処理を複数回実施する等の処理をしてもよい。また、本実施形態では、複数個のモデル生成用ログと、複数個の検証用ログとを用いたシミュレーション処理を実施したが、抽出されたアクセスログのうち、1つのアクセスログを検証用ログとし、その他のアクセスログをモデル生成用ログとして、検証用ログを順次入れ替えたシミュレーション処理を実施する等してもよい。
ここで、ステップS16において算出される粒度検証値としては、検証用ログの数だけ算出される。また、クロスバリデーションにより複数回のシミュレーションを実施するため、クロスバリデーションによりシミュレーションを実施した回数分、上記検証値が得られることになる。なお、上記例では、期間L1を固定としたが、例えば、期間L1を1時間間隔でずらしてもよく、この場合では、期間L1をずらした回数分、シミュレーション結果(粒度検証値)が算出されることになる。
ステップS21では、粒度設定手段235は、1つの期間L2に対して算出された粒度検証値の代表値を取得し、その値が最大となる期間L2を粒度とする。なお、代表値としては、例えば、粒度検証値(パターンの類似度)の平均値であってもよく、メディアン値等であってもよい。
次に、サーバ装置20による行動予測処理について説明する。
図8は、行動予測処理のフローチャートである。
サーバ装置20は、例えば、上述した粒度設定処理により得られた、各ユーザに対してそれぞれ設定された粒度に基づいて、当該各ユーザに対する将来の行動を予測する。
この行動予測処理は、上記した粒度設定手段235による行動予測とほぼ同じ手法により、ユーザの行動を予測する。
そして、パターン予測手段234は、ステップS31で検出した期間L1における行動パターンの波形と、ステップS32で取得した各代表パターンの期間L1における波形とを比較してその類似度を算出する。また、算出した類似度から代表パターンが行動パターンに的中する確率を算出する(ステップS33)。この確率の算出は、ステップS14と同様であり、例えば、代表パターンに対して算出された類似度を、各代表パターンの類似度の和で割った値を採用できる。
本実施形態では、図9に示すように、行動予測処理により、予測パターンと実際のアクセスパターンとが同様のパターン形状になる。
一方、上記例では、説明の簡略化のため、ユーザ端末10からサーバ装置20にアクセスがあったか否かを示すパラメータにより、ユーザがサーバ装置20に対してアクセスするか否かを示す行動予測を示したが、実際には、デバイスデータ、利用サービスデータ等に基づいた、詳細な行動予測が得られる。
本実施形態では、上述したように、アクセスログのパラメータとして、デバイスデータを取得し、デバイス毎の代表パターンを生成する。そして、行動予測処理のステップS21において、所定のデバイスデータを有するアクセスログから行動パターンを検出し、ステップS22において、各デバイスデータ毎の代表パターンを取得する。これにより、各デバイス毎の行動予測を実施できる。この場合、例えば図10(A)の期間TAに示す予測パターン及び実際のアクセスパターンに示すように、デバイスをまとめてしまうと、アクセスを予測できなかった場合でも、図10(B)に示すように、デバイス毎の予測パターンを生成することで、アクセスを予測できる可能性が高くなる。図10(B)では、PC10Aからの予測パターンに対して、実際のアクセスパターンが略一致している。
本実施形態では、上述したように、アクセスログのパラメータとして、利用サービスデータを取得し、利用したサービス毎の代表パターンを生成する。そして、行動予測処理のステップS21において、所定のサービスを有するアクセスログから行動パターンを検出し、ステップS22において、各サービス毎の代表パターンを取得する。これにより、各サービス毎の行動予測を実施できる。この場合、例えば図11(A)の期間TBに示す予測パターン及び実際のアクセスパターンに示すように、サービスをまとめて予測すると、アクセスを予測できなかった場合でも、図11(B)に示すように、サービス毎の予測パターンを生成することで、アクセスを予測できる可能性が高くなる。図11(B)では、メールサービスの予測パターンに対して、実際のアクセスパターンが一致している。
本実施形態のサーバ装置20は、ユーザ毎のアクセスログを蓄積するサーバ記憶部22を備える。そして、サーバ装置20の粒度設定手段235は、蓄積されたアクセスログを用いて生成されるユーザ毎の行動パターンに基づいて、各ユーザに対して、それぞれ、粒度を設定する。この粒度は、例えば行動予測処理等のデータ処理を実施する上でのデータ細分化の最適な単位であり、ユーザ毎にこのような粒度を設定することで、個々のユーザに対して最適なデータ処理(行動予測処理等)を実施することができる。
粒度設定手段235は、サーバ記憶部22に蓄積された各ユーザのアクセスログを、モデル生成用ログ及び検証用ログに2分割する。そして、クラスタリング手段232及びパターン生成手段233は、モデル生成用ログから複数のモデルパターンを生成し、粒度設定手段235は、このモデルパターンと、検証用ログと比較し、粒度を様々に変化させながら、最適な粒度を探索するシミュレーション処理を実施する。
この場合、個々のユーザに対して、そのユーザに対するアクセスログを用いたシミュレーション処理を実施するため、各ユーザ固有の生活リズムに即した精度と高い粒度を設定できる。
このように、粒度として時間を設定することで、例えば、時間軸に沿ったユーザの行動予測処理を実施する場合に、最適な時間単位の行動予測をユーザ毎に実施できる。例えば、日々の生活において、決まったリズムで所定の行動を起こすユーザに対して、細かい粒度に設定(粒度を短い時間に設定)することで、細かい時間単位で詳細に行動予測を実施できる。また、日々の生活において、行動を起こすリズムが定まっていないユーザでは、上記のような細かい粒度を設定すると、予測した行動の的中率が低下し、予測精度が低下するが、本実施形態では、このようなユーザに対しては、粗い粒度に設定(粒度を長い時間に設定)することで、行動予測の的中率(予測精度)が向上する。
このような構成では、上述のように、各ユーザにそれぞれ設定された最適な粒度に基づいて、各ユーザの将来の行動を高精度に予測できる。このような高精度な行動予測を実施することで、ユーザの行動に即したサービスをユーザの意図するタイミングで提供することができる。例えば、各ユーザの嗜好性等が登録されている場合、ユーザのアクセス時間の統計を採り、アクセスする可能性が高い複数のユーザのうち、同じ嗜好性を有するユーザのグループに分割する。このような処理をすることで、各グループに対して最適なサービス(例えば広告表示等)を行うことができる。
このようなクラスタリングでは、各ユーザのそれぞれに対して、最適な行動グループの数を設定でき、精度よく、ユーザの行動を分類することができる。したがって、例えば、予め設定されたグループに対して、ユーザの行動パターンがどのグループに属するかを判定する場合に比べて、各ユーザの固有のリズムに合わせた最適なクラスタリングを実施できる。
次に、本発明に係る第二実施形態のデータ処理システムについて説明する。
上述した実施形態では、粒度設定処理において、粒度設定手段235は、蓄積されたアクセスログをモデル生成用ログ及び検証用ログに分割し、シミュレーション処理を実施することで粒度を設定した。
これに対して、本実施形態では、粒度設定手段は、シミュレーション処理を実施せずに粒度を設定する点で上記第一実施形態と相違する。
なお、以降の実施形態において、同一構成については、同符号を付し、その説明を省略又は簡略化する。
本実施形態では、粒度設定手段235は、クラスタリング処理(ステップS1〜ステップS4)により生成された各グループに含まれる行動パターンのばらつきに基づいて、粒度を設定する。
図12(A)は、代表パターンの一例を示す図であり、(B)は、当該代表パターンに対応した行動グループに含まれる実際の行動パターンの例である。図13(A)は、他のユーザにおける代表パターンの一例を示す図であり、(B)は、当該代表パターンに対応した行動グループに含まれる実際の行動パターンの例である。
一方、図13に示す例では、クラスタリングされた下層グループの数が所定値よりも多くなる。この場合、粒度設定手段235は、行動パターンのばらつきが大きいと判定する。そして、粒度設定手段235は、粒度をより大きい値に設定するか、若しくは、設定された粒度を維持する。例えば粒度の初期値が1時間である場合、例えば2時間に設定する。また、設定された粒度が、所定の最大値(例えば3時間等)である場合では、当該粒度を維持する。
上述した第一及び第二実施形態では、粒度設定処理により設定された粒度に基づいて、各ユーザの将来の行動を予測する行動予測処理を実施する例を示した。これに対して、第三実施形態では、第一実施形態のような行動予測処理に加え、さらに、設定された粒度に基づいて、クラスタリング処理を実施する点が上記第一実施形態と相違する。
上記第三実施形態では、第一実施形態において設定された粒度に基づいたクラスタリング処理を実施する例を示した。これに対して、第四実施形態では、第二実施形態において設定された粒度に基づいて、さらにクラスタリング処理を実施する。
なお、本発明は、上述した実施形態に限定されるものではなく、本発明の目的を達成できる範囲で、以下に示される変形をも含むものである。
[変形例1]
粒度設定手段235は、粒度として、時間を設定したが、これに限定されない。粒度設定手段235により設定される粒度としては、例えば、デバイスデータの階層や、利用サービスデータの階層等を設定してもよく、また、これらのデータの階層及び時間の組み合わせ等を設定してもよい。
この場合、粒度設定手段235は、例えば上記第一実施形態や第二実施形態と同様の処理により、デバイスデータに基づいて、デバイスの種類のばらつきに応じて、デバイスの階層単位を粒度として設定することができる。上記例では、ユーザAに対する粒度として、例えばデバイスの種類に加え、各種デバイスの機種までを粒度として設定する。一方、ユーザBに対する粒度として、デバイスの種類までを粒度と設定することになる。
このように、粒度としてデバイスの種類の階層を設定することで、ユーザに応じた階層単位でデバイスの種別を判定でき、どのデバイスを使用してサーバ装置20にアクセスするかの行動パターンを精度よく予測できる。
この場合、粒度設定手段235は、例えば上記第一実施形態や第二実施形態と同様の処理により、利用サービスデータに基づいて、利用サービスの種類やより下層の内容のばらつきに応じて、利用サービスの階層単位を粒度として設定することができる。上記例では、ユーザAに対する粒度として、例えばサービスの種類のさらに下位階層(サービスのより詳細なジャンル)を粒度として設定する。一方、ユーザBに対する粒度として、利用サービスの種類までを粒度と設定する。
この場合、ユーザに応じた階層単位で利用サービスの種別を判定でき、どのサービスを利用することが多い等の行動パターンを精度よく予測できる。
上記実施形態では、分析対象として、個々のユーザを例示したが、これに限定されない。例えば、分析対象として、共通の状態を有する複数のユーザのグループであってもよい。例えば、同じ職場や同じ学校等、ユーザが属する団体を1つのグループとして、その団体における個々のユーザの行動パターンから、団体に属するユーザの平均的な行動パターンをクラスタリングし、団体に属するユーザの平均的な行動予測を行ってもよい。
また、粒度設定手段235は、個々のユーザに対する粒度を設定する際に、そのユーザが属する団体の行動パターンから粒度を設定してもよい。
上記第二実施形態では、粒度設定手段235は、クラスタリング手段232により、グループ内の行動パターンを、再クラスタリングさせ、その結果に応じて各行動パターンの類似度を判定し、粒度を設定した。これに対して、例えば、各グループに含まれる行動パターン同士を、波の相関係数を用いてずれ量を検出し、類似度を判定してもよい。
その他、グループに含まれる各行動パターンの類似性を判定可能な処理であれば、いかなる処理を実施してもよい。
上記実施形態では、ログ取得手段231がデータ取得手段として機能し、ログ取得手段231によりユーザ端末10から取得され、サーバ記憶部22に蓄積されたアクセスログに基づいて粒度を設定したが、これに限定されない。例えば、ログ取得手段231は、ユーザ端末10からネットワーク上の他の装置に送信されたアクセスログ(他の装置に蓄積されたアクセスログ)を取得する構成とし、取得したアクセスログに基づいて粒度を設定する処理を実施してもよい。
Claims (7)
- 分析対象の行動ログを取得するデータ取得手段と、
前記分析対象の複数の前記行動ログに基づく行動パターンを少なくとも1以上のクラスタに分類するクラスタリング手段と、
前記クラスタリング手段により分類された前記クラスタを用いたシミュレーション結果に基づいて、前記各分析対象に対して所定のデータ処理を実施する際のデータの細分化単位である粒度をそれぞれ設定する粒度設定手段と、
を具備したことを特徴とするデータ処理装置。 - 請求項1に記載のデータ処理装置において、
前記クラスタリング手段は、前記粒度設定手段により設定された前記粒度に基づいて前記行動パターンを分類する
ことを特徴とするデータ処理装置。 - 請求項1又は請求項2に記載のデータ処理装置において、
前記分析対象に対して設定された前記粒度及び前記クラスタに基づいて、前記分析対象の行動を予測する行動予測手段を備えた
ことを特徴とするデータ処理装置。 - 請求項1から請求項3のいずれか1項に記載のデータ処理装置において、
前記粒度設定手段は、取得した前記分析対象の複数の前記行動ログを、モデル生成用ログ及び検証用ログに2分割し、前記モデル生成用ログに基づく行動パターンを分類したクラスタを用いて前記粒度を変化させた際の前記分析対象の行動予測と、前記検証用ログとを比較するシミュレーション処理を実施して前記粒度を設定する
ことを特徴とするデータ処理装置。 - 請求項4に記載のデータ処理装置において、
前記粒度設定手段は、前記行動ログのうち、前記モデル生成用ログとして用いる前記行動ログ、及び前記検証用ログとして用いる前記行動ログを所定数ずつ入れ替えて、複数回前記シミュレーション処理を実施することで、前記粒度を設定する
ことを特徴とするデータ処理装置。 - 請求項1から請求項5のいずれか1項に記載のデータ処理装置において、
前記行動ログは、前記分析対象の行動を示す複数のパラメータに対して多値のいずれか
が選択される多値モデルであり、
前記クラスタリング手段は、多値のディリクレプロセスモデルを用いた、ノンパラメトリックベイズ法によるクラスタリング処理を実施することで、前記行動ログをクラスタリングする
ことを特徴とするデータ処理装置。 - コンピュータにより粒度設定処理を実施するデータ処理方法であって、
前記コンピュータは、
分析対象の行動ログを取得し、
前記分析対象の複数の前記行動ログに基づく行動パターンを少なくとも1以上のクラスタに分類し、
分類された前記クラスタを用いたシミュレーション結果に基づいて、前記各分析対象に対して所定の処理を実施する際のデータの細分化単位である粒度をそれぞれ設定する
ことを特徴とするデータ処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013243064A JP5877825B2 (ja) | 2013-11-25 | 2013-11-25 | データ処理装置、及びデータ処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013243064A JP5877825B2 (ja) | 2013-11-25 | 2013-11-25 | データ処理装置、及びデータ処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015103019A JP2015103019A (ja) | 2015-06-04 |
JP5877825B2 true JP5877825B2 (ja) | 2016-03-08 |
Family
ID=53378674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013243064A Active JP5877825B2 (ja) | 2013-11-25 | 2013-11-25 | データ処理装置、及びデータ処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5877825B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018072968A (ja) | 2016-10-26 | 2018-05-10 | セイコーエプソン株式会社 | データ処理装置およびデータ処理方法 |
JP6823612B2 (ja) * | 2018-02-09 | 2021-02-03 | ヤフー株式会社 | 予測装置、予測方法、及び予測プログラム |
JP7507596B2 (ja) | 2020-05-08 | 2024-06-28 | 株式会社日立製作所 | 生産性改善支援システム及び生産性改善支援方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5223404B2 (ja) * | 2008-03-19 | 2013-06-26 | 富士ゼロックス株式会社 | 組織活動分析装置およびプログラム |
JP5250827B2 (ja) * | 2008-09-19 | 2013-07-31 | 株式会社日立製作所 | 行動履歴の生成方法及び行動履歴の生成システム |
JP5495235B2 (ja) * | 2010-12-02 | 2014-05-21 | 株式会社日立製作所 | 監視対象者の行動を監視する装置及び方法 |
-
2013
- 2013-11-25 JP JP2013243064A patent/JP5877825B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015103019A (ja) | 2015-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Luo et al. | An instance-frequency-weighted regularization scheme for non-negative latent factor analysis on high-dimensional and sparse data | |
Kumar et al. | A big data MapReduce framework for fault diagnosis in cloud-based manufacturing | |
Unger et al. | Context-aware recommendations based on deep learning frameworks | |
Ahmed et al. | Scalable distributed inference of dynamic user interests for behavioral targeting | |
US9076156B2 (en) | Real-time adaptive binning through partition modification | |
Tyagi et al. | Enhancing collaborative filtering recommendations by utilizing multi-objective particle swarm optimization embedded association rule mining | |
Sun et al. | Contextual intent tracking for personal assistants | |
CN101013427A (zh) | 用于管理数据的方法和系统 | |
KR20160121806A (ko) | 일시적 거래 한도 결정 | |
CN110705719A (zh) | 执行自动机器学习的方法和装置 | |
Kim et al. | Recommendation system for sharing economy based on multidimensional trust model | |
CN105069036A (zh) | 一种信息推荐方法及装置 | |
CN106104626A (zh) | 基于分析的数字内容的更新 | |
JP5877825B2 (ja) | データ処理装置、及びデータ処理方法 | |
JP2020098388A (ja) | 需要予測方法、需要予測プログラムおよび需要予測装置 | |
Codispoti et al. | Learning from non-experts: an interactive and adaptive learning approach for appliance recognition in smart homes | |
Ding et al. | Establishing smartphone user behavior model based on energy consumption data | |
Shorfuzzaman et al. | Predictive analytics of energy usage by IOT-based smart home appliances for Green Urban Development | |
Abbas et al. | Co-evolving popularity prediction in temporal bipartite networks: A heuristics based model | |
Alghofaily et al. | Data mining service recommendation based on dataset features | |
Xiao et al. | A multiple-instance stream learning framework for adaptive document categorization | |
CN113760521A (zh) | 一种虚拟资源的分配方法和装置 | |
CN109961163A (zh) | 性别预测方法、装置、存储介质及电子设备 | |
Zheng et al. | Modeling stochastic service time for complex on-demand food delivery | |
CN111553749A (zh) | 一种活动推送策略配置方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150908 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150915 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151110 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160119 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160126 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5877825 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |