JP2015187773A - データ解析装置、データ解析プログラム及びデータ解析方法 - Google Patents
データ解析装置、データ解析プログラム及びデータ解析方法 Download PDFInfo
- Publication number
- JP2015187773A JP2015187773A JP2014064612A JP2014064612A JP2015187773A JP 2015187773 A JP2015187773 A JP 2015187773A JP 2014064612 A JP2014064612 A JP 2014064612A JP 2014064612 A JP2014064612 A JP 2014064612A JP 2015187773 A JP2015187773 A JP 2015187773A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- data analysis
- events
- transition matrix
- subset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007405 data analysis Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims description 19
- 239000011159 matrix material Substances 0.000 claims abstract description 68
- 230000007704 transition Effects 0.000 claims abstract description 67
- 238000004364 calculation method Methods 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims description 5
- 238000009795 derivation Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Landscapes
- Complex Calculations (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】真に意味のある事象間の相関の見逃すことなく、対象データから新たな知見を獲得するためのデータ解析装置を提供する。【解決手段】複数の単位事象に関する対象データを解析し、前記単位事象間の相関を検出するためのデータ解析装置が提供される。前記データ解析装置は、定義部と、生成部と、算出部とを備える。前記定義部は、前記対象データに基づいて、前記複数の単位事象を要素として含む全体集合の部分集合G1,G2,・・・,GN(Nは、部分集合の数)の集合を定義する。前記生成部は、前記対象データに基づいて、前記部分集合G1,G2,・・・,GNの各々を状態とみなして、マルコフ遷移行列を生成する。前記算出部は、前記マルコフ遷移行列を掛け合わせてゆくことにより、定常状態確率を算出する。前記部分集合G1,G2,・・・,GNには、2以上の前記単位事象を要素として含む集合が含まれる。【選択図】図2
Description
本発明は、多種多様な対象データを解析し、新たな知見を獲得するためのデータ解析装置、データ解析プログラム及びデータ解析方法に関する。
近年、ビッグデータの解析のための様々な手法が提案されている。ビッグデータとは、多種多様で構造化されていない膨大なデータ集合のことであり、例えば、企業の保有する販売・サービスの利用実績に関するデータベースや、インターネット上の情報をビッグデータと捉えることができる。
非特許文献1には、コンピュータ上で利用可能な文書データを解析し、自動的にトピックを推定する技術が開示されている。このような文書データも、一種のビッグデータである。非特許文献1では、文書データ中の共起語に注目して、トピック別の学習用の文書をマルコフモデルでモデル化し、テスト文書に対して各モデルにおける尤度を求め、テスト文書のトピックを推定する技術を開示している。
若林啓ら,共起語を利用した事象系列に基づくトピック推定,日本データベース学会論文誌,第7巻,No.1,79〜84頁,2008年6月27日
ところで、ビッグデータには、様々な事象が含まれる。例えば、非特許文献1のように、文書を解析する場合には、単語が事象に対応する。そして、単語の共起関係を評価することで、事象間の相関を発見できれば、新たな知見となる。しかしながら、単語と単語、すなわち、事象と事象との1対1の対応関係に注目しているだけでは、真に意味のある事象間の相関を見逃すことになり兼ねない。
本発明は、真に意味のある事象間の相関の見逃しを減らし、対象データから新たな知見を獲得するためのデータ解析装置、データ解析プログラム及びデータ解析方法を提供することを目的とする。
本発明の第1観点に係るデータ解析装置は、複数の単位事象に関する対象データを解析し、前記単位事象間の相関を検出するためのデータ解析装置であって、定義部と、生成部と、算出部とを備える。前記定義部は、前記対象データに基づいて、前記複数の単位事象を要素として含む全体集合の部分集合G1,G2,・・・,GN(Nは、部分集合の数)の集合を定義する。前記生成部は、前記対象データに基づいて、前記部分集合G1,G2,・・・,GNの各々を状態とみなして、マルコフ遷移行列を生成する。前記算出部は、前記マルコフ遷移行列を掛け合わせてゆくことにより、定常状態確率を算出する。前記部分集合G1,G2,・・・,GNには、2以上の前記単位事象を要素として含む集合が含まれる。
ここでは、複数の単位事象間の相関が、マルコフモデルに基づいて分析される。具体的には、複数の単位事象を要素として含む全体集合の部分集合G1,G2,・・・,GN(Nは、部分集合の数)の集合が定義される。例えば、a,b,c,dという4つの単位事象があるとする。このとき、4つの単位事象a,b,c,dを要素として含む全体集合{a,b,c,d}の部分集合には、空集合φ、1つの単位事象を要素として含む集合{a},{b},{c},{d}、及び、2以上の単位事象を要素として含む集合{a,b},{a,c},{a,d},{b,c},{b,d},{c,d},{a,b,c},{a,b,d},{a,c,d},{b,c,d},{a,b,c,d}がある。そして、全体集合から作ることができる全ての部分集合のうち、ここで定義される部分集合G1,G2,・・・,GNには、少なくとも2以上の単位事象を要素として含む部分集合が含まれる。
また、ここでは、以上のような部分集合Gi(又は、部分集合Giに対応する事象ei)の各々を「状態」とみなして(i=1,2,・・・,N)、マルコフモデルが構築される。従って、当該マルコフモデルは、単に1の単位事象と1の単位事象との間の遷移関係のみを評価するモデルと比べ、複数の単位事象間の関係をより多様に評価することができる。特に、部分集合G1,G2,・・・,GNに、1つの単位事象を要素として含む部分集合を含めた場合には、単位事象の1:1、1:多、多:1、及び、多:多の関係を評価することが可能になる。よって、真に意味のある単位事象間の相関の見逃しを減らし、対象データから新たな知見を獲得することができる。
本発明の第2観点に係るデータ解析装置は、第1観点に係るデータ解析装置であって、前記生成部は、i=1,2,・・・,Nかつj=1,2,・・・,Nに対し、前記部分集合Giと前記部分集合Gjとが共起する場合の関数f(i,j)の値を導出し、i=1,2,・・・,Nかつj=1,2,・・・,Nに対する前記関数f(i,j)の値に基づいて、前記マルコフ遷移行列を生成する。
ここでは、i=1,2,・・・,Nかつj=1,2,・・・,Nに対し、部分集合Giに対応する事象ei(1又は複数の単位事象の組み合わせ)と、部分集合Gjに対応する事象ej(1又は複数の単位事象の組み合わせ)とが共起する場合の関数f(i,j)の値が導出される。また、i=1,2,・・・,Nかつj=1,2,・・・,Nに対する関数f(i,j)の値に基づいて、事象eiが生じたときに、事象ejが共起する確率(又は、事象eiから事象ejへ遷移する確率)が導出される。従って、事象ei,事象ej間の共起関係を評価することができる。なお、関数f(i,j)は、例えば、事象ei,ej間に共起が行った回数を表すものであってもよいし、事象ei,ej間の距離を表すものであってもよい。
本発明の第3観点に係るデータ解析装置は、第1観点又は第2観点に係るデータ解析装置であって、前記対象データを定期的に取得する取得部をさらに備える。前記生成部は、新たな前記対象データが得られる度に、前記マルコフ遷移行列を新たに生成する。前記算出部は、前記定常状態確率を算出する過程で、算出済みの前記マルコフ遷移行列の積に、新たな前記マルコフ遷移行列を掛け合わせてゆく。
ここでは、単位事象に関する対象データが時々刻々変化する場合に、当該変化に追随するように、マルコフモデルも時々刻々変化する。従って、対象データの時間的変化に追随しつつ、単位事象間の相関を高精度に評価することができる。
本発明の第4観点に係るデータ解析プログラムは、複数の単位事象に関する対象データを解析し、前記単位事象間の相関を検出するためのデータ解析プログラムであって、以下のステップをコンピュータに実行させる。
1)前記対象データに基づいて、前記複数の単位事象を要素として含む全体集合の部分集合G1,G2,・・・,GN(Nは、部分集合の数)の集合を定義するステップ。
2)前記対象データに基づいて、前記部分集合G1,G2,・・・,GNの各々を状態とみなして、マルコフ遷移行列を生成するステップ。
3)前記マルコフ遷移行列を掛け合わせてゆくことにより、定常状態確率を算出するステップ。
なお、前記部分集合G1,G2,・・・,GNには、2以上の前記単位事象を要素として含む集合が含まれる。
ここでは、第1観点と同様の効果を奏することができる。
1)前記対象データに基づいて、前記複数の単位事象を要素として含む全体集合の部分集合G1,G2,・・・,GN(Nは、部分集合の数)の集合を定義するステップ。
2)前記対象データに基づいて、前記部分集合G1,G2,・・・,GNの各々を状態とみなして、マルコフ遷移行列を生成するステップ。
3)前記マルコフ遷移行列を掛け合わせてゆくことにより、定常状態確率を算出するステップ。
なお、前記部分集合G1,G2,・・・,GNには、2以上の前記単位事象を要素として含む集合が含まれる。
ここでは、第1観点と同様の効果を奏することができる。
本発明の第5観点に係るデータ解析方法は、コンピュータを用いて、複数の単位事象に関する対象データを解析し、前記単位事象間の相関を検出するためのデータ解析方法であって、以下のステップを含む。
1)前記対象データに基づいて、前記複数の単位事象を要素として含む全体集合の部分集合G1,G2,・・・,GN(Nは、部分集合の数)の集合を定義するステップ。
2)前記コンピュータが、前記対象データに基づいて、前記部分集合G1,G2,・・・,GNの各々を状態とみなして、マルコフ遷移行列を生成するステップ。
3)前記コンピュータが、前記マルコフ遷移行列を掛け合わせてゆくことにより、定常状態確率を算出するステップ。
なお、前記部分集合G1,G2,・・・,GNには、2以上の前記単位事象を要素として含む集合が含まれる。
ここでは、第1観点と同様の効果を奏することができる。
1)前記対象データに基づいて、前記複数の単位事象を要素として含む全体集合の部分集合G1,G2,・・・,GN(Nは、部分集合の数)の集合を定義するステップ。
2)前記コンピュータが、前記対象データに基づいて、前記部分集合G1,G2,・・・,GNの各々を状態とみなして、マルコフ遷移行列を生成するステップ。
3)前記コンピュータが、前記マルコフ遷移行列を掛け合わせてゆくことにより、定常状態確率を算出するステップ。
なお、前記部分集合G1,G2,・・・,GNには、2以上の前記単位事象を要素として含む集合が含まれる。
ここでは、第1観点と同様の効果を奏することができる。
本発明によれば、部分集合G1,G2,・・・,GNの各々を「状態」とみなしてマルコフモデルが構築され、部分集合G1,G2,・・・,GNには、少なくとも2以上の単位事象を要素として含む集合が含まれる。従って、当該マルコフモデルは、単に1の単位事象と1の単位事象との間の遷移関係のみを評価するモデルと比べ、複数の単位事象間の関係をより多様に評価することができる。特に、部分集合G1,G2,・・・,GNに、1つの単位事象を要素として含む部分集合を含めた場合には、単位事象の1:1、1:多、多:1、及び、多:多の関係を評価することが可能になる。よって、真に意味のある単位事象間の相関の見逃しを減らし、対象データから新たな知見を獲得することができる。
以下、図面を参照しつつ、本発明の一実施形態に係るデータ解析装置、データ解析プログラム及びデータ解析方法について説明する。
<1.データ解析装置の構成>
図1に示すデータ解析装置1は、本発明の一実施形態に係るデータ解析装置である。本実施形態に係るデータ解析装置1は、商品の販売実績に関するビッグデータから、新たな知見として商品間の相関を発見するのを支援するための装置である。具体的には、データ解析装置1は、インターネットやLAN等のネットワーク6を介して、様々な商品の販売実績を蓄積している販売時点情報管理(POS)システムサーバ(以下、POSデータベースという)3に接続されている。データ解析装置1は、POSデータベース3内の商品の販売実績に関するデータ(以下、販売データという)に基づいて、商品の販売予測を行う。
図1に示すデータ解析装置1は、本発明の一実施形態に係るデータ解析装置である。本実施形態に係るデータ解析装置1は、商品の販売実績に関するビッグデータから、新たな知見として商品間の相関を発見するのを支援するための装置である。具体的には、データ解析装置1は、インターネットやLAN等のネットワーク6を介して、様々な商品の販売実績を蓄積している販売時点情報管理(POS)システムサーバ(以下、POSデータベースという)3に接続されている。データ解析装置1は、POSデータベース3内の商品の販売実績に関するデータ(以下、販売データという)に基づいて、商品の販売予測を行う。
データ解析装置1は、ハードウェアとしては、汎用のコンピュータである。データ解析装置1には、CD−ROM、USBメモリ等のコンピュータで読み取り可能な記録媒体5から、又はネットワーク6を介して別のコンピュータから、データ解析プログラム2がインストールされている。データ解析プログラム2は、本発明の一実施形態に係るデータ解析プログラムであり、POSデータベース3内の販売データを解析し、商品の販売予測を行う機能を有するアプリケーションソフトウェアである。データ解析プログラム2は、データ解析装置1に後述する動作に含まれるステップを実行させる。
図1に示すとおり、データ解析装置1は、表示部10、入力部20、記憶部30、制御部40および通信部50を有する。これらの部10〜50は、互いにバス線7で接続されており、相互に通信可能である。本実施形態では、表示部10は、液晶ディスプレイ等で構成されており、適当な画面をユーザに対し表示する。また、入力部20は、マウスやキーボード、タッチパネル、操作ボタン等で構成されており、データ解析装置1に対するユーザからの操作を受け付ける。通信部50は、データ解析装置1をネットワーク6に接続するほか、USBメモリや、CD−ROM、外付けハードディスクなどの外部記憶装置との間でデータ通信を行う通信インターフェースである。記憶部30は、ハードディスク、フラッシュメモリ等の不揮発性の記憶装置から構成されている。記憶部30内には、データ解析プログラム2が格納されている。
制御部40は、CPU、ROM及びRAM等から構成されており、記憶部30内に格納されているデータ解析プログラム2を読み出して実行することにより、仮想的に取得部41、定義部42、導出部43、生成部44、算出部45、予測部46及び表示制御部47として動作する。各部41〜47の動作については、後述する。
<2.解析処理>
以下、図2を参照しつつ、データ解析装置1が、POSデータベース3内の販売データを解析することにより、将来の販売予測を行う処理(以下、解析処理)の流れについて、詳細に説明する。なお、ステップS1〜S7は、一定期間間隔で(本実施形態では、一週間間隔で)繰り返される処理である。
以下、図2を参照しつつ、データ解析装置1が、POSデータベース3内の販売データを解析することにより、将来の販売予測を行う処理(以下、解析処理)の流れについて、詳細に説明する。なお、ステップS1〜S7は、一定期間間隔で(本実施形態では、一週間間隔で)繰り返される処理である。
まず、ステップS1では、取得部41が、通信部50を介して、POSデータベース3内から直近の一定期間分の販売データを取得する。ただし、初回のステップS1では、一定期間分のデータが得られないことも考えられるため、その場合には、より少ない販売データ、例えば、直近1日分の販売データが取得される。以下では、具体的に説明するために、ステップS1において、表1に示す販売データ得られたものとする。表1は、消費者1〜10による4つの商品a,b,c,dの購入の有無を示しており、「1」が購入、「0」が非購入を意味する。
続くステップS2では、定義部42が、直近のステップS1で取得された販売データに含まれる商品の種別を全て特定し、これらの全ての商品の種別を要素として含む全体集合を定義する。表1の例では、4つの商品a〜dが特定され、全体集合{a,b,c,d}が定義される。続けて、定義部42は、全体集合の部分集合の集合(トポロジー)を定義する。本実施形態では、全体集合から作ることができる全ての部分集合、すなわち、表1の例では、φ(空集合),{a},{b},{c},{d},{a,b},{a,c},{a,d},{b,c},{b,d},{c,d},{a,b,c},{a,b,d},{a,c,d},{b,c,d},{a,b,c,d}(全体集合)が定義される。なお、トポロジー(代数トポロジー)とは、以下の条件を満たす部分集合の集合Tとして定義される概念である。
以下、全体集合から作ることができる全ての部分集合のうち、直近のステップS1で取得された販売データにおいて1回も生起していない部分集合を除いた部分集合を、G1,G2,・・・,GN(Nは、部分集合の数)と表す。表1の例では、1回も生起していない部分集合とは、φ,{a,c,d},{b,c,d},{a,b,c,d}であり、N=12である。
ところで、表1の販売データは、消費者単位でみると、各消費者による1又は複数の商品の購入の履歴を示しているが(例えば、消費者1は、商品a〜cを1つずつ購入した)、商品単位でみると、各商品の販売履歴を示すデータとなる(例えば、商品aは、消費者1,2,5,6,8,10により6回購入された)。このように考えると、特定の1つの商品は、解析の最小単位となり得、この意味で、特定の1つの商品の販売は、単位事象となる。この観点からすると、ステップS2は、単位事象の種別を全て特定し、これらの全ての単位事象を要素として含む全体集合からトポロジーを定義していることになる。ただし、上記のとおり、1回も生起しない部分集合は、省略される。
続くステップS3では、導出部43が、i=1,2,・・・,Nかつj=1,2,・・・,Nに対し、関数f(i,j)の値を導出する。関数f(i,j)は、予め定義されている関数であり、本実施形態では、部分集合Giに対応する事象eiと、部分集合Gjに対応する事象ejとが共起する回数を返す関数である。ただし、i=jの場合、関数f(i,j)=0である。事象eiとは、部分集合Giに含まれる1又は複数の単位事象(商品)の組み合わせである(i=1,2,・・・,N)。そして、導出部43は、関数f(i,j)をi行j列の成分とする共起行列を導出する。ここでの共起行列は、対称行列となる。表1の例に基づく場合、共起行列は、以下の表2のとおりとなる。なお、見易さの観点から、表2の共起行列は、事象ei,ejと、単位事象に対応する商品名とが、行及び列のインデックスとして付されており、表形式で表されている。以下に示される他の行列についても、同様とする。
以上の行列のi行j列の成分は、単位事象ei,ejが共起した回数、すなわち、単位事象eiに対応する商品と、単位事象ejに対応する商品とが同時に購入された回数を示している。なお、事象ei,ejが共起した回数とは、少なくとも事象ei,ejが共起した回数を意味する。すなわち、表1,2の例で言うと、商品aの購入に対応する事象e1と商品bの購入に対応する事象e2とが共起した回数をカウントする場合には、商品a,bのセットのみが購入された回数だけでなく、商品a,b,cがセットで購入された回数、及び、商品a,b,c,dがセットで購入された回数もカウントされる。
続くステップS4では、生成部44が、直近のステップS3で導出された共起行列に基づいて、マルコフ遷移行列Pを生成する。マルコフ遷移行列のi行j列の成分cijは、事象eiが生じたときに、事象ejが共起する確率(条件付き確率)として算出される。すなわち、cijは、共起行列のi行j列の成分を、共起行列のi行の成分の総和で除した値である。
以上の表2の共起行列の例では、マルコフ遷移行列Pとして、以下の行列が生成される。
続くステップS5では、算出部45が、その日(本日)以降の、すなわち、その日を1日目としたときに、1日目,2日目,3日目,・・・の販売予測を行うための遷移行列P1,P2,・・・を順次算出する。遷移行列P1,P2,・・・は、以下の式に従って算出される。ただし、Kは、2以上の整数であり、初回のステップS5の実行時においては、P1=Pである。2回目以降のステップS5の実行時のP1については、後述する。
PK=PK-1P
すなわち、遷移行列P2,P3,・・・は、遷移行列Pを順次掛け合わせゆくことにより得られる行列である。従って、マルコフ遷移行列の性質により、この操作を何回か続けると、いつかは定常状態に達する。定常状態では、各行が一致する。いつ定常状態に達するかは、元の遷移行列に依存するので一義的には決まらない。以下の表4は、表3の遷移行列Pを繰り返し掛けていった場合において、定常状態に達したときの遷移行列PUである。本実施形態では、算出部45は、定常状態に達するまでの遷移行列P1,P2,・・・,PUを算出する。
PK=PK-1P
すなわち、遷移行列P2,P3,・・・は、遷移行列Pを順次掛け合わせゆくことにより得られる行列である。従って、マルコフ遷移行列の性質により、この操作を何回か続けると、いつかは定常状態に達する。定常状態では、各行が一致する。いつ定常状態に達するかは、元の遷移行列に依存するので一義的には決まらない。以下の表4は、表3の遷移行列Pを繰り返し掛けていった場合において、定常状態に達したときの遷移行列PUである。本実施形態では、算出部45は、定常状態に達するまでの遷移行列P1,P2,・・・,PUを算出する。
定常状態における行の第j番目の成分dj(j=1,2,・・・,N)の値は、定常状態において事象ejが生じる確率(定常状態確率)を意味している。
また、マルコフ遷移行列の性質として、PUにおいて全ての行が一致する前に、PU1(U1<U)において、一部の複数の行が先行して一致し得る。以下、このような状態を先行定常状態という。このようなU1は、1回得られることもあれば、2回以上得られることもあり、また、1回も得られないこともある。すなわち、マルコフ遷移行列の積は、段階的に定常状態に達し得る。
なお、先行定常状態の存在については、本発明者らの文献(knowledge based Social Network Applications to Disaster Event Analysis, Proceedings of the International MultiConference of Engineers and Computer Scientists 2013 Vol I, 頁279-284, IMECS 2013,3月13日〜15日,香港)に詳しい。先行定常状態に達した複数の行の行番号iに対応する事象はそれぞれ、注目すべき事象であると考えられるため、算出部45は、このような行番号iを特定する。特に、段階的に先行定常状態に達した場合には、1段階目に先行定常状態に達した行の行番号iに対応する事象eiをランク1に、2段階目に先行定常状態に達した行の行番号iに対応する事象eiをランク2に、・・・というように、行番号iをランク分けする。
続くステップS6では、予測部46が、直近のステップS5で算出された遷移行列P1,P2,・・・PUを用いて、その日以降の販売予測を行う。具体的には、予測部46は、K=1,2,・・・,Uに対し、K日目において事象e1,e2,・・・,eNの生じる確率の配列(確率ベクトル)HK=(h1(K),h2(K),・・・,hN(K))を、以下の式に従って算出する。
(h1(K),h2(K),・・・,hN(K))=πPK
ただし、πは、その日の前日において事象e1,e2,・・・,eNの生じている確率ベクトル(h1(0),h2(0),・・・,hN(0))である。
(h1(K),h2(K),・・・,hN(K))=πPK
ただし、πは、その日の前日において事象e1,e2,・・・,eNの生じている確率ベクトル(h1(0),h2(0),・・・,hN(0))である。
なお、初期値としての確率ベクトルπは、様々な方法で算出することが可能であるが、例えば、直近のステップS1で取得された販売データから、事象e1,e2,・・・,eNの生じた回数をそれぞれ求め、これを累積回数で除した値とすることができる。この場合、表1の例では、π=(0.18, 0.24, 0.12, 0.06, 0.18, 0.03, 0.03, 0.06, 0.03, 0.03, 0.03, 0.03)となる。また、定常状態確率(遷移行列PUの対角成分)を用いてもよく、この場合、表1〜4の例では、π=(0.17, 0.18, 0.08, 0.07, 0.17, 0.05, 0.05, 0.07, 0.05, 0.02, 0.05, 0.05)となる。
以上の計算により、i=1,2,・・・,Nに対し、その日以降に各事象eiが生じる、すなわち、各事象eiに対応する商品の組み合わせが販売される確率が算出される。これは、その日以降に各事象eiに対応する商品の組み合わせが販売される販売予測のトレンドデータとなる。
ステップS7では、表示制御部47により、各事象ei(に対応する1又は複数の商品の組み合わせ)ついて、ステップS6で算出されたトレンドデータをプロットしたグラフ(図3参照)が、表示部10上に表示される。これにより、ユーザは、その日以降の販売予測を知ることができる。例えば、図3の例では、商品単体としては、a,bが売れており、また、dがあまり売れていないことが分かる。また、{a,b}のペアも、非常に売れていることが分かる。2番目のペアは、{b,c}であり、{c,d}は人気のないペアであることが分かる。また、{a,b,c}の3つのセットが比較的売れていることが分かる。このように、本実施形態では商品の相関(セットで販売される可能性の高さ)を発見することができる。
また、定常状態に達する前に、先行定常状態が生じた場合には、その情報も表示部10上に表示される。特に、1段階目に先行定常状態に達した事象に対応する商品の組み合わせをランク1の組み合わせとして、その他の商品と区別して表示する(図3参照)。2段階目以降に先行定常状態に達した事象についても、同様である。また、定常状態において、事象ejが生じる確率djも、表示部10上に表示される(j=1,2,・・・,N)。この定常状態確率djは、事象ejが生じる確率、すなわち、事象ejに対応する商品の組み合わせ(1の場合もある)が販売される可能性を意味するから、商品間の相関を示す指標となり、そのような商品がセットで販売される可能性の高さについての新たな発見をもたらすものである。
そして、以上のステップS1〜S7が、一週間毎に新たな販売データが取得される度に繰り返し実行される。すなわち、ステップS1において新たな販売データが得られる度に、ステップS2〜S4においてその日の販売データに基づく関数f(i,j)の値、共起行列、及びマルコフの遷移行列Pが新たに算出される。また、ステップS5においても、その日以降の販売予測を行うための遷移行列P1,P2,・・・,PUが新たに算出される。なお、2回目以降のステップS5の実行時のP1は、一週間前にその日の前日の販売予測を行うためのものとして算出された遷移行列P7である。また、上記では、ステップS5において、定常状態に達するまでの遷移行列P1,P2,・・・,PUが算出されると説明したが、U<7の場合には、遷移行列P1,P2,・・・,P7まで算出されるものとする。
まとめると、1週間毎に販売データが更新され、1日毎の販売予測がなされる場合、以下のように処理が進むことになる。
1週間分の販売データの取得 ⇒
共起行列の作成 ⇒
マルコフ遷移行列Pの作成 ⇒
初期値としての確率ベクトルπの導出 ⇒
1日目の販売予測:P1=P、H1=πP1 ⇒
2日目の販売予測:P2=P1*P、H2=πP2 ⇒
3日目の販売予測:P3=P2*P、H3=πP3 ⇒
・・・・・
7日目の販売予測:P7=P6*P、H7=πP7 ⇒
・・・・
U日目の販売予測:PU=PU-1*P、HU=πPU ⇒
1日目〜7日目〜U日目の販売予測結果H1〜HUの表示 ⇒
新しい販売データの取得 ⇒
共起行列の更新 ⇒
マルコフ遷移行列Pの更新 ⇒
初期値としての確率ベクトルπの更新 ⇒
8日目の販売予測:P1=P7*P、H1=πP1 ⇒
9日目の販売予測:P2=P1*P、H2=πP2 ⇒
・・・・・
14日目の販売予測:P7=P6*P、H7=πP7 ⇒
・・・・
(U+7)日目の販売予測:PU=PU-1*P、HU=πPU ⇒
8日目〜14日目〜(U+7)日目の販売予測結果H1〜HUの表示 ⇒
・・・・・
1週間分の販売データの取得 ⇒
共起行列の作成 ⇒
マルコフ遷移行列Pの作成 ⇒
初期値としての確率ベクトルπの導出 ⇒
1日目の販売予測:P1=P、H1=πP1 ⇒
2日目の販売予測:P2=P1*P、H2=πP2 ⇒
3日目の販売予測:P3=P2*P、H3=πP3 ⇒
・・・・・
7日目の販売予測:P7=P6*P、H7=πP7 ⇒
・・・・
U日目の販売予測:PU=PU-1*P、HU=πPU ⇒
1日目〜7日目〜U日目の販売予測結果H1〜HUの表示 ⇒
新しい販売データの取得 ⇒
共起行列の更新 ⇒
マルコフ遷移行列Pの更新 ⇒
初期値としての確率ベクトルπの更新 ⇒
8日目の販売予測:P1=P7*P、H1=πP1 ⇒
9日目の販売予測:P2=P1*P、H2=πP2 ⇒
・・・・・
14日目の販売予測:P7=P6*P、H7=πP7 ⇒
・・・・
(U+7)日目の販売予測:PU=PU-1*P、HU=πPU ⇒
8日目〜14日目〜(U+7)日目の販売予測結果H1〜HUの表示 ⇒
・・・・・
なお、ステップS2において、全体集合から作ることができる全ての部分集合のうち省略された部分集合が存在する場合には、2回目以降のステップS5の実行時において、一週間前に算出された遷移行列P7と、新たに算出された遷移行列Pの次元が異なる場合がある。また、次元が同じであっても、同じ行番号で同じ列番号の要素に対応する事象どうしが異なる場合がある。従って、このような遷移行列P7,Pどうしの積が算出される2回目以降のステップS5では、この問題に対処する必要がある。そのための方法としては、様々な方法が考えられるが、例えば、両遷移行列P7,Pに対し、省略された部分集合に対応する行であって、他方の遷移行列には存在する行の各成分に等確率を挿入する。具体的には、仮に、一週間前に算出された遷移行列P7が以下のとおりであったとする。この遷移行列P7では、φ,{a,c,d},{b,c,d}{a,b,c,d}に対応する行が省略されている。
一方、新たに算出された遷移行列Pには、{a},{b},{c},{d},{a,b},{a,c},{a,d},{b,c},{b,d},{c,d}及び{a,b,c},{a,b,d}だけでなく、{b,c,d}及び{a,b,c,d}も含まれていたとする。この場合、P7を新しく次のように定義し、両遷移行列P7,Pを掛け合わせて、新たなP1を算出する。網掛け部分が追加した部分である。
なお、表6からも明らかであるが、行を追加する場合には、適宜列の追加も必要である。
また、別の方法として、両遷移行列P7,Pに対し、省略された部分集合に対応する行であって、他方の遷移行列には存在する行の各成分に、等確率ではなく、当該他方の遷移行列の対応する行の各成分の値を追加するようにしてもよい。
また、別の方法として、両遷移行列P7,Pに対し、省略された部分集合に対応する行であって、他方の遷移行列には存在する行の各成分に、等確率ではなく、当該他方の遷移行列の対応する行の各成分の値を追加するようにしてもよい。
<3.変形例>
以上、本発明の一実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、その趣旨を逸脱しない限りにおいて、種々の変更が可能である。例えば、以下の変更が可能である。
以上、本発明の一実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、その趣旨を逸脱しない限りにおいて、種々の変更が可能である。例えば、以下の変更が可能である。
<5−1>
上記実施形態では、PK=PK-1Pの式に基づいて、定常状態での遷移行列PUが算出された。しかしながら、P2(K-1)=PK-1PK-1の式を用いて、遷移行列を更新してゆくことにより、定常状態での遷移行列PUを算出してもよい。これにより、時間が2の指数関数的に進むため、遷移行列PUが算出されるまでの計算コストが削減される。
上記実施形態では、PK=PK-1Pの式に基づいて、定常状態での遷移行列PUが算出された。しかしながら、P2(K-1)=PK-1PK-1の式を用いて、遷移行列を更新してゆくことにより、定常状態での遷移行列PUを算出してもよい。これにより、時間が2の指数関数的に進むため、遷移行列PUが算出されるまでの計算コストが削減される。
<5−2>
上記実施形態では、事象eiをランク分けすることが開示されたが、以上のランク分けとは、クラスタリングを意味し得る。そこで、同じクラス内の、例えば、レベル1の事象eiのみの共起行列、マルコフ遷移行列P、定常状態確率等を求めるようにしてもよい。これにより、事象eiの数が膨大な場合の計算負荷を下げることができる。
上記実施形態では、事象eiをランク分けすることが開示されたが、以上のランク分けとは、クラスタリングを意味し得る。そこで、同じクラス内の、例えば、レベル1の事象eiのみの共起行列、マルコフ遷移行列P、定常状態確率等を求めるようにしてもよい。これにより、事象eiの数が膨大な場合の計算負荷を下げることができる。
<5−3>
上記実施形態では、ステップS2において、全体集合から作ることができる全ての部分集合のうち、一回も生起しない部分集合が省略された。これは、直後のステップS3で導出される共起行列に値が全て0の行が出現し、その結果、ステップS4でのマルコフ遷移行列Pの生成時に0での除算処理が生じないようにするためである。しかしながら、ステップS4でのマルコフ遷移行列Pの生成時に、このような行に等確率を代入する等すれば、この問題は、解消される。従って、ステップS2において、生起しない部分集合の省略を行わないようにすることもできる。
上記実施形態では、ステップS2において、全体集合から作ることができる全ての部分集合のうち、一回も生起しない部分集合が省略された。これは、直後のステップS3で導出される共起行列に値が全て0の行が出現し、その結果、ステップS4でのマルコフ遷移行列Pの生成時に0での除算処理が生じないようにするためである。しかしながら、ステップS4でのマルコフ遷移行列Pの生成時に、このような行に等確率を代入する等すれば、この問題は、解消される。従って、ステップS2において、生起しない部分集合の省略を行わないようにすることもできる。
<5−4>
上記実施形態では、ステップS2において、全体集合から作ることができる全ての部分集合が定義されたが、全体集合から作ることができる一部の部分集合のみを定義してもよい。例えば、要素数が1,2の部分集合のみを全て定義するようにしてもよいし、要素数が、2,3の部分集合のみを全て定義するようにしてもよい。
上記実施形態では、ステップS2において、全体集合から作ることができる全ての部分集合が定義されたが、全体集合から作ることができる一部の部分集合のみを定義してもよい。例えば、要素数が1,2の部分集合のみを全て定義するようにしてもよいし、要素数が、2,3の部分集合のみを全て定義するようにしてもよい。
1 データ解析装置
2 データ解析プログラム
41 取得部
42 定義部
43 導出部(生成部)
44 生成部
45 算出部
2 データ解析プログラム
41 取得部
42 定義部
43 導出部(生成部)
44 生成部
45 算出部
Claims (5)
- 複数の単位事象に関する対象データを解析し、前記単位事象間の相関を検出するためのデータ解析装置であって、
前記対象データに基づいて、前記複数の単位事象を要素として含む全体集合の部分集合G1,G2,・・・,GN(Nは、部分集合の数)の集合を定義する定義部と、
前記対象データに基づいて、前記部分集合G1,G2,・・・,GNの各々を状態とみなして、マルコフ遷移行列を生成する生成部と、
前記マルコフ遷移行列を掛け合わせてゆくことにより、定常状態確率を算出する算出部と
を備え、
前記部分集合G1,G2,・・・,GNには、2以上の前記単位事象を要素として含む集合が含まれる、
データ解析装置。 - 前記生成部は、i=1,2,・・・,Nかつj=1,2,・・・,Nに対し、前記部分集合Giと前記部分集合Gjとが共起する場合の関数f(i,j)の値を導出し、i=1,2,・・・,Nかつj=1,2,・・・,Nに対する前記関数f(i,j)の値に基づいて、前記マルコフ遷移行列を生成する、
請求項1に記載のデータ解析装置。 - 前記対象データを定期的に取得する取得部
をさらに備え、
前記導出部は、新たな前記対象データが得られる度に、前記マルコフ遷移行列を新たに生成し、
前記算出部は、前記定常状態確率を算出する過程で、算出済みの前記マルコフ遷移行列の積に、新たな前記マルコフ遷移行列を掛け合わせてゆく、
請求項1又は2に記載のデータ解析装置。 - 複数の単位事象に関する対象データを解析し、前記単位事象間の相関を検出するためのデータ解析プログラムであって、
前記対象データに基づいて、前記複数の単位事象を要素として含む全体集合の部分集合G1,G2,・・・,GN(Nは、部分集合の数)の集合を定義するステップと、
前記対象データに基づいて、前記部分集合G1,G2,・・・,GNの各々を状態とみなして、マルコフ遷移行列を生成するステップと、
前記マルコフ遷移行列を掛け合わせてゆくことにより、定常状態確率を算出するステップと
をコンピュータに実行させ、
前記部分集合G1,G2,・・・,GNには、2以上の前記単位事象を要素として含む集合が含まれる、
データ解析プログラム。 - コンピュータを用いて、複数の単位事象に関する対象データを解析し、前記単位事象の相関を検出するためのデータ解析方法であって、
前記対象データに基づいて、前記複数の単位事象を要素として含む全体集合の部分集合G1,G2,・・・,GN(Nは、部分集合の数)の集合を定義するステップと、
前記コンピュータが、前記対象データに基づいて、前記部分集合G1,G2,・・・,GNの各々を状態とみなして、マルコフ遷移行列を生成するステップと、
前記コンピュータが、前記マルコフ遷移行列を掛け合わせてゆくことにより、定常状態確率を算出するステップと
を備え、
前記部分集合G1,G2,・・・,GNには、2以上の前記単位事象を要素として含む集合が含まれる、
データ解析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014064612A JP2015187773A (ja) | 2014-03-26 | 2014-03-26 | データ解析装置、データ解析プログラム及びデータ解析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014064612A JP2015187773A (ja) | 2014-03-26 | 2014-03-26 | データ解析装置、データ解析プログラム及びデータ解析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015187773A true JP2015187773A (ja) | 2015-10-29 |
Family
ID=54429988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014064612A Pending JP2015187773A (ja) | 2014-03-26 | 2014-03-26 | データ解析装置、データ解析プログラム及びデータ解析方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015187773A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008238A (zh) * | 2019-11-15 | 2020-04-14 | 武汉楚誉科技股份有限公司 | 基于关联演化大数据的关键模式自动定位与预警方法 |
JP6973575B1 (ja) * | 2020-07-09 | 2021-12-01 | 日本電気株式会社 | 情報処理装置、情報処理方法、およびプログラム |
CN116184141A (zh) * | 2023-04-25 | 2023-05-30 | 南昌工程学院 | 一种气体绝缘设备故障诊断方法及系统 |
-
2014
- 2014-03-26 JP JP2014064612A patent/JP2015187773A/ja active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008238A (zh) * | 2019-11-15 | 2020-04-14 | 武汉楚誉科技股份有限公司 | 基于关联演化大数据的关键模式自动定位与预警方法 |
CN111008238B (zh) * | 2019-11-15 | 2023-10-10 | 武汉楚誉科技股份有限公司 | 基于关联演化大数据的关键模式自动定位与预警方法 |
JP6973575B1 (ja) * | 2020-07-09 | 2021-12-01 | 日本電気株式会社 | 情報処理装置、情報処理方法、およびプログラム |
WO2022009787A1 (ja) * | 2020-07-09 | 2022-01-13 | 日本電気株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP2022015687A (ja) * | 2020-07-09 | 2022-01-21 | 日本電気株式会社 | 情報処理装置、情報処理方法、およびプログラム |
CN116184141A (zh) * | 2023-04-25 | 2023-05-30 | 南昌工程学院 | 一种气体绝缘设备故障诊断方法及系统 |
CN116184141B (zh) * | 2023-04-25 | 2023-08-29 | 南昌工程学院 | 一种气体绝缘设备故障诊断方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6843882B2 (ja) | 履歴ログからの学習と、etlツール内のデータアセットに関するデータベースオペレーションの推奨 | |
Xiao et al. | Hidden semi-Markov model-based reputation management system for online to offline (O2O) e-commerce markets | |
Escabias et al. | Principal component estimation of functional logistic regression: discussion of two different approaches | |
JP5362823B2 (ja) | 無限次元を用いた高速行列因子分解による推薦システム | |
US11861464B2 (en) | Graph data structure for using inter-feature dependencies in machine-learning | |
Pachidi et al. | Understanding users’ behavior with software operation data mining | |
US9600581B2 (en) | Personalized recommendations on dynamic content | |
JP2017174062A (ja) | 購買行動分析装置およびプログラム | |
Ciavolino et al. | Comparing generalised maximum entropy and partial least squares methods for structural equation models | |
JP4751242B2 (ja) | リコメンド装置、リコメンド方法、リコメンドプログラムおよびそのプログラムを記録した記録媒体 | |
CN110020877B (zh) | 点击率的预测方法、点击率的确定方法及服务器 | |
JP5839970B2 (ja) | イベント系列のリスク評価値を算出する方法、装置及びコンピュータプログラム | |
Chakraborty et al. | A generally weighted moving average chart for time between events | |
JP6072078B2 (ja) | 分析装置、分析プログラム、分析方法、推定装置、推定プログラム、及び、推定方法。 | |
JP2017084224A (ja) | 設計支援装置、プログラムおよび設計支援方法 | |
George-Williams et al. | Extending the survival signature paradigm to complex systems with non-repairable dependent failures | |
Jowaheer et al. | A BINAR (1) time-series model with cross-correlated COM–Poisson innovations | |
JP2007323315A (ja) | 協調フィルタリング方法、協調フィルタリング装置、および協調フィルタリングプログラムならびにそのプログラムを記録した記録媒体 | |
Wang | An imperfect software debugging model considering irregular fluctuation of fault introduction rate | |
JP2015187773A (ja) | データ解析装置、データ解析プログラム及びデータ解析方法 | |
JP7041299B1 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
CN111666191B (zh) | 数据质量监控方法、装置、电子设备及存储介质 | |
Yemane et al. | Performance analysis of unreliable manufacturing systems with uncertain reliability parameters estimated from production data | |
JP2012194741A (ja) | 行列形データの欠損値予測装置、欠損値予測計算方法および欠損値予測プログラム | |
Gujar et al. | Genethos: A synthetic data generation system with bias detection and mitigation |