JP2015187773A

JP2015187773A - データ解析装置、データ解析プログラム及びデータ解析方法

Info

Publication number: JP2015187773A
Application number: JP2014064612A
Authority: JP
Inventors: ティンパイ; Ting Pai; ティズィンティ; Thi Zin Thi; 隆鳥生; Takashi Toriu; 裕光濱; Hiromitsu Hama
Original assignee: Osaka University NUC; Osaka City University PUC
Current assignee: Osaka University NUC; Osaka City University PUC
Priority date: 2014-03-26
Filing date: 2014-03-26
Publication date: 2015-10-29

Abstract

【課題】真に意味のある事象間の相関の見逃すことなく、対象データから新たな知見を獲得するためのデータ解析装置を提供する。【解決手段】複数の単位事象に関する対象データを解析し、前記単位事象間の相関を検出するためのデータ解析装置が提供される。前記データ解析装置は、定義部と、生成部と、算出部とを備える。前記定義部は、前記対象データに基づいて、前記複数の単位事象を要素として含む全体集合の部分集合Ｇ1，Ｇ2，・・・，ＧN（Ｎは、部分集合の数）の集合を定義する。前記生成部は、前記対象データに基づいて、前記部分集合Ｇ1，Ｇ2，・・・，ＧNの各々を状態とみなして、マルコフ遷移行列を生成する。前記算出部は、前記マルコフ遷移行列を掛け合わせてゆくことにより、定常状態確率を算出する。前記部分集合Ｇ1，Ｇ2，・・・，ＧNには、２以上の前記単位事象を要素として含む集合が含まれる。【選択図】図２

Description

本発明は、多種多様な対象データを解析し、新たな知見を獲得するためのデータ解析装置、データ解析プログラム及びデータ解析方法に関する。

近年、ビッグデータの解析のための様々な手法が提案されている。ビッグデータとは、多種多様で構造化されていない膨大なデータ集合のことであり、例えば、企業の保有する販売・サービスの利用実績に関するデータベースや、インターネット上の情報をビッグデータと捉えることができる。

非特許文献１には、コンピュータ上で利用可能な文書データを解析し、自動的にトピックを推定する技術が開示されている。このような文書データも、一種のビッグデータである。非特許文献１では、文書データ中の共起語に注目して、トピック別の学習用の文書をマルコフモデルでモデル化し、テスト文書に対して各モデルにおける尤度を求め、テスト文書のトピックを推定する技術を開示している。

若林啓ら，共起語を利用した事象系列に基づくトピック推定，日本データベース学会論文誌，第７巻，Ｎｏ．１，７９〜８４頁，２００８年６月２７日

ところで、ビッグデータには、様々な事象が含まれる。例えば、非特許文献１のように、文書を解析する場合には、単語が事象に対応する。そして、単語の共起関係を評価することで、事象間の相関を発見できれば、新たな知見となる。しかしながら、単語と単語、すなわち、事象と事象との１対１の対応関係に注目しているだけでは、真に意味のある事象間の相関を見逃すことになり兼ねない。

本発明は、真に意味のある事象間の相関の見逃しを減らし、対象データから新たな知見を獲得するためのデータ解析装置、データ解析プログラム及びデータ解析方法を提供することを目的とする。

本発明の第１観点に係るデータ解析装置は、複数の単位事象に関する対象データを解析し、前記単位事象間の相関を検出するためのデータ解析装置であって、定義部と、生成部と、算出部とを備える。前記定義部は、前記対象データに基づいて、前記複数の単位事象を要素として含む全体集合の部分集合Ｇ₁，Ｇ₂，・・・，Ｇ_N（Ｎは、部分集合の数）の集合を定義する。前記生成部は、前記対象データに基づいて、前記部分集合Ｇ₁，Ｇ₂，・・・，Ｇ_Nの各々を状態とみなして、マルコフ遷移行列を生成する。前記算出部は、前記マルコフ遷移行列を掛け合わせてゆくことにより、定常状態確率を算出する。前記部分集合Ｇ₁，Ｇ₂，・・・，Ｇ_Nには、２以上の前記単位事象を要素として含む集合が含まれる。

ここでは、複数の単位事象間の相関が、マルコフモデルに基づいて分析される。具体的には、複数の単位事象を要素として含む全体集合の部分集合Ｇ₁，Ｇ₂，・・・，Ｇ_N（Ｎは、部分集合の数）の集合が定義される。例えば、ａ，ｂ，ｃ，ｄという４つの単位事象があるとする。このとき、４つの単位事象ａ，ｂ，ｃ，ｄを要素として含む全体集合｛ａ，ｂ，ｃ，ｄ｝の部分集合には、空集合φ、１つの単位事象を要素として含む集合｛ａ｝，｛ｂ｝，｛ｃ｝，｛ｄ｝、及び、２以上の単位事象を要素として含む集合｛ａ，ｂ｝，｛ａ，ｃ｝，｛ａ，ｄ｝，｛ｂ，ｃ｝，｛ｂ，ｄ｝，｛ｃ，ｄ｝，｛ａ，ｂ，ｃ｝，｛ａ，ｂ，ｄ｝，｛ａ，ｃ，ｄ｝，｛ｂ，ｃ，ｄ｝，｛ａ，ｂ，ｃ，ｄ｝がある。そして、全体集合から作ることができる全ての部分集合のうち、ここで定義される部分集合Ｇ₁，Ｇ₂，・・・，Ｇ_Nには、少なくとも２以上の単位事象を要素として含む部分集合が含まれる。

また、ここでは、以上のような部分集合Ｇ_i（又は、部分集合Ｇ_iに対応する事象ｅ_i）の各々を「状態」とみなして（ｉ＝１，２，・・・，Ｎ）、マルコフモデルが構築される。従って、当該マルコフモデルは、単に１の単位事象と１の単位事象との間の遷移関係のみを評価するモデルと比べ、複数の単位事象間の関係をより多様に評価することができる。特に、部分集合Ｇ₁，Ｇ₂，・・・，Ｇ_Nに、１つの単位事象を要素として含む部分集合を含めた場合には、単位事象の１：１、１：多、多：１、及び、多：多の関係を評価することが可能になる。よって、真に意味のある単位事象間の相関の見逃しを減らし、対象データから新たな知見を獲得することができる。

本発明の第２観点に係るデータ解析装置は、第１観点に係るデータ解析装置であって、前記生成部は、ｉ＝１，２，・・・，Ｎかつｊ＝１，２，・・・，Ｎに対し、前記部分集合Ｇ_iと前記部分集合Ｇ_jとが共起する場合の関数ｆ（ｉ，ｊ）の値を導出し、ｉ＝１，２，・・・，Ｎかつｊ＝１，２，・・・，Ｎに対する前記関数ｆ（ｉ，ｊ）の値に基づいて、前記マルコフ遷移行列を生成する。

ここでは、ｉ＝１，２，・・・，Ｎかつｊ＝１，２，・・・，Ｎに対し、部分集合Ｇ_iに対応する事象ｅ_i（１又は複数の単位事象の組み合わせ）と、部分集合Ｇ_jに対応する事象ｅ_j（１又は複数の単位事象の組み合わせ）とが共起する場合の関数ｆ（ｉ，ｊ）の値が導出される。また、ｉ＝１，２，・・・，Ｎかつｊ＝１，２，・・・，Ｎに対する関数ｆ（ｉ，ｊ）の値に基づいて、事象ｅ_iが生じたときに、事象ｅ_jが共起する確率（又は、事象ｅ_iから事象ｅ_jへ遷移する確率）が導出される。従って、事象ｅ_i，事象ｅ_j間の共起関係を評価することができる。なお、関数ｆ（ｉ，ｊ）は、例えば、事象ｅ_i，ｅ_j間に共起が行った回数を表すものであってもよいし、事象ｅ_i，ｅ_j間の距離を表すものであってもよい。

本発明の第３観点に係るデータ解析装置は、第１観点又は第２観点に係るデータ解析装置であって、前記対象データを定期的に取得する取得部をさらに備える。前記生成部は、新たな前記対象データが得られる度に、前記マルコフ遷移行列を新たに生成する。前記算出部は、前記定常状態確率を算出する過程で、算出済みの前記マルコフ遷移行列の積に、新たな前記マルコフ遷移行列を掛け合わせてゆく。

ここでは、単位事象に関する対象データが時々刻々変化する場合に、当該変化に追随するように、マルコフモデルも時々刻々変化する。従って、対象データの時間的変化に追随しつつ、単位事象間の相関を高精度に評価することができる。

本発明の第４観点に係るデータ解析プログラムは、複数の単位事象に関する対象データを解析し、前記単位事象間の相関を検出するためのデータ解析プログラムであって、以下のステップをコンピュータに実行させる。
１）前記対象データに基づいて、前記複数の単位事象を要素として含む全体集合の部分集合Ｇ₁，Ｇ₂，・・・，Ｇ_N（Ｎは、部分集合の数）の集合を定義するステップ。
２）前記対象データに基づいて、前記部分集合Ｇ₁，Ｇ₂，・・・，Ｇ_Nの各々を状態とみなして、マルコフ遷移行列を生成するステップ。
３）前記マルコフ遷移行列を掛け合わせてゆくことにより、定常状態確率を算出するステップ。
なお、前記部分集合Ｇ₁，Ｇ₂，・・・，Ｇ_Nには、２以上の前記単位事象を要素として含む集合が含まれる。
ここでは、第１観点と同様の効果を奏することができる。

本発明の第５観点に係るデータ解析方法は、コンピュータを用いて、複数の単位事象に関する対象データを解析し、前記単位事象間の相関を検出するためのデータ解析方法であって、以下のステップを含む。
１）前記対象データに基づいて、前記複数の単位事象を要素として含む全体集合の部分集合Ｇ₁，Ｇ₂，・・・，Ｇ_N（Ｎは、部分集合の数）の集合を定義するステップ。
２）前記コンピュータが、前記対象データに基づいて、前記部分集合Ｇ₁，Ｇ₂，・・・，Ｇ_Nの各々を状態とみなして、マルコフ遷移行列を生成するステップ。
３）前記コンピュータが、前記マルコフ遷移行列を掛け合わせてゆくことにより、定常状態確率を算出するステップ。
なお、前記部分集合Ｇ₁，Ｇ₂，・・・，Ｇ_Nには、２以上の前記単位事象を要素として含む集合が含まれる。
ここでは、第１観点と同様の効果を奏することができる。

本発明によれば、部分集合Ｇ₁，Ｇ₂，・・・，Ｇ_Nの各々を「状態」とみなしてマルコフモデルが構築され、部分集合Ｇ₁，Ｇ₂，・・・，Ｇ_Nには、少なくとも２以上の単位事象を要素として含む集合が含まれる。従って、当該マルコフモデルは、単に１の単位事象と１の単位事象との間の遷移関係のみを評価するモデルと比べ、複数の単位事象間の関係をより多様に評価することができる。特に、部分集合Ｇ₁，Ｇ₂，・・・，Ｇ_Nに、１つの単位事象を要素として含む部分集合を含めた場合には、単位事象の１：１、１：多、多：１、及び、多：多の関係を評価することが可能になる。よって、真に意味のある単位事象間の相関の見逃しを減らし、対象データから新たな知見を獲得することができる。

本発明の一実施形態に係るデータ解析装置の構成を示すブロック図。解析処理の流れを示すフローチャート。商品の販売予測のグラフを示す図。

以下、図面を参照しつつ、本発明の一実施形態に係るデータ解析装置、データ解析プログラム及びデータ解析方法について説明する。

＜１．データ解析装置の構成＞
図１に示すデータ解析装置１は、本発明の一実施形態に係るデータ解析装置である。本実施形態に係るデータ解析装置１は、商品の販売実績に関するビッグデータから、新たな知見として商品間の相関を発見するのを支援するための装置である。具体的には、データ解析装置１は、インターネットやＬＡＮ等のネットワーク６を介して、様々な商品の販売実績を蓄積している販売時点情報管理（ＰＯＳ）システムサーバ（以下、ＰＯＳデータベースという）３に接続されている。データ解析装置１は、ＰＯＳデータベース３内の商品の販売実績に関するデータ（以下、販売データという）に基づいて、商品の販売予測を行う。

データ解析装置１は、ハードウェアとしては、汎用のコンピュータである。データ解析装置１には、ＣＤ−ＲＯＭ、ＵＳＢメモリ等のコンピュータで読み取り可能な記録媒体５から、又はネットワーク６を介して別のコンピュータから、データ解析プログラム２がインストールされている。データ解析プログラム２は、本発明の一実施形態に係るデータ解析プログラムであり、ＰＯＳデータベース３内の販売データを解析し、商品の販売予測を行う機能を有するアプリケーションソフトウェアである。データ解析プログラム２は、データ解析装置１に後述する動作に含まれるステップを実行させる。

図１に示すとおり、データ解析装置１は、表示部１０、入力部２０、記憶部３０、制御部４０および通信部５０を有する。これらの部１０〜５０は、互いにバス線７で接続されており、相互に通信可能である。本実施形態では、表示部１０は、液晶ディスプレイ等で構成されており、適当な画面をユーザに対し表示する。また、入力部２０は、マウスやキーボード、タッチパネル、操作ボタン等で構成されており、データ解析装置１に対するユーザからの操作を受け付ける。通信部５０は、データ解析装置１をネットワーク６に接続するほか、ＵＳＢメモリや、ＣＤ−ＲＯＭ、外付けハードディスクなどの外部記憶装置との間でデータ通信を行う通信インターフェースである。記憶部３０は、ハードディスク、フラッシュメモリ等の不揮発性の記憶装置から構成されている。記憶部３０内には、データ解析プログラム２が格納されている。

制御部４０は、ＣＰＵ、ＲＯＭ及びＲＡＭ等から構成されており、記憶部３０内に格納されているデータ解析プログラム２を読み出して実行することにより、仮想的に取得部４１、定義部４２、導出部４３、生成部４４、算出部４５、予測部４６及び表示制御部４７として動作する。各部４１〜４７の動作については、後述する。

＜２．解析処理＞
以下、図２を参照しつつ、データ解析装置１が、ＰＯＳデータベース３内の販売データを解析することにより、将来の販売予測を行う処理（以下、解析処理）の流れについて、詳細に説明する。なお、ステップＳ１〜Ｓ７は、一定期間間隔で（本実施形態では、一週間間隔で）繰り返される処理である。

まず、ステップＳ１では、取得部４１が、通信部５０を介して、ＰＯＳデータベース３内から直近の一定期間分の販売データを取得する。ただし、初回のステップＳ１では、一定期間分のデータが得られないことも考えられるため、その場合には、より少ない販売データ、例えば、直近１日分の販売データが取得される。以下では、具体的に説明するために、ステップＳ１において、表１に示す販売データ得られたものとする。表１は、消費者１〜１０による４つの商品ａ，ｂ，ｃ，ｄの購入の有無を示しており、「１」が購入、「０」が非購入を意味する。

続くステップＳ２では、定義部４２が、直近のステップＳ１で取得された販売データに含まれる商品の種別を全て特定し、これらの全ての商品の種別を要素として含む全体集合を定義する。表１の例では、４つの商品ａ〜ｄが特定され、全体集合｛ａ，ｂ，ｃ，ｄ｝が定義される。続けて、定義部４２は、全体集合の部分集合の集合（トポロジー）を定義する。本実施形態では、全体集合から作ることができる全ての部分集合、すなわち、表１の例では、φ（空集合），｛ａ｝，｛ｂ｝，｛ｃ｝，｛ｄ｝，｛ａ，ｂ｝，｛ａ，ｃ｝，｛ａ，ｄ｝，｛ｂ，ｃ｝，｛ｂ，ｄ｝，｛ｃ，ｄ｝，｛ａ，ｂ，ｃ｝，｛ａ，ｂ，ｄ｝，｛ａ，ｃ，ｄ｝，｛ｂ，ｃ，ｄ｝，｛ａ，ｂ，ｃ，ｄ｝（全体集合）が定義される。なお、トポロジー（代数トポロジー）とは、以下の条件を満たす部分集合の集合Ｔとして定義される概念である。

以下、全体集合から作ることができる全ての部分集合のうち、直近のステップＳ１で取得された販売データにおいて１回も生起していない部分集合を除いた部分集合を、Ｇ₁，Ｇ₂，・・・，Ｇ_N（Ｎは、部分集合の数）と表す。表１の例では、１回も生起していない部分集合とは、φ，｛ａ，ｃ，ｄ｝，｛ｂ，ｃ，ｄ｝，｛ａ，ｂ，ｃ，ｄ｝であり、Ｎ＝１２である。

ところで、表１の販売データは、消費者単位でみると、各消費者による１又は複数の商品の購入の履歴を示しているが（例えば、消費者１は、商品ａ〜ｃを１つずつ購入した）、商品単位でみると、各商品の販売履歴を示すデータとなる（例えば、商品ａは、消費者１，２，５，６，８，１０により６回購入された）。このように考えると、特定の１つの商品は、解析の最小単位となり得、この意味で、特定の１つの商品の販売は、単位事象となる。この観点からすると、ステップＳ２は、単位事象の種別を全て特定し、これらの全ての単位事象を要素として含む全体集合からトポロジーを定義していることになる。ただし、上記のとおり、１回も生起しない部分集合は、省略される。

続くステップＳ３では、導出部４３が、ｉ＝１，２，・・・，Ｎかつｊ＝１，２，・・・，Ｎに対し、関数ｆ（ｉ，ｊ）の値を導出する。関数ｆ（ｉ，ｊ）は、予め定義されている関数であり、本実施形態では、部分集合Ｇ_iに対応する事象ｅ_iと、部分集合Ｇ_jに対応する事象ｅ_jとが共起する回数を返す関数である。ただし、ｉ＝ｊの場合、関数ｆ（ｉ，ｊ）＝０である。事象ｅ_iとは、部分集合Ｇ_iに含まれる１又は複数の単位事象（商品）の組み合わせである（ｉ＝１，２，・・・，Ｎ）。そして、導出部４３は、関数ｆ（ｉ，ｊ）をｉ行ｊ列の成分とする共起行列を導出する。ここでの共起行列は、対称行列となる。表１の例に基づく場合、共起行列は、以下の表２のとおりとなる。なお、見易さの観点から、表２の共起行列は、事象ｅ_i，ｅ_jと、単位事象に対応する商品名とが、行及び列のインデックスとして付されており、表形式で表されている。以下に示される他の行列についても、同様とする。

以上の行列のｉ行ｊ列の成分は、単位事象ｅ_i，ｅ_jが共起した回数、すなわち、単位事象ｅ_iに対応する商品と、単位事象ｅ_jに対応する商品とが同時に購入された回数を示している。なお、事象ｅ_i，ｅ_jが共起した回数とは、少なくとも事象ｅ_i，ｅ_jが共起した回数を意味する。すなわち、表１，２の例で言うと、商品ａの購入に対応する事象ｅ₁と商品ｂの購入に対応する事象ｅ₂とが共起した回数をカウントする場合には、商品ａ，ｂのセットのみが購入された回数だけでなく、商品ａ，ｂ，ｃがセットで購入された回数、及び、商品ａ，ｂ，ｃ，ｄがセットで購入された回数もカウントされる。

続くステップＳ４では、生成部４４が、直近のステップＳ３で導出された共起行列に基づいて、マルコフ遷移行列Ｐを生成する。マルコフ遷移行列のｉ行ｊ列の成分ｃ_ijは、事象ｅ_iが生じたときに、事象ｅ_jが共起する確率（条件付き確率）として算出される。すなわち、ｃ_ijは、共起行列のｉ行ｊ列の成分を、共起行列のｉ行の成分の総和で除した値である。

以上の表２の共起行列の例では、マルコフ遷移行列Ｐとして、以下の行列が生成される。

続くステップＳ５では、算出部４５が、その日（本日）以降の、すなわち、その日を１日目としたときに、１日目，２日目，３日目，・・・の販売予測を行うための遷移行列Ｐ₁，Ｐ₂，・・・を順次算出する。遷移行列Ｐ₁，Ｐ₂，・・・は、以下の式に従って算出される。ただし、Ｋは、２以上の整数であり、初回のステップＳ５の実行時においては、Ｐ₁＝Ｐである。２回目以降のステップＳ５の実行時のＰ₁については、後述する。
Ｐ_K＝Ｐ_K-1Ｐ
すなわち、遷移行列Ｐ₂，Ｐ₃，・・・は、遷移行列Ｐを順次掛け合わせゆくことにより得られる行列である。従って、マルコフ遷移行列の性質により、この操作を何回か続けると、いつかは定常状態に達する。定常状態では、各行が一致する。いつ定常状態に達するかは、元の遷移行列に依存するので一義的には決まらない。以下の表４は、表３の遷移行列Ｐを繰り返し掛けていった場合において、定常状態に達したときの遷移行列Ｐ_Uである。本実施形態では、算出部４５は、定常状態に達するまでの遷移行列Ｐ₁，Ｐ₂，・・・，Ｐ_Uを算出する。

定常状態における行の第ｊ番目の成分ｄ_j（ｊ＝１，２，・・・，Ｎ）の値は、定常状態において事象ｅ_jが生じる確率（定常状態確率）を意味している。

また、マルコフ遷移行列の性質として、Ｐ_Uにおいて全ての行が一致する前に、Ｐ_U1（Ｕ１＜Ｕ）において、一部の複数の行が先行して一致し得る。以下、このような状態を先行定常状態という。このようなＵ１は、１回得られることもあれば、２回以上得られることもあり、また、１回も得られないこともある。すなわち、マルコフ遷移行列の積は、段階的に定常状態に達し得る。

なお、先行定常状態の存在については、本発明者らの文献（knowledge based Social Network Applications to Disaster Event Analysis, Proceedings of the International MultiConference of Engineers and Computer Scientists 2013 Vol I, 頁279-284, IMECS 2013，３月１３日〜１５日，香港）に詳しい。先行定常状態に達した複数の行の行番号ｉに対応する事象はそれぞれ、注目すべき事象であると考えられるため、算出部４５は、このような行番号ｉを特定する。特に、段階的に先行定常状態に達した場合には、１段階目に先行定常状態に達した行の行番号ｉに対応する事象ｅ_iをランク１に、２段階目に先行定常状態に達した行の行番号ｉに対応する事象ｅ_iをランク２に、・・・というように、行番号ｉをランク分けする。

続くステップＳ６では、予測部４６が、直近のステップＳ５で算出された遷移行列Ｐ₁，Ｐ₂，・・・Ｐ_Uを用いて、その日以降の販売予測を行う。具体的には、予測部４６は、Ｋ＝１，２，・・・，Ｕに対し、Ｋ日目において事象ｅ₁，ｅ₂，・・・，ｅ_Nの生じる確率の配列（確率ベクトル）Ｈ_K＝（ｈ₁（Ｋ），ｈ₂（Ｋ），・・・，ｈ_N（Ｋ））を、以下の式に従って算出する。
（ｈ₁（Ｋ），ｈ₂（Ｋ），・・・，ｈ_N（Ｋ））＝πＰ_K
ただし、πは、その日の前日において事象ｅ₁，ｅ₂，・・・，ｅ_Nの生じている確率ベクトル（ｈ₁（０），ｈ₂（０），・・・，ｈ_N（０））である。

なお、初期値としての確率ベクトルπは、様々な方法で算出することが可能であるが、例えば、直近のステップＳ１で取得された販売データから、事象ｅ₁，ｅ₂，・・・，ｅ_Nの生じた回数をそれぞれ求め、これを累積回数で除した値とすることができる。この場合、表１の例では、π＝（0.18, 0.24, 0.12, 0.06, 0.18, 0.03, 0.03, 0.06, 0.03, 0.03, 0.03, 0.03）となる。また、定常状態確率（遷移行列Ｐ_Uの対角成分）を用いてもよく、この場合、表１〜４の例では、π＝（0.17, 0.18, 0.08, 0.07, 0.17, 0.05, 0.05, 0.07, 0.05, 0.02, 0.05, 0.05）となる。

以上の計算により、ｉ＝１，２，・・・，Ｎに対し、その日以降に各事象ｅ_iが生じる、すなわち、各事象ｅ_iに対応する商品の組み合わせが販売される確率が算出される。これは、その日以降に各事象ｅ_iに対応する商品の組み合わせが販売される販売予測のトレンドデータとなる。

ステップＳ７では、表示制御部４７により、各事象ｅ_i（に対応する１又は複数の商品の組み合わせ）ついて、ステップＳ６で算出されたトレンドデータをプロットしたグラフ（図３参照）が、表示部１０上に表示される。これにより、ユーザは、その日以降の販売予測を知ることができる。例えば、図３の例では、商品単体としては、ａ，ｂが売れており、また、ｄがあまり売れていないことが分かる。また、｛ａ，ｂ｝のペアも、非常に売れていることが分かる。２番目のペアは、｛ｂ，ｃ｝であり、｛ｃ，ｄ｝は人気のないペアであることが分かる。また、｛ａ，ｂ，ｃ｝の３つのセットが比較的売れていることが分かる。このように、本実施形態では商品の相関（セットで販売される可能性の高さ）を発見することができる。

また、定常状態に達する前に、先行定常状態が生じた場合には、その情報も表示部１０上に表示される。特に、１段階目に先行定常状態に達した事象に対応する商品の組み合わせをランク１の組み合わせとして、その他の商品と区別して表示する（図３参照）。２段階目以降に先行定常状態に達した事象についても、同様である。また、定常状態において、事象ｅ_jが生じる確率ｄ_jも、表示部１０上に表示される（ｊ＝１，２，・・・，Ｎ）。この定常状態確率ｄ_jは、事象ｅ_jが生じる確率、すなわち、事象ｅ_jに対応する商品の組み合わせ（１の場合もある）が販売される可能性を意味するから、商品間の相関を示す指標となり、そのような商品がセットで販売される可能性の高さについての新たな発見をもたらすものである。

そして、以上のステップＳ１〜Ｓ７が、一週間毎に新たな販売データが取得される度に繰り返し実行される。すなわち、ステップＳ１において新たな販売データが得られる度に、ステップＳ２〜Ｓ４においてその日の販売データに基づく関数ｆ（ｉ，ｊ）の値、共起行列、及びマルコフの遷移行列Ｐが新たに算出される。また、ステップＳ５においても、その日以降の販売予測を行うための遷移行列Ｐ₁，Ｐ₂，・・・，Ｐ_Uが新たに算出される。なお、２回目以降のステップＳ５の実行時のＰ₁は、一週間前にその日の前日の販売予測を行うためのものとして算出された遷移行列Ｐ₇である。また、上記では、ステップＳ５において、定常状態に達するまでの遷移行列Ｐ₁，Ｐ₂，・・・，Ｐ_Uが算出されると説明したが、Ｕ＜７の場合には、遷移行列Ｐ₁，Ｐ₂，・・・，Ｐ₇まで算出されるものとする。

まとめると、１週間毎に販売データが更新され、１日毎の販売予測がなされる場合、以下のように処理が進むことになる。
１週間分の販売データの取得 ⇒
共起行列の作成 ⇒
マルコフ遷移行列Ｐの作成 ⇒
初期値としての確率ベクトルπの導出 ⇒
１日目の販売予測：Ｐ₁＝Ｐ、Ｈ₁＝πＰ₁ ⇒
２日目の販売予測：Ｐ₂＝Ｐ₁*Ｐ、Ｈ₂＝πＰ₂ ⇒
３日目の販売予測：Ｐ₃＝Ｐ₂*Ｐ、Ｈ₃＝πＰ₃ ⇒
・・・・・
７日目の販売予測：Ｐ₇＝Ｐ₆*Ｐ、Ｈ₇＝πＰ₇ ⇒
・・・・
Ｕ日目の販売予測：Ｐ_U＝Ｐ_U-1*Ｐ、Ｈ_U＝πＰ_U ⇒
１日目〜７日目〜Ｕ日目の販売予測結果Ｈ₁〜Ｈ_Uの表示 ⇒
新しい販売データの取得 ⇒
共起行列の更新 ⇒
マルコフ遷移行列Ｐの更新 ⇒
初期値としての確率ベクトルπの更新 ⇒
８日目の販売予測：Ｐ₁＝Ｐ₇*Ｐ、Ｈ₁＝πＰ₁ ⇒
９日目の販売予測：Ｐ₂＝Ｐ₁*Ｐ、Ｈ₂＝πＰ₂ ⇒
・・・・・
１４日目の販売予測：Ｐ₇＝Ｐ₆*Ｐ、Ｈ₇＝πＰ₇ ⇒
・・・・
（Ｕ＋７）日目の販売予測：Ｐ_U＝Ｐ_U-1*Ｐ、Ｈ_U＝πＰ_U ⇒
８日目〜１４日目〜（Ｕ＋７）日目の販売予測結果Ｈ₁〜Ｈ_Uの表示 ⇒
・・・・・

なお、ステップＳ２において、全体集合から作ることができる全ての部分集合のうち省略された部分集合が存在する場合には、２回目以降のステップＳ５の実行時において、一週間前に算出された遷移行列Ｐ₇と、新たに算出された遷移行列Ｐの次元が異なる場合がある。また、次元が同じであっても、同じ行番号で同じ列番号の要素に対応する事象どうしが異なる場合がある。従って、このような遷移行列Ｐ₇，Ｐどうしの積が算出される２回目以降のステップＳ５では、この問題に対処する必要がある。そのための方法としては、様々な方法が考えられるが、例えば、両遷移行列Ｐ₇，Ｐに対し、省略された部分集合に対応する行であって、他方の遷移行列には存在する行の各成分に等確率を挿入する。具体的には、仮に、一週間前に算出された遷移行列Ｐ₇が以下のとおりであったとする。この遷移行列Ｐ₇では、φ，｛ａ，ｃ，ｄ｝，｛ｂ，ｃ，ｄ｝｛ａ，ｂ，ｃ，ｄ｝に対応する行が省略されている。
一方、新たに算出された遷移行列Ｐには、｛ａ｝，｛ｂ｝，｛ｃ｝，｛ｄ｝，｛ａ，ｂ｝，｛ａ，ｃ｝，｛ａ，ｄ｝，｛ｂ，ｃ｝，｛ｂ，ｄ｝，｛ｃ，ｄ｝及び｛ａ，ｂ，ｃ｝，｛ａ，ｂ，ｄ｝だけでなく、｛ｂ，ｃ，ｄ｝及び｛ａ，ｂ，ｃ，ｄ｝も含まれていたとする。この場合、Ｐ₇を新しく次のように定義し、両遷移行列Ｐ₇，Ｐを掛け合わせて、新たなＰ₁を算出する。網掛け部分が追加した部分である。
なお、表６からも明らかであるが、行を追加する場合には、適宜列の追加も必要である。
また、別の方法として、両遷移行列Ｐ₇，Ｐに対し、省略された部分集合に対応する行であって、他方の遷移行列には存在する行の各成分に、等確率ではなく、当該他方の遷移行列の対応する行の各成分の値を追加するようにしてもよい。

＜３．変形例＞
以上、本発明の一実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、その趣旨を逸脱しない限りにおいて、種々の変更が可能である。例えば、以下の変更が可能である。

＜５−１＞
上記実施形態では、Ｐ_K＝Ｐ_K-1Ｐの式に基づいて、定常状態での遷移行列Ｐ_Uが算出された。しかしながら、Ｐ_2(K-1)＝Ｐ_K-1Ｐ_K-1の式を用いて、遷移行列を更新してゆくことにより、定常状態での遷移行列Ｐ_Uを算出してもよい。これにより、時間が２の指数関数的に進むため、遷移行列Ｐ_Uが算出されるまでの計算コストが削減される。

＜５−２＞
上記実施形態では、事象ｅ_iをランク分けすることが開示されたが、以上のランク分けとは、クラスタリングを意味し得る。そこで、同じクラス内の、例えば、レベル１の事象ｅ_iのみの共起行列、マルコフ遷移行列Ｐ、定常状態確率等を求めるようにしてもよい。これにより、事象ｅ_iの数が膨大な場合の計算負荷を下げることができる。

＜５−３＞
上記実施形態では、ステップＳ２において、全体集合から作ることができる全ての部分集合のうち、一回も生起しない部分集合が省略された。これは、直後のステップＳ３で導出される共起行列に値が全て０の行が出現し、その結果、ステップＳ４でのマルコフ遷移行列Ｐの生成時に０での除算処理が生じないようにするためである。しかしながら、ステップＳ４でのマルコフ遷移行列Ｐの生成時に、このような行に等確率を代入する等すれば、この問題は、解消される。従って、ステップＳ２において、生起しない部分集合の省略を行わないようにすることもできる。

＜５−４＞
上記実施形態では、ステップＳ２において、全体集合から作ることができる全ての部分集合が定義されたが、全体集合から作ることができる一部の部分集合のみを定義してもよい。例えば、要素数が１，２の部分集合のみを全て定義するようにしてもよいし、要素数が、２，３の部分集合のみを全て定義するようにしてもよい。

１データ解析装置
２データ解析プログラム
４１取得部
４２定義部
４３導出部（生成部）
４４生成部
４５算出部

Claims

複数の単位事象に関する対象データを解析し、前記単位事象間の相関を検出するためのデータ解析装置であって、
前記対象データに基づいて、前記複数の単位事象を要素として含む全体集合の部分集合Ｇ₁，Ｇ₂，・・・，Ｇ_N（Ｎは、部分集合の数）の集合を定義する定義部と、
前記対象データに基づいて、前記部分集合Ｇ₁，Ｇ₂，・・・，Ｇ_Nの各々を状態とみなして、マルコフ遷移行列を生成する生成部と、
前記マルコフ遷移行列を掛け合わせてゆくことにより、定常状態確率を算出する算出部と
を備え、
前記部分集合Ｇ₁，Ｇ₂，・・・，Ｇ_Nには、２以上の前記単位事象を要素として含む集合が含まれる、
データ解析装置。
前記生成部は、ｉ＝１，２，・・・，Ｎかつｊ＝１，２，・・・，Ｎに対し、前記部分集合Ｇ_iと前記部分集合Ｇ_jとが共起する場合の関数ｆ（ｉ，ｊ）の値を導出し、ｉ＝１，２，・・・，Ｎかつｊ＝１，２，・・・，Ｎに対する前記関数ｆ（ｉ，ｊ）の値に基づいて、前記マルコフ遷移行列を生成する、
請求項１に記載のデータ解析装置。
前記対象データを定期的に取得する取得部
をさらに備え、
前記導出部は、新たな前記対象データが得られる度に、前記マルコフ遷移行列を新たに生成し、
前記算出部は、前記定常状態確率を算出する過程で、算出済みの前記マルコフ遷移行列の積に、新たな前記マルコフ遷移行列を掛け合わせてゆく、
請求項１又は２に記載のデータ解析装置。
複数の単位事象に関する対象データを解析し、前記単位事象間の相関を検出するためのデータ解析プログラムであって、
前記対象データに基づいて、前記複数の単位事象を要素として含む全体集合の部分集合Ｇ₁，Ｇ₂，・・・，Ｇ_N（Ｎは、部分集合の数）の集合を定義するステップと、
前記対象データに基づいて、前記部分集合Ｇ₁，Ｇ₂，・・・，Ｇ_Nの各々を状態とみなして、マルコフ遷移行列を生成するステップと、
前記マルコフ遷移行列を掛け合わせてゆくことにより、定常状態確率を算出するステップと
をコンピュータに実行させ、
前記部分集合Ｇ₁，Ｇ₂，・・・，Ｇ_Nには、２以上の前記単位事象を要素として含む集合が含まれる、
データ解析プログラム。
コンピュータを用いて、複数の単位事象に関する対象データを解析し、前記単位事象の相関を検出するためのデータ解析方法であって、
前記対象データに基づいて、前記複数の単位事象を要素として含む全体集合の部分集合Ｇ₁，Ｇ₂，・・・，Ｇ_N（Ｎは、部分集合の数）の集合を定義するステップと、
前記コンピュータが、前記対象データに基づいて、前記部分集合Ｇ₁，Ｇ₂，・・・，Ｇ_Nの各々を状態とみなして、マルコフ遷移行列を生成するステップと、
前記コンピュータが、前記マルコフ遷移行列を掛け合わせてゆくことにより、定常状態確率を算出するステップと
を備え、
前記部分集合Ｇ₁，Ｇ₂，・・・，Ｇ_Nには、２以上の前記単位事象を要素として含む集合が含まれる、
データ解析方法。