JP6243314B2

JP6243314B2 - 分析装置、分析方法、及び分析プログラム

Info

Publication number: JP6243314B2
Application number: JP2014213540A
Authority: JP
Inventors: 匡宏幸島; 達史松林; 澤田　宏; 宏澤田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-10-20
Filing date: 2014-10-20
Publication date: 2017-12-06
Anticipated expiration: 2034-10-20
Also published as: JP2016081371A

Description

本発明は、分析装置、分析方法、及び分析プログラム
に関する。

ＰＯＳ（Point of Sales）データに代表される購買履歴等の構造化されたデータや、テキストデータ又は画像データ等の構造化されていないデータの多くは、行列形式により表現できることが知られている。行列形式によって表現されたデータ中に存在するクラスタを発見するための手法として、非負値行列分解（Non-negative Matrix Factorization、ＮＭＦ）と呼ばれる手法の有用性が、これまでに示されている（例えば、非特許文献１参照）。ＮＭＦの適用により、入力となる行列データは、それより低次のランクの行列の積に分解される。この各低次行列が、それぞれ入力となる行列データの各行又は各列に対応する事物のクラスタへの寄与度を表しており、クラスタの発見が可能となる。したがって、例えば、購買データに対してＮＭＦを適用することで抽出されたクラスタに基づいて、ユーザへのお薦め商品リストを作成したり、ニュース記事の集合に対するＮＭＦの適用結果に基づいて、記事を自動的に分類したりすることが可能となる。

図１は、購買データへの非負値行列分解（ＮＭＦ）の適用例を示す図である。図１において、ユーザ購買行列Ｘは、購買データを表す。すなわち、ユーザ購買行列Ｘ＝｛ｘ_ｉｊ｝は、第ｉ行目に対応するユーザによる、第ｊ列目に対応する商品の購買数が、ｘ_ｉｊの値となるＩ行Ｊ列の行列である。ユーザ購買行列ＸにＮＭＦを適用することで、

となるＩ行Ｒ列のユーザ特徴行列Ａ＝｛ａ_ｉｒ｝と、Ｊ行Ｒ列の商品特徴行列Ｂ＝｛ｂ_ｊｒ｝とが求まる。但し、数１の左辺と右辺との間の記号（以下「類似記号」という。）は、右辺と左辺とが類似していることを示す。また、商品特徴行列Ｂの上付きの記号Ｔは行列の転置を示す。ａ_ｉｒの値が、ユーザｉのクラスタｒへの寄与度（所属度合い）、ｂ_ｊｒの値が、商品ｊのクラスタｒへの寄与度を表す。

ユーザ特徴行列Ａのクラスタ１に対応する列に着目すると、ユーザ１、ユーザ２、ユーザ３のそれぞれに対応する１行目、２行目、３行目の値が、０より大きい値となっている。これは、ユーザ１、ユーザ２、及びユーザ３が、クラスタ１に所属することを示している。また、商品特徴行列Ｂのクラスタ１に対応する行に着目すると、１列目のビール１、２列目のビール２、３列目のビール３に該当する列の値が、０より大きい値となっている。このことから、ビール１、ビール２、及びビール３という３つの単語が、同じユーザに購入されやすいというクラスタ１のもつ特徴を表しているといえる。そこで、ビール１、ビール２、及びビール３という商品をまとめてクラスタ１の商品特徴と呼ぶ。同様に、クラスタ１に所属するユーザを、クラスタ１のユーザ特徴と呼ぶ。クラスタ１の商品特徴とクラスタ１のユーザ特徴とをまとめてクラスタ１の特徴と呼ぶこととする。このように、ＮＭＦの適用によって得られたユーザ特徴行列Ａと商品特徴行列Ｂとに基づいて、図２のようなクラスタ抽出（クラスタリング）が可能となる。

図２は、非負値行列分解（ＮＭＦ）を適用して得られるクラスタリング結果の一例を示す図である。図２には、列方向にクラスタ１及び２が配列され、行方向にユーザ特徴及び商品特徴が配列されている。クラスタ１の列には、クラスタ１に属するユーザ及び商品が示されている。クラスタ２の列には、クラスタ２に属するユーザ及び商品が示されている。

なお、クラスタの総数に相当する商品特徴行列のランク数は、解析する前に予め決定しておくものとする。

澤田宏, "非負値行列因子分解NMFの基礎とデータ／信号解析への応用", 電子情報通信学会誌, Vol. 95, No. 9, pp. 829-833, 2012. K. Takeuchi, K. Ishiguro, A. Kimura, and H. Sawada, Non-negative Multiple Matrix Factorization, Proceedings of 23rd International Joint Conference on Artificial Intelligence (IJCAI2013), pp. 1713-1720, 2013

しかしながら、非特許文献１に記載された技術が入力として利用する購買データは、"誰が"どの商品を購入したかを表す、ユーザＩＤに紐付けられた購買履歴のみを扱うことを想定しており、非特許文献１では、ユーザＩＤに紐付けられない購買履歴を合わせた解析を行うことは想定されていない。

近年のデータ解析においては、ユーザＩＤに紐付くデータ及びユーザＩＤに紐付かないデータの双方が存在する状況が多数存在している。以下に３つの例を示す。

１つ目の例は、個人を特定できる形式でのデータの利用期間に制限が存在するという状況において管理されているデータである。これは個人情報保護等の観点から、不必要に長い期間個人を特定可能なデータが存在することを避けるための制限である。

図３は、個人を特定できる形式でのデータの利用期間に制限が存在する状況におけるデータの一例を示す図である。図３には、２０１４年４月１日において、２０１３年４月１日〜２０１３年９月３０日までのデータに関しては、個人を特定するユーザＩＤが除去される例が示されている。すなわち、図３において、日付の値が当該期間に含まれるデータのユーザＩＤは、「ｘｘｘｘｘｘｘ」によって表現されている。「ｘｘｘｘｘｘｘ」は、便宜上、その値が除去されていることを示す。その結果、当該データは、ユーザＩＤに紐付かないデータとなっている。一方、日付が当該期間より後のデータに関しては、個人を特定するユーザＩＤを含めた全カラムが利用でき、ユーザＩＤに紐付くデータとなっている。したがって、例えば、日付の値が２０１３年４月１日〜２０１３年９月３０日の期間に含まれるデータに関しては、男性別若しくは女性別、又はユーザ全体での各商品の購買数といった属性毎の統計情報のみに関して利用できることになる。

２つ目の例は、企業間でデータを匿名化させたうえでデータ共有を行うという状況において利用されるデータである。

図４は、企業間でデータを匿名化させたうえでデータ共有を行う状況におけるデータの一例を示す図である。図４には、企業Ａのデータ、データフォルダ１のデータ、及びデータフォルダ２のデータが、共通データ基盤に格納されている例が示されている。ここで、データフォルダ１のデータ及びデータフォルダ２のデータは、企業Ａから見て他社のデータである。

企業Ａは、データフォルダ１、データフォルダ２のデータそのものを共通データ基盤から取り出すことはできないが、全社のデータを使って計算される、ユーザＩＤとは紐付かない統計情報（例えば、世代別の統計情報）を、共通データ基盤から抽出することはできる。したがって、企業Ａの利用可能なデータは、企業Ａが当初から有するユーザＩＤに紐付くデータと、共通データ基盤から取り出せるユーザＩＤには紐付かない統計情報ということになる。

３つ目の例は、インターネット上のオンライン店舗での購買データではなく、コンビニエンスストア等のいわゆるオフラインな店舗での購買データである。インターネット上のオンライン店舗での買い物では、ユーザがサイト上でログインした後に注文が行われるというシステムが一般的であるため、収集される購買データは、全てがユーザＩＤに紐付くことになる。一方、オフラインな店舗では、ログインといった操作は行われない。したがって、オフラインな店舗に関する購買データには、ユーザＩＤに紐付くデータとユーザＩＤに紐付かないデータとが混在しうる。

図５は、オフラインな店舗での購買データの一例を示す図である。例えば、図５のユーザ１ように、会計時にポイントカードを提示したユーザの購買データは、ユーザＩＤ（ポイントカード番号）に紐付く。一方、ユーザ２のように、ポイントカードを提示しなかったユーザに関してはユーザＩＤに紐付かず、レジ店員がその場で入力する性別や年代といった情報のみと紐付くことになる。

上記の３つの例のように、ユーザＩＤに紐付くデータとユーザＩＤに紐付かないデータとの双方が存在している場合であっても、非特許文献１に記載された技術では、ユーザＩＤに紐付かないデータを合わせた解析を行うことができないために、ユーザＩＤに紐付かないデータを利用せずに解析を行うことになる。

図６は、ユーザＩＤに紐付かないデータを除く非負値行列分解（ＮＭＦ）の適用例を示す図である。図６では、ユーザＩＤが不明な購買データは利用せずに、ユーザＩＤに紐付く購買データのみを抽出して、図１に示されるようなユーザ購買行列Ｘが生成され、ユーザ購買行列Ｘに対してＮＭＦが適用されて、ユーザ特徴行列Ａ及び商品特徴行列Ｂが求められ、ユーザ特徴行列Ａ及び商品特徴行列Ｂに基づいて、クラスタリング結果が得られる例が示されている。

このような、ユーザＩＤに紐付かないデータを除くといったアプローチは、ユーザＩＤに紐付くデータの割合が、データの総数に対して小さくなる場合に特に問題が有る。例えば、双方のデータを用いた場合に最も購買数の多い商品と、ユーザＩＤに紐付くデータのみを用いた場合に最も購買数の多い商品が異なりうるように、ユーザＩＤに紐付くデータのみでは、データ全体の傾向を把握するのは困難であるからである。

本発明は、上記の点に鑑みてなされたものであって、非負値行列分解において、個体ごとの識別情報に紐付くデータと紐付かないデータとの双方を利用したクラスタ抽出を可能とすることを目的とする。

そこで上記課題を解決するため、分析装置は、複数の特徴を含む第１の特徴量と紐付けが可能な複数の個体のうち、個体ごとの識別情報に紐付く第１の個体ごとに、当該第１の個体に関して生じた事象に関する情報を記憶する第１の記憶部と、前記第１の個体群と、前記複数の個体のうち前記識別情報に紐付かない第２の個体群とを、前記第１の特徴量の部分集合である第２の特徴量に基づいて分類することにより形成される第３の個体ごとに、当該第３の個体に関して生じた事象に関する情報を記憶する第２の記憶部と、前記第１の記憶部又は前記第２の記憶部が記憶する情報が示す事象であって、前記第１の個体群及び前記第３の個体群のそれぞれに生じた事象の傾向を因子分解する第１のパラメータを繰り返し更新し、該更新ごとに、前記各第３の個体と前記第１の個体群との関係関数に関する第２のパラメータを前記第１のパラメータの更新結果に基づいて更新し、該更新の回数が所定回数に達した場合、又は前記第１のパラメータ若しくは前記第２のパラメータの更新前後の変化量が所定値以下である場合に、該更新を停止して、前記第１の個体群及び前記第３の個体群のそれぞれに生じる事象の傾向を因子分解した結果を得る分解部と、を有する。

個体ごとの識別情報に紐付くデータと紐付かないデータとの双方を利用したクラスタ抽出を可能とすることができる。

購買データへの非負値行列分解（ＮＭＦ）の適用例を示す図である。非負値行列分解（ＮＭＦ）を適用して得られるクラスタリング結果の一例を示す図である。個人を特定できる形式でのデータの利用期間に制限が存在する状況におけるデータの一例を示す図である。企業間でデータを匿名化させたうえでデータ共有を行う状況におけるデータの一例を示す図である。オフラインな店舗での購買データの一例を示す図である。ユーザＩＤに紐付かないデータを除く非負値行列分解（ＮＭＦ）の適用例を示す図である。本発明の実施の形態における各行列の生成例を示す図である。本発明の実施の形態における行列分解手法を説明するための図である。本発明の実施の形態の概要を説明するための図である。本発明の実施の形態におけるクラスタ抽出装置のハードウェア構成例を示す図である。本発明の実施の形態におけるクラスタ抽出装置の機能構成例を示す図である。クラスタ抽出装置が実行する処理手順の一例を説明するためのフローチャートである。ユーザ購買情報テーブルの構成例を示す図である。グループ購買情報テーブルの構成例を示す図である。ユーザグループ対応情報テーブルの構成例を示す図である。ユーザ特徴テーブルの構成例を示す図である。商品特徴テーブルの構成例を示す図である。グループ特徴テーブルの構成例を示す図である。係数特徴テーブルの構成例を示す図である。特徴行列の推定処理の処理手順の一例を説明するためのフローチャートである。

以下、図面に基づいて本発明の実施の形態を説明する。本実施の形態では、ユーザＩＤに紐付く購買履歴から生成されるＩ行×Ｊ列のユーザ購買行列Ｘ＝｛ｘ_ｉｊ｝、ユーザＩＤに紐付く購買履歴とユーザＩＤに紐付かない購買履歴の双方を用いて生成されるＫ行×Ｊ列のグループ購買行列Ｙ＝｛ｙ_ｋｊ｝、ユーザと当該ユーザが所属するグループとの対応関係を表すＩ行×Ｋ列のユーザグループ対応行列Ｖ＝｛ｖ_ｉｋ｝という３つの行列からクラスタ抽出が行われる。なお、グループとは、例えば、図６における男性３０代、男性４０代のように、ユーザが有する複数の属性（特徴）の部分集合である属性（特徴）の値（特徴量）の共通性に基づいてユーザを分類することにより形成されるユーザの集合に対応する概念である。したがって、グループ購買行列Ｙは、成分ｙ_ｋｊが、グループｋ（例えば、男性３０代全体）による商品ｊの総購買数を表す行列である。また、ユーザグループ対応行列Ｖの成分ｖ_ｉｋは、ユーザｉがグループｋに属する場合に１であり、ユーザｉがグループｋに属さない場合に０である行列である。なお、ｖ_ｉｋの値は、０又は１に限られず、０又は正の整数値であればよい。したがって、ｖ_ｉｋの値に負の値は用いられない。

図７は、本発明の実施の形態における各行列の生成例を示す図である。図７では、購買データのうち、ユーザＩＤに紐付くデータについて、ユーザ購買行列Ｘ及びユーザグループ対応行列Ｖが生成され、ユーザＩＤに対応付くデータ及びユーザＩＤに対応付かないデータについて、グループ購買行列Ｙが生成されることが示されている。

本実施の形態では、ユーザ購買行列Ｘとグループ購買行列Ｙとの間に成立する関係性を考慮した行列分解手法が開示される。

図８は、本発明の実施の形態における行列分解手法を説明するための図である。図８では、ユーザ購買行列Ｘとユーザグループ対応行列Ｖとから計算される男性、女性といった属性別の統計値が部分統計値として扱われ、グループ購買行列Ｙが示す属性別の統計値が全体統計値として扱われることが示されている。本実施の形態における行列分解モデルでは、部分統計値と全体統計値とは"おおよそ"の比例関係にあるとしたモデル化が行われる。ここで述べた"おおよそ"の意味については後述する。

本実施の形態は、非特許文献２に記載された方法と同様に、ユーザ購買行列Ｘとグループ購買行列Ｙとについて、それぞれ、

という行列分解形を考える。ＣをＫ行Ｒ列のグループ特徴行列Ｃ＝｛ｃ_ｋｒ｝と呼び、ｃ_ｋｒの値は、グループｋのクラスタｒへの寄与度を表す。本実施の形態では、行列Ａと行列Ｃとの間に、ＤＶ^ＴＡ＝Ｃが成立するという線形の制約条件を導入する。当該制約条件の導入に、本実施の形態の特長の一つが有る。すなわち、当該制約条件の導入により、前述した部分統計と全体統計とが"おおよそ"比例する、という仮定が考慮されて、Ａ、Ｂ、Ｃ、及びＤが得られる。なお、行列Ｄ＝｛ｄ_ｋｋ'｝は、対角行列、すなわち、対角成分にのみ０以外の値を有する正方行列（Ｋ行Ｋ列）である。本実施の形態では、行列Ｄを、「係数特徴行列」と呼ぶ。対角成分ｄ_ｋｋの値は、グループｋの部分統計とグループｋの全体統計との比例定数を表す。

図９は、本発明の実施の形態の概要を説明するための図である。図９には、ユーザ購買行列Ｘに対するＮＭＦの適用結果と、グループ購買行列Ｙに対するＮＭＦの適用結果とが、商品特徴行列Ｂを共通因子として有すること、及びそれぞれの適用結果におけるユーザ特徴行列Ａとグループ特徴行列Ｃとの間には、上述した線形関数に基づく制約条件が成立することが示されている。

ユーザ特徴行列Ａが、ユーザとクラスタとの関係を表し、商品特徴行列Ｂが、商品とクラスタとの関係表し、グループ特徴行列Ｃが、グループとクラスタとの関係表し、係数特徴行列Ｄが、グループの部分統計と全体統計間との比例定数を表していることから、これらを利用して、例えば、図９の下方のヒストグラムを得ることができる。このヒストグラムから、各クラスタに特徴的なユーザ、商品、グループを特定したり、部分統計と全体統計との間の関係を調べたりすることができる。

ここで、類似記号で表現した類似の尺度と、前述した"おおよそ"の比例関係とが意味することについて説明する。非特許文献１にも記載されているように、行列の類似の尺度には、ユークリッド距離に基づくものや一般化カルバックライブラーダイバージェンス（ＫＬ距離）により定義される距離尺度が用いられ、値が小さいほど両者が類似していることを表す。距離尺度にいずれの距離を利用するかは、データが有する性質を考慮して決定される。例えば、非特許文献２にも記述されているように、距離尺度にＫＬ距離を用いることは、ユーザ購買行列Ｘの各成分ｘ_ｉｊが、パラメータΣ_ｒａ_ｉｒｂ_ｊｒのポアソン分布に従って得られているとした確率モデルを考えていることに相当する。したがって、ポアソン分布の性質から、ｘ_ｉｊのとる値の期待値は、Σ_ｒａ_ｉｒｂ_ｊｒとなるが、実際のデータ中のｘ_ｉｊの値は、平均からずれた値をとることも想定されたモデル化がされている。これを踏まえて、"おおよそ"の比例関係という言葉を厳密に定義すると、本実施の形態においては、部分統計の期待値と全体統計の期待値との間に比例関係を想定したモデリングを行っていることになる。したがって、この期待値のもとでの比例関係が保たれるように制限した上で、行列Ａ、Ｂ、Ｃ、Ｄを算出することで、全体統計の値も考慮された解析が可能になる。

次に、上記したクラスタ抽出を実行するクラスタ抽出装置１０の一例について説明する。図１０は、本発明の実施の形態におけるクラスタ抽出装置のハードウェア構成例を示す図である。図１０のクラスタ抽出装置１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、ＣＰＵ１０４、インタフェース装置１０５、表示装置１０６、及び入力装置１０７等を有する。

クラスタ抽出装置１０での処理を実現するプログラムは、ＣＤ−ＲＯＭ等の記録媒体１０１によって提供される。プログラムを記憶した記録媒体１０１がドライブ装置１００にセットされると、プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。ＣＰＵ１０４は、メモリ装置１０３に格納されたプログラムに従ってクラスタ抽出装置１０に係る機能を実現する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。表示装置１０６はプログラムによるＧＵＩ（Graphical User Interface）等を表示する。入力装置１０７はキーボード及びマウス等で構成され、様々な操作指示を入力させるために用いられる。

図１１は、本発明の実施の形態におけるクラスタ抽出装置の機能構成例を示す図である。図１１において、クラスタ抽出装置１０は、ユーザ購買情報処理部１１、グループ購買情報処理部１２、ユーザグループ対応情報処理部１３、特徴行列推定部１４、特徴行列出力部１５、及び入出力制御部１６等を有する。これら各部は、クラスタ抽出装置１０にインストールされた１以上のプログラムが、ＣＰＵ１０４に実行させる処理により実現される。クラスタ抽出装置１０は、また、ユーザ購買情報テーブル５１、グループ購買情報テーブル５２、ユーザグループ対応情報テーブル５３、ユーザ特徴テーブル５４、商品特徴テーブル５５、グループ特徴テーブル５６、及び係数特徴テーブル５７等を利用する。これら各テーブルは、補助記憶装置１０２、メモリ装置１０３、又はクラスタ抽出装置１０にネットワークを介して接続可能な記憶装置等を用いて実現可能である。

ユーザ購買情報処理部１１は、ユーザ購買行列Ｘを示す情報（以下、「ユーザ購買情報」という。）の入力を受け付け、当該ユーザ購買情報を、ユーザ購買情報テーブル５１に記憶する。グループ購買情報処理部１２は、グループ購買行列Ｙを示す情報（以下、「グループ購買情報」という。）の入力を受け付け、当該グループ購買情報を、グループ購買情報テーブル５２に記憶する。ユーザグループ対応情報処理部１３は、ユーザグループ対応行列Ｖを示す情報（以下、「ユーザグループ対応情報」という。）の入力を受け付け、当該ユーザグループ対応情報を、ユーザグループ対応情報テーブル５３に記憶する。

特徴行列推定部１４は、ユーザ購買情報テーブル５１、グループ購買情報テーブル５２、又はユーザグループ対応情報テーブル５３が記憶する情報に基づいて、ユーザ特徴行列Ａ、商品特徴行列Ｂ、グループ特徴行列Ｃ、及び係数特徴行列Ｄの推定値を算出し、それぞれの算出結果を、ユーザ特徴テーブル５４、商品特徴テーブル５５、グループ特徴テーブル５６、及び係数特徴テーブル５７に記憶する。特徴行列出力部１５は、ユーザ特徴テーブル５４、商品特徴テーブル５５、グループ特徴テーブル５６、及び係数特徴テーブル５７の内容を出力する。入出力制御部１６は、指示入力や情報の出力に関する処理を制御する。

以下、クラスタ抽出装置１０が実行する処理手順について説明する。図１２は、クラスタ抽出装置が実行する処理手順の一例を説明するためのフローチャートである。

ステップＳ１００において、ユーザ購買情報処理部１１は、ユーザＩＤ、商品ＩＤ、及び購買数を一組とするユーザ購買情報の入力を受け付ける。ユーザ購買情報処理部１１は、入力されたユーザ購買情報を、ユーザ購買情報テーブル５１に記憶する。

図１３は、ユーザ購買情報テーブルの構成例を示す図である。図１３において、ユーザ購買情報テーブル５１は、ユーザＩＤフィールド、商品ＩＤフィールド、及び購買数フィールドを有する。

ユーザＩＤフィールドには、ユーザＩＤが記憶される。ユーザＩＤは、商品を購買したユーザ（購買者）ごとの識別子である。商品ＩＤフィールドには、商品ＩＤが記憶される。商品ＩＤは、ユーザが購買した商品の識別子である。購買数フィールドには、１、又はユーザＩＤに係るユーザによる商品ＩＤに係る商品の購買数が記憶される。なお、購買数の値には０又は正の整数値を設定できるが、負の値を設定することはできない。

ユーザ購買情報処理部１１は、入力されたユーザＩＤ、商品ＩＤ、及び購買数の組数分の行を、ユーザ購買情報テーブル５１に追加し、各行の各フィールドに対して値を記憶する。ユーザ購買情報は、例えば、システム管理者等によって、入力装置１０７等を利用して手動で入力されてもよいし、ＰＯＳ（Point Of Sales system）システムから自動的に入力されてもよい。ユーザ購買情報が自動的に入力される場合、商品の購買が発生するたびに、ユーザ購買情報の入力が行われてもよい。

なお、ユーザ購買情報テーブル５１の各フィールドに付与されているｉ、ｊ、ｘ_ｉｊは、ユーザ購買行列Ｘにおける行、列、及び成分のそれぞれの識別子である。すなわち、ユーザ購買情報テーブル５１は、ユーザ購買行列Ｘと等価である。

ステップＳ２００において、グループ購買情報処理部１２は、グループＩＤ、商品ＩＤ、及び購買数を一組とするグループ購買情報の入力を受け付ける。グループ購買情報処理部１２は、入力されたグループ購買情報を、グループ購買情報テーブル５２に記憶する。

図１４は、グループ購買情報テーブルの構成例を示す図である。図１４において、グループ購買情報テーブル５２は、グループＩＤフィールド、商品ＩＤフィールド、及び購買数フィールドを有する。

グループＩＤフィールドには、グループＩＤが記憶される。グループＩＤは、グループごとの識別子である。商品ＩＤフィールドには、グループＩＤフィールドに係るグループに属するユーザ（購買者）によって購入された商品の商品ＩＤが記憶される。購買数フィールドには、１、又はグループＩＤに係るグループに属するユーザによる商品ＩＤに係る商品の購買数が記憶される。なお、購買数の値には０又は正の整数値を設定できるが、負の値を設定することはできない。

グループ購買情報処理部１２は、入力されたグループＩＤ、商品ＩＤ、及び購買数の組数分の行を、グループ購買情報テーブル５２に追加し、各行の各フィールドに対して値を記憶する。グループ購買情報は、例えば、システム管理者等によって、入力装置１０７等を利用して手動で入力されてもよいし、ＰＯＳ（Point Of Sales system）システムから自動的に入力されてもよい。グループ購買情報が自動的に入力される場合、商品の購買が発生するたびに、グループ購買情報の入力が行われてもよい。

なお、グループ購買情報テーブル５２の各フィールドに付与されているｋ、ｊ、ｙ_ｋｊは、グループ購買行列Ｙにおける行、列、及び成分のそれぞれの識別子である。すなわち、グループ購買情報テーブル５２は、グループ購買行列Ｙと等価である。

ステップＳ３００において、ユーザグループ対応情報処理部１３は、ユーザＩＤ、グループＩＤ、及び所属値を一組とするユーザグループ対応情報の入力を受け付ける。ユーザグループ対応情報処理部１３は、入力されたユーザグループ対応情報を、ユーザグループ対応情報テーブル５３に記憶する。

図１５は、ユーザグループ対応情報テーブルの構成例を示す図である。図１５において、ユーザＩＤフィールド、グループＩＤフィールド、及び所属値フィールドを有する。

ユーザＩＤフィールドには、ユーザＩＤが記憶される。グループＩＤフィールドには、グループＩＤが記憶される。所属値フィールドには、ユーザＩＤに係るユーザが、グループＩＤに係るグループに所属するか否かを示す値（所属値）が記憶される。１は、グループに所属することを示し、０は、グループに所属しないことを示す。

ユーザグループ対応情報処理部１３は、入力されたユーザＩＤ、グループＩＤ、及び所属値の組数分の行を、ユーザグループ対応情報テーブル５３に追加し、各行の各フィールドに対して値を記憶する。ユーザグループ対応情報は、例えば、システム管理者等によって、入力装置１０７等を利用して手動で入力されてもよいし、ＰＯＳ（Point Of Sales system）システムから自動的に入力される情報に基づいて、新たなユーザ又はグループが検出された際に、自動的に入力されてもよい。

なお、ユーザグループ対応情報テーブル５３の各フィールドに付与されているｉ、ｋ、ｖ_ｉｋは、ユーザグループ対応行列Ｖにおける行、列、及び成分のそれぞれの識別子である。すなわち、ユーザグループ対応情報テーブル５３は、ユーザグループ対応行列Ｖと等価である。

なお、ステップＳ１００〜Ｓ３００の前後関係は、特定のものに限定されない。例えば、ステップＳ１００〜Ｓ３００は、相互に非同期に実行されてもよい。

ステップＳ４００において、特徴行列推定部１４は、ユーザ購買情報テーブル５１、グループ購買情報テーブル５２、及びユーザグループ対応情報テーブル５３等に基づいて、ユーザ特徴行列Ａ、商品特徴行列Ｂ、グループ特徴行列Ｃ、及び係数特徴行列Ｄを推定し、推定結果を、ユーザ特徴テーブル５４、商品特徴テーブル５５、グループ特徴テーブル５６、又は係数特徴テーブル５７に記憶する。

図１６は、ユーザ特徴テーブルの構成例を示す図である。図１６において、ユーザ特徴テーブル５４は、ユーザＩＤフィールド、クラスタＩＤフィールド、及びユーザ特徴値フィールドを有する。

ユーザＩＤフィールドには、ユーザＩＤが記憶される。クラスタＩＤフィールドには、クラスタＩＤが記憶される。クラスタＩＤは、クラスタごとの識別子である。ユーザ特徴値フィールドには、ユーザ特徴値が記憶される。ユーザ特徴値は、当該ユーザＩＤに係るユーザの、当該クラスタＩＤに係るクラスタに対する特徴値（寄与度）である。なお、ユーザ特徴テーブル５４の各フィールドに付与されているｉ、ｒ、ａ_ｉｒは、ユーザ特徴行列Ａにおける行、列、成分のそれぞれの識別子である。すなわち、ユーザ特徴テーブル５４は、ユーザ特徴行列と等価である。

図１７は、商品特徴テーブルの構成例を示す図である。図１７において、商品特徴テーブル５５は、商品ＩＤフィールド、クラスタＩＤフィールド、及び商品特徴値フィールドを有する。

商品ＩＤフィールドには、商品ＩＤが記憶される。クラスタＩＤフィールドには、クラスタＩＤが記憶される。商品特徴値フィールドには、当該商品ＩＤに係る商品の、当該クラスタＩＤに係るクラスタに対する特徴値（寄与度）が記憶される。なお、商品特徴テーブル５５の各フィールドに付与されているｊ、ｒ、ｂ_ｊｒは、商品特徴行列Ｂにおける行、列、成分のそれぞれの識別子である。すなわち、商品特徴テーブル５５は、商品特徴行列Ｂと等価である。

図１８は、グループ特徴テーブルの構成例を示す図である。図１８において、グループ特徴テーブル５６は、グループＩＤフィールド、クラスタＩＤフィールド、及びグループ特徴値フィールドを有する。

グループＩＤフィールドには、グループＩＤが記憶される。クラスタＩＤフィールドには、クラスタＩＤが記憶される。グループ特徴値フィールドには、グループ特徴値が記憶される。グループ特徴値は、当該グループＩＤに係るグループ（カテゴリ）の、当該クラスタＩＤに係るクラスタに対する特徴値（寄与度）である。なお、グループ特徴テーブル５６の各フィールドに付与されているｋ、ｒ、ｃ_ｋｒは、グループ特徴行列Ｃにおける行、列、成分のそれぞれの識別子である。すなわち、グループ特徴テーブル５６は、グループ特徴行列Ｃと等価である。

図１９は、係数特徴テーブルの構成例を示す図である。図１９において、係数特徴テーブル５７は、グループＩＤフィールド及び係数値フィールドを有する。

グループＩＤフィールドにはグループＩＤが記憶される。係数値フィールドにはグループＩＤに係るグループの係数値が記憶される。なお、係数特徴テーブル５７の各フィールドに付与されているｋ、ｄ_ｋｋは、係数特徴行列Ｄにおける行及び列（ｋ）、対角成分（ｄ_ｋｋ）のそれぞれの識別子である。すなわち、係数特徴テーブル５７は、係数特徴行列Ｄと等価である。

続いて、特徴行列出力部１５は、ユーザ特徴テーブル５４、商品特徴テーブル５５、グループ特徴テーブル５６、及び係数特徴テーブル５７の内容を出力する（Ｓ５００）。ステップＳ５００は、上記の各ステップと同期的に実行されてもよいし、上記の各ステップとは非同期に実行されてもよい。例えば、入力装置１０７等を介して、システム管理者等によって出力指示が入力された際に、ステップＳ５００が実行されてもよい。出力形態は、表示装置１０６への表示であってもよいし、プリンタへの出力（印刷）であってもよい。又は、ネットワークを介して、所定の装置へ転送することであってもよい。

出力対象は、ユーザ特徴テーブル５４、商品特徴テーブル５５、グループ特徴テーブル５６、係数特徴テーブル５７の全ての行であってもよいし、出力指示において指定された範囲に限定されてもよい。例えば、出力対象を示す情報として、「商品特徴」及びクラスタＩＤが指定された場合は、商品特徴テーブル５５において当該クラスタＩＤを含む行の商品ＩＤフィールドの値、商品特徴値フィールドの値が出力されてもよい。更に、商品特徴値フィールドの値の降順にＮ件（例えば、１０件）の商品ＩＤが特定されることで、クラスタを特徴付ける商品が分かりやすく出力されてもよい。

続いて、図１２のステップＳ４００の詳細について説明する。図２０は、特徴行列の推定処理の処理手順の一例を説明するためのフローチャートである。以下の説明において、Ｉは、全ユーザ数、Ｊは、全商品数、Ｋは、全グループ数を表す。また、ｉは、ユーザを特定する識別子（ユーザＩＤ）、ｊは、商品を特定する識別子（商品ＩＤ）、ｋは、グループを特定する識別子（グループＩＤ）、ｒは、クラスタを特定する識別子（クラスタＩＤ）に対応する。

また、ユーザ購買情報テーブル５１中に存在する全データ、グループ購買情報テーブル５２中に存在する全データ、ユーザグループ対応情報テーブル５３に存在する全データのそれぞれを、順番に、以下の数４、数５、数６として記す。

更に、ユーザ特徴行列Ａ、商品特徴行列Ｂ、グループ特徴行列Ｃ、係数特徴行列Ｄのそれぞれを、順番に、以下の数７、数８、数９、数１０として記す。

ユーザ特徴行列Ａが、ユーザとクラスタとの関係を表し、商品特徴行列Ｂが、商品とクラスタとの関係を表し、グループ特徴行列Ｃが、グループとクラスタとの関係を表し、係数特徴行列Ｄが、グループの部分統計と全体統計間との比例定数を表す。数１０に示される係数特徴行列Ｄは、対角成分以外は０となるＫ行Ｋ列の行列であるためにＫ個の要素だけを用いて表現することができる。

ステップＳ４１０において、特徴行列推定部１４は、ユーザ特徴行列Ａ、商品特徴行列Ｂ、グループ特徴行列Ｃ、及び係数特徴行列Ｄのそれぞれの成分の値（ユーザ特徴値、商品特徴値、グループ特徴値、係数値）を初期化する。これらの値は、例えば、乱数を用いてランダムに生成されてもよい。但し、各値は、０以上である。特徴行列推定部１４は、また、終了条件の閾値ε及び最大繰り返し回数を設定する。閾値εには、例えば、０．０１が設定されてもよいし、他の値が設定されてもよい。最大繰り返し回数には、例えば、５０又は１００等が設定されてもよいし、他の値が設定されてもよい。

続いて、特徴行列推定部１４は、終了条件に用いる変数として、特徴更新の最大変化幅を示す変数δを、０に初期化する（Ｓ４２０）。

続いて、特徴行列推定部１４は、以下の数１１に示される更新式に基づいて、ユーザ特徴行列Ａを更新する（Ｓ４３０）。

また、特徴行列推定部１４は、ユーザ特徴行列Ａの各成分について、更新前の値と更新後の値との差の絶対値を算出し、算出された絶対値の中の最大値がδより大きければ、当該最大値によってδを更新する。なお、当該最大値は、以下の数１２によって示される。また、当該最大値によるδの更新は、以下の数１３によって示される。

数１３において、記号「←」は、右辺の計算結果を左辺の変数に代入する処理を意味する。

続いて、特徴行列推定部１４は、以下の数１４に示される更新式に基づいて、商品特徴行列Ｂを更新する（Ｓ４４０）。

また、特徴行列推定部１４は、商品特徴行列Ｂの各成分について、更新前の値と更新後の値との差の絶対値を算出し、算出された絶対値の中の最大値がδより大きければ、当該最大値によってδを更新する。なお、当該最大値は、以下の数１５によって示される。また、当該最大値によるδの更新は、以下の数１６によって示される。

続いて、特徴行列推定部１４は、以下の数１７に示される更新式に基づいて、グループ特徴行列Ｃを更新する（Ｓ４５０）。

また、特徴行列推定部１４は、グループ特徴行列Ｃの各成分について、更新前の値と更新後の値との差の絶対値を算出し、算出された絶対値の中の最大値がδより大きければ、当該最大値によってδを更新する。なお、当該最大値は、以下の数１８によって示される。また、当該最大値によるδの更新は、以下の数１９によって示される。

続いて、特徴行列推定部１４は、以下の数２０に示される更新式に基づいて、係数特徴行列Ｄを更新する（Ｓ４６０）。

また、特徴行列推定部１４は、係数特徴行列Ｄの各成分について、更新前の値と更新後の値との差の絶対値を算出し、算出された絶対値の中の最大値がδより大きければ、当該最大値によってδを更新する。なお、当該最大値は、以下の数２１によって示される。また、当該最大値によるδの更新は、以下の数２２によって示される。

続いて、特徴行列推定部１４は、ステップＳ４２０〜Ｓ４６０に関する繰り返し回数に１を加算する（Ｓ４７０）。繰り返し回数の初期値は、０である。したがって、ステップＳ４２０〜Ｓ４６０が初めて実行された場合、繰り返し回数は１に更新される。

続いて、特徴行列推定部１４は、繰り返し回数が最大繰り返し回数を超えるか否か、又は変数δの値が閾値ε未満であるか否かを判定する（Ｓ４８０）。繰り返し回数が最大繰り返し回数以下であり、かつ、変数δの値が、閾値ε以上である場合（Ｓ４８０でＮｏ）、特徴行列推定部１４は、ステップＳ４２０以降を繰り返す。繰り返し回数が最大繰り返し回数を超える場合、又は変数δの値が閾値ε未満である場合（Ｓ４８０でＹｅｓ）、図２０の処理は終了する。

なお、数１１、数１４、数１７、及び数２０より明らかなように、ユーザ特徴値、商品特徴値、グループ特徴値、及び係数特徴値は、相互に依存関係を有する。すなわち、いずれかの特徴値が変化すると、他の特徴値も変化する。そこで、図２０では、各特徴値を繰り返し更新しながら、各特徴値の近似値が探索される。

また、数１１、数１４、数１７、及び数２０は、全てのユーザｉ、全ての商品ｊ、全てのグループ（カテゴリ）ｋについて、

が成立する時に、左辺と右辺とが一致し、更新の最大変化幅を示す変数δの値が閾値ε以下となるため、各特徴行列の更新が停止する。また、あるユーザｉに関して、全てのｊ、及び全てのｋについて、

である時に、数１１の更新式に基づいてユーザ特徴行列Ａの更新が行われると、
右辺の分子が右辺の分母より大きくなるため、ａ_ｉｒが更新前の値よりも大きくなるように更新されることになる。すなわち、

の値が大きくなるように、ａ_ｉｒが更新されることになる。

上述したように、本実施の形態によれば、ユーザＩＤに紐付くデータ及びユーザＩＤに紐付かないデータの双方を利用して、データ全体の傾向（部分統計と全体統計の関係性）を考慮したクラスタ抽出を行うことができる。

なお、本実施の形態では、ユーザ購買行列Ｘとグループ購買行列Ｙとからクラスタが抽出される例が示されているが、本実施の形態を適用可能な範囲は、この例に限定されない。例えば、ユーザとユーザによる訪問地の訪問数とを表現する行列と、訪問地におけるグループ毎の訪問数を表現する行列との組等、訪問地、ユーザ、及びグループ（カテゴリ）のように１つ１つにＩＤ番号（識別情報）を付与して識別可能であり、行列形式としてデータを表現することが可能な事物であり、かつ、ユーザとその所属グループのように対応関係性が存在するものならば、他の事物に関して本実施の形態が適用されてもよい。

また、識別情報に紐付くデータ又は識別情報に紐付かないデータは、出現数や購入回数のように整数である必要もなく、基本的に０以上の実数であればよい。入力となる行列が３つ以上存在する場合にも、本実施の形態は適用可能である。

なお、本実施の形態において、クラスタ抽出装置１０は、分析装置の一例である。ユーザＩＤに紐付くユーザ（購買者）は、第１の個体の一例である。ユーザＩＤに紐付かないユーザ（購買者）は、第２の個体の一例である。グループは、第３の個体の一例である。ユーザ購買情報テーブル５１は、第１の記憶部の一例である。グループ購買情報テーブル５２は、第２の記憶部の一例である。特徴行列推定部１４は、分解部の一例である。商品の購買は、事象の一例である。性別、年代等は、複数の特徴の一例である。非負値行列分解は、因子分解及び非負値分解の一例である。ユーザ特徴行列Ａ及び商品特徴行列Ｂは、第１のパラメータの一例である。グループ特徴行列Ｃ及び係数特徴行列Ｄは、第２のパラメータの一例である。

以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１０クラスタ抽出装置
１１ユーザ購買情報処理部
１２グループ購買情報処理部
１３ユーザグループ対応情報処理部
１４特徴行列推定部
１５特徴行列出力部
１６入出力制御部
５１ユーザ購買情報テーブル
５２グループ購買情報テーブル
５３ユーザグループ対応情報テーブル
５４ユーザ特徴テーブル
５５商品特徴テーブル
５６グループ特徴テーブル
５７係数特徴テーブル
１００ドライブ装置
１０１記録媒体
１０２補助記憶装置
１０３メモリ装置
１０４ＣＰＵ
１０５インタフェース装置
１０６表示装置
１０７入力装置
Ｂバス

Claims

複数の特徴を含む第１の特徴量と紐付けが可能な複数の個体のうち、個体ごとの識別情報に紐付く第１の個体ごとに、当該第１の個体に関して生じた事象に関する情報を記憶する第１の記憶部と、
前記第１の個体群と、前記複数の個体のうち前記識別情報に紐付かない第２の個体群とを、前記第１の特徴量の部分集合である第２の特徴量に基づいて分類することにより形成される第３の個体ごとに、当該第３の個体に関して生じた事象に関する情報を記憶する第２の記憶部と、
前記第１の記憶部又は前記第２の記憶部が記憶する情報が示す事象であって、前記第１の個体群及び前記第３の個体群のそれぞれに生じた事象の傾向を因子分解する第１のパラメータを繰り返し更新し、該更新ごとに、前記各第３の個体と前記第１の個体群との関係関数に関する第２のパラメータを前記第１のパラメータの更新結果に基づいて更新し、該更新の回数が所定回数に達した場合、又は前記第１のパラメータ若しくは前記第２のパラメータの更新前後の変化量が所定値以下である場合に、該更新を停止して、前記第１の個体群及び前記第３の個体群のそれぞれに生じる事象の傾向を因子分解した結果を得る分解部と、
を有することを特徴とする分析装置。
前記関係関数は、線形関数に基づくことを特徴とする、
請求項１記載の分析装置。
前記因子分解は、非負値分解である、
ことを特徴とする請求項１又は２記載の分析装置。
複数の特徴を含む第１の特徴量と紐付けが可能な複数の購買者のうち、購買者ごとの識別情報に紐付く第１の購買者ごとに、当該第１の購買者による商品の購買に関する情報を記憶する第１の記憶部と、
前記第１の購買者群と、前記複数の購買者のうち前記識別情報に紐付かない第２の購買者群とを、前記第１の特徴量の部分集合である第２の特徴量に基づいて分類することにより形成されるグループごとに、当該グループによる商品の購買に関する情報を記憶する第２の記憶部と、
前記第１の記憶部又は前記第２の記憶部が記憶する情報が示す購買であって、前記第１の購買者群及び前記グループ群のそれぞれによる購買の傾向を因子分解する第１のパラメータを繰り返し更新し、該更新ごとに、前記各グループと前記第１の購買者群との関係関数に関する第２のパラメータを前記第１のパラメータの更新結果に基づいて更新し、該更新の回数が所定回数に達した場合、又は前記第１のパラメータ若しくは前記第２のパラメータの更新前後の変化量が所定値以下である場合に、該更新を停止して、前記第１の購買者群及び前記グループ群のそれぞれによる購買の傾向を因子分解した結果を得る分解部と、
を有することを特徴とする分析装置。
コンピュータが、
複数の特徴を含む第１の特徴量と紐付けが可能な複数の個体のうち、個体ごとの識別情報に紐付く第１の個体ごとに、当該第１の個体に関して生じた事象に関する情報を第１の記憶部に記憶する第１の記憶手順と、
前記第１の個体群と、前記複数の個体のうち前記識別情報に紐付かない第２の個体群とを、前記第１の特徴量の部分集合である第２の特徴量に基づいて分類することにより形成される第３の個体ごとに、当該第３の個体に関して生じた事象に関する情報を第２の記憶部に記憶する第２の記憶手順と、
前記第１の記憶部又は前記第２の記憶部が記憶する情報が示す事象であって、前記第１の個体群及び前記第３の個体群のそれぞれに生じた事象の傾向を因子分解する第１のパラメータを繰り返し更新し、該更新ごとに、前記各第３の個体と前記第１の個体群との関係関数に関する第２のパラメータを前記第１のパラメータの更新結果に基づいて更新し、該更新の回数が所定回数に達した場合、又は前記第１のパラメータ若しくは前記第２のパラメータの更新前後の変化量が所定値以下である場合に、該更新を停止して、前記第１の個体群及び前記第３の個体群のそれぞれに生じる事象の傾向を因子分解した結果を得る分解手順と、
を実行することを特徴とする分析方法。
コンピュータを、請求項１乃至４いずれか一項記載の各部として機能させるための分析プログラム。