JP6469033B2 - 分布推定装置、分布推定方法、及び分布推定プログラム - Google Patents

分布推定装置、分布推定方法、及び分布推定プログラム Download PDF

Info

Publication number
JP6469033B2
JP6469033B2 JP2016028885A JP2016028885A JP6469033B2 JP 6469033 B2 JP6469033 B2 JP 6469033B2 JP 2016028885 A JP2016028885 A JP 2016028885A JP 2016028885 A JP2016028885 A JP 2016028885A JP 6469033 B2 JP6469033 B2 JP 6469033B2
Authority
JP
Japan
Prior art keywords
feature matrix
matrix
distribution
vector
time zone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016028885A
Other languages
English (en)
Other versions
JP2017146829A (ja
Inventor
寛 清武
寛 清武
匡宏 幸島
匡宏 幸島
達史 松林
達史 松林
澤田 宏
宏 澤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016028885A priority Critical patent/JP6469033B2/ja
Publication of JP2017146829A publication Critical patent/JP2017146829A/ja
Application granted granted Critical
Publication of JP6469033B2 publication Critical patent/JP6469033B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、行列形式で与えられるデータから、データが従う分布を推定する分布推定装置、分布推定方法、及び分布推定プログラムに係り、特に、ユーザの特定の場所における滞在時間のデータから、データが従う分布を推定する分布推定装置、分布推定方法、及び分布推定プログラムに関する。
POS(Point of Sales)データに代表される購買履歴等の構造化されたデータ、テキストデータ・画像データ等の構造化されていないデータ等の多くは、前処理によって実数値を要素に持つ行列形式で表現できることが知られている。このように行列表現されたデータ中に存在するクラスタを発見する手法として、非負値行列分解(Non-negative Matrix Factorization, NMF)と呼ばれる手法の有用性がこれまで示されている(例えば、非特許文献1を参照)。
NMFを適用する際に入力される行列データは、当該行列データより低次の階数の行列の積に分解される。この各々の低次の階数の行列が、それぞれ各行、各列に対応する事物のクラスタへの寄与度を表しており、この寄与度によりクラスタ発見が可能となる。従って、例えば、ユーザの訪問履歴に関するデータを行列形式により表現することにより、おすすめのショップのリストを作成すること等が可能となる。
図10に、ユーザの訪問履歴Xに関するデータをNMFに適用した適応例を示す。図10に示すように、ユーザの場所毎の訪問回数を表すユーザ訪問場所行列Xは、行列中の各行iがユーザを表し、各列jが訪問場所を表し、各値が訪問回数を表すI行J列の行列である。図10に示す例では、1行目に対応するユーザがユーザ1であり、1列目に対応する訪問場所が場所1であり、ユーザ1の場所1への訪問回数が4である。
ユーザ訪問場所行列Xにおいては、訪問回数の値が大きいほど、その場所が人気のスポットであることを表す。このように、ユーザ訪問場所行列XをNMFに適用することで、
Figure 0006469033
となるI行R列のユーザ特徴行列A={air}と、J行R列の訪問場所特徴行列B={bjr}が求まる。ただし、記号の上付きの記号Tは行列の転置を表す。
また、ここで、記号
Figure 0006469033
で表現した類似の尺度について説明する。上記非特許文献1にも記述されているように、行列の類似の尺度には、ユークリッド距離に基づくものや一般化カルバックライブラーダイバージェンス(KL距離)により定義される距離尺度が用いられ、値が小さいほど両者が類似していることを表す。
図10において、ユーザ特徴行列Aのクラスタ1に対応する1列目に着目すると、ユーザ1に対応する1行目、ユーザ2に対応する2行目、及びユーザ3に対応する3行目の値がそれぞれ0より大きい値となっている。これは、ユーザ1、ユーザ2、及びユーザ3がクラスタ1に所属することを示している。
また、図10において、訪問場所特徴行列Bに着目すると、場所1に対応する1列目、場所2に対応する2列目、及び場所3に対応する3列目では、クラスタ1に対応する1行目の値がクラスタ2に対応する2行目の値より大きい値となっている。これは、場所1、場所2、及び場所3は、ユーザ1、ユーザ2、及びユーザ3が訪れやすい場所であるというクラスタ1が持つ特徴を表している。
これらを踏まえ、図11に示すように、場所1、場所2、及び場所3をまとめてクラスタ1の場所特徴とする。同様に、クラスタ1に所属するユーザ1、ユーザ2、及びユーザ3をクラスタ1のユーザ特徴とする。以下、クラスタ1の場所特徴及びユーザ特徴をまとめてクラスタ1の特徴ともいう。
このように、NMFの適用によって得られたユーザ特徴行列A、及び訪問場所特徴行列Bに基づき、図11に示すようなクラスタ抽出が可能となる。
なお、クラスタの総数に相当する訪問場所特徴行列Bの階数は、解析する前に予め決定しておくものとする。
NMFでは、行列を分解する際に、行列に対して類似の尺度を定義しており、定義した尺度のもとで値が小さいほど両者が類似していることを表す。従って、NMFでは、採用した類似の尺度を最小化する行列(例えば、ユーザ特徴行列A、及び訪問場所特徴行列Bを求める手法として定式化される。
また、NMFでは、データが持つ性質を考慮して、利用する距離が決定される。例えば、距離としてKLダイバージェンスが採用される場合は、行列の各要素xijは平均μ=x^ijのポアソン分布Po(xij|μij)に従っていると仮定していることに相当する。ポアソン分布Po(xij|μij)に従っているデータとしては、上述したユーザの場所毎の訪問回数等が例示される。
なお、行列Xと行列X^のKLダイバージェンスDKLは、下記(1)式で定義される。
Figure 0006469033
実数値が従う確率分布としては正規分布が有用であり、頻度を表す離散値が従う確率分布としてはポアソン分布が有用であることは広く認識された事実である。
澤田宏, "非負値行列因子分解NMFの基礎とデータ/信号解析への応用", 電子情報通信学会誌, Vol. 95, No. 9, pp. 829-833, 2012. Kyosuke Nishida, Hiroyuki Toda, Takeshi Kurashima, and Yoshihiko Suhara, "Probabilistic Identification of Visited Point-of-Interest for Personalized Automatic Check-in", pp.631-642, in Proceedings of the 2014 ACM International Joint Conference on Pervasive and Ubiquitous Computing (UbiComp 2014).
従来、ある時間帯にある場所を訪れたユーザがどのくらいの時間その場所に滞在したかを表す入力データから、滞在時間の従う確率分布の推定を行う技術が用いられている。この場合の入力データは、図12の左図に示すように、各行iが時間帯を表し、各列jが場所を表し、要素としてベクトルxij=(xij1,xij2,…,xijKij)を持つI行J列のベクトル値行列Xとして表現される。ただし、Kijは時間帯iに場所jを訪れたユーザの総数であり、xijkが時間帯iに場所jにk番目に訪れた人の滞在時間を表す。以後、このベクトル値行列Xを時間帯場所ベクトル値行列という。
なお、ここでいう時間帯iは、例えばi=1が[7:00−8:00]の間の1時間、i=2が[8:00−9:00]の1時間のように、24時間をなんらかの基準で分割したものであってもよいし、例えばi=1が休日の午前中、i=2が休日の午後、i=3が平日の午前中、i=4が平日の午後のように、平日及び休日といった日に関する情報と、時間に関する情報とを組み合わせて作成したものであってもよい。
また、場所jは、喫茶店、レストラン等の店舗に対応させても良く、地図を何らかの基準でグリッド化したグリッドのIDに対応させても良い。
このような入力データから、データが従う分布の推定を行う場合、時間帯場所ベクトル値行列Xを、通常の要素がスカラである行列に変換する平均化処理を適用した上で、既存のNMFを適用することが考えられる。より正確に述べると、時間帯場所ベクトル値行列Xにおいてユーザ毎に平均を取った時間帯場所平均行列
Figure 0006469033
を下記(2)式に従って作成し、時間帯場所平均行列XにNMFを適用する。
Figure 0006469033
しかし、この手法では、各要素の分散の情報を潰しており、時間帯iに場所jに滞在した滞在時間の平均値のみに基づいて分布の推定を行うことになる。すなわち、この手法では、以下の(A)及び(B)により、滞在時間が従う確率分布を推定したい場合には不適切だといえる。
(A)上記手法は、正規分布から得られたと仮定されるデータに対して推定を行うためである。上記非特許文献2でも示されるように、ユーザがある場所に滞在した滞在時間の分布は対数正規分布に従うことが知られている。つまり、上記手法により分布の推定を行うと、実際には図12の右図に示すように、ユーザがある場所に滞在した滞在時間の分布は正規分布とは限らない。しかし、図13に示すように、ユーザがある場所に滞在した滞在時間の分布を正規分布として推定を行ってしまい、滞在時間が従う分布の推定を精度良く行うことができない。
(B)上記手法では、平均値を推定しているため、分散値も考慮した分布の形を推定する場合には不適切である。
本発明は、以上のような事情に鑑みてなされたものであり、要素の分散を考慮して、分布を推定することができる分布推定装置、分布推定方法、及び分布推定プログラムを提供することを目的とする。
上記目的を達成するために、本発明の分布推定装置は、個々を識別可能な第1の個体群に含まれる個体i(1≦i≦I,Iは1以上の整数)とオブジェクトj(1≦j≦J、Jは1以上の整数)との関連度を表すと共に、平均パラメータμij及び分散パラメータを持つ対数正規分布に従う要素xijkからなるベクトルxijを要素として持つI×Jのベクトル値行列Xから、前記個体iが、クラスタr(1≦r≦R、Rは1以上の整数)に所属することを表す非負値の要素airを持つI×Rの第1の特徴行列Aと、前記オブジェクトjが、前記クラスタrに所属することを表す非負値の要素bjrを持つJ×Rの第2の特徴行列Bと、を抽出する分布推定装置であって、前記ベクトル値行列Xの各ベクトルxijの各要素xijkの対数値、前記第1の特徴行列A、前記第2の特徴行列B、及び前記分散パラメータを用いて表される目的関数を最適化するように、前記第1の特徴行列A及び前記第2の特徴行列Bを推定する特徴行列推定部と、予め定めた反復終了条件を満足するまで、前記特徴行列推定部による推定を繰り返す反復判定部と、を備える。
なお、本発明のv装置において、前記ベクトルxijの要素xijkは、平均パラメータμij及び個体iに依存する分散パラメータσを持つ対数正規分布、又は、平均パラメータμij及びオブジェクトjに依存する分散パラメータσを持つ対数正規分布に従い、前記特徴行列推定部は、前記ベクトル値行列Xの各ベクトルxijの各要素xijkの対数値、前記第1の特徴行列A、前記第2の特徴行列B、及び前記分散パラメータσ又は前記分散パラメータσを用いて表される目的関数を最適化するように、前記第1の特徴行列A及び前記第2の特徴行列Bを推定するようにしても良い。
また、本発明の分布推定装置において、前記ベクトル値行列Xは、時間帯iにおける各ユーザの場所jの滞在時間を表す要素xijkからなるベクトルxijを要素として持ち、前記第1の特徴行列Aは、前記時間帯iが、前記クラスタrに所属することを表す非負値の要素airを持ち、前記第2の特徴行列Bは、前記場所jが、前記クラスタrに所属することを表す非負値の要素bjrを持つようにしても良い。
また、本発明の分布推定装置において、前記ベクトルxijの要素xijkは、平均パラメータμij及び場所jに依存する分散パラメータσを持つ対数正規分布に従い、前記特徴行列推定部は、前記ベクトル値行列Xの各ベクトルxijの各要素xijkの対数値、前記第1の特徴行列A、前記第2の特徴行列B、及び前記分散パラメータσを用いて表される目的関数を最小化するように、前記第1の特徴行列A及び前記第2の特徴行列Bを推定するようにしても良い。
また、本発明の分布推定装置において、前記ベクトルxijの要素xijkは、平均パラメータμij、及び時間帯iに依存する分散パラメータσを持つ対数正規分布に従い、前記特徴行列推定部は、前記ベクトル値行列Xの各ベクトルxijの各要素xijkの対数値、前記第1の特徴行列A、前記第2の特徴行列B、及び前記分散パラメータσを用いて表される目的関数を最小化するように、前記第1の特徴行列A及び前記第2の特徴行列Bを推定するようにしても良い。
上記目的を達成するために、本発明の分布推定方法は、個々を識別可能な第1の個体群に含まれる個体i(1≦i≦I,Iは1以上の整数)とオブジェクトj(1≦j≦J、Jは1以上の整数)との関連度を表すと共に、平均パラメータμij及び分散パラメータを持つ対数正規分布に従う要素xijkからなるベクトルxijを要素として持つI×Jのベクトル値行列Xから、前記個体iが、クラスタr(1≦r≦R、Rは1以上の整数)に所属することを表す非負値の要素airを持つI×Rの第1の特徴行列Aと、前記オブジェクトjが、前記クラスタrに所属することを表す非負値の要素bjrを持つJ×Rの第2の特徴行列Bと、を抽出する分布推定装置における分布推定方法であって、特徴行列推定部が、前記ベクトル値行列Xの各ベクトルxijの各要素xijkの対数値、前記第1の特徴行列A、前記第2の特徴行列B、及び前記分散パラメータを用いて表される目的関数を最適化するように、前記第1の特徴行列A及び前記第2の特徴行列Bを推定する特徴行列推定ステップと、反復判定部が、予め定めた反復終了条件を満足するまで、前記特徴行列推定ステップによる推定を繰り返す反復判定ステップと、を行う。
また、本発明の分布推定方法において、前記ベクトル値行列Xは、時間帯iにおける各ユーザの場所jの滞在時間を表す要素xijkからなるベクトルxijを要素として持ち、前記第1の特徴行列Aは、前記時間帯iが、前記クラスタrに所属することを表す非負値の要素airを持ち、前記第2の特徴行列Bは、前記場所jが、前記クラスタrに所属することを表す非負値の要素bjrを持つようにしても良い。
上記目的を達成するために、本発明の文書分類プログラムは、コンピュータを、上記分布推定装置の各部として機能させるためのプログラムである。
本発明によれば、要素の分散を考慮して、分布を推定することができる。
実施形態に係る分布推定装置における場所及び滞在時間の分布を推定する推定方法の一例を示す機能ブロック図である。 対数正規分布の一例を示す模式図である。 実施形態に係る分布推定装置における時間帯場所ベクトル値行列を時間帯場所ベクトル値対行列に変換する変換方法の一例を示す模式図である。 実施形態に係る分布推定装置における時間帯場所ベクトル値対数行列を時間帯場所対数平均値ベクトルに変換する変換方法の一例を示す模式図である。 実施形態に係る分布推定装置における時間帯場所行列及び場所特徴行列を推定する推定方法の一例を示す模式図である。 実施形態に係る分布推定装置における時間帯場所ベクトル値行列の平均値を推定する推定方法の一例を示す模式図である。 実施形態に係る分布推定装置の構成の一例を示す機能ブロック図である。 実施形態に係る分布推定装置により実行される全体処理の流れを示すフローチャートである。 実施形態に係る分布推定装置により実行される特徴行列推定処理の流れを示すフローチャートである。 ユーザの訪問履歴に関するデータをNMFに適用した行列分解の一例を示す模式図である。 ユーザの訪問履歴に関するデータをNMFに適用した行列分解によりクラスタを抽出方法の一例を示す模式図である。 時間帯場所ベクトル値行列の一例を示す模式図である。 場所及び対外時間の分布を推定する推定方法の一例である。
以下、本発明の実施形態について図面を用いて説明する。
本実施形態に係る分布推定装置は、時間帯場所ベクトル値行列Xにおける滞在時間が従う分布の推定を行う非負値行列分解を用いる。特に、本実施形態では、図1に示すように、要素である滞在時間を対数正規分布に従って得られると仮定して、ユーザの滞在時間の分布の推定を行う。
対数正規分布は、ユーザの滞在時間等のモデリングにおいて広く利用される確率分布である(上記非特許文献2を参照)。対数正規分布は、正規分布とは異なり、図2に示すように、右に裾の長いデータを表現することが可能な確率分布である。対数正規分布は、この性質によって、例えばカフェ等における『話し込んでしまい長居をしてしまう』(滞在時間が長くなる)ことを表現することが可能となる。
本実施形態では、時間帯場所ベクトル値行列Xにおける各要素xijkが、平均パラメータμij、分散パラメータσijを持つ対数正規分布LN(xijk|μij,σij)に従い、平均パラメータμijは、時間帯特徴行列A、場所特徴行列Bの要素を用いて下記(3)式のように表現されるとしてモデリングを行う。
Figure 0006469033
時間帯特徴行列A、場所特徴行列B、及び分散パラメータσijは、下記(4)式に示す目的関数を用いて最小化を行うことにより推定できる。
Figure 0006469033
このように、本実施形態では、平均パラメータμijが、時間帯特徴行列Aと場所特徴行列Bとの積で表現される。これは一見、入力行列である時間帯場所ベクトル値行列Xの行列分解を行う通常のNMFとは全く異なる手法に見える。しかしながら、本実施形態の技術とNMFには強いつながりがある。それは、対数正規分布と正規分布との関係、すなわち「対数正規分布LN(x|μ,σ)に従う変数Xの対数関数をとった場合、新たな確率変数Y=log(X)が正規分布N(y|μ,σ)に従う」という関係に由来するものである。
まず、図3に示すように、時間帯場所ベクトル値行列Xを対数変換した時間帯場所ベクトル値対数行列Yを算出する。時間帯場所ベクトル値対数行列Yのyijの要素には、訪問したKij人のユーザの訪問時間情報(対数値)が、時間帯場所ベクトル値行列Xと同様にKij次元ベクトル要素として格納されている。
また、図4に示すように、時間帯場所ベクトル値対数行列Yを、時間帯場所平均対数値行列
Figure 0006469033
に変換する。時間帯場所平均対数値行列
Figure 0006469033

Figure 0006469033
の要素には、訪問したKij人のユーザの平均訪問時間情報(対数平均値)が格納されている。なお、この場合の
Figure 0006469033
の要素は、ベクトルではなくスカラである。
本実施形態によるNMFは、図5に示すように、yijとの誤差を上記(4)式に示す目的関数に従って最小化するように、NMFによって因子行列である時間帯特徴行列A及び場所特徴行列Bを導出する。これらの因子行列によって再構築されるμijの要素は、上記(4)式に従って、分散パラメータσijも小さくするようにパラメータが抽出される。なお、分散パラメータσijは、yijkが平均パラメータμijからどれだけばらつくかという分散を表したパラメータとなっている。このように、本実施形態では、NMFの拡張技術であるとみなすことができる。
さらに、上記(4)式では、データ数Kijの和を取っていることがわかる。このことから、データ数Kijが多ければ多いほど、目的関数の値が大きくなってしまう。そのため、目的関数を小さくするためには分散パラメータσijを小さくすることになる。すなわち、データ数Kijが多い場所に関する分布を推定する場合ほど、分散パラメータσijが小さくなり、正確な推定を行えるような目的関数となっている。
このように、本実施形態では、時間帯場所ベクトル値行列Xを入力行列とした場合の、各場所及び各時間に対するユーザの滞在時間が従う分布の推定を行うことで、滞在時間の推定が行える。また、対数正規分布という滞在時間のモデリングに適した分布を利用していることから、ユーザの滞在時間の推定精度の向上も期待できる。これは、図6に示すように、時間帯iに場所jに滞在する時間を表すベクトルxijを生成する確率が最も高い対数正規分布のパラメータを推定していることに等しい。パラメータ推定結果を用いることで、時間帯及び場所毎の平均滞在時間を対数正規分布の平均値
Figure 0006469033
として推定できる。なお、
Figure 0006469033
の要素の平均値は、下記(5)式で表される。
Figure 0006469033
また、分散パラメータσijを時間帯及び場所によって異なるように取得した場合、例えば、「テーマパークDでは、午前中早くに来場する客は長時間楽しむことを目的としているが、夕方に来場する客は、より安価に購入できるナイトパスを利用して、短時間で少数のアトラクションを楽しむ傾向にある」という分析及びパターンの抽出が可能になる。
本実施形態では、さらに、特殊な場合として、時間帯場所ベクトル値対数行列Yのj列目の任意のベクトルxijに対して分散パラメータσijが共通である場合についても考えることもできる。この場合には分散パラメータσijはjにしか依存しないので、分散パラメータσとして、上述した方法を適用することができる。この場合には、最小化の目的関数は、下記(6)式のように表される。
Figure 0006469033
分散パラメータσijをj成分について共通化するということは、i成分に時間帯の情報を持ち、j成分に場所の情報を持つデータにおいて、分散パラメータσijは時間帯に依存しないと考えていることとなる。データの密度によって偏りがあるデータ、つまり場所及び時間帯によって偏りがあるデータ等では、このようにパラメータを共通化することは非常に有効である。
これにより、分散パラメータσijを、時間帯依存がなく、場所のみに特徴があると仮定して抽出した場合、例えば「サービスエリアAでは、どの時間帯でも平均的に1時間滞在する傾向があるので、データ数は少ないが、同じような利用をされている場所が、道の駅、国道沿いのコンビニエンスストア等でも抽出できた。』という分析及びパターンの抽出が可能になる。
また、同様に、i行の任意ベクトル値に対して分散パラメータσijが共通である場合を考えた場合、分散パラメータσijを分散パラメータσと書き直し、最小化する目的関数を下記(7)式のように設定することで、上述した方法を適応することができる。
Figure 0006469033
これにより、分散パラメータσijを、場所依存がなく、時間帯のみに特徴があると仮定して抽出した場合、例えば「ある因子に属する場所では、昼の時間帯は30分ほどなのに、夜の利用客は2時間以上の利用がされていて、これは多くのレストランでは、昼は客の回転数を上げる努力がなされている一方、夜は客の単価を上げるように努力している」という分析及びパターンの抽出が可能になる。
次に、本実施形態に係る分布推定装置1の機能について説明する。
図7に示すように、本実施形態に係る分布推定装置1は、時間帯場所情報処理部10、特徴行列推定部20、反復判定部20a、特徴行列処理部30、記憶部40、及び、入出力部50を有する。入出力部50には、入力装置、表示装置等の外部装置2に接続されており、入出力部50は、外部装置2に対して情報の入出力を行う。
記憶部40は、時間帯場所情報テーブル41、時間帯特徴テーブル42、場所特徴テーブル43、及び、場所分散テーブル44を有する。
以下に各テーブルについて説明する。なお、テーブル形式のデータは行列形式にて表現できることから、以下では、各テーブルと各特徴行列を同一視し、区別せずに用いる。また、時間帯場所行列の各成分はベクトル値であり、各特徴行列の各成分は実数値であるが、同じ「行列」という表現を用い、文脈によって使い分ける。
<時間帯場所情報テーブル41>
時間帯場所情報テーブル41は、時間帯フィールド、場所IDフィールド、及び、滞在時間ベクトルフィールドを有する。時間帯フィールドは、時間帯場所情報処理部10により追加された時間帯を特定する識別子が設定されるフィールドである。場所IDフィールドには、時間帯場所情報処理部10により追加された場所を特定する識別子が設定されるフィールドである。滞在時間ベクトルフィールドは、時間帯場所情報処理部10により各々の時間帯に各々の場所に滞在した複数人のユーザの滞在時間の値(以下、滞在時間ベクトルという。)が設定されるフィールドである。なお、各ユーザの滞在時間の値には、0又は正の実数を設定できるが、負の実数又は虚数を設定することはできない。
<時間帯特徴テーブル42>
時間帯特徴テーブル42は、時間帯フィールド、平均値基底ベクトルIDフィールド、及び、時間帯特徴値フィールドを有する。時間帯フィールドは、特徴行列推定部20により時間帯を特定する識別子が設定されるフィールドである。平均値基底ベクトルIDフィールドは、特徴行列推定部20により各データが従う分布の平均値を表現する基底を特定する識別子が設定されるフィールドである。時間帯特徴値フィールドは、特徴行列推定部20により算出された当該時間帯の平均値を表現する基底ベクトルの特徴値が設定されるフィールドである。
<場所特徴テーブル43>
場所特徴テーブル43は、場所IDフィールド、係数IDフィールド、及び、場所特徴値フィールドを有する。場所IDフィールドは、特徴行列推定部20により場所を特定する識別子が設定されるフィールドである。係数IDフィールドは、特徴行列推定部20によりどの平均値基底ベクトルに対する係数かを特定する識別子が設定されるフィールドである。場所特徴値フィールドは、特徴行列推定部20により算出された当該場所の平均値基底ベクトルに対する重みを特定する特徴値が設定されるフィールドである。
<場所分散テーブル44>
場所分散テーブル44は、時間帯フィールド、場所IDフィールド、及び、場所分散値フィールドを有する。時間帯フィールドは、特徴行列推定部20により時間帯を特定する識別子が設定されるフィールドである。場所IDフィールドは、特徴行列推定部20により場所を特定する識別子が設定されるフィールドである。場所分散値フィールドは、特徴行列推定部20により算出された当該場所の場所分散パラメータの値が設定されるフィールドである。
時間帯場所情報処理部10は、入出力部50から、入力行列として、時間帯場所行列を入力する。また、時間帯場所情報処理部10は、入力した時間帯場所行列に基づき、時間帯場所情報テーブル41に、追加された場所、滞在時間に応じて、時間帯フィールド、場所IDフィールド、滞在時間の値を設定した行を挿入する。
特徴行列推定部20は、時間帯場所情報テーブル41に格納された情報を取得し、後述する特徴行列推定処理を行うことにより特徴行列を推定し、得られた時間帯の特徴値を時間帯特徴テーブル42に格納し、場所の特徴値を場所特徴テーブル43に格納し、場所分散パラメータの値を場所分散テーブル44に格納する。特徴行列推定部20が特徴行列を推定する際には、時間帯(個体)iと場所(オブジェクト)jとの関連度を表すと共に、平均パラメータμij及び分散パラメータσijを持つ対数正規分布に従う要素xijkからなるベクトルxijを要素として持つI×Jの時間帯場所ベクトル値行列Xの各ベクトルxijの各要素xijkの対数値、時間帯iがクラスタrに所属することを表す非負値の要素airを持つI×Rの時間帯特徴行列(第1の特徴行列)A、場所jがクラスタrに所属することを表す非負値の要素bjkを持つJ×Rの場所特徴行列(第2の特徴行列)B、及び分散パラメータσijを用いて表される上記(4)式の目的関数を最小化するように、時間帯特徴行列A及び場所特徴行列Bを推定する。
反復判定部20aは、予め定めた反復終了条件を満足するまで、特徴行列推定部20による推定を繰り返すように制御する。
特徴行列処理部30は、時間帯特徴テーブル42、及び場所特徴テーブル43を参照し、リクエストの引数に対応する特徴行列を出力する。本実施形態では、例えば、外部装置2から特徴出力のリクエストが入力された場合に、特徴行列の出力する実行するが、特徴行列の出力を実行するタイミングはこれに限らず、予め定めた時間が経過する毎に、特徴行列を出力しても良い。また、出力する特徴は全ての特徴であっても一部の特徴であっても良く、全ての特徴を出力する場合には、時間帯特徴テーブル42、及び場所特徴テーブル43の全ての行を出力すればよい。
入出力部50は、外部装置2から、入力行列として時間帯場所行列を入力し、入力した時間帯場所行列を時間帯場所情報処理部10に引き渡す。また、入出力部50は、時間帯特徴テーブル42に格納された特徴値、及び場所特徴テーブル43に格納された特徴値を外部装置2に対して出力する。
なお、本実施形態に係る分布推定装置1は、例えば、CPU(Central Processing Unit)、RAM(Random Access Memory)、各種プログラムを記憶するROM(Read Only Memory)を備えたコンピュータ装置で構成される。また分布推定装置1を構成するコンピュータは、ハードディスクドライブ、不揮発性メモリ等の記憶部を備えていても良い。本実施形態では、CPUがROM、ハードディスク等の記憶部に記憶されているプログラムを読み出して実行することにより、上記のハードウェア資源とプログラムとが協働し、上述した機能が実現される。
本実施形態に係る分布推定装置1は、時間帯場所行列を入力として特徴行列を推定し、特徴行列を出力する全体処理を行う。
まず、本実施形態に係る分布推定装置1による全体処理の流れを、図8に示すフローチャートを用いて説明する。
本実施形態では、時間帯場所情報処理部10が時間帯場所情報を更新するタイミングは、例えば、システム管理者が外部装置2から供給されるデータをもとに手動で管理できるようにしてもよいし、あるユーザが新たな場所に滞在した場合に外部装置2が自動的に処理を起動するようにしてもよい。
ステップS101では、時間帯場所情報処理部10が、入出力部50から、入力行列として、時間帯場所行列を入力する。また、時間帯場所情報処理部10が、入力した時間帯場所行列に基づき、時間帯場所情報テーブル41に、追加された場所、滞在時間に応じて、時間帯フィールド、場所IDフィールド、滞在時間の値を設定した行を挿入する。
ステップS103では、特徴行列推定部20が、後述する特徴行列推定処理を行うことにより、各特徴行列、及び場所分散を推定する。
ステップS105では、特徴行列処理部30が、時間帯特徴テーブル42、及び場所特徴テーブル43を参照し、リクエストの引数に対応する特徴行列を出力する。本実施形態では、例えば、外部装置2から特徴出力のリクエストが入力された場合に、特徴行列の出力する実行するが、特徴行列の出力を実行するタイミングはこれに限らず、予め定めた時間が経過する毎に、特徴行列を出力しても良い。また、出力する特徴は全ての特徴であっても一部の特徴であっても良く、全ての特徴を出力する場合には、時間帯特徴テーブル42、及び場所特徴テーブル43の全ての行を出力すればよい。
ここで、特徴行列推定部20は、上述した特徴行列推定処理として、以下の方法で各特徴行列、場所分散を推定し、記憶部40の時間帯特徴テーブル42、場所特徴テーブル43、及び場所分散テーブル44に格納する処理を行う。
本実施形態に係る分布推定装置1による特徴行列推定処理の流れを、図9に示すフローチャートを用いて説明する。
なお、本実施形態では、時間帯場所情報テーブル41中に存在する全データを下記(8)式のように表す。また、時間帯特徴行列A、及び場所特徴行列Bをそれぞれ下記(9)式及び(10)式のように表す。また、場所分散パラメータσを下記(11)式のように表す。各式におけるIは全時間帯数であり、Jは全場所数である。また、各式におけるiは時間帯を特定する識別子であり、jは場所を特定する識別子であり、rは平均値を表現する基底ベクトルを特定する識別子である。
Figure 0006469033
Figure 0006469033
Figure 0006469033
Figure 0006469033
ステップS201では、特徴行列推定部20が、時間帯特徴行列A、及び場所特徴行列Bをそれぞれ初期化する。同様に終了条件の閾値ε、最大繰り返し回数を設定する。
ステップS203では、特徴行列推定部20が、終了条件に用いる変数として特徴更新の最大変化幅を示す変数δをδ=0として初期化する。
ステップS205では、特徴行列推定部20が、下記(12)式に従い、時間帯特徴行列Aを更新する。その後、更新前の時間帯特徴行列Aの要素の値と更新後の時間帯特徴行列Aの要素の値の差の絶対値の最大値である
Figure 0006469033
がδより大きければ、
Figure 0006469033
と更新する。
Figure 0006469033
ただし、
Figure 0006469033
と書いた、μijは、時間帯特徴行列A、及び場所特徴行列Bによるlog(xijk)の推定値であると見なせる。
なお、上記(12)式における記号「←」は、右辺の計算結果を左辺の変数に代入する処理を意味する。また、各式において、代入処理前のユーザ特徴行列Aの要素の値をaold irとし、代入処理後の値をanew irとして記述している。また、上記(12)式におけるμijは、時間帯特徴行列A及び場所特徴行列Bによるlog(xijk)の推定値であると見なせる。
ステップS207では、特徴行列推定部20が、下記(13)式に従い、場所特徴行列Bを更新する。その後、更新前の場所特徴行列Bの要素の値と更新後の場所特徴行列Bの要素の値の差の絶対値の最大値
Figure 0006469033
がδより大きければ、
Figure 0006469033
と更新する。なお、各式において、代入処理前の場所特徴行列Bの要素の値をbold irとし、代入処理後の値をbnew irとして記述している。
Figure 0006469033
ステップS209では、特徴行列推定部20が、下記(14)式に従い、場所分散パラメータσijを更新する。
Figure 0006469033
ステップS211では、特徴行列推定部20が、計算繰り返し回数を更新する。
ステップS213では、反復判定部20aが、計算繰り返し回数が予め定めた最大繰り返し数を超えたか否か、又は、特徴行列を更新することにより、上述した変数δが予め定めた閾値εより小さいか否かを判定する。
ステップS213で計算繰り返し回数が予め定めた最大繰り返し数を超えていないと判定した場合、又は、上述した変数δが予め定めた閾値ε以上であると判定した場合(S213,N)は、ステップS205に戻る。また、ステップS213で計算繰り返し回数が予め定めた最大繰り返し数を超えたと判定した場合、又は、上述した変数δが予め定めた閾値εより小さいと判定した場合(S213,Y)は、本特徴行列推定処理のプログラムの実行を終了する。
このようにして、分布推定装置1により、滞在時間が従う対数正規分布が推定される。
ここで、本実施形態の特殊な例として、データXの場所分散パラメータσを、iに関して共通化したものを考える場合、すなわち目的関数が上記(6)式に従う場合には、特徴行列を更新するための式である上記(12)乃至(14)式の代わりに、下記(15)乃至(17)式を用いて、後述する手法で特徴行列を更新する。
Figure 0006469033
Figure 0006469033
Figure 0006469033
また、目的関数が上記(7)式に従う場合は、特徴行列を更新するための式である更新式である上記(12)乃至(14)式の代わりに、下記(18)乃至(20)式を用いて下記のように更新する。
Figure 0006469033
Figure 0006469033
Figure 0006469033
上記(12)乃至(20)式の各式において、全ての時間帯i、場所j、ユーザkについてμij=log(xijk)が成立する場合、各式の左辺と右辺が一致し、更新の最大変化幅を示す変数δの値が閾値ε以下となるため、更新が停止する。
なお、上記の実施の形態では、時間帯場所行列を表現した行列から分布を推定する例を示しているが、この例に限定されることはない。例えば、地域と年齢とに応じてユーザの年収を表現する行列など、ユーザ、年齢、地域等のように1つ1つにID番号を付与して識別可能であり行列形式としてデータを表現することが可能な事物であるならば、あらゆるものが本装置による分布推定が可能である。また、本実施形態の図11に示す分布推定装置の各構成要素の動作をプログラムとして構築し、分布推定装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
また、本実施形態では、図1に示す機能の構成要素の動作をプログラムとして構築し、分布推定装置1として利用されるコンピュータにインストールして実行させるが、これに限らず、ネットワークを介して流通させても良い。
また、構築されたプログラムをハードディスクやフレキシブルディスク、CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールしたり、配布したりしても良い。
1 分布推定装置
2 外部装置
10 時間帯場所情報処理部
20 特徴行列推定部
20a 反復判定部
30 特徴行列処理部
40 記憶部
41 時間帯場所情報テーブル
42 時間帯特徴テーブル
43 場所特徴テーブル
44 場所分散テーブル
50 入出力部

Claims (8)

  1. 個々を識別可能な第1の個体群に含まれる個体i(1≦i≦I,Iは1以上の整数)とオブジェクトj(1≦j≦J、Jは1以上の整数)との関連度を表すと共に、平均パラメータμij及び分散パラメータを持つ対数正規分布に従う要素xijkからなるベクトルxijを要素として持つI×Jのベクトル値行列Xから、
    前記個体iが、クラスタr(1≦r≦R、Rは1以上の整数)に所属することを表す非負値の要素airを持つI×Rの第1の特徴行列Aと、前記オブジェクトjが、前記クラスタrに所属することを表す非負値の要素bjrを持つJ×Rの第2の特徴行列Bと、を抽出する分布推定装置であって、
    前記ベクトル値行列Xの各ベクトルxijの各要素xijkの対数値、前記第1の特徴行列A、前記第2の特徴行列B、及び前記分散パラメータを用いて表される目的関数を最適化するように、前記第1の特徴行列A及び前記第2の特徴行列Bを推定する特徴行列推定部と、
    予め定めた反復終了条件を満足するまで、前記特徴行列推定部による推定を繰り返す反復判定部と、
    を備えた分布推定装置。
  2. 前記ベクトルxijの要素xijkは、平均パラメータμij及び個体iに依存する分散パラメータσを持つ対数正規分布、又は、平均パラメータμij及びオブジェクトjに依存する分散パラメータσを持つ対数正規分布に従い、
    前記特徴行列推定部は、前記ベクトル値行列Xの各ベクトルxijの各要素xijkの対数値、前記第1の特徴行列A、前記第2の特徴行列B、及び前記分散パラメータσ又は前記分散パラメータσを用いて表される目的関数を最適化するように、前記第1の特徴行列A及び前記第2の特徴行列Bを推定する
    請求項1記載の分布推定装置。
  3. 前記ベクトル値行列Xは、時間帯iにおける各ユーザの場所jの滞在時間を表す要素xijkからなるベクトルxijを要素として持ち、
    前記第1の特徴行列Aは、前記時間帯iが、前記クラスタrに所属することを表す非負値の要素airを持ち、
    前記第2の特徴行列Bは、前記場所jが、前記クラスタrに所属することを表す非負値の要素bjrを持つ
    請求項1記載の分布推定装置。
  4. 前記ベクトルxijの要素xijkは、平均パラメータμij及び場所jに依存する分散パラメータσを持つ対数正規分布に従い、
    前記特徴行列推定部は、下記の式で表される前記目的関数を最小化するように、前記第1の特徴行列A及び前記第2の特徴行列Bを推定する
    Figure 0006469033
    請求項3記載の分布推定装置。
  5. 前記ベクトルxijの要素xijkは、平均パラメータμij、及び時間帯iに依存する分散パラメータσを持つ対数正規分布に従い、
    前記特徴行列推定部は、下記の式で表される前記目的関数を最小化するように、前記第1の特徴行列A及び前記第2の特徴行列Bを推定する
    Figure 0006469033
    請求項3記載の分布推定装置。
  6. 個々を識別可能な第1の個体群に含まれる個体i(1≦i≦I,Iは1以上の整数)とオブジェクトj(1≦j≦J、Jは1以上の整数)との関連度を表すと共に、平均パラメータμij及び分散パラメータを持つ対数正規分布に従う要素xijkからなるベクトルxijを要素として持つI×Jのベクトル値行列Xから、
    前記個体iが、クラスタr(1≦r≦R、Rは1以上の整数)に所属することを表す非負値の要素airを持つI×Rの第1の特徴行列Aと、前記オブジェクトjが、前記クラスタrに所属することを表す非負値の要素bjrを持つJ×Rの第2の特徴行列Bと、を抽出する分布推定装置における分布推定方法であって、
    特徴行列推定部が、前記ベクトル値行列Xの各ベクトルxijの各要素xijkの対数値、前記第1の特徴行列A、前記第2の特徴行列B、及び前記分散パラメータを用いて表される目的関数を最適化するように、前記第1の特徴行列A及び前記第2の特徴行列Bを推定する特徴行列推定ステップと、
    反復判定部が、予め定めた反復終了条件を満足するまで、前記特徴行列推定ステップによる推定を繰り返す反復判定ステップと、
    を行う分布推定方法。
  7. 前記ベクトル値行列Xは、時間帯iにおける各ユーザの場所jの滞在時間を表す要素xijkからなるベクトルxijを要素として持ち、
    前記第1の特徴行列Aは、前記時間帯iが、前記クラスタrに所属することを表す非負値の要素airを持ち、
    前記第2の特徴行列Bは、前記場所jが、前記クラスタrに所属することを表す非負値の要素bjrを持つ
    請求項6記載の分布推定方法。
  8. コンピュータを、請求項1〜5の何れか1項記載の分布推定装置の各部として機能させるためのプログラム。
JP2016028885A 2016-02-18 2016-02-18 分布推定装置、分布推定方法、及び分布推定プログラム Active JP6469033B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016028885A JP6469033B2 (ja) 2016-02-18 2016-02-18 分布推定装置、分布推定方法、及び分布推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016028885A JP6469033B2 (ja) 2016-02-18 2016-02-18 分布推定装置、分布推定方法、及び分布推定プログラム

Publications (2)

Publication Number Publication Date
JP2017146829A JP2017146829A (ja) 2017-08-24
JP6469033B2 true JP6469033B2 (ja) 2019-02-13

Family

ID=59681437

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016028885A Active JP6469033B2 (ja) 2016-02-18 2016-02-18 分布推定装置、分布推定方法、及び分布推定プログラム

Country Status (1)

Country Link
JP (1) JP6469033B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3660090A4 (en) 2017-07-28 2020-09-30 Asahi Kasei Kabushiki Kaisha POLYETHYLENE COMPOSITION

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004213098A (ja) * 2002-12-26 2004-07-29 Toshiba Corp 混雑予測システム、混雑予測方法及び混雑予測プログラム
MX2011004606A (es) * 2008-10-31 2011-05-25 Abbott Lab Clasificacion genomica de cancer colorrectal con base en patrones de alteraciones de numero de copias de gene.
EP2362958A2 (en) * 2008-10-31 2011-09-07 Abbott Laboratories Genomic classification of non-small cell lung carcinoma based on patterns of gene copy number alterations

Also Published As

Publication number Publication date
JP2017146829A (ja) 2017-08-24

Similar Documents

Publication Publication Date Title
US10496678B1 (en) Systems and methods for generating and implementing knowledge graphs for knowledge representation and analysis
CN107391692B (zh) 一种推荐效果的评估方法及装置
CN108399564B (zh) 信用评分方法及装置
CN107451832B (zh) 推送信息的方法和装置
Yan et al. Model selection for Cox models with time-varying coefficients
CN113705772A (zh) 一种模型训练方法、装置、设备及可读存储介质
JP2012058972A (ja) 評価予測装置、評価予測方法、及びプログラム
CN111695046B (zh) 基于时空移动数据表征学习的用户画像推断方法及装置
JP2011096255A (ja) ランキング指向の協調フィルタリング推薦方法および装置
CN111566684B (zh) 用于优化广告的用户分组的方法和系统
CN110020877B (zh) 点击率的预测方法、点击率的确定方法及服务器
Chambers et al. Earthquake forecasting using hidden Markov models
Groll et al. Selection of effects in Cox frailty models by regularization methods
KR20150122307A (ko) 광고 제공 방법 및 서버 장치
KR102376652B1 (ko) Ai를 활용한 상품 데이터 실시간 분석 및 상품 정보를 업데이트하기 위한 방법 및 시스템
JP6469033B2 (ja) 分布推定装置、分布推定方法、及び分布推定プログラム
WO2018088277A1 (ja) 予測モデル生成システム、方法およびプログラム
US11321362B2 (en) Analysis apparatus, analysis method and program
Langone et al. Efficient evolutionary spectral clustering
Zhang et al. An iterative algorithm for optimal variable weighting in K-means clustering
JP2014115911A (ja) 情報推薦装置、情報推薦方法、及び情報推薦プログラム
CN116578400A (zh) 多任务数据处理方法和装置
KR101949448B1 (ko) 가우시안 프로세스 회귀분석을 이용한 클러스터링 방법 및 그 장치
US20210216907A1 (en) Selecting optimum primary and secondary parameters to calibrate and generate an unbiased forecasting model
WO2018088276A1 (ja) 予測モデル生成システム、方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190115

R150 Certificate of patent or registration of utility model

Ref document number: 6469033

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150