JP6383688B2 - データ解析装置、方法、及びプログラム - Google Patents

データ解析装置、方法、及びプログラム Download PDF

Info

Publication number
JP6383688B2
JP6383688B2 JP2015059912A JP2015059912A JP6383688B2 JP 6383688 B2 JP6383688 B2 JP 6383688B2 JP 2015059912 A JP2015059912 A JP 2015059912A JP 2015059912 A JP2015059912 A JP 2015059912A JP 6383688 B2 JP6383688 B2 JP 6383688B2
Authority
JP
Japan
Prior art keywords
matrix
feature matrix
movie
feature
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015059912A
Other languages
English (en)
Other versions
JP2016181040A (ja
Inventor
匡宏 幸島
匡宏 幸島
達史 松林
達史 松林
澤田 宏
宏 澤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015059912A priority Critical patent/JP6383688B2/ja
Publication of JP2016181040A publication Critical patent/JP2016181040A/ja
Application granted granted Critical
Publication of JP6383688B2 publication Critical patent/JP6383688B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)

Description

本発明は、データ解析装置、方法、及びプログラムに関する。
POS(Point of Sales)データに代表される購買履歴などの構造化されたデータのみならず、テキストデータや画像データなどの構造化されていないデータの多くも前処理によって行列形式により表現できることが知られている。これら行列表現されたデータ中に存在するクラスタを発見するための手法として、非負値行列分解(Non-negative Matrix Factorization, NMF)と呼ばれる手法の有用性がこれまで示されている(例えば非特許文献1を参照)。
NMFの適用により入力となる行列データはそれより低次のランクの行列の積に分解される。この各低次行列がそれぞれ各行、各列に対応する事物のクラスタへの寄与度を表しており, クラスタ発見が可能となる。したがって例えば映画のレーティング履歴の適用によっておすすめ映画リストを作成したり、ニュース記事文書集合に対する適用から記事の自動分類を行うなどが可能となる。上記のようなNMFの適用例を図12に示す。ユーザ映画行列X={xij}は行列中の第i行目に対応するユーザの第j列目に対応する映画に対するレーティング(評価値)がxijの値となるI行J列の行列である。ここでレーティング(評価値)の取りえる値は有限の範囲の正の値であり、例えば0以上5以下の値などである。レーティングの値が大きいほどその映画が高い評価をされたことを表す。したがって, ユーザ映画行列Xは行と列がそれぞれ特定のユーザと映画に対応していることになる。このユーザ映画行列にNMFを適用することで、
となるI行R列のユーザ特徴行列A={air}とJ行R列の映画特徴行列B={bjr}が求まる。ただし記号
で両者が類似していることを表し、記号の上付きの記号Tは行列の転置を表す。記号
の意味については後述する。NMFの結果から、ユーザ特徴行列Aのクラスタ1に対応する列に着目すると、ユーザ1とユーザ2、ユーザ3に対応する1行目と2行目、3行目の値が0より大きい値となっていることが分かる。これはユーザ1とユーザ2、ユーザ3がクラスタ1に所属することを示している。また映画特徴行列Bのクラスタ1に対応する行に着目すると、1列目の映画1と2列目の映画2、3列目の映画3という映画に該当する列の値が2列目のそれより大きい値となっていることが分かる。これは映画1と映画2、映画3が同じユーザに良い評価をされやすいというクラスタ1のもつ特徴を表しているといえる。したがって、この映画1と映画2、映画3という映画をまとめてクラスタ1の映画特徴と呼ぶ。同様に、ユーザ特徴行列Aのクラスタ1に所属するユーザのことをクラスタ1のユーザ特徴と呼ぶ。クラスタ1の映画特徴とユーザ特徴をまとめてクラスタ1の特徴と呼ぶこととする。このようにNMFの適用によって得られたユーザ特徴行列Aと映画特徴行列Bをもとに図13のようなクラスタ抽出が可能となる。
なお、クラスタの総数に相当する映画特徴行列のランク数は、解析する前に予め決定しておくものとする。一般的にランク数は、ユーザ数、総映画数よりは十分小さな値を用いる。
また、NMFはクラスタ抽出だけでなく欠損値の補完にも利用できることが知られている。その例を図14に示す。図14のユーザ映画行列X={xij}の定義は図12と同じである。ただし、図12のユーザ映画行列との違いはユーザ1の映画3のレーティングを表す要素が欠損(×印で表示した要素で、データが存在しない要素)していることにある。このような場合であってもNMFは他の観測されている値をもとにユーザ特徴行列Aと映画特徴行列Bを求めることができる。ここで求めたユーザ特徴行列Aと映画特徴行列Bを利用することで元のユーザ映画行列X={xij}の欠損成分を補完したユーザ映画行列の推定値
が求まり、欠損していた要素の値も求めることができる。
ここで、記号
で表現した類似の尺度の意味について補足する。非特許文献1にも記述されているように、行列の類似の尺度には、ユークリッド距離DEUに基づくものや一般化カルバックライブラーダイバージェンス(KL距離)DKLにより定義される距離尺度などが用いられ、採用した尺度のもとで値が小さいほど両者が類似していることを表す。したがってNMFは採用した尺度を最小化する行列A, Bを求める手法として定式化される。
なお、行列Xと^Xのユークリッド距離DEUとKL距離DKLはそれぞれ次の(1)式、(2)式で定義される。
どの距離を利用するかは、データが持つ性質を考慮して決定される。例えばこのようなNMFを適用して分析を行う事象の要素として、前述した映画のレーティングのような実数値(スコア)を持つ行列の場合には、ユークリッド距離が利用されている。また、行列の要素が文書中に含まれる単語の出現数やユーザの購入した商品の購入数のような離散値をもつ場合には、KL距離が利用されている。この使い分けは次のような知見に基づく。ユークリッド距離が採用される時は行列の各要素xijは平均
の正規分布
に従っていると仮定していることに相当し、KL距離が採用される時は行列の各要素xijはパラメタ
のポアソン分布PO(xij|λ)(平均^xij、分散^xij)に従っていると仮定していることに相当する。実数値の従う確率分布として正規分布、頻度を表す離散値の従う確率分布としてポアソン分布が有用であることは広く認識された事実である。
澤田宏、「非負値行列因子分解NMFの基礎とデータ/信号解析への応用」、電子情報通信学会誌、2012、Vol. 95, No. 9, p.829-833 K.Takeuchi、K.Ishiguro、A.Kimura、and H.Sawada、「Non-negative Multiple Matrix Factorization」、Proceedings of 23rd International Joint Conference on Artificial Intelligence (IJCAI2013)、2013、p.1713-1720
本発明で考える問題は、単一の行列を解析する非特許文献1の技術では行うことができない、複数の行列を解析する、という問題である。先ほどと同じくユーザ映画行列をXと書き、さらにタグ映画行列をYという2つの行列からクラスタ抽出を行うという問題である。なお、タグ映画行列Yは要素ykjが映画jに付与されたタグkの数を表す行列である。各タグはその映画の情報(監督、出演者)や、その映画に関する感想を表す単語などであり、同一タグでも複数回付与されうるものである。
複数の行列を解析する技術としては、上記の非特許文献2の方法があげられる。類似の尺度としてKL距離を利用し、要素が離散の頻度の値をとる行列Xと行列Yを図1に示すように
という行列分解と、
という行列分解を行うことで図2に示すようにクラスタ抽出結果を得ることが可能である(C={ckr}はK行R列のカテゴリ特徴行列を表す)。しかしながら、この非特許文献2は行列X、Yの双方が離散の頻度の値であることから、X、Yの両方の行列分解を行う際の類似の尺度にKL距離を利用している。すなわち、
を最小化する行列A, B, Cを求めている(ただし、行列Yの推定値を
と書いた)。本発明ではXはスコアの一例であるレーティングを表すユーザ映画行列、Yは離散値のタグ付与数を表すタグ映画行列であるから、Xの類似の尺度にKL距離を利用することは望ましくない。なお、スコアは、「レーティングやテストの点数のような範囲の定まった値」や「同難易度のテストを複数回受験した際の平均点など、一般に正規分布に従っていると仮定される値」である。
望ましくない理由をさらに詳しく説明する。図3にそれぞれパラメタλ=1,3,5の時のポアソン分布の確率密度関数と平均μ=2,4標準偏差σ=0.5の正規分布の確率密度関数を示す。ポアソン分布はその性質から平均の値と分散の値が等しくなり、λ=5のように平均の値が大きい場合、ポアソン分布から得られる乱数のとりうる値の範囲は広く、2や3の値をとる確率も比較的大きい値となっている。これはつまりレーティングの値である行列xijのとる値をポアソン分布によってモデリングすると、同じく図3中の平均μ=4の正規分布のように安定して平均周辺の値をとるようにモデリングはできず、平均λの値が大きいほど実際に観測されるレーティングの値はばらつきやすいという直観に反したモデリングを行っていることになる。したがってXの類似の尺度にポアソン分布でモデリングしていることに相当するKL距離を利用することは望ましくない。
本発明は、上記の点に鑑みなされたもので、複数の行列データのそれぞれの行列において各要素の性質(離散値/連続値の違い、分布傾向の違い等)が異なることを認めたうえで、それぞれの行列のデータに適した距離尺度を利用して複数の行列の同時分解を行うことで、より正確な欠損値予測やクラスタ抽出が可能なデータ解析装置、方法及びプログラムを提供することを目的とする。
上記の目的を達成するために第1の発明に係るデータ解析装置は、第1のオブジェクトi(1≦i≦I,Iは1以上の整数)と第2のオブジェクトj(1≦j≦J,Jは1以上の整数)との関係の特徴量を表すスコアとなる要素xijを持つI×Jのオブジェクトスコア情報行列X、及び第3のオブジェクトk(1≦k≦K,Kは1以上の整数)と前記第2のオブジェクトjとの関係の特徴量を表す計数データとなる要素ykjを持つK×Jのオブジェクト計数情報行列Yを、前記第1のオブジェクトiが、クラスタr(1≦r≦R,Rは1以上の整数)に所属することを表す要素airを持つI×Rの第1のオブジェクト特徴行列Aと、前記第2のオブジェクトjが、前記クラスタrに所属することを表す要素bjrを持つJ×Rの第2のオブジェクト特徴行列Bと、前記第3のオブジェクトkが、前記クラスタrに所属することを表す要素ckrを持つK×Rの第3のオブジェクト特徴行列Cと、に分解するデータ解析装置であって、前記オブジェクトスコア情報行列X、前記オブジェクト計数情報行列Y、前記第1のオブジェクト特徴行列A、前記第2のオブジェクト特徴行列B、及び前記第3のオブジェクト特徴行列Cに基づいて、前記オブジェクトスコア情報行列Xと、前記第1のオブジェクト特徴行列A及び前記第2のオブジェクト特徴行列Bに基づいて推定されるオブジェクトスコア情報行列^Xとのユークリッド距離、並びに前記オブジェクト計数情報行列Yと、前記第2のオブジェクト特徴行列B及び前記第3のオブジェクト特徴行列Cに基づいて推定されるオブジェクト計数情報行列^Yとの一般化カルバックライブラーダイバージェンス距離の和で表わされる目的関数を最小化するように、前記第1のオブジェクト特徴行列A、前記第2のオブジェクト特徴行列B、及び前記第3のオブジェクト特徴行列Cを推定する特徴行列推定部と、予め定められた反復終了条件を満足するまで、前記特徴行列推定部による推定を繰り返す反復判定部と、を含んで構成されている。
第2の発明に係るデータ解析方法は、特徴行列推定部及び反復判定部を含み、第1のオブジェクトi(1≦i≦I,Iは1以上の整数)と第2のオブジェクトj(1≦j≦J,Jは1以上の整数)との関係の特徴量を表すスコアとなる要素xijを持つI×Jのオブジェクトスコア情報行列X、及び第3のオブジェクトk(1≦k≦K,Kは1以上の整数)と前記第2のオブジェクトjとの関係の特徴量を表す計数データとなる要素ykjを持つK×Jのオブジェクト計数情報行列Yを、前記第1のオブジェクトiが、クラスタr(1≦r≦R,Rは1以上の整数)に所属することを表す要素airを持つI×Rの第1のオブジェクト特徴行列Aと、前記第2のオブジェクトjが、前記クラスタrに所属することを表す要素bjrを持つJ×Rの第2のオブジェクト特徴行列Bと、前記第3のオブジェクトkが、前記クラスタrに所属することを表す要素ckrを持つK×Rの第3のオブジェクト特徴行列Cと、に分解するデータ解析装置におけるデータ解析方法であって、前記特徴行列推定部が、前記オブジェクトスコア情報行列X、前記オブジェクト計数情報行列Y、前記第1のオブジェクト特徴行列A、前記第2のオブジェクト特徴行列B、及び前記第3のオブジェクト特徴行列Cに基づいて、前記オブジェクトスコア情報行列Xと、前記第1のオブジェクト特徴行列A及び前記第2のオブジェクト特徴行列Bに基づいて推定されるオブジェクトスコア情報行列^Xとのユークリッド距離、並びに前記オブジェクト計数情報行列Yと、前記第2のオブジェクト特徴行列B及び前記第3のオブジェクト特徴行列Cに基づいて推定されるオブジェクト計数情報行列^Yとの一般化カルバックライブラーダイバージェンス距離の和で表わされる目的関数を最小化するように、前記第1のオブジェクト特徴行列A、前記第2のオブジェクト特徴行列B、及び前記第3のオブジェクト特徴行列Cを推定し、前記反復判定部が、予め定められた反復終了条件を満足するまで、前記特徴行列推定部による推定を繰り返す。
第1の発明及び第2の発明によれば、オブジェクトスコア情報行列Xの推定値とのユークリッド距離、並びにオブジェクト計数情報行列Yの推定値との一般化カルバックライブラーダイバージェンス距離の和で表わされる目的関数を最小化するように、第1のオブジェクト特徴行列A、第2のオブジェクト特徴行列B、及び第3のオブジェクト特徴行列Cを推定することにより、複数の行列データのそれぞれの行列において各要素の性質(離散値/連続値の違い、分布傾向の違い等)が異なることを認めたうえで、それぞれの行列のデータに適した距離尺度を利用して複数の行列の同時分解を行うことで、より正確な欠損値予測やクラスタ抽出が可能となる。
第3の発明に係るデータ解析装置は、ユーザi(1≦i≦I,Iは1以上の整数)による映画j(1≦j≦J,Jは1以上の整数)のレーティングを表すスコアとなる要素xijを持つI×Jのユーザ映画行列X、及びタグ情報k(1≦k≦K,Kは1以上の整数)が前記映画jに付与された数を表す計数データとなる要素ykjを持つK×Jのタグ映画行列Yを、前記ユーザiが、クラスタr(1≦r≦R,Rは1以上の整数)に所属することを表す要素airを持つI×Rのユーザ特徴行列Aと、前記映画jが、前記クラスタrに所属することを表す要素bjrを持つJ×Rの映画特徴行列Bと、前記タグ情報kが、前記クラスタrに所属することを表す要素ckrを持つK×Rのタグ特徴行列Cと、に分解するデータ解析装置であって、前記ユーザ映画行列X、前記タグ映画行列Y、前記ユーザ特徴行列A、前記映画特徴行列B、及び前記タグ特徴行列Cに基づいて、前記ユーザ映画行列Xと、前記ユーザ特徴行列A及び前記映画特徴行列Bに基づいて推定されるユーザ映画行列^Xとのユークリッド距離、並びに前記タグ映画行列Yと、前記映画特徴行列B及び前記タグ特徴行列Cに基づいて推定されるタグ映画行列^Yとの一般化カルバックライブラーダイバージェンス距離の和で表わされる目的関数を最小化するように、前記ユーザ特徴行列A、前記映画特徴行列B、及び前記タグ特徴行列Cを推定する特徴行列推定部と、予め定められた反復終了条件を満足するまで、前記特徴行列推定部による推定を繰り返す反復判定部と、を含んで構成されている。
第3の発明によれば、スコアとなる要素を持つユーザ映画行列Xの推定値とのユークリッド距離、並びに計数データとなる要素を持つタグ映画行列Yの推定値との一般化カルバックライブラーダイバージェンス距離の和で表わされる目的関数を最小化するように、ユーザ特徴行列A、映画特徴行列B、及びタグ特徴行列Cを推定することにより、複数の行列データのそれぞれの行列において各要素の性質(離散値/連続値の違い、分布傾向の違い等)が異なることを認めたうえで、それぞれの行列のデータに適した距離尺度を利用して複数の行列の同時分解を行うことで、より正確な欠損値予測やクラスタ抽出が可能となる。
第4の発明に係るプログラムは、コンピュータを、上記のデータ解析装置を構成する各部として機能させるためのプログラムである。
以上説明したように、本発明のデータ解析装置、方法、及びプログラムによれば、複数の行列データのそれぞれの行列において各要素の性質(離散値/連続値の違い、分布傾向の違い等)が異なることを認めたうえで、それぞれの行列のデータに適した距離尺度を利用して複数の行列の同時分解を行うことで、より正確な欠損値予測やクラスタ抽出が可能となる、という効果が得られる。
行列分解の例を示す概略図である。 行列分解を適用して得られるクラスタリング結果の例を示す図である。 ポアソン分布と正規分布の確率密度関数である。 本発明の一実施の形態におけるプログラムの概要動作のフローチャートである。 本発明の一実施の形態におけるプログラムの構成例である。 本発明の一実施の形態におけるユーザ映画情報テーブルの例である。 本発明の一実施の形態におけるタグ映画情報テーブルの例である。 本発明の一実施の形態におけるユーザ特徴テーブルの例である。 本発明の一実施の形態における映画特徴テーブルの例である。 本発明の一実施の形態におけるタグ特徴テーブルの例である。 本発明の一実施の形態におけるユーザ特徴テーブル、映画特徴テーブル、タグ特徴テーブル更新時のフローチャートである。 非負値行列分解(NMF)の適用例である。 非負値行列分解(NMF)を適用して得られるクラスタリング結果の例である。 非負値行列分解(NMF)を適用することによる欠損値補完の例である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、本実施の形態では、非負値行列分解において、ユーザ映画行列及びタグ映画行列から各特徴行列を得ることができるデータ解析装置に、本発明を適用した場合を例に説明する。
<本発明の実施の形態の概要>
本発明の実施の形態では、上記の非特許文献2の方法と同じく
という行列分解形を考える。
ただし、本発明の実施の形態ではそれぞれの類似の尺度にユークリッド距離とKL距離という異なる尺度を利用し、
を最小化する行列A, B, Cを求める。これによって、より正確な欠損値予測やクラスタ抽出を行うことが可能となり、図2に示すようなクラスタ結果を得ることが可能となる。
まず、本発明の概要動作を説明する。
図4は、本発明の一実施の形態におけるデータ解析装置の概要動作のフローチャートである。
ステップ1) ユーザ映画行列、タグ映画行列を入力する
ステップ2) 各特徴行列を推定する
ステップ3) 各特徴行列を出力する
<データ解析装置100の構成>
図5に示すように、本発明の実施の形態に係るデータ解析装置100は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述するデータ解析処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成され、機能的には次に示すように構成されている。データ解析装置100は、ユーザ映画情報処理部10、タグ映画情報処理部20、特徴行列推定部30、反復判定部32、特徴行列処理部40、記憶部50と、入出力部60と、を備えている。
入出力部60は、外部装置200から出力されたユーザ映画行列及びタグ映画行列を受け付ける。また、入出力部60は、特徴行列処理部40による特徴行列の推定結果を、外部装置200へ出力する。
記憶部50は、ユーザ映画情報テーブル51、タグ映画情報テーブル52、ユーザ特徴テーブル53、映画特徴テーブル54、タグ特徴テーブル55を有する。
以下に各テーブルについて説明する。なお、テーブル形式のデータは行列形式にて表現できることから、以下では、各テーブルと各特徴行列を同一視し、区別せずに用いる。
<ユーザ映画情報テーブル51>
ユーザ映画情報テーブル51は、図6に示すように、ユーザIDフィールド、映画IDフィールド、レーティングフィールドを有する。ユーザIDフィールドは、ユーザ映画情報処理部10により追加されたユーザを特定する識別子が設定される。映画IDフィールドは、ユーザ映画情報処理部10により追加された映画を特定する識別子が設定される。レーティングフィールドは、ユーザ映画情報処理部10により当該映画の当該ユーザのつけたレーティングを表すスコアである値が設定される。なお、レーティングの値には0または有限の範囲の正の値を設定できるが、負の数を設定することはできない。
<タグ映画情報テーブル52>
タグ映画情報テーブル52は、図7に示すように、タグIDフィールド、映画IDフィールド、付与数数フィールドを有する。タグIDフィールドは、タグ映画情報処理部20により追加されたタグを特定する識別子が設定される。映画IDフィールドは、タグ映画情報処理部20により追加された映画を特定する識別子が設定される。付与数フィールドは、タグ映画情報処理部20により当該タグの当該映画における付与数が設定される。なお、付与数の値には離散値として0または正の整数値を設定できるが、負の数を設定することはできない。
<ユーザ特徴テーブル53>
ユーザ特徴テーブル53は、図8に示すように、ユーザIDフィールドと、クラスタIDフィールドと、ユーザ特徴値フィールドを有する。ユーザIDフィールドには特徴行列推定部30によりユーザを特定する識別子が設定される。クラスタIDフィールドには、特徴行列推定部30によりクラスタを特定する識別子が設定される。ユーザ特徴値フィールドには、特徴行列推定部30により算出された当該ユーザの当該クラスタに所属することを表す特徴値が設定される。
<映画特徴テーブル54>
映画特徴テーブル54は、図9に示すように、映画IDフィールドと、クラスタIDフィールドと、映画特徴値フィールドを有する。映画IDフィールドには特徴行列推定部30により商品を特定する識別子が設定される。クラスタIDフィールドには、特徴行列推定部30によりクラスタを特定する識別子が設定される。映画特徴値フィールドには、特徴行列推定部30により算出された当該映画の当該クラスタに所属することを表す特徴値が設定される。
<タグ特徴テーブル55>
タグ特徴テーブル55は、図10に示すように、タグIDフィールドと、クラスタIDフィールドと、タグ特徴値フィールドを有する。タグIDフィールドには特徴行列推定部30によりタグを特定する識別子が設定される。クラスタIDフィールドには、特徴行列推定部30によりクラスタを特定する識別子が設定される。タグ特徴値フィールドには、特徴行列推定部30により算出された当該タグの当該クラスタに所属することを表す特徴値が設定される。
上記の構成における動作を説明する。
本実施の形態では、ユーザ映画行列、タグ映画行列を入力として特徴行列を推定し、特徴行列を出力することを考える。以下に具体的な動作を説明する。
<ユーザ映画情報処理部10>
ユーザ映画情報処理部10は、入力されたユーザ映画行列に基づき、ユーザID毎および映画ID毎のレーティングをユーザ映画情報テーブル51に格納する。
また、ユーザ映画情報テーブル51の更新時の処理を説明する。
ユーザ映画情報処理部10によるユーザ映画情報更新のタイミングは、例えば、システム管理者が外部装置200から供給されるデータをもとに手動で管理できるようにしてもよいし、新たなレーティングが発生した場合に外部装置200が自動的に処理を起動するようにしてもよい。
ユーザ映画情報テーブル51の更新時に、ユーザ映画情報処理部10は、ユーザ映画情報テーブル51に、追加されたユーザ映画、レーティングに応じて、ユーザIDフィールド、映画IDフィールド、レーティングフィールドの値を設定した行を挿入する。
<タグ映画情報処理部20>
タグ映画情報処理部20は、入力されたタグ映画行列に基づき、ユーザID毎およびカテゴリID毎のタグ付与数をタグ映画情報テーブル52に格納する。
また、タグ映画情報処理部20によるタグ情報更新時の処理について説明する。
タグ映画情報処理部20によるタグ映画情報更新のタイミングは、例えば外部装置200から供給されるPOSデータをもとにシステム管理者が手動で管理できるようにしてもよいし、新たなレーティングが発生した場合に外部装置200から自動的に処理を起動するようにしてもよい。
タグ情報更新時に、タグ映画情報処理部20は、タグ映画情報テーブル52に、追加されたタグ、映画、付与数に応じて、ユーザIDフィールド、タグIDフィールド、付与数フィールドの値を設定した行を挿入する。
<特徴行列推定部30、反復判定部32>
特徴行列推定部30は、後述する方法で特徴行列を推定し、記憶部50のユーザ特徴テーブル53、映画特徴テーブル54、タグ特徴テーブル55に格納する。
反復判定部32は、予め定められた反復終了条件を満足するまで、特徴行列推定部30による更新処理を繰り返す。
図11に、特徴行列推定部30及び反復判定部32による特徴行列推定時の更新フローチャートを示す。
ここで、ユーザ映画情報テーブル51中に存在する全データを
と書き、ユーザ映画行列Xを表す。タグ映画情報テーブル52中に存在する全データを
と書き、タグ映画行列Yを表す。ユーザ特徴テーブル53に格納されているユーザ特徴行列A、映画特徴テーブル54に格納されている映画特徴行列B、タグ特徴テーブル55に格納されているタグ特徴行列Cをそれぞれ
と書く。Iが全ユーザ数、Jが全商品数、Kが全タグ数を表す。iがユーザを特定する識別子、jが商品を特定する識別子、kがタグを特定する識別子、rがクラスタを特定する識別子に対応する。
まず、ステップS410において、ユーザ特徴テーブル53に格納されているユーザ特徴行列A、映画特徴テーブル54に格納されている映画特徴行列B、及びタグ特徴テーブル55に格納されているタグ特徴行列Cをそれぞれ初期化する。同様に終了条件の閾値ε、最大繰り返し回数を設定する。
そして、ステップS420において、反復終了条件に用いる変数として特徴更新の最大変化幅を示す変数δを初期化する。
ステップS430において、特徴行列推定部30は、ユーザ映画情報テーブル51に格納されたユーザ映画行列X、ユーザ特徴テーブル53に格納されたユーザ特徴行列A、及び映画特徴テーブル54に格納された映画特徴行列Bに基づいて、以下の(3)式に従いユーザ特徴行列Aの各要素airを更新し、ユーザ特徴テーブル53に格納する。
^xijはユーザ特徴行列A、映画特徴行列Bによるxijの推定値と見なせる。
その後、ユーザ特徴テーブル53に格納されていた更新前のユーザ特徴行列Aの要素の値と更新後のユーザ特徴行列Aの要素の値の差の絶対値の最大値
がδより大きければ、
と更新する。なお記号「←」は右辺の計算結果を左辺の変数に代入する処理を意味する。なお、代入処理前のユーザ特徴行列Aの要素の値を
、代入処理後の値を
として記述した。
ステップS440では、特徴行列推定部30は、ユーザ映画情報テーブル51に格納されたユーザ映画行列X、タグ映画情報テーブル52に格納されたタグ映画行列Y、ユーザ特徴テーブル53に格納されたユーザ特徴行列A、映画特徴テーブル54に格納された映画特徴行列B、及びタグ特徴テーブル55に格納されたタグ特徴行列Cに基づいて、以下の(4)式〜(6)式に従い、映画特徴行列Bの要素bjrを更新し、映画特徴テーブル54に格納する。
^ykjは映画特徴行列B、タグ特徴行列Cによるykjの推定値であると見なせる。
その後、映画特徴テーブル54に格納されていた更新前の映画特徴行列Bの要素の値と更新後の映画特徴行列Bの要素の値の差の絶対値の最大値
がδより大きければ、
と更新する。代入処理前の映画特徴行列Bの要素の値を
、代入処理後の値を
として記述した。
ステップS450において、特徴行列推定部30は、タグ映画情報テーブル52に格納されたタグ映画行列Y、映画特徴テーブル54に格納された映画特徴行列B、及びタグ特徴テーブル55に格納されたタグ特徴行列Cに基づいて、以下の(7)式に従い、タグ特徴行列Cの要素ckrを更新し、タグ特徴テーブル55に格納する。
その後、タグ特徴テーブル55に格納されていた更新前のタグ特徴行列Cの要素の値と更新後のタグ特徴行列Cの要素の値の差の絶対値の最大値
がδより大きければ、
と更新する。代入処理前のタグ特徴行列Cの要素の値を
、代入処理後の値を
として記述した。
ステップS460において、反復判定部32は、計算繰り返し回数を更新する。
ステップS470において、反復判定部32は、反復終了条件を満足するか否かを判定する。本実施の形態では、計算繰り返し回数があらかじめ定めた最大繰り返し数を超えるか、特徴更新による最大変化幅を表すδがあらかじめ定めた閾値εより小さければ、反復終了条件を満たすと判断し、処理ルーチンを終了する。そうでなければδ←0と更新した後ステップS420に戻る。
ここで、上記(1)式〜(4)式の各更新式は全てのユーザi、商品j, タグkについて^xij=xij、^ykj=ykjが成立する時、左辺と右辺が一致し、更新の最大変化幅を示す変数δの値が閾値ε以下となるため、更新が停止することが分かる。
また、あるユーザiについて、全てのi,jについて^xij<xijであるときに上記(3)式による更新を行うと、右辺の分子が右辺の分母より大きくなるために、aijを現在の値よりも大きくなるように更新することとなり、^xijの値が大きくなるように特徴aijを更新することになる。
なお、上記(3)式〜(7)式の更新式は次に記すとおりに導出されている。
本実施の形態における目的関数を(8)式に示す。
上記(8)式に示す、ユーザ映画行列Xと、ユーザ特徴行列A及び映画特徴行列Bに基づいて推定されるユーザ映画行列^Xとのユークリッド距離、並びにタグ映画行列Yと、映画特徴行列B及びタグ特徴行列Cに基づいて推定されるタグ映画行列^Yとの一般化カルバックライブラーダイバージェンス距離の和で表わされる目的関数を最小化する、ユーザ特徴行列A、映画特徴行列B、及びタグ特徴行列Cの推定を目指して、上記(3)式〜(7)式の更新式は導出されている。
導出には補助関数法と呼ばれる、新たに導入する補助変数を利用して定義できる上記(8)式の目的関数の上界を、最小化するパラメタ更新則を導くアプローチをとる。
目的関数の第一項、第二項から推定する行列に依存しない項を除くと、第一項目は以下の(9)式、第二項目は(10)式を用いて表現される。
次に補助変数
を導入する。ただし、補助変数は全てのi, j, r についてsijr>0、全てのi, jについて
全てのk, j, r についてtkjr>0、全てのk, jについて
を満たす。
この補助変数を用いて上記(9)式、(10)式の上界をそれぞれ導出すると(例えば非特許文献1を参照)、それぞれ以下の(11)式、(12)式のように表現される。
上記(11)式が上界であるのは明らかである。上記(12)式の導出にはJensenの不等式を用いている。
これらの和を
と定義し、Lの最小化を各行列ごとに交互に行うことで更新則が求まる。明らかにユーザ特徴行列Aの最適化を行う際には
の最適化だけを考えればよく、またタグ特徴行列Cの最適化を行う際には
の最適化だけを考えればよいことが分かる。したがって、ユーザ特徴行列Aとタグ特徴行列Cの更新則はそれぞれユークリッド距離を用いたNMFとKL距離を用いたNMFによるパラメタ更新則と同じとなる。それゆえ本技術の既存技術との本質的な違いは映画特徴行列Bの更新則にある。Lを最小化する映画特徴行列Bを求めるために微分して0とおくと、(13)式が求まる。
これはbjrに関する2次方程式であるから、2次方程式の解の公式を用いて上記(13)式を満たすbjrの値が求まる(bjr≧0であるから解が一意に定まる)。この結果より、上記(4)式、(5)式に示す更新則が求まる。
<特徴行列処理部40>
特徴行列処理部40は、以下に説明するように、ユーザ特徴テーブル54、映画特徴テーブル54、タグ特徴テーブル55を参照し、外部装置200からのリクエストの引数に対応する特徴を出力する。
出力処理は、例えば、外部装置200から特徴出力のリクエストが入力された場合に実行すればよい。出力は全特徴を出力する場合には、ユーザ特徴テーブル53、映画特徴テーブル54、タグ特徴テーブル55の全ての行を出力すればよいし、 クラスタの映画特徴のみを利用する場合には、例えばリクエストの引数をクラスタIDとして、映画特徴テーブル54から、該クラスタIDを持つ行の映画IDフィールド、映画特徴値フィールドを出力した後、映画特徴値フィールドの値の大きい順に映画ID10件を特定することでクラスタの映画特徴を求めることができる。
以上説明したように、本発明の実施の形態に係るデータ解析装置によれば、スコアとなる要素を持つユーザ映画行列Xの推定値とのユークリッド距離、並びに計数データとなる要素を持つタグ映画行列Yの推定値との一般化KL距離の和で表わされる目的関数を最小化するように、ユーザ特徴行列A、映画特徴行列B、及びタグ特徴行列Cを推定することにより、より正確な欠損値予測やクラスタ抽出が可能となる。
また、非負値行列分解において、ユーザ映画行列Xの行列分解における尺度にはユークリッド距離、タグ映画行列Yの行列分解における尺度にはKL距離を用いて、それぞれの行列X, Yの分解に共通の映画特徴行列Bを用いて行列分解を行うことで、より正確な欠損値予測やクラスタ抽出が可能となる。すなわち、非負値行列分解において、複数の行列データのそれぞれの行列において各要素の性質(離散値/連続値の違い、分布傾向の違い等)が異なることを認めたうえで、それぞれの行列のデータに適した距離尺度を利用して複数の行列の同時分解を行うことで、より正確な欠損値予測やクラスタ抽出が可能となる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上記の実施の形態では、ユーザ映画行列とタグ映画行列を表現した行列からクラスタを抽出する例を示しているが、この例に限定されることはない。第1のオブジェクトをユーザ以外のものとし、第2のオブジェクトを映画以外のものとし、第3のオブジェクトをタグ以外のものとし、第1のオブジェクトi(1≦i≦I,Iは1以上の整数)と第2のオブジェクトj(1≦j≦J,Jは1以上の整数)との関係の特徴量を表すスコアとなる要素xijを持つI×Jのオブジェクトスコア情報行列X、及び第3のオブジェクトk(1≦k≦K,Kは1以上の整数)と前記第2のオブジェクトjとの関係の特徴量を表す計数データとなる要素ykjを持つK×Jのオブジェクト計数情報行列Yを、前記第1のオブジェクトiが、クラスタr(1≦r≦R,Rは1以上の整数)に所属することを表す要素airを持つI×Rの第1のオブジェクト特徴行列Aと、前記第2のオブジェクトjが、前記クラスタrに所属することを表す要素bjrを持つJ×Rの第2のオブジェクト特徴行列Bと、前記第3のオブジェクトkが、前記クラスタrに所属することを表す要素ckrを持つK×Rの第3のオブジェクト特徴行列Cと、に分解するようにしてもよい。
例えば、店舗と店舗の紹介文書中の単語を出現数を表現する行列、店舗のユーザによるレーティングを表現する行列の組など、ユーザ、店舗、タグのように1つ1つにID番号を付与して識別可能な項目ごとに、レーティング値のように項目間の関連性をスコアの要素で表す事物と、付与回数のように項目間の関連性を計数データで表す事物とが同時に存在し、それぞれの事物を行列形式としてデータで表現することが可能であるならば、あらゆるものが本装置を適用することによって共通の因子を抽出するクラスタ抽出が可能となる。
また、入力となる行列が3つ以上存在する場合にも本発明による方法は適用可能である。
また、上記の実施の形態で説明したデータ解析装置の各構成要素の動作をプログラムとして構築し、データ解析装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
10 ユーザ映画情報処理部
20 タグ映画情報処理部
30 特徴行列推定部
32 反復判定部
40 特徴行列処理部
50 記憶部
51 ユーザ映画情報テーブル
52 タグ映画情報テーブル
53 ユーザ特徴テーブル
54 ユーザ特徴テーブル
54 映画特徴テーブル
55 タグ特徴テーブル
60 入出力部
100 データ解析装置
200 外部装置

Claims (9)

  1. 第1のオブジェクトi(1≦i≦I,Iは1以上の整数)と第2のオブジェクトj(1≦j≦J,Jは1以上の整数)との関係の特徴量を表すスコアとなる要素xijを持つI×Jのオブジェクトスコア情報行列X、及び第3のオブジェクトk(1≦k≦K,Kは1以上の整数)と前記第2のオブジェクトjとの関係の特徴量を表す計数データとなる要素ykjを持つK×Jのオブジェクト計数情報行列Yを、前記第1のオブジェクトiが、クラスタr(1≦r≦R,Rは1以上の整数)に所属することを表す要素airを持つI×Rの第1のオブジェクト特徴行列Aと、前記第2のオブジェクトjが、前記クラスタrに所属することを表す要素bjrを持つJ×Rの第2のオブジェクト特徴行列Bと、前記第3のオブジェクトkが、前記クラスタrに所属することを表す要素ckrを持つK×Rの第3のオブジェクト特徴行列Cと、に分解するデータ解析装置であって、
    前記オブジェクトスコア情報行列X、前記オブジェクト計数情報行列Y、前記第1のオブジェクト特徴行列A、前記第2のオブジェクト特徴行列B、及び前記第3のオブジェクト特徴行列Cに基づいて、前記オブジェクトスコア情報行列Xと、前記第1のオブジェクト特徴行列A及び前記第2のオブジェクト特徴行列Bに基づいて推定されるオブジェクトスコア情報行列^Xとのユークリッド距離、並びに前記オブジェクト計数情報行列Yと、前記第2のオブジェクト特徴行列B及び前記第3のオブジェクト特徴行列Cに基づいて推定されるオブジェクト計数情報行列^Yとの一般化カルバックライブラーダイバージェンス距離の和で表わされる目的関数を最小化するように、前記第1のオブジェクト特徴行列A、前記第2のオブジェクト特徴行列B、及び前記第3のオブジェクト特徴行列Cを推定する特徴行列推定部と、
    予め定められた反復終了条件を満足するまで、前記特徴行列推定部による推定を繰り返す反復判定部と、
    を含み、
    前記特徴行列推定部は、前記第1のオブジェクト特徴行列A、及び前記第2のオブジェクト特徴行列Bに基づいて、補助変数を利用して定義される前記目的関数の上界を最小化する補助関数法により前記第1のオブジェクト特徴行列Aの各要素a ir を更新し、
    前記オブジェクトスコア情報行列X、前記オブジェクト計数情報行列Y、前記第1のオブジェクト特徴行列A、前記第2のオブジェクト特徴行列B、及び前記第3のオブジェクト特徴行列Cに基づいて、前記補助関数法により前記第2のオブジェクト特徴行列Bの各要素b jr を更新し、
    前記オブジェクト計数情報行列Y、前記第2のオブジェクト特徴行列B、及び前記第3のオブジェクト特徴行列Cに基づいて、前記補助関数法により前記第3のオブジェクト特徴行列Cの各要素c kr を更新する、データ解析装置。
  2. 第1のオブジェクトi(1≦i≦I,Iは1以上の整数)と第2のオブジェクトj(1≦j≦J,Jは1以上の整数)との関係の特徴量を表すスコアとなる要素xijを持つI×Jのオブジェクトスコア情報行列X、及び第3のオブジェクトk(1≦k≦K,Kは1以上の整数)と前記第2のオブジェクトjとの関係の特徴量を表す計数データとなる要素ykjを持つK×Jのオブジェクト計数情報行列Yを、前記第1のオブジェクトiが、クラスタr(1≦r≦R,Rは1以上の整数)に所属することを表す要素airを持つI×Rの第1のオブジェクト特徴行列Aと、前記第2のオブジェクトjが、前記クラスタrに所属することを表す要素bjrを持つJ×Rの第2のオブジェクト特徴行列Bと、前記第3のオブジェクトkが、前記クラスタrに所属することを表す要素ckrを持つK×Rの第3のオブジェクト特徴行列Cと、に分解するデータ解析装置であって、
    前記オブジェクトスコア情報行列X、前記オブジェクト計数情報行列Y、前記第1のオブジェクト特徴行列A、前記第2のオブジェクト特徴行列B、及び前記第3のオブジェクト特徴行列Cに基づいて、前記オブジェクトスコア情報行列Xと、前記第1のオブジェクト特徴行列A及び前記第2のオブジェクト特徴行列Bに基づいて推定されるオブジェクトスコア情報行列^Xとのユークリッド距離、並びに前記オブジェクト計数情報行列Yと、前記第2のオブジェクト特徴行列B及び前記第3のオブジェクト特徴行列Cに基づいて推定されるオブジェクト計数情報行列^Yとの一般化カルバックライブラーダイバージェンス距離の和で表わされる目的関数を最小化するように、前記第1のオブジェクト特徴行列A、前記第2のオブジェクト特徴行列B、及び前記第3のオブジェクト特徴行列Cを推定する特徴行列推定部と、
    予め定められた反復終了条件を満足するまで、前記特徴行列推定部による推定を繰り返す反復判定部と、
    を含み、
    前記特徴行列推定部は、以下の式に従い前記第1のオブジェクト特徴行列Aの各要素a ir を更新し、

    以下の式に従い、前記第2のオブジェクト特徴行列Bの要素b jr を更新し、

    以下の式に従い、前記第3のオブジェクト特徴行列Cの要素c kr を更新するデータ解析装置。
  3. 前記オブジェクトスコア情報行列Xの要素xijは非負値であり、前記オブジェクト計数情報行列Yの要素ykjは非負値であり、前記第1のオブジェクト特徴行列Aの要素airは非負値であり、前記第2のオブジェクト特徴行列Bの要素bjrは非負値であり、前記第3のオブジェクト特徴行列Cの要素ckrは非負値であり、
    前記特徴行列推定部は、前記目的関数を最小化するように、非負値分解により、前記第1のオブジェクト特徴行列A、前記第2のオブジェクト特徴行列B、及び前記第3のオブジェクト特徴行列Cを推定する請求項1又は2記載のデータ解析装置。
  4. 特徴行列推定部及び反復判定部を含み、第1のオブジェクトi(1≦i≦I,Iは1以上の整数)と第2のオブジェクトj(1≦j≦J,Jは1以上の整数)との関係の特徴量を表すスコアとなる要素xijを持つI×Jのオブジェクトスコア情報行列X、及び第3のオブジェクトk(1≦k≦K,Kは1以上の整数)と前記第2のオブジェクトjとの関係の特徴量を表す計数データとなる要素ykjを持つK×Jのオブジェクト計数情報行列Yを、前記第1のオブジェクトiが、クラスタr(1≦r≦R,Rは1以上の整数)に所属することを表す要素airを持つI×Rの第1のオブジェクト特徴行列Aと、前記第2のオブジェクトjが、前記クラスタrに所属することを表す要素bjrを持つJ×Rの第2のオブジェクト特徴行列Bと、前記第3のオブジェクトkが、前記クラスタrに所属することを表す要素ckrを持つK×Rの第3のオブジェクト特徴行列Cと、に分解するデータ解析装置におけるデータ解析方法であって、
    前記特徴行列推定部が、前記オブジェクトスコア情報行列X、前記オブジェクト計数情報行列Y、前記第1のオブジェクト特徴行列A、前記第2のオブジェクト特徴行列B、及び前記第3のオブジェクト特徴行列Cに基づいて、前記オブジェクトスコア情報行列Xと、前記第1のオブジェクト特徴行列A及び前記第2のオブジェクト特徴行列Bに基づいて推定されるオブジェクトスコア情報行列^Xとのユークリッド距離、並びに前記オブジェクト計数情報行列Yと、前記第2のオブジェクト特徴行列B及び前記第3のオブジェクト特徴行列Cに基づいて推定されるオブジェクト計数情報行列^Yとの一般化カルバックライブラーダイバージェンス距離の和で表わされる目的関数を最小化するように、前記第1のオブジェクト特徴行列A、前記第2のオブジェクト特徴行列B、及び前記第3のオブジェクト特徴行列Cを推定し、
    前記反復判定部が、予め定められた反復終了条件を満足するまで、前記特徴行列推定部による推定を繰り返す
    データ解析方法であり、
    前記特徴行列推定部によって推定することでは、前記第1のオブジェクト特徴行列A、及び前記第2のオブジェクト特徴行列Bに基づいて、補助変数を利用して定義される前記目的関数の上界を最小化する補助関数法により前記第1のオブジェクト特徴行列Aの各要素a ir を更新し、
    前記オブジェクトスコア情報行列X、前記オブジェクト計数情報行列Y、前記第1のオブジェクト特徴行列A、前記第2のオブジェクト特徴行列B、及び前記第3のオブジェクト特徴行列Cに基づいて、前記補助関数法により前記第2のオブジェクト特徴行列Bの各要素b jr を更新し、
    前記オブジェクト計数情報行列Y、前記第2のオブジェクト特徴行列B、及び前記第3のオブジェクト特徴行列Cに基づいて、前記補助関数法により前記第3のオブジェクト特徴行列Cの各要素c kr を更新する、データ解析方法。
  5. 特徴行列推定部及び反復判定部を含み、第1のオブジェクトi(1≦i≦I,Iは1以上の整数)と第2のオブジェクトj(1≦j≦J,Jは1以上の整数)との関係の特徴量を表すスコアとなる要素xijを持つI×Jのオブジェクトスコア情報行列X、及び第3のオブジェクトk(1≦k≦K,Kは1以上の整数)と前記第2のオブジェクトjとの関係の特徴量を表す計数データとなる要素ykjを持つK×Jのオブジェクト計数情報行列Yを、前記第1のオブジェクトiが、クラスタr(1≦r≦R,Rは1以上の整数)に所属することを表す要素airを持つI×Rの第1のオブジェクト特徴行列Aと、前記第2のオブジェクトjが、前記クラスタrに所属することを表す要素bjrを持つJ×Rの第2のオブジェクト特徴行列Bと、前記第3のオブジェクトkが、前記クラスタrに所属することを表す要素ckrを持つK×Rの第3のオブジェクト特徴行列Cと、に分解するデータ解析装置におけるデータ解析方法であって、
    前記特徴行列推定部が、前記オブジェクトスコア情報行列X、前記オブジェクト計数情報行列Y、前記第1のオブジェクト特徴行列A、前記第2のオブジェクト特徴行列B、及び前記第3のオブジェクト特徴行列Cに基づいて、前記オブジェクトスコア情報行列Xと、前記第1のオブジェクト特徴行列A及び前記第2のオブジェクト特徴行列Bに基づいて推定されるオブジェクトスコア情報行列^Xとのユークリッド距離、並びに前記オブジェクト計数情報行列Yと、前記第2のオブジェクト特徴行列B及び前記第3のオブジェクト特徴行列Cに基づいて推定されるオブジェクト計数情報行列^Yとの一般化カルバックライブラーダイバージェンス距離の和で表わされる目的関数を最小化するように、前記第1のオブジェクト特徴行列A、前記第2のオブジェクト特徴行列B、及び前記第3のオブジェクト特徴行列Cを推定し、
    前記反復判定部が、予め定められた反復終了条件を満足するまで、前記特徴行列推定部による推定を繰り返す
    データ解析方法であり、
    前記特徴行列推定部によって推定することでは、以下の式に従い前記第1のオブジェクト特徴行列Aの各要素a ir を更新し、

    以下の式に従い、前記第2のオブジェクト特徴行列Bの要素b jr を更新し、

    以下の式に従い、前記第3のオブジェクト特徴行列Cの要素c kr を更新するデータ解析方法
  6. 前記オブジェクトスコア情報行列Xの要素xijは非負値であり、前記オブジェクト計数情報行列Yの要素ykjは非負値であり、前記第1のオブジェクト特徴行列Aの要素airは非負値であり、前記第2のオブジェクト特徴行列Bの要素bjrは非負値であり、前記第3のオブジェクト特徴行列Cの要素ckrは非負値であり、
    前記特徴行列推定部によって推定することは、前記目的関数を最小化するように、非負値分解により、前記第1のオブジェクト特徴行列A、前記第2のオブジェクト特徴行列B、及び前記第3のオブジェクト特徴行列Cを推定する請求項4又は5記載のデータ解析方法。
  7. ユーザi(1≦i≦I,Iは1以上の整数)による映画j(1≦j≦J,Jは1以上の整数)のレーティングを表すスコアとなる要素xijを持つI×Jのユーザ映画行列X、及びタグ情報k(1≦k≦K,Kは1以上の整数)が前記映画jに付与された数を表す計数データとなる要素ykjを持つK×Jのタグ映画行列Yを、前記ユーザiが、クラスタr(1≦r≦R,Rは1以上の整数)に所属することを表す要素airを持つI×Rのユーザ特徴行列Aと、前記映画jが、前記クラスタrに所属することを表す要素bjrを持つJ×Rの映画特徴行列Bと、前記タグ情報kが、前記クラスタrに所属することを表す要素ckrを持つK×Rのタグ特徴行列Cと、に分解するデータ解析装置であって、
    前記ユーザ映画行列X、前記タグ映画行列Y、前記ユーザ特徴行列A、前記映画特徴行列B、及び前記タグ特徴行列Cに基づいて、前記ユーザ映画行列Xと、前記ユーザ特徴行列A及び前記映画特徴行列Bに基づいて推定されるユーザ映画行列^Xとのユークリッド距離、並びに前記タグ映画行列Yと、前記映画特徴行列B及び前記タグ特徴行列Cに基づいて推定されるタグ映画行列^Yとの一般化カルバックライブラーダイバージェンス距離の和で表わされる目的関数を最小化するように、前記ユーザ特徴行列A、前記映画特徴行列B、及び前記タグ特徴行列Cを推定する特徴行列推定部と、
    予め定められた反復終了条件を満足するまで、前記特徴行列推定部による推定を繰り返す反復判定部と、
    を含み、
    前記特徴行列推定部は、前記ユーザ特徴行列A、及び前記映画特徴行列Bに基づいて、補助変数を利用して定義される前記目的関数の上界を最小化する補助関数法により前記ユーザ特徴行列Aの各要素a ir を更新し、
    前記ユーザ映画行列X、前記タグ映画行列Y、前記ユーザ特徴行列A、前記映画特徴行列B、及び前記タグ特徴行列Cに基づいて、前記補助関数法により前記映画特徴行列Bの各要素b jr を更新し、
    前記タグ映画行列Y、前記映画特徴行列B、及び前記タグ特徴行列Cに基づいて、前記補助関数法により前記タグ特徴行列Cの各要素c kr を更新する、データ解析装置。
  8. ユーザi(1≦i≦I,Iは1以上の整数)による映画j(1≦j≦J,Jは1以上の整数)のレーティングを表すスコアとなる要素xijを持つI×Jのユーザ映画行列X、及びタグ情報k(1≦k≦K,Kは1以上の整数)が前記映画jに付与された数を表す計数データとなる要素ykjを持つK×Jのタグ映画行列Yを、前記ユーザiが、クラスタr(1≦r≦R,Rは1以上の整数)に所属することを表す要素airを持つI×Rのユーザ特徴行列Aと、前記映画jが、前記クラスタrに所属することを表す要素bjrを持つJ×Rの映画特徴行列Bと、前記タグ情報kが、前記クラスタrに所属することを表す要素ckrを持つK×Rのタグ特徴行列Cと、に分解するデータ解析装置であって、
    前記ユーザ映画行列X、前記タグ映画行列Y、前記ユーザ特徴行列A、前記映画特徴行列B、及び前記タグ特徴行列Cに基づいて、前記ユーザ映画行列Xと、前記ユーザ特徴行列A及び前記映画特徴行列Bに基づいて推定されるユーザ映画行列^Xとのユークリッド距離、並びに前記タグ映画行列Yと、前記映画特徴行列B及び前記タグ特徴行列Cに基づいて推定されるタグ映画行列^Yとの一般化カルバックライブラーダイバージェンス距離の和で表わされる目的関数を最小化するように、前記ユーザ特徴行列A、前記映画特徴行列B、及び前記タグ特徴行列Cを推定する特徴行列推定部と、
    予め定められた反復終了条件を満足するまで、前記特徴行列推定部による推定を繰り返す反復判定部と、
    を含み、
    前記特徴行列推定部は、以下の式に従い前記ユーザ特徴行列Aの各要素a ir を更新し、

    以下の式に従い、前記映画特徴行列Bの要素b jr を更新し、

    以下の式に従い、前記タグ特徴行列Cの要素c kr を更新するデータ解析装置。
  9. コンピュータを、請求項1、請求項2、請求項3、請求項7、又は請求項項記載のデータ解析装置を構成する各部として機能させるためのプログラム。
JP2015059912A 2015-03-23 2015-03-23 データ解析装置、方法、及びプログラム Active JP6383688B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015059912A JP6383688B2 (ja) 2015-03-23 2015-03-23 データ解析装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015059912A JP6383688B2 (ja) 2015-03-23 2015-03-23 データ解析装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016181040A JP2016181040A (ja) 2016-10-13
JP6383688B2 true JP6383688B2 (ja) 2018-08-29

Family

ID=57131108

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015059912A Active JP6383688B2 (ja) 2015-03-23 2015-03-23 データ解析装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6383688B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6649875B2 (ja) * 2016-12-27 2020-02-19 Kddi株式会社 情報処理装置、情報処理方法、プログラム、及び情報処理システム
CN109690571B (zh) * 2017-04-20 2020-09-18 北京嘀嘀无限科技发展有限公司 基于学习的组标记系统和方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5306384B2 (ja) * 2011-02-04 2013-10-02 キヤノン株式会社 モータ
US20130117147A1 (en) * 2011-11-07 2013-05-09 Nathan J. Ackerman Similarity and Relatedness of Content

Also Published As

Publication number Publication date
JP2016181040A (ja) 2016-10-13

Similar Documents

Publication Publication Date Title
Bellogín et al. Using graph partitioning techniques for neighbour selection in user-based collaborative filtering
Wang et al. Incremental subgraph feature selection for graph classification
US10510005B2 (en) Prediction function creation device, prediction function creation method, and computer-readable storage medium
US8458182B2 (en) Method and system for clustering data arising from a database
Abualigah et al. Unsupervised text feature selection technique based on particle swarm optimization algorithm for improving the text clustering
JP6383688B2 (ja) データ解析装置、方法、及びプログラム
CN108268611B (zh) 一种基于MapReduce的k-means文本聚类的方法及装置
JP6278918B2 (ja) データ解析装置、方法、及びプログラム
CN113763031A (zh) 一种商品推荐方法、装置、电子设备及存储介质
WO2020013236A1 (ja) データ解析装置、方法、及びプログラム
Pauletic et al. An overview of clustering models with an application to document clustering
JP6175037B2 (ja) クラスタ抽出装置及び方法及びプログラム
Giampouras et al. Online Bayesian low-rank subspace learning from partial observations
Bao et al. Movie Rating Estimation and Recommendation
CN111538898A (zh) 基于组合特征提取的Web服务包推荐方法及系统
JP6166688B2 (ja) データ解析方法、装置、及びプログラム
JP6092072B2 (ja) データ解析装置、方法、及びプログラム
Tu et al. Kernel-based similarity and discovering documents of similar interests
US20230229980A1 (en) Forecasting apparatus, forecasting method, and storage medium
Reis et al. The U-curve optimization problem: improvements on the original algorithm and time complexity analysis
Matsui Selection of decision boundaries for logistic regression
McWilliams et al. Predictive subspace clustering
JP2016207171A (ja) パラメータ推定方法、評価値推定方法、装置、及びプログラム
Huang et al. Learning bi-clustered vector autoregressive models
Yang et al. Particle swarm stepwise algorithm (PaSS) on multicore hybrid CPU-GPU clusters

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180109

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180731

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180806

R150 Certificate of patent or registration of utility model

Ref document number: 6383688

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150