JP5967577B2 - 共クラスタリング装置、共クラスタリング方法、プログラム及び集積回路 - Google Patents

共クラスタリング装置、共クラスタリング方法、プログラム及び集積回路 Download PDF

Info

Publication number
JP5967577B2
JP5967577B2 JP2012231218A JP2012231218A JP5967577B2 JP 5967577 B2 JP5967577 B2 JP 5967577B2 JP 2012231218 A JP2012231218 A JP 2012231218A JP 2012231218 A JP2012231218 A JP 2012231218A JP 5967577 B2 JP5967577 B2 JP 5967577B2
Authority
JP
Japan
Prior art keywords
cluster
clustering
importance
distribution
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012231218A
Other languages
English (en)
Other versions
JP2014081899A (ja
Inventor
郁 大濱
郁 大濱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2012231218A priority Critical patent/JP5967577B2/ja
Priority to US14/054,890 priority patent/US20140114974A1/en
Publication of JP2014081899A publication Critical patent/JP2014081899A/ja
Application granted granted Critical
Publication of JP5967577B2 publication Critical patent/JP5967577B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Description

本発明は、行列又は3次元以上のテンソルの形式で表現可能な関係データに対して共クラスタリングを行う共クラスタリング装置、共クラスタリング方法、プログラム及び集積回路に関する。
関係データを分析するための有効な手段の一つがクラスタリングである。関係データにおいて、オブジェクトの集合(以降、ドメインと呼ぶ)が複数存在する場合、個々のドメインに対するクラスタリングを同時に行うことができる。個々のドメインに対するクラスタリングを同時に行うことを、特に、共クラスタリング(co-clustering)と呼び、様々な研究がなされている。
このような従来の技術としては、例えば非特許文献1に記載されたものが知られている。非特許文献1で提案されているInfinite Relational Model(以降、IRMと呼ぶ)は、関係データの生成過程(generative process)を表すノンパラメトリックベイズモデル(non-parametric bayes model)であり、行列又は3次元以上のテンソル(tensor)の形式で表現される関係データに対して、関係の類似性に基づき共クラスタリングを行うことができる。
また、従来の技術として、例えば特許文献1に記載されたものが知られている。特許文献1は、関係データに対して関係の類似性に基づいた共クラスタリングを行い、入力された関係データを複数のクラスタブロックに分割する。分割する際には、複数のクラスタブロックについて、それぞれ統計量(相関強度)を算出して、算出された統計量を重要度とみなして複数のクラスタブロックを重要度が高い順が分かる態様になるよう並び替えて表示する。
特許第4690199号公報
C. Kemp, J. Tenenbaum, T. Griffiths, T. Yamada and U. Naonori: "Learning systems of concepts with an infinite relational model", in Proceedings of the 21st national conference on Artificial intelligence - Volume 1, ser. AAAI’06. AAAI Press, 2006, pp. 381-388.
しかしながら、従来技術では、クラスタブロックの適切な重要度を特定することができないという問題がある。
そこで、本発明は、クラスタブロックのより適切な重要度を特定することが可能な共クラスタリング装置等を提供する。
本発明の一態様に係る共クラスタリング装置は、行列又は3次元以上のテンソルの形式で表現可能な関係データに対して共クラスタリング処理を行うことによって、前記関係データを複数のクラスタブロックに分割する共クラスタリング装置であって、前記複数のクラスタブロックのそれぞれにおいて生成される関係の傾向を示す統計量の、前記関係データ全体における分布傾向を生成する分布傾向生成部と、前記複数のクラスタブロックのそれぞれの統計量と、前記分布傾向生成部が生成した前記分布傾向とに基づいて、前記分布傾向に応じて算出結果が変化する算出方法により、前記複数のクラスタブロックのそれぞれに対して重要度を算出する算出部と、前記複数のクラスタブロックの少なくとも1つを示す情報と、当該少なくとも1つに対して前記算出部が算出した前記重要度を示す情報とを出力する出力部とを備える。
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
本発明の共クラスタリング装置は、クラスタブロックのより適切な重要度を特定することができる。
図1は、実施の形態1に係る共クラスタリング装置の構成の例を示すブロック図である。 図2は、実施の形態1に係る関係データの例を示す図である。 図3は、実施の形態1に係る関係データの他の例を示す図である。 図4は、実施の形態1に係る共クラスタリングの説明図である。 図5は、実施の形態1に係る共クラスタリング装置の動作の例を示すフローチャートである。 図6は、実施の形態1に係る共クラスタリング装置の処理の例を示す図である。 図7は、実施の形態1に係る共クラスタリング装置の構成の他の例を示すブロック図である。 図8は、実施の形態2に係る共クラスタリング装置の構成の例を示すブロック図である。
(本発明の基礎となった知見)
本発明者は、「背景技術」の欄において記載した、関係データの分析方法に関し、以下の問題が生じることを見出した。
昨今では、生活やビジネスなどの様々な状況において、インターネットの利用が必要不可欠なものになった。それに伴い、個人が「どんな商品を買ったか」、あるいは、「誰と知り合いか」など、個人の社会活動において必ず生まれる他者(或いは物)との関係が、電子化情報として蓄積されるようになり、これら関係を表す情報(以降、関係データ(relational data)と呼ぶ)からニーズや嗜好などの潜在的な傾向を分析することがますます重要になってきている。
関係データを分析するための有効な手段の一つがクラスタリングである。関係データのクラスタリングでは、人や物など、関係を生成する主体(以降、オブジェクトと呼ぶ)は、自分が所属するクラスタに依存して、特徴的な傾向にもとづいて他のオブジェクトとの関係を生成するという仮説に基づき、類似したオブジェクトをグループ化する。
関係データにおいて、例えば、購買履歴における人の集合と商品の集合とのように、オブジェクトの集合(以降、ドメインと呼ぶ)が複数存在することが一般的であり、個々のドメインに対するクラスタリングを同時に行うことができる。個々のドメインに対するクラスタリングを同時に行うことを、特に、共クラスタリング(co-clustering)と呼び様々な研究がなされている。
このような従来の技術としては、例えば非特許文献1に記載されたものが知られている。非特許文献1で提案されているInfinite Relational Model(以降、IRMと呼ぶ)は、関係データの生成過程(generative process)を表すノンパラメトリックベイズモデル(non-parametric bayes model)であり、行列又は3次元以上のテンソル(tensor)の形式で表現される関係データに対して、関係の類似性に基づき共クラスタリングを行うことができる。関係データを共クラスタリングすると、各ドメインは複数のクラスタにクラスタ分割され、異なるドメインのクラスタの組み合わせごとに、ブロック状の領域(以降、クラスタブロックと呼ぶ)に分割される。個々のクラスタブロックは、関係の生成しやすさ(し難さ)が類似した単位と解釈することができる。例えば、人が商品を購入する場合における、人ごとの商品の購買履歴を表す関係データに対して、共クラスタリングを行うことで得られた個々のクラスタブロックを確認することで、特定の人のクラスタと特定のアイテムのクラスタとの間にある、購入しやすい、又は、購入しにくい、といった傾向を知ることができる。しかしながら、これらの手法においては、全てのクラスタブロックを確認しないと、どのクラスタブロックが重要であるかを知ることができない。そのため、クラスタブロックの数が非常に多い場合にどのクラスタブロックが注目すべき重要なクラスタブロックであるかを判断することが困難である。
上記の問題を解決する技術として、例えば、特許文献1に開示されたものが知られている。特許文献1に開示される技術では、関係データに対して関係の類似性に基づいた共クラスタリングを行い、入力された関係データを複数のクラスタブロックに分割する。分割する際には、複数のクラスタブロックについて、それぞれの統計量として相関強度を算出し、算出した相関強度を重要度とみなし、クラスタブロックの重要度の順序が分かるような態様で、複数のクラスタブロックを並び替えて表示する。
しかしながら、入力された関係データの性質によっては、算出された相関強度を、重要度と見なすことが適切ではない場合がある。
例えば、関係データ全体を一つのクラスタブロックとみなして算出された相関強度が高い値を取る場合、相関強度が低いクラスタブロックが重要度の高いクラスタブロックとなりうる。なぜならば、そのような場合においては、関係データ全体と異なる性質を有するクラスタブロック、つまり、相関強度が低いクラスタブロックが注目すべき重要なクラスタブロックであるからである。
一方、関係データ全体を一つのクラスタブロックとみなして算出された相関強度が低い値を取る場合、相関強度が高いクラスタブロックが重要度の高いクラスタブロックとなりうる。なぜならば、そのような場合においては、関係データ全体と異なる性質を有するクラスタブロック、つまり、相関強度が高いクラスタブロックが注目すべき重要なクラスタブロックであるためである。
上記の2つの場合、従来技術では、クラスタブロックの重要度を特定することが困難である。なぜならば、そのような状況では、関係データ全体の相関強度の値によって、各クラスタブロックの重要度が変化するため、ただ単に各クラスタブロックについて相関強度を計算するだけではクラスタブロックの重要度を特定することができないからである。
つまり、従来技術のように各クラスタブロックについて統計量を計算するだけでは、関係データ全体の分布の傾向によって各クラスタブロックの重要度が変化する状況において、クラスタブロックの重要度を特定することが困難であるという問題がある。
そこで、本発明は、クラスタブロックの重要度を特定することが可能な共クラスタリング装置を提供する。
つまり、本発明は、行列や3次元以上のテンソルの形式で表現される関係データに対して、関係データ全体の分布の傾向を考慮して、クラスタブロックの重要度を特定することが可能な共クラスタリング装置を提供することを目的とする。
上記目的を達成するために、本発明の一態様に係る共クラスタリング装置は、行列又は3次元以上のテンソルの形式で表現可能な関係データに対して共クラスタリング処理を行うことによって、前記関係データを複数のクラスタブロックに分割する共クラスタリング装置であって、前記複数のクラスタブロックのそれぞれにおいて生成される関係の傾向を示す統計量の、前記関係データ全体における分布傾向を生成する分布傾向生成部と、前記複数のクラスタブロックのそれぞれの統計量と、前記分布傾向生成部が生成した前記分布傾向とに基づいて、前記分布傾向に応じて算出結果が変化する算出方法により、前記複数のクラスタブロックのそれぞれに対して重要度を算出する算出部と、前記複数のクラスタブロックの少なくとも1つを示す情報と、当該少なくとも1つに対して前記算出部が算出した前記重要度を示す情報とを出力する出力部とを備える。
これにより、共クラスタリング装置は、行列又は3次元以上のテンソルの形式で表現される関係データに対して共クラスタリング処理を行う場合に、各クラスタブロックの統計量の分布傾向を考慮したクラスタブロックの重要度を出力する。ここで出力されるクラスタブロックの重要度は、関係データ全体の統計量と、当該クラスタブロックの統計量とを考慮した結果である。よって、たとえ当該クラスタブロック内の要素が同一であったとしても、関係データ全体の統計量が異なる場合には、異なる重要度が出力される。つまり、分布傾向を用いることで、入力された関係データ全体の傾向を考慮して、各クラスタブロックの重要度を算出することができるので、関係データの性質に応じたクラスタブロックの重要度を特定することができる。
例えば、前記分布傾向生成部は、前記関係データ全体の統計量を、前記分布傾向として生成する。
これにより、共クラスタリングを行うことで得られた各クラスタブロックの統計量を、それぞれ、共クラスタリングを行う前の関係データ全体の統計量と比較することができるため、各クラスタブロックが、入力された関係データにおいて、どれぐらい希少であるかを評価して、評価を重要度に反映させることができる。
例えば、前記算出部は、前記複数のクラスタブロックのそれぞれについて、当該クラスタブロックにおける前記分布傾向により示される値と、当該クラスタブロックの統計量との距離が大きいほど、大きくなるように前記重要度を算出する。
これにより、共クラスタリングを行うことで得られた各クラスタブロックの統計量を、それぞれ、共クラスタリングを行う前の関係データ全体の統計量と比較して、差異が大きいクラスタブロックほど、相対的に重要度が高いと判定することができる。
例えば、前記算出部は、前記複数のクラスタブロックのそれぞれについて、前記分布傾向と、当該クラスタブロックの統計量と、当該クラスタブロックの大きさとを用いて前記重要度を算出する。
これにより、関係データ全体を一つのクラスタブロックと見なした場合の統計量と、各クラスタブロックの統計量との比較に加えて、クラスタブロックの大きさを考慮した重要度を算出することができる。
例えば、前記分布傾向生成部は、前記複数のクラスタブロックのそれぞれの統計量を要素とする統計量データに対してクラスタリング処理を行うことによって、前記統計量データを複数のクラスタに分割し、分割することで得られた前記複数のクラスタの情報を、前記分布傾向として生成する。
これにより、各クラスタブロックの統計量の分布傾向が複雑な関係データにおいても、各クラスタブロックの統計量の分布傾向を考慮して、重要度の高いクラスタブロックを特定することができる。
例えば、前記算出部は、前記複数のクラスタのそれぞれについて、当該クラスタ内の要素の数が少ないほど、当該クラスタに要素として含まれるクラスタブロックに対して大きくなるように前記重要度を算出する。
これにより、各クラスタブロックの統計量の分布傾向が複雑な関係データにおいて、共クラスタリングを行うことで得られた各クラスタブロックが、それぞれ、入力された関係データにおいて、どれぐらい希少であるかを評価して、評価を重要度に反映させることができる。
例えば、前記算出部は、前記複数のクラスタのそれぞれについて、当該クラスタ内の要素の数と、前記複数のクラスタの要素に対応する1以上の前記クラスタブロックの大きさとに基づいて、当該クラスタに要素として含まれる前記クラスタブロックのそれぞれに対して前記重要度を算出する。
これにより、所属するクラスタブロックの数と、各クラスタブロックの統計量と、に加えて、クラスタブロックの大きさを考慮した重要度を算出することができる。
なお、本発明は、共クラスタリング装置として実現できるだけではなく、当該共クラスタリング装置を構成する処理手段をステップとする方法として実現することもできる。また、これらステップをコンピュータに実行させるプログラムとして実現してもよい。さらに、当該プログラムを記録したコンピュータ読み取り可能なCD−ROM(Compact Disc−Read Only Memory)などの記録媒体、並びに、当該プログラムを示す情報、データ又は信号として実現してもよい。そして、それらプログラム、情報、データ及び信号は、インターネットなどの通信ネットワークを介して配信してもよい。
また、上記の各分類装置を構成する構成要素の一部又は全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されていてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM及びRAM(Random Access Memory)などを含んで構成されるコンピュータシステムである。
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD−ROMなどの記録媒体記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。
以下、実施の形態について、図面を参照しながら具体的に説明する。
なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
(実施の形態1)
まず、本発明の実施の形態1に係る共クラスタリング装置の概要について説明する。本発明の実施の形態1に係る共クラスタリング装置は、行列又は3次元以上のテンソルの形式で表現可能な関係データに対して共クラスタリング処理を行うことによって、前記関係データを複数のクラスタブロックに分割する共クラスタリング装置であって、前記複数のクラスタブロックのそれぞれにおいて生成される関係の傾向を示す統計量の、前記関係データ全体における分布傾向を生成する分布傾向生成部と、前記複数のクラスタブロックのそれぞれの統計量と、前記分布傾向生成部が生成した前記分布傾向とに基づいて、前記分布傾向に応じて算出結果が変化する算出方法により、前記複数のクラスタブロックのそれぞれに対して重要度を算出する算出部と、前記複数のクラスタブロックの少なくとも1つを示す情報と、当該少なくとも1つに対して前記算出部が算出した前記重要度を示す情報とを出力する出力部とを備える。
これにより、共クラスタリング装置は、行列又は3次元以上のテンソルの形式で表現される関係データに対して共クラスタリング処理を行う場合に、各クラスタブロックの統計量の分布傾向を考慮したクラスタブロックの重要度を出力する。ここで出力されるクラスタブロックの重要度は、関係データ全体の統計量と、当該クラスタブロックの統計量とを考慮した結果である。よって、たとえ当該クラスタブロック内の要素が同一であったとしても、関係データ全体の統計量が異なる場合には、異なる重要度が出力される。つまり、分布傾向を用いることで、入力された関係データ全体の傾向を考慮して、各クラスタブロックの重要度を算出することができるので、関係データの性質に応じたクラスタブロックの重要度を特定することができる。
以下では、まず、本実施の形態に係る共クラスタリング装置の構成について説明する。図1は、本実施の形態に係る共クラスタリング装置100の構成の例を示すブロック図である。図1に示すように、本実施の形態に係る共クラスタリング装置100は、データ入力部110と、共クラスタリング部120と、分布傾向生成部130と、算出部140と、出力部150とを備える。
データ入力部110は、行列又は3次元以上のテンソルの形式で表現される(表現可能な)関係データを共クラスタリング装置100に入力する。なお、データ入力部110を介して入力される関係データは、HDD(Hard disk drive)などの磁気ディスク装置又はメモリカードなどから読み出される構成であってもよいし、ユーザインターフェイスを介して入力されてもよいし、インターネット上のデータのうち、ユーザが探索して収集したデータが入力されてもよい。
ここで、関係データの定義について説明する。
関係データは、1つ以上のドメイン情報と、オブジェクト間関係情報とを含んでいる。なお、ドメイン情報は、ドメインを構成する複数のオブジェクトを識別する情報を含んでいる。例えば、インターネットショッピングサービスにおける購買履歴を表す関係データの例を考える。この場合、関係データには、「T:ユーザ集合」と「T:アイテム集合」との2つのドメインが含まれる。ユーザ集合は、当該インターネットショッピングサービスを利用可能なユーザの全集合を表す。また、アイテム集合は、当該インターネットショッピングサービスでユーザが購入することができるアイテムの全集合を表す。このとき、ユーザ集合に関するドメイン情報は、ユーザ集合に含まれる各ユーザを特定する情報のことを意味する。また、アイテム集合に関するドメイン情報は、アイテム集合に含まれる各アイテムを特定する情報のことを意味する。また、オブジェクト間関係情報は、オブジェクト同士の関係を表す情報である。例えば、購買履歴を表す関係データの場合、オブジェクト間関係情報は、「ユーザ集合」に含まれるある任意のユーザと、「アイテム集合」に含まれるある任意のアイテムの組に対して、「購入」又は「未購入」の二値の関係のうちのいずれであるかを特定可能にする情報である。この購買履歴の例における関係データの形式を、
Figure 0005967577
と表す。この意味するところは、関係データRは2つのドメイン情報TとTとを含み、オブジェクト間関係情報は、Tに含まれるオブジェクトと、Tに含まれるオブジェクトとの間に、二値の関係{0,1}が定義されていることを意味する。先に述べた購買履歴の例では、Tはユーザの集合、Tはアイテムの集合、二値の値{0,1}はそれぞれ購入と未購入とを表現している。今、TがN人のユーザで構成され、TがN個のアイテムで構成されている場合、関係データは、N行N列の行列の形で図示できる。
図2は、本実施の形態に係る関係データの例を示す図である。図2に示される関係データは、N行N列の行列の形で示される関係データの例である。図2の(a)は、ユーザと、当該ユーザが購入したアイテムとの対応を示す表である。また、図2の(b)は、当該関係データを、T(ユーザ集合、縦軸)及びT(アイテム集合、横軸)に対して、白及び黒で示す図である。
今、iをTに含まれるオブジェクトのインデックス、jをTに含まれるオブジェクトのインデックスとすると、i行j列目の要素R(i,j)は、i番目のユーザ
Figure 0005967577
がj番目のアイテム
Figure 0005967577
を購入したか否かを表している。図2の(b)では、未購入であること(0)を白で表現し、購入したこと(1)を黒で表現している。
なお、関係データには様々なバリエーションがある。図3は、本実施の形態に係る関係データの他の例を示す図である。
図3の(a)は、複数の質問項目を有するアンケートに対して、ユーザが5段階で回答する場合のアンケート結果を示す図である。これは、ユーザ集合、及び、質問項目集合に対して、複数の段階の関係(アンケート回答)を有する関係データの例である。
図3の(b)は、3つのドメインに対して、関係が多値になる場合の関係データの例である。
例えば、ソーシャルネットワーク(SNS(Social network service))上の友人関係は、
Figure 0005967577
で表される関係データである。また、関係が二値ではなく、多値の場合、
Figure 0005967577
連続値の場合、
Figure 0005967577
なども考えられる。さらに、3つ以上のドメインの関係を表す関係データ、
Figure 0005967577
などを考える事もできる。この場合は、関係データは行列ではなく、行列を一般化した概念であるテンソルと見なせる。
このような、様々な関係データのバリエーションは全て、本発明の実施の形態1に係る共クラスタリング装置における関係データの範疇である。以降の説明では、簡単のため、2つのドメインの間の二値関係を表す関係データ
Figure 0005967577
を具体例として説明するが、本発明がこれに限定されない。
以上が、関係データの定義についての説明である。
共クラスタリング部120は、関係データRを入力として、共クラスタリングを行い、共クラスタリング結果としてクラスタブロック(又は、クラスタブロックを示す情報)を出力する。共クラスタリングとは、クラスタリングの一種であり、関係データに含まれる個々のドメインに対するクラスタリングを同時に行うことである。クラスタリング結果は、各ドメインに含まれるオブジェクトが所属するクラスタを特定する情報を少なくとも含む。具体的には、2つのドメインで構成される関係データ
Figure 0005967577
の場合、共クラスタリング装置100は、関係データRに対して、関係の類似性に基づきTのクラスタ割り当て
Figure 0005967577
と、Tのクラスタ割り当て
Figure 0005967577
とを求め、z及びzをクラスタリング結果として出力する。ただし、
Figure 0005967577
は、Tに対するクラスタのカテゴリの集合であり、
Figure 0005967577
は、Tに対するクラスタカテゴリの集合である。
実際に共クラスタリングを実行するアルゴリズムは様々なものが挙げられるが、ここでは、非特許文献1として引用したIRMを用いて、共クラスタリングを実行する手順を詳細に説明する。なお、ここで説明する共クラスタリングにより、図4の(a)に示される関係データが、図4の(b)に示されるような共クラスタリング結果データとなる。
Kempらによって提案されたIRMは、関係データの生成過程を表現した確率モデルであり、関係データ
Figure 0005967577
の場合の生成モデル(generative model)は、(式1−1)〜(式1−4)で与えられる。
Figure 0005967577
ここで、CRP(・)は中華料理店過程(Chinese Restaurant Process)を意味し、Beta(・,・)はベータ分布を意味し、Bernoulli(・,・)はベルヌーイ分布を意味する。また、γは中華料理店過程のパラメータ、βはベータ分布のパラメータを表す。
(式1−1)〜(式1−4)の生成モデルの簡単な説明をする。まず初めに、各ドメインごとにクラスタ割り当てが生成される(式1−1及び1−2)。次に、各クラスタブロック(k,l)に対して、クラスタブロック内に関係が生成される確率η(k,l)が、ベータ分布に従って生成される(式1−3)。最後に、関係データを構成する各関係R(i,j)は、オブジェクトiが所属するクラスタ
Figure 0005967577
と、オブジェクトjが所属するクラスタ
Figure 0005967577
との組で特定されるη(k,l)をパラメータとするベルヌーイ分布に従って生成される。
(式1−1)〜(式1−4)の生成モデルにおいて、関係データRが生成される確率は、(式2)で計算される。
Figure 0005967577
ここで、ベータ分布は、ベルヌーイ分布の自然共役事前分布(natural conjugate prior distribution)なので、(式2)は、(式3)のように、η積分消去(integrated out)した形に書ける。
Figure 0005967577
今、クラスタ割り当てz及びzが得られている場合、(式3)を計算することにより、関係データRが生成される確率を求めることができる。つまり、以下の最適化問題を解くことにより、共クラスタリング部120の出力であるクラスタ割り当てz及びzが得られる。
Figure 0005967577
(式4)を実際に解くために、様々な方法が提案されている。ここでは、一例として、ギブスサンプリング(Gibbs sampling)を用いた推定方法を説明する。ギブスサンプリングは、マルコフ連鎖モンテカルロ法(Markov Chain Monte Carlo method)と呼ばれる方法群の一つであり、適当な初期値から確率分布空間の探索を開始して、確率密度が高い箇所を推定することができる。つまり、(式4)の場合、ギブスサンプリングを用いることで、z及びzを変数とする確率分布空間
Figure 0005967577
を探索して、尤度(likelihood)が最大となるときのz及びzの推定値を得ることができる。ここでは、理論的な説明は省略して結論のみを説明する。(式4)の問題を解くためのギブスサンプリングの手順は以下で与えられる。
(手順1)z及びzの初期値を適当に決める。
(手順2)i=1,2,・・・,Nに対して以下の処理を行う。
(手順2−1)
Figure 0005967577
に従う確率で、
Figure 0005967577
の値を更新する。
(手順3)j=1,2,・・・,Nに対して以下の処理を行う。
(手順3−1)
Figure 0005967577
に従う確率で、
Figure 0005967577
の値を更新する。
(手順4)
Figure 0005967577
の値を計算し、収束していなければ(手順2)の処理を実行する。収束した場合は、終了する。ただし、
Figure 0005967577
である。ここで、
Figure 0005967577
は、現時点でドメインTにおいて、i番目のオブジェクトを無視した条件下で、クラスタkに割り当てられているオブジェクトの数である。また、Lは、現時点でのドメインTに関するクラスタの数である。
Figure 0005967577
は、関係データRのi行目を無視して数えた、クラスタブロック(k,l)内のリンク(R(i,j)=1)の数である。
Figure 0005967577
は、同様に数えた非リンク(R(i,j)=0)の数である。
Figure 0005967577
は、関係データRのi行目のクラスタ割り当て
Figure 0005967577
が、kであると仮定して数えたリンクの数である。
Figure 0005967577
は同様にして数えた非リンクの数である。なお、
Figure 0005967577
は、同様に導出ができるために説明を省略する。
以上の手続きにより、図4に示されるような関係データの共クラスタリングが実行される。なお、以上で説明した共クラスタリング手順は一例に過ぎず、本発明はこれに限定されるものではない。入力される関係データRによっては、3つ以上のドメインを扱うような生成モデルであってもよいし、各ドメインに含まれるオブジェクトが所属するクラスタを特定する情報を少なくとも含む全く異なる共クラスタリング方式であってもよい。また、生成モデルの推定にギブスサンプリングを用いることも一例に過ぎず、本発明はこれに限定されるものではない。変分ベイズ法(Variational Bayes Inference)などの任意の生成モデルの推定法を用いてもよい。
分布傾向生成部130は、関係データRを入力して、関係データRを共クラスタリングして生成される複数クラスタブロックにおいて、個々のクラスタブロックを特徴付ける統計量の分布傾向情報を生成する。ここで、クラスタブロックを特徴付ける統計量とは、あるクラスタブロックに含まれる個々の関係が取る値の傾向を示す情報であり、例えば、クラスタブロック内の関係が取る値の平均若しくは分散などの数値、又は、クラスタブロック内の関係に対して任意の確率分布を当てはめて得られるパラメータを表す数値の集合を用いることができる。分布傾向情報は少なくとも、関係データRを共クラスタリングして生成される複数クラスタブロックに対応する統計量がどのようにばらつくかを示す情報を含む。例えば、分布傾向情報の一例として、関係データR全体を一つのクラスタブロックと見なしたときの個々の関係の平均値が考えられる。例えば、2つのドメインに関する二値の関係データ
Figure 0005967577
の例を考えると、関係データR全体を一つのクラスタブロックと見なしたときの個々の関係の平均値は、
Figure 0005967577
で計算できる。この値は、二値の関係データにおいて、オブジェクト間の関係が1を取る割合を意味する。そのため、
Figure 0005967577
が0.0に近い場合、関係データRはほとんどの関係の値が0である疎(sparse)なデータであるため、関係データRを共クラスタリングして生成される複数クラスタブロックの統計量も0.0に近い値の付近に集まる可能性が高いことが分かる。一方で、
Figure 0005967577
が1.0に近い場合、関係データRはほとんどの関係の値が1である密(dense)なデータであるため、関係データRを共クラスタリングして生成される複数クラスタブロックの統計量も1.0に近い値の付近に集まる可能性が高いことが分かる。なお、ここでは例として、関係の平均値を分布傾向情報としたが、これはあくまでも一例であり本発明はこれに限定されるものではない。分布傾向情報は分散であってもよいし、その他の統計的な量、又は、その統計的な量の集合であってもよい。
算出部140は、関係データRと、共クラスタリング結果z及びzと、分布傾向情報とを入力として、個々のクラスタブロックの重要度情報を出力する。重要度情報は、個々のクラスタブロックがどれぐらい注目すべきであるかを表す数値であり、少なくとも分布傾向情報に応じて変化するという特徴を有する。例えば、分布傾向情報が関係データR全体を一つのクラスタブロックと見なしたときの個々の関係の平均値
Figure 0005967577
である場合、関係データRと、共クラスタリング結果z及びzとから個々のクラスタブロックの統計量
Figure 0005967577
を求めて、
Figure 0005967577

Figure 0005967577
とを引数とする関数
Figure 0005967577
によりクラスタブロック(k,l)の重要度を算出することが考えられる。個々のクラスタブロックの統計量
Figure 0005967577
は、例えば、クラスタブロック内の関係の平均値として、
Figure 0005967577
で計算し、関数D(・,・)はユークリッド距離を返す距離関数として、クラスタブロック(k,l)の重要度I(k,l)を
Figure 0005967577
で計算してもよい。
なお、本例では、分布傾向情報が、全体を一つのクラスタブロックと見なしたときの個々の関係の平均値
Figure 0005967577
である場合の例に合わせて、個々のクラスタブロックの統計量
Figure 0005967577
を、クラスタブロック内の関係の平均値としているが、これはあくまで一例であり、本発明はこれに限定されるものではない。例えば、分散であってもよいし、その他の任意の統計的指標であってもよい。また、本発明では、重要度I(k,l)を、
Figure 0005967577

Figure 0005967577
との間のユークリッド距離(Euclidean Distance)として定義しているが、これはあくまで一例であり、本発明はこれに限定されるものではない。重要度I(k,l)は、少なくとも、分布傾向情報と、個々のクラスタブロックの統計量とに依存するように算出される値であればよい。
出力部150は、関係データRと、共クラスタリング結果z及びzと、重要度情報とを入力として、クラスタブロックの重要度を示す情報を出力する。クラスタブロックの重要度を示す情報は、共クラスタリング部120により生成された複数のクラスタブロックのうちの少なくとも1つを示す情報と、当該クラスタブロックを示す情報のことである。例えば、各クラスタブロックの重要度、各クラスタブロックに含まれるオブジェクトを識別する情報の集合を出力する。なお、重要クラスタブロック情報を出力する先は、HDD又はメモリカードなどのストレージであってもよいし、ネットワークを介して配信されてもよいし、モニタ等のディスプレイデバイスへ表示されてもよい。
次に、本実施の形態に係る共クラスタリング装置100の動作の一例について説明する。図5は、本実施の形態に係る共クラスタリング装置100の動作の例を示すフローチャートである。
まず、データ入力部110により、関係データが入力される(S110)。
次に、共クラスタリング部120は、入力された関係データに対して、共クラスタリングを行い、共クラスタリング結果を出力する(S120)。
次に、分布傾向生成部130は、関係データを入力して、分布傾向情報を生成する(S130)。
次に、算出部140は、関係データと、共クラスタリング結果と、分布傾向情報とを入力として、個々のクラスタブロックの重要度を出力する(S140)。
最後に、出力部150は、クラスタブロックの重要度を示す情報を出力する(S150)。
次に、共クラスタリング装置100によるクラスタリング処理の例を示す。図6は、実施の形態1に係る共クラスタリング装置100の処理の例を示す図である。
図6において、関係データ全体の統計量が比較的大きい場合(入力データが密(dense)な場合)の共クラスタリング装置100の処理を、(a)から(e)に示す。また、関係データ全体の統計量が比較的小さい場合(入力データが疎(sparce)な場合)の共クラスタリング装置100の処理を、(k)から(o)に示す。
図6の(a)は、データ入力部110が入力する、全体の統計量が比較的大きい関係データを示す図である。二値の関係({0,1})を、黒及び白で示す。
図6の(b)は、関係データを共クラスタリングした結果である。
図6の(c)は、共クラスタリングした結果のデータにおける、各クラスタブロックの統計量を示す図である。ここでは、統計量は、クラスタブロック内の全要素の数に対する、二値の関係が1である要素の数の割合(充填率)として算出しており、各クラスタブロックに示されている。
図6の(d)は、図6の(c)に示される各クラスタブロックの統計量の、関係データ全体における分布傾向を示す図である。ここでは、関係データ全体における分布傾向は、各クラスタブロックの統計量の関係データ全体における平均値として算出している。
図6の(e)は、各クラスタブロックの重要度を示す図である。ここでは、各クラスタブロックの重要度は、各クラスタブロックの統計量(図6の(c))と、関係データ全体の統計量(図6の(c))との差の絶対値として算出している。図6の(e)において、重要度が最大であるクラスタブロックは、クラスタブロック601であることがわかる。つまり、関係データ全体の統計量が比較的大きい場合には、統計量が比較的小さいクラスタブロックに対して大きい重要度が算出される。
図6の(k)は、データ入力部110が入力する、全体の統計量が比較的小さい関係データを示す図である。図6の(l)から(o)までは、それぞれ、上記の図6の(b)から(e)に対応する。
図6の(o)において、重要度が最大であるクラスタブロックは、クラスタブロック602であることがわかる。つまり、関係データ全体の統計量が比較的小さい場合には、統計量が比較的大きいクラスタブロックに対して大きい重要度が算出される。
以上のように、共クラスタリング装置100は、関係データ全体の統計量に基づいて、各クラスタブロックの重要度を算出し出力する。なお、この算出方法は、関係データ全体の統計量に応じて算出結果が変化すると表現することもできる。関係データ全体の統計量に応じて算出結果が変化するので、たとえ、当該クラスタブロック内の要素が同一であったとしても、関係データ全体の統計量が異なる場合には、異なる重要度が出力される。
以上のように、本実施の形態に係る共クラスタリング装置は、行列又は3次元以上のテンソルの形式で表現可能な関係データに対して共クラスタリング処理を行うことによって、前記関係データを複数のクラスタブロックに分割する共クラスタリング装置であって、前記複数のクラスタブロックのそれぞれにおいて生成される関係の傾向を示す統計量の、前記関係データ全体における分布傾向を生成する分布傾向生成部と、前記複数のクラスタブロックのそれぞれの統計量と、前記分布傾向生成部が生成した前記分布傾向とに基づいて、前記分布傾向に応じて算出結果が変化する算出方法により、前記複数のクラスタブロックのそれぞれに対して重要度を算出する算出部と、前記複数のクラスタブロックの少なくとも1つを示す情報と、当該少なくとも1つに対して前記算出部が算出した前記重要度を示す情報とを出力する出力部とを備える。
これにより、共クラスタリング装置は、行列又は3次元以上のテンソルの形式で表現される関係データに対して共クラスタリング処理を行う場合に、各クラスタブロックの統計量の分布傾向を考慮したクラスタブロックの重要度を出力する。ここで出力されるクラスタブロックの重要度は、関係データ全体の統計量と、当該クラスタブロックの統計量とを考慮した結果である。よって、たとえ当該クラスタブロック内の要素が同一であったとしても、関係データ全体の統計量が異なる場合には、異なる重要度が出力される。つまり、分布傾向を用いることで、入力された関係データ全体の傾向を考慮して、各クラスタブロックの重要度を算出することができるので、関係データの性質に応じたクラスタブロックの重要度を特定することができる。
本実施の形態に係る共クラスタリング装置は、様々な用途が考えられる。例えば、本実施の形態に係る共クラスタリング装置は、関係データを分析するためのソフトウェアとして、実装されることが考えられる。具体的には、ソーシャルネットワークサービス上の人間関係の分析、インターネットショッピングにおける商品購買履歴やコンテンツ配信サービスにおけるコンテンツ視聴履歴からの嗜好若しくは傾向の分析、又は、バイオ技術分野における関係の分析などの用途が考えられる。また、本実施の形態に係る共クラスタリング装置をシステムの一部に組み込むことで、レコメンド(recommendation)などのサービスを実現することも考えられる。
なお、本実施の形態に係る共クラスタリング装置100において、算出部140は、重要度を算出するために個々のクラスタブロックの大きさを表す情報を加味してもよい。例えば、共クラスタリング結果z及びzから各クラスタブロックの面積が分かるので、
Figure 0005967577
が同じ、あるいは近接しているクラスタブロックが複数存在した場合に、クラスタブロックの面積が大きい場合に、重要度I(k,l)が大きくなるように算出する。これにより、より多くのオブジェクトが所属するクラスタブロックが相対的に高い重要度を示すようになる。
また、本実施の形態では、共クラスタリング部120と、分布傾向生成部130と、算出部140とはそれぞれ、入力と、処理と、出力とが、定義された独立な手続き(アルゴリズム)であったが、必ずしもそれぞれの機能ブロック(構成要素)が独立したアルゴリズムでなくてもよい。例えば、関係データの生成モデルとして例示したIRMを拡張し、分布傾向生成部130と、算出部140とに相当する構成を生成モデルのレベルで含めてもよい。このような構成の共クラスタリング装置について、本実施の形態の変形例において詳細に説明する。
(実施の形態1の変形例)
本発明の実施の形態1の変形例について説明する。
図7は、本実施の形態に係る共クラスタリング装置100Aの構成を示すブロック図である。図7に示すように、共クラスタリング装置100Aは、データ入力部110と、共クラスタリング部120Aと、出力部150とを備える。共クラスタリング部120Aは、その内部機能として、分布傾向生成部130と、算出部140とを有する。
データ入力部110と、出力部150とは、共クラスタリング装置100と同様であるので、説明を省略する。
共クラスタリング部120Aは、関係データRを入力として共クラスタリングを行い、共クラスタリング結果を出力する。また、共クラスタリングを行うと同時に、又は、平行して、分布傾向生成部130がクラスタブロックの統計量の分布傾向を生成し、算出部140が、クラスタブロックの重要度を算出する。つまり、共クラスタリング処理と重要度算出処理とを、同時に、又は、平行して、実行することができる。
具体的には、関係データ
Figure 0005967577
の場合、例えば、以下のような生成モデルを考えることができる。
Figure 0005967577
(式9−1)〜(式9−6)の生成モデルの簡単な説明をする。まず初めに、IRMと同様に、各ドメインに毎にクラスタ割り当てが生成し(式9−1及び9−2)、各クラスタブロック(k,l)に対して、クラスタブロックの重要度I(k,l)が、ベータ分布に従って生成される(式9−3)。次に、関係データ全体を一つのクラスタブロックと見なして、関係データ全体に渡る関係生成確率ηを、ベータ分布に従って生成する(式9−4)。次に、クラスタブロック固有の関係生成確率η(k,l)が、クラスタブロックの重要度I(k,l)と、関係データ全体に渡る関係生成確率ηとから計算される(式9−5)。ここでσは混合率(mixture rate)を表す値であり、0より大きく1以下の所定の値をとる。最後に、関係生成確率η(k,l)をパラメータとするベルヌーイ分布に従って、関係データを構成する各関係R(i,j)が生成される(式9−6)。
上記の生成モデルにおいて、関係データRが生成される確率は、
Figure 0005967577
で計算される。つまり、IRMのときに説明したように、ギブスサンプリングや変分ベイズ法などの任意のパラメータ推定方法を使うことで、未知のパラメータである、z、z、I、η、σを推定することが可能である。ここで、(式9−1)と(式9−2)とは、クラスタ割り当てz及びzを未知のパラメータとして生成モデルに組み込む役割を果たしている。また、(式9−6)は、クラスタ割り当てz及びzの結果に依存して、関係データRが生成されることを表している。つまり、(式9−1)、(式9−2)及び(式9−6)の式は、本実施の形態における共クラスタリング部120に相当する。また、ηは関係データ全体に渡る関係生成確率であったことに注意すると、ηは分布傾向情報の一例と見なせる。つまり、(式9−4)は、本実施の形態に係る共クラスタリング装置における分布傾向生成部130に相当することが分かる。また、(式9−5)は、クラスタブロックの重要度I(k,l)と、関係データ全体に渡る関係生成確率ηとを用いて、クラスタブロック固有の関係生成確率η(k,l)を算出する式になっていることに注意すると、(式9−5)は、
Figure 0005967577
と等価である。この式は、クラスタブロック固有の関係生成確率η(k,l)と、関係データ全体に渡る関係生成確率ηとを用いて、クラスタブロックの重要度I(k,l)を算出していると見なすことができるため、(式9−5)は、本実施の形態に係る共クラスタリング装置における算出部140に相当する。
以上のように、(式9−1)〜(式9−6)は、生成モデルのレベルで、本実施の形態に係る共クラスタリング装置100を構成する構成要素が含まれていることになる。
(実施の形態2)
次に、本実施の形態2に係る共クラスタリング装置200の概要について説明する。本実施の形態に係る共クラスタリング装置では、前記分布傾向生成部は、前記複数のクラスタブロックのそれぞれの統計量を要素とする統計量データに対してクラスタリング処理を行うことによって、前記統計量データを複数のクラスタに分割し、分割することで得られた前記複数のクラスタの情報を、前記分布傾向として生成する。
これにより、各クラスタブロックの統計量の分布傾向が複雑な関係データにおいても、各クラスタブロックの統計量の分布傾向を考慮して、重要度の高いクラスタブロックを特定することができる。
図8は、本実施の形態に係る共クラスタリング装置200の構成の例を示すブロック図である。図8に示すように、本実施の形態に係る共クラスタリング装置200は、共クラスタリング装置100(図1)における分布傾向生成部130と算出部140との代わりに、分布傾向生成部230と、算出部240とを備える点が異なる。以下では、本実施の形態に係る共クラスタリング装置100と異なる点を説明し、同じ点は説明を省略する。
分布傾向生成部230は、関係データRと、共クラスタリング結果z及びzとを入力して、複数のクラスタブロックにおいて、個々のクラスタブロックを特徴付ける統計量が類似したクラスタブロックをクラスタリングによりグループ化して、グループ化した結果を分布傾向情報として生成する。個々でグループ化した結果は、個々のクラスタブロックがどのグループに所属するかを示す情報である。つまり、実施の形態1における関係データを共クラスタリングして得られるクラスタブロックのそれぞれの統計量を要素とする統計量データをクラスタリングすることで、関係データの全体傾向を得る。
例えば、実施の形態1に係る共クラスタリング装置100の説明のときと同様に、2つのドメインに関する二値の関係データ
Figure 0005967577
の例を考える。今、個々のクラスタブロックを特徴付ける統計量が、関係の値の平均である(式7)であり、共クラスタリング結果z及びzにそれぞれ、K個及びL個のクラスタが含まれる場合、分布傾向生成部230は、K×L個のクラスタブロックを、個々のクラスタブロックの統計量
Figure 0005967577
の類似性に基づいて任意の数M(<K×L)個のグループにクラスタリングする。このクラスタリングには、k−meansなどの著名なクラスタリングアルゴリズムを用いてもよいし、所定の閾値を設けて、クラスタブロックの統計量
Figure 0005967577
が上記所定の閾値の範囲内であるときに同じグループにする、といった単純な方法でもよい。以上により、分布傾向生成部230は、K×L個のクラスタブロックのそれぞれがどのグループに所属するかを示す情報を、グループ化した結果として出力する。
算出部240は、グループ化した結果を入力として、グループ化した結果に応じて変化するように、個々のクラスタブロックの重要度を算出する。例えば、グループ化した結果において、同一のグループに所属するクラスタブロックの数が小さいクラスタブロックほど、相対的に高い値になるように重要度を算出することが考えられる。具体的には、今、K×L個のクラスタブロックの、M(<K×L)個のグループへのクラスタ割り当てが、
Figure 0005967577
であったとき、個々のクラスタブロック(k,l)に対応する同一のグループに所属するクラスタブロックの数Δ(k,l)は、(式12)で計算できる。
Figure 0005967577
ただし、(式12)において、δ(・)は、括弧の中の式の評価結果が真(true)の時に1、偽(false)の時に0を返す関数である。そして、個々のクラスタブロックの重要度I(k,l)を、(式13)で算出する。
Figure 0005967577
(式13)により重要度を算出することで、個々のクラスタブロックの重要度I(k,l)は、統計量
Figure 0005967577
が自分と類似しているクラスタブロックの数が少ないほど、大きな値を示す。つまり、希少なクラスタブロックであるほど、相対的に重要度が高くなる。このように個々のクラスタブロックの重要度を計算することで、実施の形態1に係る共クラスタリング装置100の場合のように、分布傾向情報を唯一の統計量
Figure 0005967577
で表すことができない複雑な関係データが与えられた場合にでも、希少性が高い重要なクラスタブロックを特定することができる。
以上のように、本実施の形態に係る共クラスタリング装置では、前記分布傾向生成部は、前記複数のクラスタブロックのそれぞれの統計量を要素とする統計量データに対してクラスタリング処理を行うことによって、前記統計量データを複数のクラスタに分割し、分割することで得られた前記複数のクラスタの情報を、前記分布傾向として生成する。
これにより、各クラスタブロックの統計量の分布傾向が複雑な関係データにおいても、各クラスタブロックの統計量の分布傾向を考慮して、重要度の高いクラスタブロックを特定することができる。
本実施の形態に係る共クラスタリング装置は、様々な用途が考えられる。最も基本的な例としては、関係データを分析するためのソフトウェアとして、本実施の形態に係る共クラスタリング装置を実装することが考えられる。具体的には、ソーシャルネットワークサービス上の人間関係の分析、インターネットショッピングにおける商品購買履歴やコンテンツ配信サービスにおけるコンテンツ視聴履歴からの嗜好や傾向の分析、バイオ技術分野における関係の分析、等の用途が考えられる。また、本実施の形態に係る共クラスタリング装置をシステムの一部に組み込むことで、レコメンド(recommendation)などのサービスを実現することも考えられる。
なお、本実施の形態に係る共クラスタリング装置200によれば、算出部240は、重要度を算出するために個々のクラスタブロックの大きさを表す情報を加味してもよい。例えば、共クラスタリング結果z及びzから各クラスタブロックの面積が分かるので、
Figure 0005967577
が同じ、あるいは近接しているクラスタブロックが複数存在した場合に、同一のグループに所属するクラスタブロックの面積の和が大きいほど、重要度I(k,l)が大きくなるように(式13)を補正した式で重要度I(k,l)を算出する。これにより、面積の大きなクラスタブロックが所属するグループが相対的に高い重要度を示すようになる。
また、本実施の形態では、共クラスタリング部120と、分布傾向生成部230と、算出部240とはそれぞれ、入力と、処理と、出力とが、定義された独立な手続き(アルゴリズム)であったが、必ずしもそれぞれの機能ブロック(構成要素)が独立したアルゴリズムでなくてもよい。
例えば、関係データの生成モデルとして例示したIRMを拡張し、分布傾向生成部230又は算出部240に相当する構成の一部又は全部を生成モデルのレベルで含めてもよい。
具体的には、関係データ
Figure 0005967577
の場合、例えば、以下のような分布傾向生成部を含めた生成モデルを考えることができる。
Figure 0005967577
(式14−1)〜(式14−6)の生成モデルの簡単な説明をする。まず初めに、IRMと同様に、各ドメインごとにクラスタ割り当てを生成する(式14−1及び14−2)。次に、各クラスタブロック(k,l)をグループ化した結果zCBを生成する(式14−3)。次に、それぞれのクラスタブロックのグループuに対して、固有の関係生成確率θが生成される(式14−4)。次に、各クラスタブロック固有の関係生成確率η(k,l)が、自分の所属するグループ
Figure 0005967577
に依存して、θの中から選ばれる(式14−5)。最後に、関係生成確率η(k,l)をパラメータとするベルヌーイ分布に従って、関係データを構成する各関係R(i,j)が生成される(式14−6)。
上記の生成モデルにおいて、関係データRが生成される確率は、
Figure 0005967577
で計算される。つまり、IRMのときに説明したように、ギブスサンプリング又は変分ベイズ法などの任意のパラメータ推定方法を使うことで、未知のパラメータである、z、z、zCB、ηを推定することが可能である。ここで、(式14−1)と(式14−2)とは、クラスタ割り当てz及びzを未知のパラメータとして生成モデルに組み込む役割を果たしている。また、(式14−6)は、クラスタ割り当てz及びzの結果に依存して、関係データRが生成されることを表している。つまり、(式9−1)、(式9−2)及び(式9−6)の各式は、本実施の形態における共クラスタリング部120に相当する。また、zCBは、クラスタ割り当てz及びzにより特定されるK×L個のクラスタブロックを、M(<K×L)個のグループへクラスタリングすることを表しているため、分布傾向情報の一例と見なせる。つまり、(式14−4)は、本実施の形態に係る共クラスタリング装置における分布傾向生成部230に相当することが分かる。以上に説明したモデルの未知のパラメータを推定することで、共クラスタリング部120の出力である共クラスタリング結果z及びzと、分布傾向生成部230の出力である分布傾向情報zCBを同時に取得することができる。z、z、zCBが得られた場合、(式12)及び(式13)を用いることで重要度も計算することができる。
以上のように、(式14−1)〜(式14−6)には、生成モデルのレベルで、本実施の形態に係る共クラスタリング装置200を構成する構成要素が含まれていることになる。
(その他の変形例)
なお、上記の実施の形態の共クラスタリング装置は、典型的には半導体集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部またはすべてを含むように1チップ化されてもよい。ここではLSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応などが可能性として有り得る。
さらに加えて、本実施の形態の共クラスタリング装置を集積化した半導体チップと、画像を描画するためのディスプレイとを組み合せて、様々な用途に応じた描画機器を構成することができる。携帯電話やテレビ、デジタルビデオレコーダ、デジタルビデオカメラ、カーナビゲーション等における情報描画手段として、本発明を利用することが可能である。ディスプレイとしては、ブラウン管(CRT)の他、液晶やPDP(プラズマディスプレイパネル)、有機ELなどのフラットディスプレイ、プロジェクターを代表とする投射型ディスプレイなどと組み合わせることが可能である。
なお、上記各実施の形態において、各構成要素は、専用のハードウェア(電子回路)で構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記各実施の形態の共クラスタリング装置などを実現するソフトウェアは、次のようなプログラムである。
すなわち、このプログラムは、コンピュータに、行列又は3次元以上のテンソルの形式で表現可能な関係データに対して共クラスタリング処理を行うことによって、前記関係データを複数のクラスタブロックに分割する共クラスタリング装置における共クラスタリング方法であって、前記複数のクラスタブロックのそれぞれにおいて生成される関係の傾向を示す統計量の、前記関係データ全体における分布傾向を生成する分布傾向生成ステップと、前記複数のクラスタブロックのそれぞれの統計量と、前記分布傾向生成ステップで生成した前記分布傾向とに基づいて、前記分布傾向に応じて算出結果が変化する算出方法により、前記複数のクラスタブロックのそれぞれに対して重要度を算出する算出ステップと、前記複数のクラスタブロックの少なくとも1つを示す情報と、当該少なくとも1つに対して前記算出ステップで算出した前記重要度を示す情報とを出力する出力ステップとを含む共クラスタリング方法を実行させる。
以上、一つまたは複数の態様に係る共クラスタリング装置について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。
本発明の共クラスタリング装置は、様々な用途に利用可能である。例えば、携帯電話、携帯音楽プレーヤー、デジタルカメラ若しくはデジタルビデオカメラ等の電池駆動の携帯表示端末、又は、テレビ、デジタルビデオレコーダ若しくはカーナビゲーション等の高解像度の情報表示機器におけるメニュー表示、又は、Webブラウザ、エディタ、EPG若しくは地図表示等における情報表示手段として利用価値が高い。
100、100A、200 共クラスタリング装置
110 データ入力部
120、120A 共クラスタリング部
130、130A、230 分布傾向生成部
140、140A、240 算出部
150 出力部

Claims (10)

  1. 行列又は3次元以上のテンソルの形式で表現可能な関係データに対して共クラスタリング処理を行うことによって、前記関係データを複数のクラスタブロックに分割する共クラスタリング装置であって、
    前記複数のクラスタブロックのそれぞれにおいて生成される関係の傾向を示す統計量の、前記関係データ全体における分布傾向を生成する分布傾向生成部と、
    前記複数のクラスタブロックのそれぞれの統計量と、前記分布傾向生成部が生成した前記分布傾向とに基づいて、前記分布傾向に応じて算出結果が変化する算出方法により、前記複数のクラスタブロックのそれぞれに対して重要度を算出する算出部と、
    前記複数のクラスタブロックの少なくとも1つを示す情報と、当該少なくとも1つに対して前記算出部が算出した前記重要度を示す情報とを出力する出力部とを備える
    共クラスタリング装置。
  2. 前記分布傾向生成部は、
    前記関係データ全体の統計量を、前記分布傾向として生成する
    請求項1に記載の共クラスタリング装置。
  3. 前記算出部は、
    前記複数のクラスタブロックのそれぞれについて、当該クラスタブロックにおける前記分布傾向により示される値と、当該クラスタブロックの統計量との距離が大きいほど、大きくなるように前記重要度を算出する
    請求項2に記載の共クラスタリング装置。
  4. 前記算出部は、
    前記複数のクラスタブロックのそれぞれについて、前記分布傾向と、当該クラスタブロックの統計量と、当該クラスタブロックの大きさとを用いて前記重要度を算出する
    請求項2に記載の共クラスタリング装置。
  5. 前記分布傾向生成部は、
    前記複数のクラスタブロックのそれぞれの統計量を要素とする統計量データに対してクラスタリング処理を行うことによって、前記統計量データを複数のクラスタに分割し、分割することで得られた前記複数のクラスタの情報を、前記分布傾向として生成する
    請求項1に記載の共クラスタリング装置。
  6. 前記算出部は、
    前記複数のクラスタのそれぞれについて、当該クラスタ内の要素の数が少ないほど、当該クラスタに要素として含まれるクラスタブロックに対して大きくなるように前記重要度を算出する
    請求項5に記載の共クラスタリング装置。
  7. 前記算出部は、
    前記複数のクラスタのそれぞれについて、当該クラスタ内の要素の数と、前記複数のクラスタの要素に対応する1以上の前記クラスタブロックの大きさとに基づいて、当該クラスタに要素として含まれる前記クラスタブロックのそれぞれに対して前記重要度を算出する
    請求項5に記載の共クラスタリング装置。
  8. 行列又は3次元以上のテンソルの形式で表現可能な関係データに対して共クラスタリング処理を行うことによって、前記関係データを複数のクラスタブロックに分割する共クラスタリング装置における共クラスタリング方法であって、
    前記複数のクラスタブロックのそれぞれにおいて生成される関係の傾向を示す統計量の、前記関係データ全体における分布傾向を生成する分布傾向生成ステップと、
    前記複数のクラスタブロックのそれぞれの統計量と、前記分布傾向生成ステップで生成した前記分布傾向とに基づいて、前記分布傾向に応じて算出結果が変化する算出方法により、前記複数のクラスタブロックのそれぞれに対して重要度を算出する算出ステップと、
    前記複数のクラスタブロックの少なくとも1つを示す情報と、当該少なくとも1つに対して前記算出ステップで算出した前記重要度を示す情報とを出力する出力ステップとを含む
    共クラスタリング方法。
  9. 請求項8に記載の共クラスタリング方法をコンピュータに実行させるためのプログラム。
  10. 行列又は3次元以上のテンソルの形式で表現可能な関係データに対して共クラスタリング処理を行うことによって、前記関係データを複数のクラスタブロックに分割する集積回路であって、
    前記複数のクラスタブロックのそれぞれにおいて生成される関係の傾向を示す統計量の、前記関係データ全体における分布傾向を生成する分布傾向生成部と、
    前記複数のクラスタブロックのそれぞれの統計量と、前記分布傾向生成部が生成した前記分布傾向とに基づいて、前記分布傾向に応じて算出結果が変化する算出方法により、前記複数のクラスタブロックのそれぞれに対して重要度を算出する算出部と、
    前記複数のクラスタブロックの少なくとも1つを示す情報と、当該少なくとも1つに対して前記算出部が算出した前記重要度を示す情報とを出力する出力部とを備える
    集積回路。
JP2012231218A 2012-10-18 2012-10-18 共クラスタリング装置、共クラスタリング方法、プログラム及び集積回路 Expired - Fee Related JP5967577B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012231218A JP5967577B2 (ja) 2012-10-18 2012-10-18 共クラスタリング装置、共クラスタリング方法、プログラム及び集積回路
US14/054,890 US20140114974A1 (en) 2012-10-18 2013-10-16 Co-clustering apparatus, co-clustering method, recording medium, and integrated circuit

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012231218A JP5967577B2 (ja) 2012-10-18 2012-10-18 共クラスタリング装置、共クラスタリング方法、プログラム及び集積回路

Publications (2)

Publication Number Publication Date
JP2014081899A JP2014081899A (ja) 2014-05-08
JP5967577B2 true JP5967577B2 (ja) 2016-08-10

Family

ID=50486300

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012231218A Expired - Fee Related JP5967577B2 (ja) 2012-10-18 2012-10-18 共クラスタリング装置、共クラスタリング方法、プログラム及び集積回路

Country Status (2)

Country Link
US (1) US20140114974A1 (ja)
JP (1) JP5967577B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9324169B2 (en) * 2012-11-29 2016-04-26 International Business Machines Corporation Identifying relationships between entities using two-dimensional array of scalar elements, and a block matrix
JP6386931B2 (ja) * 2015-02-10 2018-09-05 日本電信電話株式会社 多次元データの予測装置、多次元データの予測方法、多次元データの予測プログラム
JP6519434B2 (ja) * 2015-10-08 2019-05-29 株式会社デンソー 運転支援装置
US10521445B2 (en) * 2017-06-01 2019-12-31 Fuji Xerox Co., Ltd. System for visually exploring coordinated relationships in data
CN109191364A (zh) * 2018-08-01 2019-01-11 南京天数智芯科技有限公司 加速人工智能处理器的硬件架构
WO2020261449A1 (ja) * 2019-06-26 2020-12-30 日本電信電話株式会社 学習装置、予測装置、学習方法、予測方法、学習プログラム、及び予測プログラム
CN112566093B (zh) * 2020-11-13 2022-02-01 腾讯科技(深圳)有限公司 一种终端关系识别方法、装置、计算机设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000075809A1 (fr) * 1999-06-04 2000-12-14 Seiko Epson Corporation Procede de triage d'informations, trieur d'informations, support enregistre sur lequel le programme de triage d'informations est enregistre
US20020161561A1 (en) * 2001-01-16 2002-10-31 Sridevi Sarma System and method for association of object sets
WO2006115260A1 (ja) * 2005-04-25 2006-11-02 Intellectual Property Bank Corp. 情報解析報告書自動作成装置、情報解析報告書自動作成プログラムおよび情報解析報告書自動作成方法
US20090144226A1 (en) * 2007-12-03 2009-06-04 Kei Tateno Information processing device and method, and program
EP2416236B1 (en) * 2009-03-30 2016-05-04 Nec Corporation Data restore system and method
JP2010263500A (ja) * 2009-05-08 2010-11-18 Fujitsu Ltd 映像処理システム、撮影装置及び映像処理方法
US8737961B2 (en) * 2009-09-23 2014-05-27 Nokia Corporation Method and apparatus for incrementally determining location context
US20130001015A1 (en) * 2011-06-30 2013-01-03 Bettendorf John S Device and method for changing outboard engine oil
CN103098088B (zh) * 2011-07-13 2016-11-02 松下电器(美国)知识产权公司 图像评价装置、图像评价方法以及集成电路
US9025872B2 (en) * 2011-08-29 2015-05-05 Panasonic Intellectual Property Corporation Of America Image processing device, image processing method, program, and integrated circuit

Also Published As

Publication number Publication date
JP2014081899A (ja) 2014-05-08
US20140114974A1 (en) 2014-04-24

Similar Documents

Publication Publication Date Title
JP5967577B2 (ja) 共クラスタリング装置、共クラスタリング方法、プログラム及び集積回路
Wong et al. Quantifying political leaning from tweets, retweets, and retweeters
US20210390461A1 (en) Graph model build and scoring engine
US20210279642A1 (en) Mixed-initiative machine learning systems and methods for determining segmentations
Stella et al. Influence of augmented humans in online interactions during voting events
WO2020207196A1 (zh) 用户标签生成方法、装置、存储介质和计算机设备
US20220277404A1 (en) Pattern Identification in Time-Series Social Media Data, and Output-Dynamics Engineering for a Dynamic System Having One or More Multi-Scale Time-Series Data Sets
Bhagat et al. Node classification in social networks
Bouchard et al. Convex collective matrix factorization
Burgess et al. Link-prediction enhanced consensus clustering for complex networks
JP6261547B2 (ja) 判定装置、判定方法及び判定プログラム
CN104077723B (zh) 一种社交网络推荐系统及方法
Sjögårde et al. Granularity of algorithmically constructed publication-level classifications of research publications: Identification of specialties
Lehrer et al. The bigger picture: Combining econometrics with analytics improves forecasts of movie success
CN112131322A (zh) 时间序列分类方法及装置
Straton et al. Big social data analytics for public health: Predicting facebook post performance using artificial neural networks and deep learning
JP2017201535A (ja) 判定装置、学習装置、判定方法及び判定プログラム
Xinchang et al. Movie recommendation algorithm using social network analysis to alleviate cold-start problem
Goode et al. Pricing a protest: Forecasting the dynamics of civil unrest activity in social media
JP2006004098A (ja) 評価情報生成装置、評価情報生成方法、及びプログラム
Höltgen et al. On the richness of calibration
Chen et al. Mining consensus preference graphs from users' ranking data
Weber Artificial Intelligence for Business Analytics: Algorithms, Platforms and Application Scenarios
US8843521B2 (en) Method for analyzing data utilizing weighted suffix tree
Mengle et al. Mastering machine learning on Aws: advanced machine learning in Python using SageMaker, Apache Spark, and TensorFlow

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20141003

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150730

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160621

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160627

R151 Written notification of patent or utility model registration

Ref document number: 5967577

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees