JP5625792B2 - 情報処理装置、潜在特徴量算出方法、及びプログラム - Google Patents

情報処理装置、潜在特徴量算出方法、及びプログラム Download PDF

Info

Publication number
JP5625792B2
JP5625792B2 JP2010257241A JP2010257241A JP5625792B2 JP 5625792 B2 JP5625792 B2 JP 5625792B2 JP 2010257241 A JP2010257241 A JP 2010257241A JP 2010257241 A JP2010257241 A JP 2010257241A JP 5625792 B2 JP5625792 B2 JP 5625792B2
Authority
JP
Japan
Prior art keywords
expression
content
user
cluster
calculation unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010257241A
Other languages
English (en)
Other versions
JP2012108738A (ja
Inventor
舘野 啓
啓 舘野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2010257241A priority Critical patent/JP5625792B2/ja
Publication of JP2012108738A publication Critical patent/JP2012108738A/ja
Application granted granted Critical
Publication of JP5625792B2 publication Critical patent/JP5625792B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、情報処理装置、潜在特徴量算出方法、及びプログラムに関する。
近年、広帯域化したネットワークを通じて膨大な量の情報がユーザに提供されるようになってきた。そのため、ユーザの側からすれば、提供される膨大な情報の中から、自身が求める情報を探すのが難しくなってしまった。一方、情報を提供する側からすれば、ユーザに提供したい情報が膨大な情報の中に埋もれてしまい、そうした情報がユーザに閲覧され難くなってしまった。こうした状況を改善するため、膨大な情報の中からユーザが好む情報を的確に抽出し、その情報をユーザに提供するための仕組み作りが進められている。
膨大な情報の中からユーザが好む情報を抽出する仕組みとしては、例えば、協調フィルタリング(例えば、下記の非特許文献1を参照)などの手法が知られている。協調フィルタリングは、あるユーザAと似た評価傾向を持つユーザBを検出し、あるコンテンツ群に対してユーザBが行った評価に基づいて、ユーザAが好むコンテンツを抽出するといった手法である。例えば、ユーザBがコンテンツXに対して好意的な評価を行っている場合、ユーザAもコンテンツXを好むものと予想される。この予想に基づくと、ユーザAが好む情報としてコンテンツXを抽出することができる。
P.Resnick, N.Iacovou, M.Suchak, P.Bergstrom and J.Riedl., "GroupLens: Open Architecture for Collaborative Filtering ofNetnews.", Conference on Computer Supported Cooperative Work, pp.175-186,1994.
協調フィルタリングの場合、好き/嫌いという1つの評価軸でユーザ間の類似度が判断されている。つまり、ユーザがコンテンツに対して好きという評価を付与した理由までは考慮されない。そのため、好意的な評価を付与した理由が異なっていても、同じコンテンツに対して好意的な評価を付与したユーザ同士は類似していると判断されてしまう。しかし、コンテンツの内容が好きで好意的な評価を付与したユーザと、アーティストが好きで好意的な評価を付与したユーザとは、必ずしも評価傾向が類似しているとは言えない。
例えば、同じ音楽コンテンツXに対して共に好意的な評価を付与していても、その音楽性が好きなユーザAと、その演奏者が好きなユーザBとは、好みが類似しているとは言えない。ユーザAは、音楽コンテンツXの音楽性に対して好意的な評価を付与しているのであるから、音楽コンテンツXと同じ音楽性を有する音楽コンテンツを好むであろう。そのため、ユーザAが好意的な評価を付与した他の音楽コンテンツYを抽出すると、抽出された音楽コンテンツYの演奏者は音楽コンテンツXと異なる可能性がある。
一方、ユーザBは、その音楽コンテンツの演奏者に対して好意的な評価を付与しているのであるから、演奏者が同じ音楽コンテンツを好むであろう。そのため、ユーザBが好意的な評価を付与した他の音楽コンテンツZを抽出すると、抽出された音楽コンテンツZの音楽性は音楽コンテンツXと異なる可能性がある。仮に、ユーザAとユーザBとを類似とみなし、ユーザBが好意的な評価を付与した音楽コンテンツZをユーザAに対して推薦した場合、その音楽コンテンツZは、ユーザAの好みに合致しない可能性がある。このように、協調フィルタリングを用いてもユーザが好む情報が的確に抽出されないことがある。
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、ユーザの多様な表出を用いて、ユーザの多面的な評価傾向を考慮したユーザ間、コンテンツ間及び表出間の潜在的関係性を見いだすために利用されるユーザ及び表出の潜在的特徴を抽出することが可能な、新規かつ改良された情報処理装置、潜在特徴量算出方法、及びプログラムを提供することにある。
上記課題を解決するために、本発明のある観点によれば、ユーザクラスタを表す変数cをユーザ毎に異なる確率分布に従う確率変数で表現し、コンテンツの内容に関するトピックを表す変数yをコンテンツ毎に異なる確率分布に従う確率変数で表現し、表出クラスタを表す変数xを前記ユーザクラスタと前記トピックとの組み合わせ毎に異なる確率分布に従う確率変数で表現し、ユーザの表出を表す変数aを前記表出クラスタ毎に異なる確率分布に従う確率変数で表現した確率モデルに基づき、学習データとして与えられるコンテンツの特徴量と表出との組み合わせを用いて、当該確率モデルに含まれるパラメータを算出するパラメータ算出部と、前記パラメータ算出部により算出されたパラメータを用いて、前記ユーザクラスタへのユーザの帰属度及び前記表出クラスタへの表出の帰属度を算出する帰属度算出部と、を備える、情報処理装置が提供される。
また、上記の情報処理装置は、前記帰属度算出部により算出されたユーザの帰属度をユーザの潜在特徴量とみなしてユーザ間の類似度を算出するユーザ類似度算出部と、前記ユーザ類似度算出部により算出されたユーザ間の類似度に基づいて、類似するユーザを抽出する類似ユーザ抽出部と、をさらに備えていてもよい。
また、上記の情報処理装置は、前記帰属度算出部により算出された表出の帰属度を表出の潜在特徴量とみなして表出間の類似度を算出する表出類似度算出部と、前記表出類似度算出部により算出された表出間の類似度に基づいて、類似する表出を抽出する類似表出抽出部と、をさらに備えていてもよい。
また、前記帰属度算出部は、前記パラメータ算出部により算出されたパラメータを用いて、コンテンツクラスタへのコンテンツの帰属度を算出してもよく、前記情報処理装置は、前記帰属度算出部により算出されたコンテンツの帰属度をコンテンツの潜在特徴量とみなしてコンテンツ間の類似度を算出するコンテンツ類似度算出部と、前記コンテンツ類似度算出部により算出されたコンテンツ間の類似度に基づいて、類似するコンテンツを抽出する類似コンテンツ抽出部と、をさらに備えていてもよい。
また、検索キーとして表出が与えられた場合に、前記類似表出抽出部は、与えられた表出に類似する類似表出を抽出してもよく、前記情報処理装置は、前記与えられた表出又は前記類似表出抽出部により抽出された類似表出が付与されたコンテンツを抽出するコンテンツ抽出部をさらに備えていてもよい。
また、前記帰属度算出部は、前記パラメータ算出部により算出されたパラメータを用いて、コンテンツクラスタへのコンテンツの帰属度を算出してもよく、前記情報処理装置は、前記パラメータ算出部により算出されたパラメータを用いて、前記ユーザクラスタと前記トピックとの間の関連度を算出する関連度算出部と、検索キーとしてユーザと表出との組み合わせが与えられた場合に、前記関連度算出部により算出された前記ユーザクラスタと前記トピックとの間の関連度と、前記帰属度算出部により算出されたユーザの帰属度、表出の帰属度及びコンテンツの帰属度と、に基づき、与えられたユーザと表出との組み合わせに適合するコンテンツを抽出するコンテンツ抽出部と、をさらに備えていてもよい。
また、前記帰属度算出部は、前記パラメータ算出部により算出されたパラメータを用いて、コンテンツクラスタへのコンテンツの帰属度を算出してもよく、前記情報処理装置は、前記パラメータ算出部により算出されたパラメータを用いて、前記ユーザクラスタと前記トピックとの間の関連度を算出する関連度算出部と、検索キーとしてユーザとコンテンツとの組み合わせが与えられた場合に、前記関連度算出部により算出された前記ユーザクラスタと前記トピックとの間の関連度と、前記帰属度算出部により算出されたユーザの帰属度、表出の帰属度及びコンテンツの帰属度と、に基づき、与えられたユーザが与えられたコンテンツに付与する表出を予測する表出予測部と、をさらに備えていてもよい。
また、コンテンツに対する評価以外の表出が与えられた場合に、前記類似表出抽出部は、与えられた表出に類似し、かつ、コンテンツに対する評価を表す表出を抽出するように構成されていてもよい。
また、上記の情報処理装置は、与えられたテキストコンテンツの中からユーザの主観を表す表現を抽出する主観表現抽出部をさらに備えていてもよい。そして、前記主観表現抽出部により主観を表す表現が抽出された場合に、前記類似表出抽出部は、当該主観を表す表現を表出とみなし、当該表出に類似し、かつ、コンテンツに対する評価を表す表出を抽出するように構成されていてもよい。
また、前記パラメータ算出部は、Gibbs Sampling又は変分ベイズ法を用いて前記確率モデルに含まれるパラメータを算出するように構成されていてもよい。
また、上記課題を解決するために、本発明の別の観点によれば、ユーザクラスタを表す変数cをユーザ毎に異なる確率分布に従う確率変数で表現し、コンテンツの内容に関するトピックを表す変数yをコンテンツ毎に異なる確率分布に従う確率変数で表現し、ユーザの表出を表す変数aを前記ユーザクラスタと前記トピックとの組み合わせ毎に異なる確率分布に従う確率変数で表現した確率モデルに基づき、学習データとして与えられるコンテンツの特徴量と表出との組み合わせを用いて、当該確率モデルに含まれるパラメータを算出するパラメータ算出部と、前記パラメータ算出部により算出されたパラメータを用いて、前記ユーザクラスタへのユーザの帰属度及び前記表出クラスタへの表出の帰属度を算出する帰属度算出部と、を備える、情報処理装置が提供される。
また、上記課題を解決するために、本発明の別の観点によれば、ユーザクラスタを表す変数cをユーザ毎に異なる確率分布に従う確率変数で表現し、コンテンツの内容に関するトピックを表す変数yをコンテンツ毎に異なる確率分布に従う確率変数で表現し、表出クラスタを表す変数xを前記ユーザクラスタと前記トピックとの組み合わせ毎に異なる確率分布に従う確率変数で表現し、ユーザの表出を表す変数aを前記表出クラスタ毎に異なる確率分布に従う確率変数で表現した確率モデルに基づき、学習データとして与えられるコンテンツの特徴量と表出との組み合わせを用いて、当該確率モデルに含まれるパラメータを算出するパラメータ算出ステップと、前記パラメータ算出ステップで算出されたパラメータを用いて、前記ユーザクラスタへのユーザの帰属度及び前記表出クラスタへの表出の帰属度を算出する帰属度算出ステップと、を含む、潜在特徴量算出方法が提供される。
また、上記課題を解決するために、本発明の別の観点によれば、ユーザクラスタを表す変数cをユーザ毎に異なる確率分布に従う確率変数で表現し、コンテンツの内容に関するトピックを表す変数yをコンテンツ毎に異なる確率分布に従う確率変数で表現し、表出クラスタを表す変数xを前記ユーザクラスタと前記トピックとの組み合わせ毎に異なる確率分布に従う確率変数で表現し、ユーザの表出を表す変数aを前記表出クラスタ毎に異なる確率分布に従う確率変数で表現した確率モデルに基づき、学習データとして与えられるコンテンツの特徴量と表出との組み合わせを用いて、当該確率モデルに含まれるパラメータを算出するパラメータ算出機能と、前記パラメータ算出機能により算出されたパラメータを用いて、前記ユーザクラスタへのユーザの帰属度及び前記表出クラスタへの表出の帰属度を算出する帰属度算出機能と、をコンピュータに実現させるためのプログラムが提供される。
また、上記課題を解決するために、本発明の別の観点によれば、ユーザクラスタを表す変数cをユーザ毎に異なる確率分布に従う確率変数で表現し、コンテンツの内容に関するトピックを表す変数yをコンテンツ毎に異なる確率分布に従う確率変数で表現し、ユーザの表出を表す変数aを前記ユーザクラスタと前記トピックとの組み合わせ毎に異なる確率分布に従う確率変数で表現した確率モデルに基づき、学習データとして与えられるコンテンツの特徴量と表出との組み合わせを用いて、当該確率モデルに含まれるパラメータを算出するパラメータ算出ステップと、前記パラメータ算出ステップで算出されたパラメータを用いて、前記ユーザクラスタへのユーザの帰属度及び前記表出クラスタへの表出の帰属度を算出する帰属度算出ステップと、を含む、潜在特徴量計算方法が提供される。
また、上記課題を解決するために、本発明の別の観点によれば、ユーザクラスタを表す変数cをユーザ毎に異なる確率分布に従う確率変数で表現し、コンテンツの内容に関するトピックを表す変数yをコンテンツ毎に異なる確率分布に従う確率変数で表現し、ユーザの表出を表す変数aを前記ユーザクラスタと前記トピックとの組み合わせ毎に異なる確率分布に従う確率変数で表現した確率モデルに基づき、学習データとして与えられるコンテンツの特徴量と表出との組み合わせを用いて、当該確率モデルに含まれるパラメータを算出するパラメータ算出機能と、前記パラメータ算出機能により算出されたパラメータを用いて、前記ユーザクラスタへのユーザの帰属度及び前記表出クラスタへの表出の帰属度を算出する帰属度算出機能と、をコンピュータに実現させるためのプログラムが提供される。
また、上記課題を解決するために、本発明の別の観点によれば、上記のプログラムが記録された、コンピュータにより読み取り可能な記録媒体が提供される。
以上説明したように本発明によれば、ユーザの多様な表出を用いて、ユーザの多面的な評価傾向を考慮したユーザ間、コンテンツ間及び表出間の潜在的関係性を見いだすために利用されるユーザ及び表出の潜在的特徴を抽出することが可能になる。
本発明の一実施形態に係る情報提示システムのシステム構成、端末装置の機能構成、及びサーバ装置の機能構成について説明するための説明図である。 本実施形態に係る潜在特徴の取得方法について説明するためのフローチャートである。 コンテンツに与えられる表出の具体例を示した図表である。 本実施形態に係る潜在特徴の計算に用いる確率モデルの構成を図式的に表現したグラフィカルモデルを示す説明図である。 本実施形態に係る潜在特徴の計算に用いる確率モデルを表現する際に用いる記号のノーテーションを纏めた図表である。 本実施形態に係る潜在特徴の計算に用いる確率モデルを表現する際に用いる記号のノーテーションを纏めた図表である。 本実施形態に係る潜在特徴の計算により得られるコンテンツ潜在特徴の具体例を示した図表である。 本実施形態に係る潜在特徴の計算により得られるユーザ潜在特徴の具体例を示した図表である。 本実施形態に係る潜在特徴の計算により得られる表出潜在特徴の具体例を示した図表である。 本実施形態に係る類似ユーザの提示方法について説明するためのフローチャートである。 本実施形態に係る類似コンテンツの提示方法について説明するためのフローチャートである。 本実施形態に係る類似表出の提示方法について説明するためのフローチャートである。 本実施形態に係る潜在特徴の計算により得られるトピック・表出クラスタ対応の具体例を示した図表である。 本実施形態に係る表出による検索方法について説明するためのフローチャートである。 本実施形態に係る表出による検索方法について説明するためのフローチャートである。 本実施形態に係る潜在特徴の計算に用いる確率モデルの構成を図式的に表現したグラフィカルモデルの一変形例を示す説明図である。 本実施形態に係る潜在特徴の計算に用いる確率モデルの構成を図式的に表現したグラフィカルモデルの一変形例を示す説明図である。 本実施形態に係る潜在特徴の計算に用いる確率モデルの構成を図式的に表現したグラフィカルモデルの一変形例を示す説明図である。 本実施形態の一変形例に係る情報提示システムのシステム構成、端末装置の機能構成、及びサーバ装置の機能構成について説明するための説明図である。 本実施形態の一変形例に係る評価値の予測方法について説明するためのフローチャートである。 コンテンツに与えられる表出の具体例を示した図表である。 本実施形態に係る潜在特徴の計算により得られるコンテンツ潜在特徴の具体例を示した図表である。 本実施形態に係る潜在特徴の計算により得られるユーザ潜在特徴の具体例を示した図表である。 本実施形態に係る潜在特徴の計算により得られる表出潜在特徴の具体例を示した図表である。 本実施形態に係る潜在特徴の計算により得られるトピック・表出クラスタ対応の具体例を示した図表である。 本実施形態に係る端末装置及びサーバ装置の機能を実現することが可能な情報処理装置のハードウェア構成を示す説明図である。
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
[説明の流れについて]
ここで、以下に記載する本発明の実施形態に関する説明の流れについて簡単に述べる。まず、図1を参照しながら、本実施形態に係る情報提示システムのシステム構成、当該情報提示システムに含まれる端末装置100及びサーバ装置200の機能構成について説明する。この中で、図2〜図6を参照しながら、本実施形態に係る潜在特徴の取得方法について説明する。また、図7〜図15を参照しながら、本実施形態に係る類似ユーザの提示方法、類似コンテンツの提示方法、類似表出の提示方法、表出によるコンテンツの検索方法、及び表出の予測方法について説明する。次いで、図16〜図18を参照しながら、本実施形態に適用可能なグラフィカルモデルの変形例について説明する。
次いで、図19を参照しながら、本実施形態の一変形例に係る情報提示システムのシステム構成、当該情報提示システムに含まれる端末装置130及びサーバ装置230の機能構成について説明する。この中で、図20〜図25を参照しながら、本変形例に係る評価値の予測方法について説明する。次いで、図26を参照しながら、本実施形態に係る端末装置100、130及びサーバ装置200、230の機能を実現することが可能なハードウェア構成について説明する。最後に、本実施形態の技術的思想について纏め、当該技術的思想から得られる作用効果について簡単に説明する。
(説明項目)
1:実施形態
1−1:システム構成
1−2:端末装置100の機能構成
1−3:サーバ装置200の機能構成
1−3−1:潜在特徴の取得方法
1−3−2:類似ユーザの提示方法
1−3−3:類似コンテンツの提示方法
1−3−4:類似表出の提示方法
1−3−5:表出の予測方法
1−3−6:表出によるコンテンツの検索方法
1−4:グラフィカルモデルの変形例
2:変形例
2−1:システム構成
2−2:端末装置130の機能構成
2−3:サーバ装置230の機能構成
3:ハードウェア構成
4:まとめ
<1:実施形態>
本発明の一実施形態について説明する。本実施形態は、コンテンツに対してユーザが与えた表出とコンテンツの特徴とを用いてコンテンツ、ユーザ、及び表出が潜在的に持つ特徴を定量化する技術に関する。特に、本実施形態は、ユーザ毎に異なる表出の与え方の傾向を考慮してコンテンツの潜在特徴、ユーザの潜在特徴、及び表出の潜在特徴を算出する技術に関する。この技術を適用して得られる潜在特徴を利用することにより、表出を検索キーとするコンテンツの検索、コンテンツに付与される表出の予測、表出の与え方の傾向が似たユーザの発見、表出のクラスタリングなどを実現することが可能になる。
[1−1:システム構成]
まず、図1を参照しながら、本実施形態に係る潜在特徴の算出、類似ユーザの提示、類似コンテンツの提示、類似表出の提示、表出によるコンテンツの検索、及び表出の予測が可能な情報提示システムのシステム構成について説明する。なお、以下の説明において、表出は、離散的なシンボル情報(例えば、単語や記号など)として与えられるものとする。図1に示すように、本実施形態に係る情報提示システムは、端末装置100及びサーバ装置200により構成される。
端末装置100は、ネットワーク50を介してサーバ装置200と接続されている。そのため、端末装置100に入力された情報をサーバ装置200に送信したり、サーバ装置200により提示された情報を端末装置100で受信したりすることが可能である。なお、図1には1台の端末装置100しか記載されていないが、ネットワーク50を介して複数の端末装置100が接続されていてもよい。また、サーバ装置200の機能は、複数の情報処理装置を利用して実現されるように構成されていてもよい。
以下、端末装置100、サーバ装置200の機能構成について、より詳細に説明する。
[1−2:端末装置100の機能構成]
まず、端末装置100の機能構成について説明する。図1に示すように、端末装置100は、主に、表出入力部101と、通信部102と、表示部103とを有する。
表出入力部101は、ユーザがコンテンツに表出を与えるための入力手段である。表出入力部101を介して表出が入力されると、入力された表出は、表出入力部101により通信部102に入力される。表出入力部101により表出が入力されると、通信部102は、ネットワーク50を介して、入力された表出をサーバ装置200に送信する。また、通信部102は、サーバ装置200から提示された情報を受信する。サーバ装置200から受信した情報は、表示部103を介してユーザに提示される。なお、表示部103は、情報を表示するための表示手段である。
このように、端末装置100は、表出を入力するための入力手段、及び情報を表示するための表示手段として機能する。以上、端末装置100の機能構成について説明した。
[1−3:サーバ装置200の機能構成]
次に、サーバ装置200の機能構成について説明する。以下では、サーバ装置200の全体構成について説明した後、潜在特徴の取得、類似ユーザの提示、類似コンテンツの提示、類似表出の提示、表出の予測、及び表出によるコンテンツの検索に係る構成要素について順次説明する。
(全体構成)
まず、サーバ装置200の全体構成について説明する。図1に示すように、サーバ装置200は、通信部201と、表出保持部202と、潜在特徴計算部203と、コンテンツ特徴量保持部204と、潜在特徴保持部205とを有する。さらに、サーバ装置200は、ユーザ類似度計算部206と、コンテンツ類似度計算部207と、表出類似度計算部208と、関連表出計算部209と、関連コンテンツ抽出部210と、提示部214とを有する。また、関連コンテンツ抽出部210は、表出類似度計算部211と、関連コンテンツ取得部212と、関連コンテンツ計算部213とを含む。
なお、表出保持部202、コンテンツ特徴量保持部204、潜在特徴保持部205の機能は、後述するハードウェア構成のうち、ROM904、RAM906、記憶部920、リムーバブル記憶媒体928などの機能により実現される。また、通信部201の機能は、後述するハードウェア構成のうち、通信部926の機能により実現される。さらに、潜在特徴計算部203、ユーザ類似度計算部206、コンテンツ類似度計算部207、表出類似度計算部208、関連表出計算部209、関連コンテンツ抽出部210の機能は、後述するハードウェア構成のうち、CPU902などの機能により実現される。
以上、サーバ装置200の全体構成について説明した。
(1−3−1:潜在特徴の取得方法)
次に、図2〜図6を参照しながら、サーバ装置200による潜在特徴の取得方法について説明する。なお、この潜在特徴の取得方法に係るサーバ装置200の主な構成要素は、表出保持部202、潜在特徴計算部203、コンテンツ特徴量保持部204、及び潜在特徴保持部205である。以下、潜在特徴の取得に関する処理の流れについて簡単に説明した後、潜在特徴計算部203の機能について詳細に説明する。
(潜在特徴の取得に関する処理の流れ)
図2を参照しながら、潜在特徴の取得に関する処理の流れについて説明する。図2に示すように、まず、ユーザにより端末装置100の表出入力部101に表出が入力される(S101)。例えば、表出として、キーワード(タグ)や、ユーザの記述した文章に出現する主観性を表すような単語/文節、○/×、アイコンなどが入力される。なお、表出は、コンテンツに対して与えられる。
このようにして表出が入力されると、入力された表出は、ネットワーク50を介して端末装置100からサーバ装置200へと送信される。サーバ装置200に送信された表出は、通信部201により受信され、表出保持部202に保存される(S102)。このとき、通信部201は、ユーザの識別情報、表出の識別情報、及び表出が与えられたコンテンツの識別情報を表出保持部202に保存する。例えば、表出保持部202には、図3に示すように、コンテンツの識別情報、そのコンテンツに表出を与えたユーザの識別情報、及びそのコンテンツに与えられた表出の識別情報が対応付けて保存される。
また、表出保持部202に所定量の表出が蓄積されるまで、ステップS101、S102の処理は繰り返し実行される。表出保持部202に蓄積された表出は、潜在特徴計算部203により読み出される。表出を読み出した潜在特徴計算部203は、読み出した表出及びコンテンツ特徴量保持部204に予め保存されているコンテンツ特徴量を用いてコンテンツの潜在特徴、ユーザの潜在特徴、及び表出の潜在特徴などを計算する(S103)。これらの潜在特徴を算出すると、潜在特徴計算部203は、算出した各潜在特徴を潜在特徴保持部205に保存する(S104)。潜在特徴が潜在特徴保持部205に保存されると、潜在特徴の取得に関する一連の処理が終了する。
以上、潜在特徴の取得に関する処理の流れについて説明した。なお、上記のコンテンツ特徴量は、例えば、コンテンツに関するキーワードやジャンルなどである。但し、コンテンツが画像・動画・音楽などの場合、上記のコンテンツ特徴量は、コンテンツの信号情報である。また、コンテンツがWebページなどのテキストの場合、上記のコンテンツ特徴量は、コンテンツに含まれる単語などである。
(潜在特徴計算部203の機能:潜在特徴の計算方法)
ここで、図4〜図6を参照しながら、潜在特徴計算部203による潜在特徴の計算方法について詳細に説明する。潜在特徴計算部203により算出される潜在特徴は、クラスタリングの結果として得られるクラスタへの帰属度により表現される。例えば、あるコンテンツの潜在特徴は、各コンテンツクラスタへの帰属度により表現される。なお、クラスタへの帰属度は、確率モデルの分布パラメータである。以下では、本実施形態に係る潜在特徴の計算に用いる確率モデルについて説明した後、当該確率モデルを用いて潜在特徴を導出する方法について詳細に説明する。
(確率モデル)
本実施形態に係る潜在特徴の計算に用いる確率モデルは、図4に示すグラフィカルモデルで表現される。この確率モデルは、トピックモデルと呼ばれる確率モデルを拡張したものである。なお、トピックモデルについては、例えば、Blei,D.M., Jordan,M.I., "Modeling Annotated Data",
Proceedings of SIGIR, 2003.などを参照されたい。
図4に示したグラフィカルモデルの中で、細線の円は確率変数を表現し、太線の円は観測変数を表現し、矩形の枠は繰り返し処理を表現している。例えば、図4の変数φに注目すると、変数φは、細線の円で囲まれ、さらに、矩形の枠で囲まれている。また、矩形の枠にはZと表記され、細線の円にはβから伸びる矢印が接続されている。細線の円は、変数φが確率変数であることを示している。また、βから伸びる矢印は、確率変数φがパラメータβに基づく確率分布に従って生成されることを示している。さらに、矩形の枠は、繰り返し処理により|Z|個の確率変数φ(|Z|はトピック数)が生成されることを示している。例えば、パラメータβに基づく確率分布に従う|Z|個の確率変数φ(z=1,…,|Z|)が生成される。なお、他の変数についても同様である。
いま、具体的に、コンテンツが文書であり、コンテンツ特徴量が単語の出現頻度である場合について考えてみることにする。また、文書集合を下記の式(1)で定義されるD、表出集合を下記の式(2)で定義されるA、文書集合Dと表出集合Aとを決めるトピック集合を下記の式(3)で定義されるZ、表出クラスタ集合を下記の式(4)で定義されるX、ユーザクラスタ集合を下記の式(5)で定義されるCと表現する。また、確率モデルに含まれるパラメータΦ、Ψ、Θをそれぞれ下記の式(6)〜式(8)で定義する。さらに、表出を生成するためのトピック集合を下記の式(10)で定義されるYと表現する。
なお、文書集合W及び表出集合Aは観測されるものとする。また、トピック集合Y、Z及び表出クラスタ集合Xは、潜在変数である。そして、各確率変数の出現回数に関する表記は図5の通りである。
Figure 0005625792
ここで、図4に示したグラフィカルモデルを構成する各パラメータ及び確率変数が従う確率分布について説明する。
まず、パラメータφ(z=1,…,|Z|)は、ディリクレ分布Dir(β)に従う確率変数として表現される。つまり、φ〜Dir(β)である。なお、このパラメータφは、単語の出現確率を表している。同様に、パラメータρ(u=1,…,|U|)は、ディリクレ分布Dir(κ)に従う確率変数として表現される。つまり、ρ〜Dir(κ)である。なお、このパラメータρは、ユーザクラスタの出現確率を表している。また、パラメータξuz(u=1,…,|U|、z=1,…,|Z|)は、ディリクレ分布Dir(γ)に従う確率変数として表現される。つまり、ξuz〜Dir(γ)である。なお、このパラメータξuzは、表出クラスタの出現確率を表している。
また、パラメータψ(x=1,…,|X|)は、ディリクレ分布Dir(η)に従う確率変数として表現される。つまり、ψ〜Dir(η)である。なお、このパラメータψは、表出の出現確率を表している。また、文書dに関し、パラメータθは、ディリクレ分布Dir(α)に従う確率変数として表現される。つまり、θ〜Dir(α)である。なお、このパラメータθは、文書トピック比を表している。また、文書d中の単語wに関し、トピックzは、多項分布Mult(θ)に従う確率変数として表現される。つまり、z〜Mult(θ)である。また、文書d中の単語wに関し、単語wは、多項分布Mult(φ)に従う確率変数として表現される。つまり、w〜Mult(φ)である。
また、文書d、ユーザu、表出aに関し、トピックyは、多項分布Mult(Ndz/N)に従う確率変数として表現される。つまり、y〜Mult(Ndz/N)である。但し、一様分布Unif(N)に従う確率変数iを導入し、i〜Unif(N)、y=zdi(上記の式(3)を参照)としてもよい。つまり、表出クラスタを決めるためのトピックyは、対象とする文書中の実トピック比に応じて決められる。
また、文書d、ユーザu、表出aに関し、ユーザクラスタcは、多項分布Mult(ρ)に従う確率変数として表現される。つまり、c〜Mult(ρ)である。同様に、文書d、ユーザu、表出aに関し、表出クラスタxは、多項分布Mult(ξcy)に従う確率変数として表現される。つまり、x〜Mult(ξcy)である。また、文書d、ユーザu、表出aに関し、表出aは、多項分布Mult(ψ)に従う確率変数として表現される。つまり、a〜Mult(ψ)である。このように、グラフィカルモデルを構成するパラメータ、確率変数、及び観測変数は、上記の確率分布を用いて表現される。
このような確率モデルが与えられた場合、文書集合D、表出集合A、トピック集合Z、Y、ユーザクラスタ集合C、表出クラスタ集合Xの同時分布P(D,A,Z,Y,C,X|α,β,γ,κ,η)は、下記の式(11)のようになる。
Figure 0005625792
また、上記の式(11)の右辺第1項P(D|Z,β)は、下記の式(12)のように展開される。但し、この展開の過程でP(φ|β)がディリクレ分布であることと、P(wdn|zdn)が多項分布であることを利用している。さらに、この展開の過程で、下記の式(13)に示すディリクレ分布における正規化項の計算が利用されている。
Figure 0005625792
また、簡単のために下記の式(14)及び式(15)の表現を用いると、上記の式(11)の右辺第1項P(D|Z,β)は、下記の式(16)のように表現される。
Figure 0005625792
同様に、上記の式(11)の右辺第2項P(Z|α)は、下記の式(17)のように展開される。さらに、上記の式(11)の右辺第3項P(A|X,η)は、下記の式(18)のように展開される。そして、上記の式(11)の右辺第4項P(Y|Z)は、下記の式(19)のように展開される。
Figure 0005625792
Figure 0005625792
また、上記の式(11)の右辺第5項P(X|Y,C,γ)は、下記の式(20)のように展開される。さらに、上記の式(11)の右辺第6項P(C|κ)は、下記の式(21)のように展開される。
Figure 0005625792
Figure 0005625792
以上、本実施形態に係る確率モデルについて説明した。上記の式(11)〜式(21)で表現される確率モデルの振る舞いを決めるパラメータは、変分ベイズ法やGibbs Samplingなどの手法を用いて計算することができる。つまり、観測変数を学習データとして与え、その学習データに適合するように各パラメータを最適化すればよい。
(Gibbs Samplingによるパラメータの導出)
ここでは、一例として、Gibbs Samplingによるパラメータの導出方法について説明する。まず、Gibbs Samplingによる事後確率の計算方法について述べた後、パラメータの導出方法について説明する。
いま、j=(d,n)を定義すると、j番目(d番目の文書に含まれるn番目の単語に対応)のトピックzがzとなる確率P(z=z|D,A,Z\j,Y,X)は、下記の式(22)のように展開される。但し、Z\jは、トピック集合Zからj番目のデータを除外した集合を表す。また、δ(a,b)は、a=bの場合に1、a≠bの場合に0となる関数である。なお、この展開の過程で、下記の式(23)に示す関係を利用し、Nwz’\j=Nwz’\j+δ(z’,z)δ(w,w)という置き換えを行っている。
Figure 0005625792
上記の式(22)において分母分子に現れるz’やd’に関する積ではz’=z、d’=dの項だけが残る。また、上記の式(22)をΔについて更に展開すると、下記の式(24)が得られる。同様に、下記の式(24)においてwやz’に関する積ではw=w、z’=zの項だけが残るため、最終的には下記の式(25)が得られる。但し、下記の式(25)における展開の過程で、Σwβ+Nwz\j+δ(w,w)=(Σwβ+Nwz\j)+1、Γ(n)=(n−1)Γ(n−1)などの関係を利用している。
Figure 0005625792
次に、i=(d,u,m)を定義すると、i番目の表出を生成する際に利用されたトピックyの分布P(y=y|D,A,Z\j,Y,X)は、下記の式(26)のように展開される。同様に、表出クラスタxの分布P(x=x|D,A,Z\j,Y,X)は、下記の式(27)のように展開される。
Figure 0005625792
Figure 0005625792
また、ユーザクラスタcに関連して下記の式(28)が成り立つことから、ユーザクラスタcの分布P(c=c|D,A,Z\j,Y,X)についても、下記の式(29)のように展開することができる。
Figure 0005625792
Figure 0005625792
以上のようにして、トピックzの事後確率、トピックyの事後確率、表出クラスタxの事後確率、及びユーザクラスタcの事後確率が求められる。Gibbs Samplingにおいては、これらの事後確率を用いて次のような処理(Step.1〜Step.4)を実行し、確率モデルに含まれるパラメータを算出する。
Step.1:
Z、Y、C、Xをランダムに割り当てる。
Step.2:
上記の式(25)、式(26)、式(27)、式(29)に基づき、1変数ずつ
resamplingする。このresamplingを所定回繰り返し実行する。
Step.3:
次の処理A、Bを所定回繰り返し実行する。
(処理A)resamplingを所定回繰り返し実行する。
(処理B)(処理A)で得られた統計量を用いて、下記の式(30)〜式(32)
で定義されるパラメータθdz、ρuc、ψxaを計算する。
Step.4:
Step.3の繰り返し処理の中で得られたパラメータを平均し、その平均値を
最終的なパラメータとする。
Figure 0005625792
上記の式(30)で表現されるパラメータθdzは、文書の潜在的な特徴を表す文書潜在特徴である。なお、文書潜在特徴は、コンテンツ潜在特徴の一例である。また、上記の式(31)で表現されるパラメータρucは、ユーザの潜在的な特徴を表すユーザ潜在特徴である。そして、上記の式(32)で表現されるパラメータψxaは、表出の潜在的な特徴を表す表出潜在特徴である。なお、上記の式(33)で表現されるパラメータξcyxも得られる。このパラメータξcyxは、クラスタとトピックとの対応関係を表すトピック・クラスタ対応である。なお、コンテンツ潜在特徴は、コンテンツクラスタに対するコンテンツの帰属度に対応する。また、ユーザ潜在特徴は、ユーザクラスタに対するユーザの帰属度に対応する。さらに、表出潜在特徴は、表出クラスタに対する表出の帰属度に対応する。
以上説明した方法により、潜在特徴計算部203は、上記の式(30)〜式(33)で表現されるコンテンツ潜在特徴、ユーザ潜在特徴、表出潜在特徴、及びトピック・クラスタ対応を計算する。例えば、潜在特徴計算部203により、図7に示すようなコンテンツ潜在特徴が算出される。また、潜在特徴計算部203により、図8に示すようなユーザ潜在特徴が算出される。さらに、潜在特徴計算部203により、図9に示すような表出潜在特徴が算出される。潜在特徴計算部203により計算されたコンテンツ潜在特徴、ユーザ潜在特徴、表出潜在特徴、及びトピック・クラスタ対応は、潜在特徴保持部205に保存される。
(1−3−2:類似ユーザの提示方法)
次に、図10を参照しながら、サーバ装置200による類似ユーザの提示方法について説明する。本実施形態に係る類似ユーザの提示方法は、ユーザ潜在特徴に基づく類似ユーザの抽出結果を用いて実現される。そのため、この方法を用いると、コンテンツに対する表出の付け方が似たユーザを見つけることができる。なお、この類似ユーザの提示方法に係るサーバ装置200(図1を参照)の主な構成要素は、潜在特徴保持部205、ユーザ類似度計算部206、及び提示部214である。また、潜在特徴保持部205には、図7〜図9に示す潜在特徴が保存されているものとする。
図10に示すように、まず、ユーザ類似度計算部206は、潜在特徴保持部205から、現在注目しているユーザuのユーザ潜在特徴ρを取得する(S111)。次いで、ユーザ類似度計算部206は、注目しているユーザのユーザ潜在特徴と、他のユーザのユーザ潜在特徴を用いてユーザ同士の類似度を計算する(S112)。例えば、ユーザ類似度計算部206は、ユーザ同士の類似度として、ユーザ潜在特徴間のユークリッド距離、コサイン距離などを計算する。また、ユーザ潜在特徴が分布として与えられている場合にはKullback−Leibler距離を用いることもできる。
図8に示すようなユーザ潜在特徴が得られている場合、ユーザ1に対するユーザ2の類似度をユークリッド距離に基づいて算出すると、0.353という値が得られる。同様に、ユーザ1に対するユーザ3の類似度は、0.424となる。そして、ユーザ1に対するユーザ4の類似度は、0.212となる。このようにしてユーザ類似度計算部206により算出されたユーザuに対する他のユーザの類似度は、提示部214に入力される。類似度が入力されると、提示部214は、入力された類似度が大きい順に所定数の他のユーザを抽出し、抽出されたユーザを類似ユーザとしてユーザuに提示する(S113)。このとき、類似ユーザとユーザuとが同一又は類似の表出を付けているコンテンツをユーザuに提示してもよい。
以上、本実施形態に係る類似ユーザの提示方法について説明した。
(1−3−3:類似コンテンツの提示方法)
次に、図11を参照しながら、サーバ装置200による類似コンテンツの提示方法について説明する。本実施形態に係る類似コンテンツの提示方法は、コンテンツ潜在特徴に基づく類似コンテンツの抽出結果を用いて実現される。そのため、この方法を用いると、コンテンツの内容が似ていて、かつ、表出の付けられ方が似たコンテンツを見つけることができる。なお、この類似コンテンツの提示方法に係るサーバ装置200(図1を参照)の主な構成要素は、潜在特徴保持部205、コンテンツ類似度計算部207、及び提示部214である。また、潜在特徴保持部205には、図7〜図9に示す潜在特徴が保存されているものとする。
図11に示すように、まず、コンテンツ類似度計算部207は、潜在特徴保持部205から、現在注目しているコンテンツdのコンテンツ潜在特徴θを取得する(S121)。次いで、コンテンツ類似度計算部207は、注目しているコンテンツのコンテンツ潜在特徴と、他のコンテンツのコンテンツ潜在特徴を用いてコンテンツ同士の類似度を計算する(S122)。例えば、コンテンツ類似度計算部207は、コンテンツ同士の類似度として、コンテンツ潜在特徴間のユークリッド距離、コサイン距離などを計算する。また、コンテンツ潜在特徴が分布として与えられている場合にはKullback−Leibler距離を用いることもできる。
このようにしてコンテンツ類似度計算部207により算出されたコンテンツdに対する他のコンテンツの類似度は、提示部214に入力される。類似度が入力されると、提示部214は、入力された類似度が大きい順に所定数の他のコンテンツを抽出し、抽出されたコンテンツを類似コンテンツとしてユーザに提示する(S123)。このとき、コンテンツdと類似コンテンツとに共通して付けられている表出を一緒に提示してもよい。
以上、本実施形態に係る類似コンテンツの提示方法について説明した。
(1−3−4:類似表出の提示方法)
次に、図12を参照しながら、サーバ装置200による類似表出の提示方法について説明する。本実施形態に係る類似表出の提示方法は、表出潜在特徴に基づく類似表出の抽出結果を用いて実現される。そのため、この方法を用いると、表出の揺れを知ることや、表出の入力をアシストすることが可能になる。なお、この類似表出の提示方法に係るサーバ装置200(図1を参照)の主な構成要素は、潜在特徴保持部205、表出類似度計算部208、及び提示部214である。また、潜在特徴保持部205には、図7〜図9に示す潜在特徴が保存されているものとする。
図12に示すように、まず、表出類似度計算部208は、潜在特徴保持部205から、現在注目している表出aの表出潜在特徴ψを取得する(S131)。次いで、表出類似度計算部208は、注目している表出の表出潜在特徴と、他の表出の表出潜在特徴を用いて表出同士の類似度を計算する(S132)。例えば、表出類似度計算部208は、表出同士の類似度として、表出潜在特徴間のユークリッド距離、コサイン距離などを計算する。また、表出潜在特徴が分布として与えられている場合にはKullback−Leibler距離を用いることもできる。
このようにして表出類似度計算部208により算出された表出aに対する他の表出の類似度は、提示部214に入力される。類似度が入力されると、提示部214は、入力された類似度が大きい順に所定数の他の表出を抽出し、抽出された表出を類似表出としてユーザに提示する(S133)。
ここで、注目しているユーザやコンテンツに応じて類似の表出を変える方法について説明する。表出aと表出aとの間の類似度は、表出aによる表出aの条件付き確率P(a|a,u,d)により表現される。また、この確率P(a|a,u,d)は、下記の式(34)のように展開される。但し、P(a)は一様分布とする。
Figure 0005625792
ユーザやコンテンツに依らない類似表出を算出する場合には、下記の式(34)に含まれるP(c|u)、P(y|d)が一様分布で与えられるものとして、これらの項を無視すればよい。また、P(x|c,y)としては、これらの分布に基づくパラメータξを用いればよい。一方、コンテンツに依存させる場合にはP(y|d)としてθを用い、ユーザに依存させる場合にはP(c|u)としてρを用いればよい。また、コンテンツやユーザに依存させる場合にはP(x|c,y)としてはξを用いればよい。
例えば、θが一様で(0.33,0.33,0.33)と与えられ、ρが図8、ξが図13のように与えられている場合、ユーザ1にとっての「経済」「政治」のコンテンツに依存しない表出類似度は、下記の式(35)のように表現される。同様に、「経済」「マクロ経済」の表出類似度は1.0となり、「経済」「税制」の表出類似度は0.71となる。つまり、この例では、「経済」に対しては「マクロ経済」が最も類似しているという結果が得られる。このような構成にすることで、注目しているユーザやコンテンツに応じて類似の表出を変えることが可能になる。
Figure 0005625792
以上、本実施形態に係る類似コンテンツの提示方法について説明した。
(1−3−5:表出の予測方法)
次に、表出の予測方法について説明する。この方法は、ユーザuがコンテンツdに注目している場合に、そのコンテンツdにユーザuが付与する確率の高い表出を予測する方法である。この方法を用いると、予測した表出をユーザuに提示することができるため、表出の入力をアシストしたり、コンテンツの概要を把握させたりすることが可能になる。なお、この検索方法に係るサーバ装置200(図1を参照)の主な構成要素は、潜在特徴保持部205、関連表出計算部209、及び提示部214である。また、潜在特徴保持部205には、図7〜図9に示す潜在特徴が保存されているものとする。
ユーザuがコンテンツdに注目している場合に表出aが与えられる確率P(a|u,d)は、下記の式(36)のように表現される。そこで、関連表出計算部209は、潜在特徴保持部205から各潜在特徴を取得し、取得した潜在特徴を用いて確率P(a|u,d)を計算する。例えば、ユーザ1がコンテンツCに表出を付与しようとしている場合、潜在特徴が図7〜図9により与えられているとすると、「経済」に関する確率P(a=経済|u=1,d=C)は、下記の式(37)のようになる。同様に、「政治」「マクロ経済」「税制」に関する確率は、下記の式(38)のようになる。この例では、「政治」「税制」「経済」「マクロ経済」の順に、ユーザ1が付与しそうな表出が得られる。
Figure 0005625792
このようにして関連表出計算部209により算出された確率は、提示部214に入力される。この確率が入力されると、提示部214は、ユーザuがコンテンツdに付与する確率の高い表出をユーザuに提示する。
以上、本実施形態に係る表出の予測方法について説明した。
(1−3−6:表出によるコンテンツの検索方法)
次に、図14、図15を参照しながら、表出によるコンテンツの検索方法について説明する。本実施形態に係るコンテンツの検索方法は、表出潜在特徴を用いて実現される。そのため、この方法を用いると、クエリとして入力された表出が付与されていないコンテンツであっても、その表出と類似の表出が付与されているコンテンツであれば検出することができるようになる。なお、この検索方法に係るサーバ装置200(図1を参照)の主な構成要素は、潜在特徴保持部205、関連コンテンツ抽出部210、及び提示部214である。また、潜在特徴保持部205には、図7〜図9に示す潜在特徴が保存されているものとする。
(方法1:表出の拡張)
まず、図14を参照しながら、コンテンツを検索するためのクエリとなる表出(以下、クエリ表出a)の類似表出を抽出し、類似表出をクエリ表出と一緒に利用してコンテンツを検索する方法について説明する。
図14に示すように、まず、クエリ表出が関連コンテンツ抽出部210に入力される(S151)。クエリ表出が入力されると、関連コンテンツ抽出部210のうち、表出類似度計算部211が、潜在特徴保持部205からクエリ表出の表出潜在特徴を取得する(S152)。次いで、表出類似度計算部211は、取得した表出潜在特徴を用いてクエリ表出と類似する類似表出を取得する(S153)。なお、類似表出は、上記1−3−4の中で説明した方法と同じ方法を用いて取得することができる。また、ステップS153で取得された類似表出とクエリ表出とを含む表出の集合をA(a)と表記する。例えば、a=経済で、類似度が上位1個の類似表出を取得した場合、A(a)={経済、マクロ経済}となる。
このようにして表出類似度計算部211により取得された類似表出は、クエリ表出と共に関連コンテンツ取得部212に入力される。つまり、関連コンテンツ取得部212には、表出の集合A(a)が入力される。表出の集合A(a)が入力されると、関連コンテンツ取得部212は、入力された表出の集合A(a)に含まれる各表出が付与されたコンテンツ(以下、関連コンテンツ)を表出保持部202から取得する(S154)。例えば、A(a)={経済、マクロ経済}の場合、コンテンツAとコンテンツCとが関連コンテンツとして取得される(図3を参照)。このようにして関連コンテンツ取得部212により取得された関連コンテンツは、提示部214に入力される。関連コンテンツが入力されると、提示部214は、入力された関連コンテンツをユーザに提示する(S155)。
以上、クエリ表出の類似表出を抽出し、類似表出をクエリ表出と一緒に利用して関連コンテンツを抽出する方法について説明した。
(方法2:直接取得)
次に、図15を参照しながら、表出の潜在特徴とコンテンツの潜在特徴との間の関連性を用いてコンテンツを検索する方法について説明する。
図15に示すように、まず、クエリ表出が関連コンテンツ抽出部210に入力される(S161)。クエリ表出が入力されると、関連コンテンツ抽出部210のうち、関連コンテンツ計算部213が、潜在特徴保持部205からクエリ表出に関する潜在特徴を取得する(S162)。次いで、関連コンテンツ計算部213は、取得した潜在特徴を用いて、クエリ表出に関連する関連コンテンツを抽出する(S163)。
ユーザu、表出aが与えられた場合、コンテンツdの確率P(d|u,a)は、下記の式(39)のようになる。但し、P(d)は一様分布と仮定した。下記の式(39)に潜在特徴を代入することにより、確率P(d|u,a)を得ることができる。例えば、ユーザ1が「経済」で検索する場合の確率P(d=A|u=1,a=経済)は、下記の式(40)のようになる。同様に、確率P(d=B|u=1,a=経済)、確率P(d=C|u=1,a=経済)、確率P(d=D|u=1,a=経済)は、下記の式(41)のようになる。この例では、コンテンツBがクエリ表出「経済」に最も関連する関連コンテンツということになる。
Figure 0005625792
このようにして関連コンテンツ計算部213により抽出された関連コンテンツは、提示部214に入力される。関連コンテンツが入力されると、提示部214は、入力された関連コンテンツをユーザに提示する(S164)。
以上、表出の潜在特徴とコンテンツの潜在特徴との間の関連性を用いて関連コンテンツを検索する方法について説明した。
<1−4:グラフィカルモデルの変形例>
これまで、図4に示したグラフィカルモデルを例に挙げて説明を進めてきた。ここでは、図16〜図18を参照しながら、本実施形態に適用可能なグラフィカルモデルの変形例について説明する。但し、図4に示したグラフィカルモデルと実質的に同じ構成を有する要素については説明を省略する。
(変形例A:表出クラスタなし)
まず、図16を参照する。図16のグラフィカルモデルは、表出クラスタxを介さずに表出aが決まるように、図4のグラフィカルモデルを変形したものである。特に、図16のグラフィカルモデルは、表出aがユーザクラスタc及びトピックyから決めるように構成されている。このような構成にすると、表出の種類(喜怒哀楽のアイコンなど)が少ない場合にも、ユーザやコンテンツの潜在特徴を精度良く導出することが可能になる。
図16のグラフィカルモデルにおいて、表出の出現確率を表すパラメータψは、各ユーザクラスタc及び各トピックzに関して決まる確率変数ψczで表現される。但し、この確率変数ψczは、ディリクレ分布Dir(η)に従う。さらに、文書d、ユーザu、表出aに関し、トピックyは、多項分布Mult(Ndz/N)に従う確率変数として表現される。つまり、y〜Mult(Ndz/N)である。また、文書d、ユーザu、表出aに関し、ユーザクラスタcは、多項分布Mult(ρ)に従う確率変数として表現される。つまり、c〜Mult(ρ)である。そして、文書d、ユーザu、表出aに関し、表出aは、多項分布Mult(ψcy)に従う確率変数として表現される。つまり、a〜Mult(ψcy)である。
図16のグラフィカルモデルを構成するパラメータ、確率変数、及び観測変数は、上記の確率分布を用いて表現される。これまで図4のグラフィカルモデルに基づいて説明してきた潜在特徴の計算方法と同様に、図16のグラフィカルモデルに基づいて潜在特徴を計算することができる。また、この潜在特徴を利用して類似ユーザの提示、類似コンテンツの提示、類似表出の提示、表出の予測、及び表出によるコンテンツの検索など、様々なアプリケーションを実現させることができる。
(変形例B:コンテンツ単位でのユーザクラスタ)
次に、図17を参照する。図17のグラフィカルモデルは、ユーザクラスタcが表出集合Aのプレートに含まれないように、図4のグラフィカルモデルを変形したものである。この場合、ユーザクラスタcは、文書d、ユーザuに関して、多項分布Mult(ρ)に従う確率変数として表現される。つまり、c〜Mult(ρ)である。また、表出クラスタxは、文書d、ユーザu、表出aに関して、多項分布Mult(ξcy)に従う確率変数として表現される。つまり、x〜Mult(ξcy)である。さらに、表出aは、文書d、ユーザu、表出aに関して、多項分布Mult(ψ)に従う確率変数として表現される。つまり、a〜Mult(ψ)である。
図17のグラフィカルモデルを構成するパラメータ、確率変数、及び観測変数は、上記の確率分布を用いて表現される。これまで図4のグラフィカルモデルに基づいて説明してきた潜在特徴の計算方法と同様に、図17のグラフィカルモデルに基づいて潜在特徴を計算することができる。また、この潜在特徴を利用して類似ユーザの提示、類似コンテンツの提示、類似表出の提示、表出の予測、及び表出によるコンテンツの検索など、様々なアプリケーションを実現させることができる。
(変形例C:表出クラスタなし+コンテンツ単位でのユーザクラスタ)
次に、図18を参照する。図18のグラフィカルモデルは、表出クラスタxを介さずに表出aが決まるようにすると共に、ユーザクラスタcが表出集合Aのプレートに含まれないように、図4のグラフィカルモデルを変形したものである。変形例Aと同様に、図18のグラフィカルモデルは、表出aがユーザクラスタc及びトピックyから決めるように構成されている。そのため、表出の種類(喜怒哀楽のアイコンなど)が少ない場合にも、ユーザやコンテンツの潜在特徴を精度良く導出することが可能になる。
図18のグラフィカルモデルにおいて、表出の出現確率を表すパラメータψは、各ユーザクラスタc及び各トピックzに関して決まる確率変数ψczで表現される。但し、この確率変数ψczは、ディリクレ分布Dir(η)に従う。さらに、文書d、ユーザu、表出aに関し、トピックyは、多項分布Mult(Ndz/N)に従う確率変数として表現される。つまり、y〜Mult(Ndz/N)である。また、ユーザクラスタcは、文書d、ユーザuに関して、多項分布Mult(ρ)に従う確率変数として表現される。そして、表出に関するトピックyは、文書d、ユーザu、表出aに関して、多項分布Mult(Ndz/N)に従う確率変数として表現される。つまり、y〜Mult(Ndz/N)である。さらに、表出aは、文書d、ユーザu、表出aに関して、多項分布Mult(ψcy)に従う確率変数として表現される。つまり、a〜Mult(ψcy)である。
図18のグラフィカルモデルを構成するパラメータ、確率変数、及び観測変数は、上記の確率分布を用いて表現される。これまで図4のグラフィカルモデルに基づいて説明してきた潜在特徴の計算方法と同様に、図18のグラフィカルモデルに基づいて潜在特徴を計算することができる。また、この潜在特徴を利用して類似ユーザの提示、類似コンテンツの提示、類似表出の提示、表出の予測、及び表出によるコンテンツの検索など、様々なアプリケーションを実現させることができる。
<2:変形例>
次に、本実施形態の一変形例について説明する。本変形例は、ユーザの操作履歴をユーザの表出として利用する方法に関する。
操作としては、例えば、購入行動に関する操作やコンテンツプレーヤの操作などがある。購入行動に関する操作としては、例えば、「カートに入れる」「数量変更」「カートから削除」「購入決定」などの操作がある。また、コンテンツプレーヤの操作としては、例えば、「再生」「停止」「次の曲へ移動」「前の曲へ移動」などの操作がある。このような操作履歴は、コンテンツに対する明示的な評価を表すものではない。そのため、ユーザが入力した操作履歴のことをimplicit feedbackと呼ぶ場合がある。一方、コンテンツには、「好き」「嫌い」などの明示的な評価が付されることがある。このような評価のことをexplicit feedbackと呼ぶ場合がある。
[2−1:システム構成]
本変形例に係る情報提示システムのシステム構成を図19に示した。但し、図1に示した情報提示システムの構成要素と実質的に同じ機能を有する構成要素に対しては同一の符号を付した。図19に示した情報提示システムは、端末装置130及びサーバ装置230により構成される。
端末装置130は、ネットワーク50を介してサーバ装置230と接続されている。そのため、端末装置130に入力された情報をサーバ装置230に送信したり、サーバ装置230により提示された情報を端末装置130で受信したりすることが可能である。なお、図19には1台の端末装置130しか記載されていないが、ネットワーク50を介して複数の端末装置130が接続されていてもよい。また、サーバ装置230の機能は、複数の情報処理装置を利用して実現されるように構成されていてもよい。
以下、端末装置130、サーバ装置230の機能構成について、より詳細に説明する。但し、図1に示した端末装置100及びサーバ装置200が有する構成要素の機能と実質的に同一の機能を有する構成要素については詳細な説明を省略する。
[2−2:端末装置130の機能構成]
まず、端末装置130の機能構成について説明する。図19に示すように、端末装置130は、主に、表出入力部101と、通信部102と、表示部103と、評価値入力部131とを有する。図1に示した端末装置100と端末装置130との違いは、評価値入力部131の有無にある。評価値入力部131は、評価値を入力するための入力手段である。なお、表出入力部101と評価値入力部131とは同一の入力手段により構成されていてもよい。評価値入力部131を介して評価値が入力されると、入力された評価値は、通信部102によりサーバ装置230に送信される。
このように、端末装置130は、評価値を入力するための入力手段として機能する。以上、端末装置130の機能構成について説明した。
[2−3:サーバ装置230の機能構成]
次に、サーバ装置230の機能構成について説明する。
図19に示すように、サーバ装置230は、通信部201と、表出保持部202と、潜在特徴計算部203と、コンテンツ特徴量保持部204と、潜在特徴保持部205と、表出類似度計算部211と、提示部214とを有する。さらに、サーバ装置230は、評価値保持部231と、評価値・表出変換部232と、好き/嫌い集計部233と、評価予測部234とを有する。
なお、評価値保持部231の機能は、後述するハードウェア構成のうち、ROM904、RAM906、記憶部920、リムーバブル記憶媒体928などの機能により実現される。また、評価値・表出変換部232、好き/嫌い集計部233、評価予測部234の機能は、後述するハードウェア構成のうち、CPU902などの機能により実現される。
以下、図20を参照しながら、評価値の予測方法に関する処理の流れに沿ってサーバ装置230の機能及び動作について説明する。
図20に示すように、まず、ユーザにより評価値が入力される(S171)。ユーザにより入力された評価値は、端末装置130からサーバ装置230に送信される。サーバ装置230に送信された評価値は、通信部201により受信され、評価値保持部231に保存される。評価値保持部231に保存された評価値は、評価値・表出変換部232により読み出されて表出に変換される(S172)。例えば、評価値・表出変換部232は、読み出した評価値を「好き」又は「嫌い」という表出に変換する。
例えば、5段階評価の評価値(嫌い:1←→好き:5)が入力された場合、評価値・表出変換部232は、評価値{1,2}を「嫌い」に変換し、評価値{4,5}を「好き」に変換する。なお、ここでは5段階の評価値を2段階の表出に変換する例を挙げたが、5段階の評価値を5段階の表出に変換してもよい。このようにして評価値から変換された表出は、表出保持部202に保存される。表出保持部202には、例えば、図21に示すような表出が保存される。
次いで、サーバ装置230は、潜在特徴計算部203の機能により、メイン処理を実行する(S173)。ステップS173で実行されるメイン処理は、潜在特徴の計算処理である。但し、表出保持部202には評価値・表出変換部232により評価値から変換された表出も保存されているため、ここで計算される潜在特徴は、評価値を考慮したものとなる。ステップS173のメイン処理にて算出された潜在特徴は、潜在特徴計算部203により潜在特徴保持部205に保存される。潜在特徴保持部205に保存された潜在特徴は、表出類似度計算部211により読み出される。潜在特徴を読み出すと、表出類似度計算部211は、読み出した潜在特徴を用いて表出間の類似度を算出する。
上記の通り、表出保持部202には評価値から変換された表出が保存されている。また、図21に示すように、表出保持部202には、表出として操作履歴も保存されている。そのため、表出類似度計算部211は、評価値に対応する表出と、操作履歴に対応する表出との間の類似度を算出することができる。つまり、表出類似度計算部211は、implicit feedbackとexplicit feedbackとの相関度合いを算出することができるのである。このようにして表出類似度計算部211により算出された表出間の類似度は、好き/嫌い集計部233に入力される。
表出間の類似度が入力されると、好き/嫌い集計部233は、コンテンツに関してユーザが行ったimplicit feedbackに基づき、そのコンテンツの好き/嫌いを予測する(S174)。
(予測方法1:implict feedbackのみから予測する方法)
例えば、好き/嫌い集計部233は、「好き」の確率値、「嫌い」の確率値がそれぞれ所定の閾値を越えているか否かを判定し、所定の閾値を越えているものを採用する。但し、両方の確率値が所定の閾値を越えている場合、好き/嫌い集計部233は、確率値の高いものを採用するか、いずれも採用しない。また、implicit feedbackが複数あった場合、好き/嫌い集計部233は、次の(A)〜(C)の方法で「好き」「嫌い」を決める。
(A)一番最後に入力されたimplicit feedbackで「好き」「嫌い」を決める。(B)各implicit feedbackで「好き」「嫌い」を決め、最終的に多数決で決める。(C)「好き」「嫌い」それぞれに対する類似度を全て足し合わせ、最終的に大きい方、かつ(又は)、所定の閾値を越えている方を採用する。
(予測方法2:注目しているコンテンツも考慮して予測する方法)
また、本実施形態の場合、図4のような確率モデルを採用しているため、注目しているコンテンツに依存して「好き」「嫌い」の確率を求めることもできる。例えば、aを「好き」という表出、a’={a,a,…}をimplicit feedbackとすると、確率P(a|u,d,a’)は、下記の式(42)のようになる。この確率P(a|u,d,a’)を用いると、「好き」「嫌い」の確率が求められるため、確率値の大きい方、かつ(又は)、確率値が所定の閾値を越えた方を採用すればよい。
Figure 0005625792
例えば、ユーザ1がコンテンツCを再生した場合、潜在特徴が図22、図23、図24のように与えられ、トピック・クラスタ対応が図25のように与えられている場合、確率P(a=好き|u=1,d=C,a’={再生})は、下記の式(43)のようになる。一方、確率P(a=嫌い|u=1,d=C,a’={再生})は、下記の式(44)のようになる。これらの結果から、この例においてユーザ1はコンテンツCが好きであると予測できる。
Figure 0005625792
再び図20を参照する。このようにして「好き」「嫌い」が予測できると、好き/嫌い集計部233は、ユーザ識別情報、コンテンツ識別情報、implicit feedbackに基づく評価情報を評価値保持部231に保存する(S175)。このようにして評価値保持部231に評価情報が保存されると、評価予測部234は、評価値保持部231に保存された評価情報を用いてコンテンツに対する評価値を予測する(S176)。例えば、評価予測部234は、協調フィルタリングなど、種々の評価値予測の手法を用いてコンテンツに対する評価値を予測する。
評価予測部234により予測された評価値は、提示部214に入力される。予測された評価値が入力されると、提示部214は、入力された評価値を参照し、評価値の高いコンテンツをユーザに提示する(S177)。
以上、implicit feedbackに基づく評価値の予測方法、及び当該評価値の予測方法に関するサーバ装置230の機能について説明した。
(応用例1:主観表現を表出として利用する構成)
1つの応用例として、主観表現を表出として利用する構成について簡単に説明する。ユーザの主観に関わる表現(単語や文節)をテキストから抽出する言語処理技術が知られている。そこで、テキストに出現する主観表現を抽出し、抽出した主観表現を表出として、明示的な評価値とともに処理することにより、上記と同様にして主観表現が好き/嫌いのどちらに近いかを判別することができる。このような構成にする場合、図19に示したサーバ装置230には、テキストから主観表現を抽出する主観表現抽出部が追加される。
(応用例2:状況に応じたコンテンツ推薦・状況の推薦)
ユーザの表出の代わりに、コンテンツを視聴した状況(時間、場所、機構、朝、昼、晩、うるさい、静か、雨、晴れなど)を用いることにより、状況に応じたコンテンツの推薦を行うことが可能になる。このようなコンテンツの推薦を実現するには、次のStep.1、Step.2を実行すればよい。
Step.1:評価入力・状況保存
ユーザがコンテンツを視聴した際に、その状況と好き/嫌いの表出を保存する。
Step.2:ある状況における「好き」「嫌い」の予測
ユーザがある状況に置かれているとき、その状況の下でどのコンテンツを好むか
を予測する。また、上記のimplicit feedbackによる評価予測
と同様にして各コンテンツに対する「好き」の確率を求め、最も確率値の大きい
コンテンツを推薦する。
逆に、ユーザがコンテンツを指定した際に、状況を推薦することもできる。このような状況の推薦を実現するには、次のStep.1、Step.2を実行すればよい。
Step.1:評価入力・状況保存
ユーザがコンテンツを視聴した際に、その状況と好き/嫌いの表出を保存する。
Step.2:あるコンテンツに対する状況の推薦
ユーザがコンテンツを指定したら、上記のimplicit feedback
による評価予測と同様にして各状況の確率を求め、最も確率値の大きい状況を推
薦する。
上記のような方法を適用することにより、状況に応じたコンテンツの推薦、及び指定されたコンテンツに応じた状況の推薦が可能になる。
(応用例3:複数のカテゴリにまたがるコンテンツについて)
本実施形態の技術を応用すると、映画・TV・音楽・ゲームなどのように、複数のカテゴリにまたがるコンテンツを対象に、適切な情報の提示を行うことが可能になる。例えば、ユーザの表出(感じ方)によるカテゴリをまたいだ検索などを行うことが可能になる。
コンテンツのカテゴリが異なると、キーワードのようなメタデータの意味づけが異なることが多い。例えば、「アクション」映画が好きなユーザが必ずしも「アクション」ゲームも好きとは限らない。そこで、カテゴリ毎にメタデータを別物として扱うことにする。なお、カテゴリ毎にメタデータを別物として扱う場合、コンテンツの特徴量だけを利用する従来のフィルタリング手法では、カテゴリをまたいだコンテンツの類似度計算などはできない。しかし、本実施形態の場合、ユーザの表出を用いて潜在特徴を求めているため、カテゴリをまたいだコンテンツの類似度計算を行うことができる。
ところで、図4に示した確率モデルに含まれるパラメータφは、トピックが与えられたときの各コンテンツ特徴量の出現確率を表す潜在特徴となっている。そのため、この潜在特徴を利用することにより、カテゴリをまたいだキーワードの類似度計算を行うこともできる。
以上、本発明の一実施形態及びその変形例/応用例について説明した。
<3:ハードウェア構成>
上記の端末装置100、130及びサーバ装置200、230が有する各構成要素の機能は、例えば、図26に示す情報処理装置のハードウェア構成を用いて実現することが可能である。つまり、当該各構成要素の機能は、コンピュータプログラムを用いて図26に示すハードウェアを制御することにより実現される。なお、このハードウェアの形態は任意であり、例えば、パーソナルコンピュータ、携帯電話、PHS、PDA等の携帯情報端末、ゲーム機、又は種々の情報家電がこれに含まれる。但し、上記のPHSは、Personal Handy−phone Systemの略である。また、上記のPDAは、Personal Digital Assistantの略である。
図26に示すように、このハードウェアは、主に、CPU902と、ROM904と、RAM906と、ホストバス908と、ブリッジ910と、を有する。さらに、このハードウェアは、外部バス912と、インターフェース914と、入力部916と、出力部918と、記憶部920と、ドライブ922と、接続ポート924と、通信部926と、を有する。但し、上記のCPUは、Central Processing Unitの略である。また、上記のROMは、Read Only Memoryの略である。そして、上記のRAMは、Random Access Memoryの略である。
CPU902は、例えば、演算処理装置又は制御装置として機能し、ROM904、RAM906、記憶部920、又はリムーバブル記録媒体928に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。ROM904は、CPU902に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM906には、例えば、CPU902に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
これらの構成要素は、例えば、高速なデータ伝送が可能なホストバス908を介して相互に接続される。一方、ホストバス908は、例えば、ブリッジ910を介して比較的データ伝送速度が低速な外部バス912に接続される。また、入力部916としては、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力部916としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。
出力部918としては、例えば、CRT、LCD、PDP、又はELD等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。但し、上記のCRTは、Cathode Ray Tubeの略である。また、上記のLCDは、Liquid Crystal Displayの略である。そして、上記のPDPは、Plasma DisplayPanelの略である。さらに、上記のELDは、Electro−Luminescence Displayの略である。
記憶部920は、各種のデータを格納するための装置である。記憶部920としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。但し、上記のHDDは、Hard Disk Driveの略である。
ドライブ922は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体928に記録された情報を読み出し、又はリムーバブル記録媒体928に情報を書き込む装置である。リムーバブル記録媒体928は、例えば、DVDメディア、Blu−rayメディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体928は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。但し、上記のICは、Integrated Circuitの略である。
接続ポート924は、例えば、USBポート、IEEE1394ポート、SCSI、RS−232Cポート、又は光オーディオ端子等のような外部接続機器930を接続するためのポートである。外部接続機器930は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。但し、上記のUSBは、Universal Serial Busの略である。また、上記のSCSIは、Small Computer System Interfaceの略である。
通信部926は、ネットワーク932に接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB用の通信カード、光通信用のルータ、ADSL用のルータ、又は各種通信用のモデム等である。また、通信部926に接続されるネットワーク932は、有線又は無線により接続されたネットワークにより構成され、例えば、インターネット、家庭内LAN、赤外線通信、可視光通信、放送、又は衛星通信等である。但し、上記のLANは、Local Area Networkの略である。また、上記のWUSBは、Wireless USBの略である。そして、上記のADSLは、Asymmetric Digital Subscriber Lineの略である。
<4:まとめ>
最後に、本発明の実施形態に係る技術内容について簡単に纏める。ここで述べる技術内容は、例えば、PC、携帯電話、携帯ゲーム機、携帯情報端末、情報家電、カーナビゲーションシステム等、種々の情報処理装置に対して適用することができる。
上記の情報処理装置の機能構成は次のように表現することができる。当該情報処理装置は、次のようなパラメータ算出部と、帰属度算出部とにより構成される。当該パラメータ算出部は、ユーザクラスタを表す変数cをユーザ毎に異なる確率分布に従う確率変数で表現し、コンテンツの内容に関するトピックを表す変数yをコンテンツ毎に異なる確率分布に従う確率変数で表現し、表出クラスタを表す変数xを前記ユーザクラスタと前記トピックとの組み合わせ毎に異なる確率分布に従う確率変数で表現し、ユーザの表出を表す変数aを前記表出クラスタ毎に異なる確率分布に従う確率変数で表現した確率モデルに基づき、学習データとして与えられるコンテンツの特徴量と表出との組み合わせを用いて、当該確率モデルに含まれるパラメータを算出するものである。また、上記の帰属度算出部は、前記パラメータ算出部により算出されたパラメータを用いて、前記ユーザクラスタへのユーザの帰属度及び前記表出クラスタへの表出の帰属度を算出するものである。
上記のユーザの帰属度は、ユーザの潜在的な特徴に対応する。また、表出の帰属度は、表出の潜在的な特徴に対応する。上記のように、表出を導くための表出クラスタをユーザ毎に異なる確率分布に従う変数で表現することにより、ユーザ毎に異なる表出の付け方を考慮したユーザ及び表出の潜在的な特徴を得ることができる。そのため、これらユーザ及び表出の潜在的な特徴を利用することにより、ユーザの多様な表出を用いて、ユーザの多面的な評価傾向を考慮したユーザ間、コンテンツ間及び表出間の潜在的関係性を見いだすことが可能になる。
(備考)
上記の潜在特徴計算部203は、パラメータ算出部、帰属度算出部、関連度算出部の一例である。上記のユーザ類似度計算部206は、ユーザ類似度算出部、類似ユーザ抽出部の一例である。上記の表出類似度計算部208は、表出類似度算出部、類似表出抽出部の一例である。上記のコンテンツ類似度計算部207は、コンテンツ類似度算出部、類似コンテンツ抽出部の一例である。上記の関連コンテンツ抽出部210は、コンテンツ抽出部の一例である。上記の関連表出計算部209は、表出予測部の一例である。上記の評価予測部234は、類似表出抽出部の一例である。
以上、添付図面を参照しながら本発明の好適な実施形態について説明したが、本発明は係る例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
50 ネットワーク
100、130 端末装置
101 表出入力部
102 通信部
103 表示部
131 評価値入力部
200、230 サーバ装置
201 通信部
202 表出保持部
203 潜在特徴計算部
204 コンテンツ特徴量保持部
205 潜在特徴保持部
206 ユーザ類似度計算部
207 コンテンツ類似度計算部
208、211 表出類似度計算部
209 関連表出計算部
210 関連コンテンツ抽出部
212 関連コンテンツ取得部
213 関連コンテンツ計算部
214 提示部
231 評価値保持部
232 評価値・表出変換部
233 好き/嫌い集計部
234 評価予測部

Claims (15)

  1. ユーザクラスタを表す変数cをユーザ毎に異なる確率分布に従う確率変数で表現し、コンテンツの内容に関するトピックを表す変数yをコンテンツ毎に異なる確率分布に従う確率変数で表現し、表出クラスタを表す変数xを前記ユーザクラスタと前記トピックとの組み合わせ毎に異なる確率分布に従う確率変数で表現し、ユーザの表出を表す変数aを前記表出クラスタ毎に異なる確率分布に従う確率変数で表現した確率モデルに基づき、学習データとして与えられるコンテンツの特徴量と表出との組み合わせを用いて、当該確率モデルに含まれるパラメータを算出するパラメータ算出部と、
    前記パラメータ算出部により算出されたパラメータを用いて、前記ユーザクラスタへのユーザの帰属度及び前記表出クラスタへの表出の帰属度を算出する帰属度算出部と、
    を備える、
    情報処理装置。
  2. 前記帰属度算出部により算出されたユーザの帰属度をユーザの潜在特徴量とみなしてユーザ間の類似度を算出するユーザ類似度算出部と、
    前記ユーザ類似度算出部により算出されたユーザ間の類似度に基づいて、類似するユーザを抽出する類似ユーザ抽出部と、
    をさらに備える、
    請求項1に記載の情報処理装置。
  3. 前記帰属度算出部により算出された表出の帰属度を表出の潜在特徴量とみなして表出間の類似度を算出する表出類似度算出部と、
    前記表出類似度算出部により算出された表出間の類似度に基づいて、類似する表出を抽出する類似表出抽出部と、
    をさらに備える、
    請求項1に記載の情報処理装置。
  4. 前記帰属度算出部は、前記パラメータ算出部により算出されたパラメータを用いて、コンテンツクラスタへのコンテンツの帰属度を算出し、
    前記情報処理装置は、
    前記帰属度算出部により算出されたコンテンツの帰属度をコンテンツの潜在特徴量とみなしてコンテンツ間の類似度を算出するコンテンツ類似度算出部と、
    前記コンテンツ類似度算出部により算出されたコンテンツ間の類似度に基づいて、類似するコンテンツを抽出する類似コンテンツ抽出部と、
    をさらに備える、
    請求項1に記載の情報処理装置。
  5. 検索キーとして表出が与えられた場合に、前記類似表出抽出部は、与えられた表出に類似する類似表出を抽出し、
    前記情報処理装置は、
    前記与えられた表出又は前記類似表出抽出部により抽出された類似表出が付与されたコンテンツを抽出するコンテンツ抽出部をさらに備える、
    請求項3に記載の情報処理装置。
  6. 前記帰属度算出部は、前記パラメータ算出部により算出されたパラメータを用いて、コンテンツクラスタへのコンテンツの帰属度を算出し、
    前記情報処理装置は、
    前記パラメータ算出部により算出されたパラメータを用いて、前記ユーザクラスタと前記トピックとの間の関連度を算出する関連度算出部と、
    検索キーとしてユーザと表出との組み合わせが与えられた場合に、前記関連度算出部により算出された前記ユーザクラスタと前記トピックとの間の関連度と、前記帰属度算出部により算出されたユーザの帰属度、表出の帰属度及びコンテンツの帰属度と、に基づき、与えられたユーザと表出との組み合わせに適合するコンテンツを抽出するコンテンツ抽出部と、
    をさらに備える、
    請求項1に記載の情報処理装置。
  7. 前記帰属度算出部は、前記パラメータ算出部により算出されたパラメータを用いて、コンテンツクラスタへのコンテンツの帰属度を算出し、
    前記情報処理装置は、
    前記パラメータ算出部により算出されたパラメータを用いて、前記ユーザクラスタと前記トピックとの間の関連度を算出する関連度算出部と、
    検索キーとしてユーザとコンテンツとの組み合わせが与えられた場合に、前記関連度算出部により算出された前記ユーザクラスタと前記トピックとの間の関連度と、前記帰属度算出部により算出されたユーザの帰属度、表出の帰属度及びコンテンツの帰属度と、に基づき、与えられたユーザが与えられたコンテンツに付与する表出を予測する表出予測部と、
    をさらに備える、
    請求項1に記載の情報処理装置。
  8. コンテンツに対する評価以外の表出が与えられた場合に、前記類似表出抽出部は、与えられた表出に類似し、かつ、コンテンツに対する評価を表す表出を抽出する、
    請求項3に記載の情報処理装置。
  9. 与えられたテキストコンテンツの中からユーザの主観を表す表現を抽出する主観表現抽出部をさらに備え、
    前記主観表現抽出部により主観を表す表現が抽出された場合に、前記類似表出抽出部は、当該主観を表す表現を表出とみなし、当該表出に類似し、かつ、コンテンツに対する評価を表す表出を抽出する、
    請求項3に記載の情報処理装置。
  10. 前記パラメータ算出部は、Gibbs Sampling又は変分ベイズ法を用いて前記確率モデルに含まれるパラメータを算出する、
    請求項1に記載の情報処理装置。
  11. ユーザクラスタを表す変数cをユーザ毎に異なる確率分布に従う確率変数で表現し、コンテンツの内容に関するトピックを表す変数yをコンテンツ毎に異なる確率分布に従う確率変数で表現し、ユーザの表出を表す変数aを前記ユーザクラスタと前記トピックとの組み合わせ毎に異なる確率分布に従う確率変数で表現した確率モデルに基づき、学習データとして与えられるコンテンツの特徴量と表出との組み合わせを用いて、当該確率モデルに含まれるパラメータを算出するパラメータ算出部と、
    前記パラメータ算出部により算出されたパラメータを用いて、前記ユーザクラスタへのユーザの帰属度を算出する帰属度算出部と、
    を備える、
    情報処理装置。
  12. コンピュータのプロセッサが、ユーザクラスタを表す変数cをユーザ毎に異なる確率分布に従う確率変数で表現し、コンテンツの内容に関するトピックを表す変数yをコンテンツ毎に異なる確率分布に従う確率変数で表現し、表出クラスタを表す変数xを前記ユーザクラスタと前記トピックとの組み合わせ毎に異なる確率分布に従う確率変数で表現し、ユーザの表出を表す変数aを前記表出クラスタ毎に異なる確率分布に従う確率変数で表現した確率モデルに基づき、学習データとして与えられるコンテンツの特徴量と表出との組み合わせを用いて、当該確率モデルに含まれるパラメータを算出するパラメータ算出ステップと、
    コンピュータのプロセッサが、前記パラメータ算出ステップで算出されたパラメータを用いて、前記ユーザクラスタへのユーザの帰属度及び前記表出クラスタへの表出の帰属度を算出する帰属度算出ステップと、
    を含む、
    潜在特徴量算出方法。
  13. コンピュータのプロセッサに、
    ユーザクラスタを表す変数cをユーザ毎に異なる確率分布に従う確率変数で表現し、コンテンツの内容に関するトピックを表す変数yをコンテンツ毎に異なる確率分布に従う確率変数で表現し、表出クラスタを表す変数xを前記ユーザクラスタと前記トピックとの組み合わせ毎に異なる確率分布に従う確率変数で表現し、ユーザの表出を表す変数aを前記表出クラスタ毎に異なる確率分布に従う確率変数で表現した確率モデルに基づき、学習データとして与えられるコンテンツの特徴量と表出との組み合わせを用いて、当該確率モデルに含まれるパラメータを算出するパラメータ算出機能と、
    前記パラメータ算出機能により算出されたパラメータを用いて、前記ユーザクラスタへのユーザの帰属度及び前記表出クラスタへの表出の帰属度を算出する帰属度算出機能と、
    実行させるプログラム。
  14. コンピュータのプロセッサが、ユーザクラスタを表す変数cをユーザ毎に異なる確率分布に従う確率変数で表現し、コンテンツの内容に関するトピックを表す変数yをコンテンツ毎に異なる確率分布に従う確率変数で表現し、ユーザの表出を表す変数aを前記ユーザクラスタと前記トピックとの組み合わせ毎に異なる確率分布に従う確率変数で表現した確率モデルに基づき、学習データとして与えられるコンテンツの特徴量と表出との組み合わせを用いて、当該確率モデルに含まれるパラメータを算出するパラメータ算出ステップと、
    コンピュータのプロセッサが、前記パラメータ算出ステップで算出されたパラメータを用いて、前記ユーザクラスタへのユーザの帰属度を算出する帰属度算出ステップと、
    を含む、
    潜在特徴量計算方法。
  15. コンピュータのプロセッサに、
    ユーザクラスタを表す変数cをユーザ毎に異なる確率分布に従う確率変数で表現し、コンテンツの内容に関するトピックを表す変数yをコンテンツ毎に異なる確率分布に従う確率変数で表現し、ユーザの表出を表す変数aを前記ユーザクラスタと前記トピックとの組み合わせ毎に異なる確率分布に従う確率変数で表現した確率モデルに基づき、学習データとして与えられるコンテンツの特徴量と表出との組み合わせを用いて、当該確率モデルに含まれるパラメータを算出するパラメータ算出機能と、
    前記パラメータ算出機能により算出されたパラメータを用いて、前記ユーザクラスタへのユーザの帰属度を算出する帰属度算出機能と、
    実行させるプログラム。
JP2010257241A 2010-11-17 2010-11-17 情報処理装置、潜在特徴量算出方法、及びプログラム Expired - Fee Related JP5625792B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010257241A JP5625792B2 (ja) 2010-11-17 2010-11-17 情報処理装置、潜在特徴量算出方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010257241A JP5625792B2 (ja) 2010-11-17 2010-11-17 情報処理装置、潜在特徴量算出方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2012108738A JP2012108738A (ja) 2012-06-07
JP5625792B2 true JP5625792B2 (ja) 2014-11-19

Family

ID=46494289

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010257241A Expired - Fee Related JP5625792B2 (ja) 2010-11-17 2010-11-17 情報処理装置、潜在特徴量算出方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5625792B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7009791B2 (ja) * 2017-06-21 2022-01-26 富士フイルムビジネスイノベーション株式会社 情報処理装置およびプログラム
CN110503353B (zh) * 2018-05-16 2022-04-01 北京三快在线科技有限公司 一种配送区域表达方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101116073A (zh) * 2005-12-05 2008-01-30 索尼株式会社 信息处理设备、信息处理方法及程序
US20090144226A1 (en) * 2007-12-03 2009-06-04 Kei Tateno Information processing device and method, and program
JP4524709B2 (ja) * 2007-12-03 2010-08-18 ソニー株式会社 情報処理装置および方法、並びに、プログラム
JP5415055B2 (ja) * 2008-10-30 2014-02-12 Kddi株式会社 コンテンツ分類装置およびプログラム
JP5210224B2 (ja) * 2009-03-30 2013-06-12 日本電信電話株式会社 アノテーションデータ解析装置、アノテーションデータ解析プログラムおよびそのプログラムを記録した記録媒体

Also Published As

Publication number Publication date
JP2012108738A (ja) 2012-06-07

Similar Documents

Publication Publication Date Title
Liu et al. Social temporal collaborative ranking for context aware movie recommendation
US8200667B2 (en) Method and apparatus for constructing user profile using content tag, and method for content recommendation using the constructed user profile
Lee et al. A smart TV system with body-gesture control, tag-based rating and context-aware recommendation
US9208441B2 (en) Information processing apparatus, information processing method, and program
US11488028B2 (en) Collaborative personalization via simultaneous embedding of users and their preferences
Shi et al. Learning-to-rank for real-time high-precision hashtag recommendation for streaming news
Chang et al. Music recommender using deep embedding-based features and behavior-based reinforcement learning
WO2007013390A1 (ja) 情報処理装置、特徴抽出方法、記録媒体、および、プログラム
CN110069713B (zh) 一种基于用户上下文感知的个性化推荐方法
Inan et al. Moreopt: A goal programming based movie recommender system
Lee et al. Dynamic item recommendation by topic modeling for social networks
Wang et al. Research on product recommendation based on matrix factorization models fusing user reviews
Xu et al. Do adjective features from user reviews address sparsity and transparency in recommender systems?
Duan et al. A hybrid intelligent service recommendation by latent semantics and explicit ratings
Feng et al. Recommendations based on comprehensively exploiting the latent factors hidden in items’ ratings and content
JP5625792B2 (ja) 情報処理装置、潜在特徴量算出方法、及びプログラム
CN113032589A (zh) 多媒体文件推荐方法、装置、电子设备及可读存储介质
CN110727853B (zh) 向用户呈现控制的异构数字内容
Huang et al. A time-aware hybrid approach for intelligent recommendation systems for individual and group users
Gou et al. Personalized search by a multi-type and multi-level user profile in folksonomy
Hölbling et al. Content-based tag generation to enable a tag-based collaborative tv-recommendation system.
Permana et al. Movie Recommendation System Based on Synopsis Using Content-Based Filtering with TF-IDF and Cosine Similarity
CN110147488B (zh) 页面内容的处理方法、处理装置、计算设备及存储介质
US20170038769A1 (en) Method and system of dimensional clustering
Hansel et al. Optimized LightGCN for Music Recommendation Satisfaction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131029

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140516

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140624

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140814

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140902

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140915

LAPS Cancellation because of no payment of annual fees