JP2006048286A

JP2006048286A - 情報処理装置および方法、並びにプログラム

Info

Publication number: JP2006048286A
Application number: JP2004226788A
Authority: JP
Inventors: Hiroshi Tateno; 啓舘野; Noriyuki Yamamoto; 則行山本; Mari Saito; 真里斎藤; Mitsuhiro Miyazaki; 充弘宮嵜
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-08-03
Filing date: 2004-08-03
Publication date: 2006-02-16
Also published as: US20060036640A1; CN1750003A

Abstract

【課題】メタデータの共起関係を考慮して、コンテンツ推薦等のメタデータを利用する処理を実行できるようにする。
【解決手段】行列生成部１８は、Ｎ個（Ｎは1以上の整数値）のメタデータのそれぞれに対応するＮ行と、Ｍ個（Ｍは１以上の整数値）のコンテンツのそれぞれに対応するＭ列からなるメタデータ行列を生成する。LSA演算部２０は、メタデータ行列に対して特異値分解を施すことで、メタデータ行列の近似行列を生成する。メタデータ抽出部２１は、メタデータ行列と近似行列との差異に基づいて、Ｎ個のメタデータのそれぞれについて、対応するメタデータの重要度を示す指標値、例えば特徴差分を演算し、それらの指標値に基づいて、Ｎ個のメタデータの中から重要メタデータまたは不要メタデータをメタデータ記憶部１６から抽出する。本発明は、コンテンツ推薦を行う情報処理装置に適用可能である。
【選択図】図２

Description

本発明は、情報処理装置および方法、並びにプログラムに関し、特に、メタデータの共起関係を考慮して、コンテンツ推薦等のメタデータを利用する処理を実行できる、情報処理装置および方法、並びに、プログラムに関する。

近年、情報処理システムのひとつとして、ユーザにコンテンツを推薦するシステム（以下、コンテンツ推薦システムと称する）が普及してきている。

以下、従来のコンテンツ推薦システムが、コンテンツを推薦するまでの一連の処理（以下、コンテンツ推薦処理と称する）の概略について説明する。

ただし、説明の簡略上、１台の情報処理装置がコンテンツ推薦処理の全てを実行するとする。

はじめに、情報処理装置は、とあるコンテンツに付与されているメタデータを基底ベクトルとして、そのコンテンツをベクトル化する。なお、以下、このようなベクトルを、コンテンツベクトルと称する。

次に、情報処理装置は、このようなコンテンツベクトルを複数生成し、複数のコンテンツベクトルのそれぞれを所定の方向に順番に並べた行列、即ち、複数のコンテンツベクトルを行成分または列成分として有する行列を生成する。なお、以下、このような行列をメタデータ行列と称する。また、メタデータを基底ベクトルとして全メタデータによって張られる空間をメタデータ空間と称する。

次に、情報処理装置は、このメタデータ行列の各成分のそれぞれに対して、所定の重み付け手法を利用して重み付けを行う（重み値を与える）。なお、重み付け手法としては、例えば、メタデータのコンテンツ内の登場頻度や、メタデータのコンテンツ内での網羅性や特定性によるTF/IDF法(コンテンツに含まれるメタデータの頻度:TFと、そのメタデータを含むコンテンツの個数の逆数:IDFを乗じたものを利用する手法)などを利用する重み付け手法が幅広く使用されている。

このようにして、メタデータ行列の各列成分または各行成分、即ち、コンテンツベクトルは、メタデータによって適切に重み付けされたコンテンツベクトルになる。

さらに、情報処理装置は必要に応じて、重み付けされた１以上のコンテンツベクトルを利用して、ユーザの嗜好を示すベクトルを生成する。なお、以下、ユーザの嗜好を示すベクトルを、ユーザ嗜好ベクトル、または、UPV(User Preference Vector)と称する。

そして、情報処理装置は、このUPVと、ユーザが未経験の複数のコンテンツのそれぞれに対応する特徴ベクトルとの余弦相関などの類似度をそれぞれ求め（マッチング処理を行い）、例えば、類似度の高い順にコンテンツを推薦していく。

以上、従来のコンテンツ推薦システムにおけるコンテンツ推薦処理の概略について説明した。

ところで、近年、LSA(Latent Semantci Analysis)と呼ばれる手法を用いて次元の圧縮された空間においてマッチングを行う技術が確立されている（非特許文献１乃至３、および特許文献１参照）。このようなLSAを用いる技術は、単語間の意味的なまとまりを考慮した文書の分類や検索に関する技術として実績がある。

このようなLSAを用いる技術をコンテンツ推薦処理に適用することも可能である。

即ち、情報処理装置が、上述したメタデータ行列に対して特異値分解を施すと、その結果として、上述したメタデータ空間から、関連性の深いメタデータ同士がひとつの次元にまとまった概念空間が生成される。概念空間の各基底には特異値(基底の重要度)が結びついている。そこで、情報処理装置が、特異値の大きい上位の基底のみを使用(次元圧縮)してメタデータ空間への逆射影を行うと、その結果として、メタデータ間の関連性が浮かび上がった行列が生成される。なお、以下、このような行列を、近似行列と称する。

以上の一連の処理がLSAと称されており、情報処理装置は、LSAにより生成された近似行列をメタデータ行列の変わりに利用して、コンテンツのマッチング処理を行うこともできる。
米国特許第4839853号公報米国特許第5301109号公報 S． C． Deerwester, S． T． Dumais, T． K． Landauer, G． W． Furnas, and R． A． Harshman． "Indexing by latent semantic analysis．" Journal of the American Society of Information Science, 41 (6):391-407, 1990．特開平11-296552号公報

しかしながら、以上説明したような、メタデータを利用した従来のコンテンツ推薦システムにおいては、例えば自然言語による文書(メールやWebなど)をコンテンツとして取り扱う場合には、即ち、文章を推薦する場合には、文章に出現する単語をメタデータとして取り扱うため、文書量の増加とともに単語数が増大し、すなわちメタデータ空間の次元が増大し、計算が困難になる問題があった。このとき、単語重みに基づく単語数の削減は試みられているが、TF/IDFなどを利用している場合は、メタデータ（単語）の共起関係(あるいは同義性)は考慮されず、削除すべきではない単語が削除されてしまう場合が多々ある、という課題があった。

また、データマイニングや文書分類などの分野において、Feature Selectionなどと呼ばれる属性(メタデータ)の選別処理では、個々の属性に対して求められる統計的、情報論的数値(対数尤度比やχ²値、分類クラスとの相互情報量など)によって利用するか否かを決定するのが一般的であり、やはりメタデータ（属性）の共起関係は考慮されない、という課題があった。

さらにまた、コンテンツの推薦にも、メタデータの共起関係は考慮されずに、単にTF/IDFによるメタデータ行列における重みか、あるいはLSAによってメタデータ行列が次元圧縮された結果得られる近似行列の重みが使われており、いずれの方法でも既知の(ユーザが経験した、あるいは高い評価を与えた)ものに類似したコンテンツの推薦しか実現できなかった、という課題があった。

本発明は、このような状況に鑑みてなされたものであり、メタデータの共起関係を考慮して、コンテンツ推薦等のメタデータを利用する処理を実行できるようにするものである。

本発明の情報処理装置は、複数のコンテンツのうちの少なくとも１つに対応付けられるＮ個（Ｎは1以上の整数値）のメタデータを基底として、複数のコンテンツのうちのＭ個（Ｍは１以上の整数値）のコンテンツのそれぞれをベクトル化し、その結果得られるＭ個のベクトルを列成分または行成分とする行列をメタデータ行列として生成する行列生成手段と、行列生成手段により生成されたメタデータ行列に対して特異値分解を施すことで、メタデータ行列の近似行列を生成する近似行列生成手段と、行列生成手段により生成されたメタデータ行列と、近似行列生成手段により生成された近似行列との差異に基づいて、Ｎ個のメタデータのそれぞれについて、対応するメタデータの重要度を示す指標値を演算する指標値演算手段と、指標値演算手段により演算されたＮ個の指標値に基づいて、Ｎ個のメタデータの中から少なくとも１つを、重要度が高い重要メタデータまたは重要度が低い不要メタデータとして抽出する抽出手段とを備えることを特徴とする。

指標値演算手段は、Ｎ個のメタデータのそれぞれを注目メタデータとして順次設定し、近似行列のうちの注目メタデータを示す行または列のＭ個の成分値のそれぞれと、メタデータ行列のうちの対応する成分値との差分値のそれぞれを演算し、演算されたＭ個の差分値の平均値または最大値を、注目メタデータの重要度を示す指標値として演算するようにすることができる。

指標値演算手段は、Ｎ個のメタデータのそれぞれを注目メタデータとして順次設定し、近似行列のうちの注目メタデータを示す行または列のＭ個の成分値のそれぞれを、メタデータ行列のうちの対応する成分値で除算した除算値のそれぞれを演算し、演算されたＭ個の除算値の平均値または最大値を、注目メタデータの重要度を示す指標値として演算するようにすることができる。

Ｎ個のメタデータのうちの、抽出手段により抽出された重要メタデータ、または、抽出手段により抽出された不要メタデータを除くメタデータを利用して、複数のコンテンツの中から、ユーザに推薦すべきコンテンツを１以上決定する推薦手段と、推薦手段によりユーザに推薦すべきであると決定されたコンテンツを、ユーザに呈示する呈示手段とをさらに設けるようにすることができる。

抽出手段により抽出された重要メタデータまたは不要メタデータを、ユーザに呈示する呈示手段をさらに設けるようにすることができる。

抽出手段により抽出された重要メタデータまたは不要メタデータを記憶する記憶手段をさらに設けるようにすることができる。

本発明の情報処理方法は、複数のコンテンツのうちの少なくとも１つに対応付けられるＮ個（Ｎは1以上の整数値）のメタデータを基底として、複数のコンテンツのうちのＭ個（Ｍは１以上の整数値）のコンテンツのそれぞれをベクトル化し、その結果得られるＭ個のベクトルを列成分または行成分とする行列をメタデータ行列として生成する行列生成ステップと、行列生成ステップの処理により生成されたメタデータ行列に対して特異値分解を施すことで、メタデータ行列の近似行列を生成する近似行列生成ステップと、行列生成ステップの処理により生成されたメタデータ行列と、近似行列生成ステップの処理により生成された近似行列との差異に基づいて、Ｎ個のメタデータのそれぞれについて、対応するメタデータの重要度を示す指標値を演算する指標値演算ステップと、指標値演算ステップの処理により演算されたＮ個の指標値に基づいて、Ｎ個のメタデータの中から少なくとも１つを、重要度が高い重要メタデータまたは重要度が低い不要メタデータとして抽出する抽出ステップとを含むことを特徴とする。

本発明のプログラムは、コンピュータに実行させるプログラムであって、複数のコンテンツのうちの少なくとも１つに対応付けられるＮ個（Ｎは1以上の整数値）のメタデータを基底として、複数のコンテンツのうちのＭ個（Ｍは１以上の整数値）のコンテンツのそれぞれをベクトル化し、その結果得られるＭ個のベクトルを列成分または行成分とする行列をメタデータ行列として生成する行列生成ステップと、行列生成ステップの処理により生成されたメタデータ行列に対して特異値分解を施すことで、メタデータ行列の近似行列を生成する近似行列生成ステップと、行列生成ステップの処理により生成されたメタデータ行列と、近似行列生成ステップの処理により生成された近似行列との差異に基づいて、Ｎ個のメタデータのそれぞれについて、対応するメタデータの重要度を示す指標値を演算する指標値演算ステップと、指標値演算ステップの処理により演算されたＮ個の指標値に基づいて、Ｎ個のメタデータの中から少なくとも１つを、重要度が高い重要メタデータまたは重要度が低い不要メタデータとして抽出する抽出ステップとを含むことを特徴とする。

本発明の情報処理装置および方法、並びにプログラムにおいては、複数のコンテンツのうちの少なくとも１つに対応付けられるＮ個（Ｎは1以上の整数値）のメタデータが基底とされて、複数のコンテンツのうちのＭ個（Ｍは１以上の整数値）のコンテンツがベクトル化され、その結果得られるＭ個のベクトルを列成分または行成分とする行列がメタデータ行列として生成される。さらに、このメタデータ行列に対して特異値分解が施されて、メタデータ行列の近似行列が生成される。そして、メタデータ行列と近似行列との差異に基づいて、Ｎ個のメタデータのそれぞれについて、対応するメタデータの重要度を示す指標値が演算され、演算されたＮ個の指標値に基づいて、Ｎ個のメタデータの中から少なくとも１つが、重要度が高い重要メタデータまたは重要度が低い不要メタデータとして抽出される。

以上のごとく、本発明によれば、コンテンツのメタデータを取り扱うことができる。特に、メタデータの共起関係を考慮してメタデータの重要度を示す指標値を演算し、その指標値に基づいて不要メタデータまたは重要メタデータの抽出ができる。これにより、メタデータの共起関係を考慮して、コンテンツ推薦等のメタデータを利用する処理の実現が可能になる。

以下に本発明の実施の形態を説明するが、請求項に記載の構成要件と、発明の実施の形態における具体例との対応関係を例示すると、次のようになる。この記載は、請求項に記載されている発明をサポートする具体例が、発明の実施の形態に記載されていることを確認するためのものである。従って、発明の実施の形態中には記載されているが、構成要件に対応するものとして、ここには記載されていない具体例があったとしても、そのことは、その具体例が、その構成要件に対応するものではないことを意味するものではない。逆に、具体例が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その具体例が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。

さらに、この記載は、発明の実施の形態に記載されている具体例に対応する発明が、請求項に全て記載されていることを意味するものではない。換言すれば、この記載は、発明の実施の形態に記載されている具体例に対応する発明であって、この出願の請求項には記載されていない発明の存在、すなわち、将来、分割出願されたり、補正により追加される発明の存在を否定するものではない。

本発明によれば、情報処理装置が提供される。この情報処理装置（図１の情報処理装置であって、後述する第１実施形態または第２実施形態の情報処理装置）は、複数のコンテンツのうちの少なくとも１つに対応付けられるＮ個（Ｎは1以上の整数値）のメタデータ（例えば、図４の各単語であって、具体的には例えば、“京都”，“豆腐”，“温泉”，“紅葉”，“USB”，“ソフトウエア”）を基底として、複数の前記コンテンツのうちのＭ個（Ｍは１以上の整数値）のコンテンツ（例えば、図４の文章d1乃至d5）をベクトル化し、その結果得られるＭ個のベクトルを列成分または行成分とする行列（例えば、図４の行列Ｄ）をメタデータ行列として生成する行列生成手段（例えば、図１（図２または図７）の行列生成部１８）と、前記行列生成手段により生成された前記メタデータ行列に対して特異値分解を施すことで、前記メタデータ行列の近似行列（例えば、図５の近似行列Ｄ_k）を生成する近似行列生成手段（例えば、図１（図２または図７）のLSA演算部２０）と、前記行列生成手段により生成された前記メタデータ行列と、前記近似行列生成手段により生成された前記近似行列との差異に基づいて、Ｎ個の前記メタデータのそれぞれについて、対応するメタデータの重要度を示す指標値（例えば、図６の特徴差分）を演算する指標値演算手段（例えば、図１（図２または図７）のメタデータ抽出部２１のうちの、図３のステップＳ４、または、図８のステップＳ２５を実行する部分）と、前記指標値演算手段により演算されたＮ個の前記指標値に基づいて、Ｎ個の前記メタデータの中から少なくとも１つを、重要度が高い重要メタデータまたは重要度が低い不要メタデータとして抽出する抽出手段（例えば、図１（図２または図７）のメタデータ抽出部２１のうちの、図３のステップＳ５とＳ６、または、図８のステップＳ２６を実行する部分）とを備えることを特徴とする。

この情報処理装置において、Ｎ個の前記メタデータのうちの、前記抽出手段により抽出された前記重要メタデータ、または、前記抽出手段により抽出された前記不要メタデータを除くメタデータを利用して、複数のコンテンツの中から、ユーザに推薦すべきコンテンツを１以上決定する推薦手段（例えば、図１（図２または図７）のコンテンツ推薦部２３）と、前記推薦手段により前記ユーザに推薦すべきであると決定された前記コンテンツを、前記ユーザに呈示する呈示手段（例えば、図８のステップＳ３０の処理における、図１（図２または図７）のユーザインタフェース部１１）とをさらに設けるようにすることができる。

この情報処理装置は、前記抽出手段により抽出された前記重要メタデータまたは前記不要メタデータを、ユーザに呈示する呈示手段（例えば、図８のステップＳ２８の処理における、図１（図２または図７）のユーザインタフェース部１１）をさらに設けるようにすることができる。

この情報処理装置は、前記抽出手段により抽出された前記重要メタデータまたは前記不要メタデータを記憶する記憶手段（例えば、図１（図２）のユーザ辞書記憶部１３または一般辞書記憶部１４）をさらに設けるようにすることができる。

本発明によれば、情報処理方法が提供される。この情報処理方法（例えば、図３の「共起関係を考慮した不要メタデータ抽出処理」または図８の「共起関係を考慮した推薦処理」に対応する方法）は、複数のコンテンツのうちの少なくとも１つに対応付けられるＮ個（Ｎは1以上の整数値）のメタデータを基底として、複数の前記コンテンツのうちのＭ個（Ｍは１以上の整数値）のコンテンツのそれぞれをベクトル化し、その結果得られるＭ個のベクトルを列成分または行成分とする行列をメタデータ行列として生成する行列生成ステップ（例えば、図３のステップＳ１（Ｓ２を含んでもよい）または図８のステップＳ２１（Ｓ２２を含んでもよい））と、前記行列生成ステップの処理により生成された前記メタデータ行列に対して特異値分解を施すことで、前記メタデータ行列の近似行列を生成する近似行列生成ステップ（例えば、図３のステップＳ３または図８のステップＳ２３）と、前記行列生成ステップの処理により生成された前記メタデータ行列と、前記近似行列生成ステップの処理により生成された前記近似行列との差異に基づいて、Ｎ個の前記メタデータのそれぞれについて、対応するメタデータの重要度を示す指標値を演算する指標値演算ステップ（例えば、図３のステップＳ４または図８のステップＳ２５）と、前記指標値演算ステップの処理により演算されたＮ個の前記指標値に基づいて、Ｎ個の前記メタデータの中から少なくとも１つを、重要度が高い重要メタデータまたは重要度が低い不要メタデータとして抽出する抽出ステップ（例えば、図３のステップＳ５およびＳ６、または図８のステップＳ２６）とを含むことを特徴とする。

本発明によれば、プログラムが提供される。このプログラムは、上述した本発明の情報処理方法に対応するプログラムであって、例えば、図１９のコンピュータにより実行される。

以上説明したように、本発明においては、コンテンツとそのメタデータとが処理対象になる。

ここで注目すべき点は、本発明におけるコンテンツとメタデータとは、即ち、本発明で処理可能なコンテンツとメタデータとは、一般的に称されるコンテンツとメタデータと比較して広義な概念であるという点である。

即ち、本発明におけるコンテンツとは、一般的にコンテンツと称されているテレビジョン放送番組、映画、写真、楽曲等（動画像、静止画像、若しくは音声、または、それらの組合せ等）の他、文書、商品（物品含）、会話等のユーザが使用可能なソフトウエアまたはハードウエアの全てを指す広い概念である。ただし、コンテンツが物品（ハードウエア）の場合、例えば、その物品が動画像や静止画像等に射影されてデータ化されたものが、コンテンツデータとして使用される。

なお、ここでは、コンテンツとコンテンツデータとを個々に区別する必要がない場合、それらをまとめてコンテンツと称する。

また、本発明におけるメタデータとは次のような情報を指す。即ち、本発明におけるコンテンツとは、上述したように、一般的なコンテンツのみならず、ユーザの私的な文書（例えばメール）等も含まれる。従って、本発明におけるメタデータとは、番組メタデータ等の一般的なメタデータを単に指すのではなく、本発明におけるコンテンツ（幅広い概念のコンテンツ）自身若しくはその一部分、またはそのコンテンツの属性等が単語化された情報（数値も単語化された情報の１つとして捉える）等も指す広い概念である。換言すると、本発明におけるコンテンツの１以上の特徴を示す情報であれば、その情報の全てがメタデータになり得る。

具体的には例えば、コンテンツの中には、上述したテレビジョン放送番組、映画、音楽の他、Webページ、メール、Web掲示板、書籍なども含まれる。

この場合、テレビジョン放送番組のメタデータの種類としては、例えば、放送時間、出演者、スタッフ、ジャンル、チャンネルなどが挙げられる。映画のメタデータの種類としては、例えば、放映時間、出演者、スタッフ、ジャンル、配給元などが挙げられる。音楽のメタデータの種類としては、例えば、アーティスト名、ジャンル、楽器、リズム、ムードなどが挙げられる。Webページのメタデータの種類としては、例えば、作成者、リンク、被リンク、URL(地域etc．)、出現単語などが挙げられる。メールのメタデータの種類としては、送受信者、送受信日時、出現単語などが挙げられる。Web掲示板のメタデータの種類としては、書き込み者、書き込み日時、出現単語などが挙げられる。書籍のメタデータの種類としては、著者、出版社、出版日時、出現単語などが挙げられる。

次に、図面を参照して、以上のような広義のコンテンツとメタデータとを取り扱うことが可能な、本発明が適用される情報処理システムの実施の形態例について説明する。

図１は、本発明が適用される情報処理システムの機能的構成例を示している。

図１に示されるように、この情報処理システムには、ユーザインタフェース部１１乃至情報伝送部２４が設けられている。

ユーザインタフェース部１１は、ユーザがコンテンツを経験するための出力装置と、コンテンツに対する操作をユーザが行うための入力装置とで構成される。具体的には例えば、出力装置としては、ディスプレイやスピーカなどが挙げられる。入力装置としては、キーボード、マウス、リモコン、タッチパネルなどが挙げられる。

ユーザプロファイル記憶部１２は、ユーザが過去に経験したコンテンツへのポインタ(ID番号など)と、それに対する評価などの情報を記憶する。なお、この評価は、ユーザがユーザインタフェース部１１を利用して入力したものである。

従って、他のブロックは、ユーザプロファイル記憶部１２に記憶された各種情報を参照することで、所望のコンテンツをコンテンツ記憶部１７から読み出したり、それに関連付けられたメタデータをメタデータ記憶部１８から読み出すことができる。

ユーザ辞書記憶部１３は、ユーザが経験したコンテンツのメタデータのうちの、頻出メタデータ、重要メタデータ、不要メタデータ等を記憶する。なお、重要メタデータと不要メタデータとの詳細については後述する。また、ユーザ辞書記憶部１３には、ユーザ固有のメタデータに対する重みなどが記憶されることもある。このユーザ辞書記憶部１３においては、ユーザインタフェース部１１、コンテンツ推薦部１６、メタデータ抽出部２２などとの間でデータの授受が行われ、任意の数の任意のデータの追加、削除、および参照のいずれもが自在に可能であるとする。

一般辞書記憶部１４は、ユーザ共通のメタデータを記憶する。例えば、全出現メタデータが一般辞書記憶部１４に記憶されたたり、全ユーザに共通する重要メタデータや不要メタデータが一般辞書記憶部１４に記憶される。また、一般辞書記憶部１４には、ユーザ共通のメタデータに対する重みなどが記憶されることもある。この一般辞書記憶部１４も、ユーザインタフェース部１１、コンテンツ推薦部１６、メタデータ抽出部２２などとの間でデータの授受が行われ、任意の数の任意のデータの追加、削除、および参照のいずれもが自在に可能であるとする。

コンテンツ記憶部１５は、ユーザに提供可能なコンテンツ、即ち例えば、映像、音楽、文章、Web等などを記憶する。コンテンツ記憶部１５の主機能は、コンテンツ推薦部１８からの要求に対して、データをコンテンツ推薦部１８に提供する機能である。コンテンツ記憶部１５に記憶される各コンテンツにはID番号などの識別子が付加されている。また、コンテンツ記憶部１５においては、任意の数の任意のコンテンツの追加、削除、および参照が自在に可能であるとする。

メタデータ記憶部１６は、コンテンツ記憶部１５に記憶されたコンテンツに対応するメタデータを記憶する。なお、メタデータを記憶するとは、メタデータそのものを単に記憶することを指すのではなく、上述したID番号などの識別子で識別可能な各コンテンツに対して任意個数のメタデータが関連付けられており、そのコンテンツにおける各メタデータのそれぞれの頻度やヒューリスティックに決められた重みのそれぞれを記憶することも指す広義な概念である。

以上説明したユーザプロファイル記憶部１２乃至メタデータ記憶部１６のそれぞれは、例えばハードディスク等のメモリの一領域として構成される。

これに対して、次に説明するメタデータ取得部１７乃至コンテンツ推薦部２３のそれぞれは、構成が可能であれば、ソフトウエアで構成してもよいし、ハードウエアで構成してもよいし、或いは、それらの組合せで構成してもよい。

メタデータ取得部１７は、上述したメタデータ記憶部１６に記憶させるべきメタデータを取得し、メタデータ記憶部１６に記憶させる。例えば、コンテンツが文章の場合には、メタデータ取得部１７は、例えば、その文章に登場している単語を抽出し、その単語の出現頻度などを解析し、各単語のそれぞれとそれらの出現頻度とを関連付けてメタデータ記憶部１６に記憶させる。

行列生成部１８は、複数のコンテンツのそれぞれを表す上述したコンテンツベクトルを集積し、各コンテンツベクトルを例えば列成分として有するメタデータ行列を生成する。なお、行列生成部１８では、重み付けなどの処理は行われない。

重み付け処理部１９は、行列生成部１８により生成されたメタデータ行列に対して、TF/IDFなどの各種アルゴリズムによって重み付けを行う。なお、重み付け処理部１９の重み付け処理のタイミングは、特に限定されず、後述するLSA演算部２０のLSA演算処理の前でもよいし後でもよい。

LSA演算部２０は、行列生成部１８により生成されたメタデータ行列、または、重み付け処理部１９により各成分が重み付けされたメタデータ行列に対して、LSA演算を実行する。ここでのLSA演算とは、次の第１の処理乃至第３の処理を指す。

第１の処理とは、特異値分解を実行する処理である。

第２の処理とは、第１の処理の処理結果を利用して射影行列を生成し、その射影行列によって、メタデータ行列の各列成分、即ち、各コンテンツベクトル(群)を概念空間に射影する処理である。

第３の処理とは、第２の処理結果り利用してメタデータ行列の近似行列を生成する処理である。即ち、メタデータ行列に対して次元が適切に圧縮された近似行列を生成する処理が、第３の処理である。

以下、LSA演算についてさらに詳しく説明する。

例えばいま、Ｎ行Ｍ列のメタデータ行列Ｄが、行列生成部１８または重み付け処理部１９からLSA演算部２０に供給されたとする。

この場合、LSA演算部２０は、第１の処理として、Ｎ行Ｍ列のメタデータ行列Ｄに対して特異値分解を施すことで、メタデータ行列Ｄを次の式（１）を満たす成分行列Ｕ，Σ，Ｖのそれぞれに分解する。なお、式（１）において、成分行列ＵはＮ行Ｎ列の左特異ベクトルを、成分行列ＶはＭ行Ｍ列の右特異ベクトルを、成分行列ΣはＮ行Ｍ列の特異行列を、それぞれ示している。また、Ｖ^Tは成分行列Ｖの転置行列を示している。

D ＝ＵΣＶ^T ・・・（１）

ここで、メタデータ行列Ｄのランクをｒ（ｒは、Ｎ，Ｍ以下の整数値）とすると、成分行列Σは、r個の特異値が対角線上の要素として並び、他の要素は全て０の行列となる。また、成分行列Ｕの最初のr個の列成分（左特異ベクトル）が正規直交基底であり、左から順に重要な列成分であるので、k個（kは、ｒより小さい整数値）の左特異ベクトルを使って、各コンテンツベクトルを表現する（射影する）ことで最良の近似ができる。

そこで、LSA演算部２０は、第２の処理のひとつとして、成分行列Ｕの先頭のｋ個の列成分（左特異ベクトル）からなる射影行列（以下、U_kと記述する）、即ち、Ｎ行ｋ列の射影行列U_kを生成する。

次に、LSA演算部２０は、第２の処理のひとつとして、メタデータ行列Ｄの各列成分のそれぞれ、即ち、各コンテンツベクトル（N次元）に対して、この射影行列U_kの転置行列を左から掛けることで、k次元に次元削減された各コンテンツベクトルのそれぞれ（各コンテンツベクトルの近似ベクトルのそれぞれ）を生成する。即ち、LSA演算部２０は、各コンテンツベクトルをｋ次元の概念空間に射影する。換言すると、LSA演算部２０は、第１の処理で射影行列U_kを生成することで、概念空間を生成しているとも言える。

また、LSA演算部２０は、第３の処理のひとつとして、成分行列Ｖについても同様に、最初のk 個の右特異ベクトルを用いるとして、成分行列Ｖの先頭のｋ個の列成分（右特異ベクトル）からなる行列（以下、V_kと称する）、即ち、Ｍ行ｋ列の行列V_kを生成する。

さらに、LSA演算部２０は、第３の処理のひとつとして、成分行列Σの先頭のｋ個の列成分のうちの１行乃至ｋ行までの要素（成分行列Σのうちの、ｋ×ｋ個の要素からなる左上成分）からなる行列（以下、Σ_kと称する）、即ち、ｋ行ｋ列の行列Σ_kを生成する。

そして、LSA演算部２０は、第３の処理のひとつとして、次の式（２）の右辺を演算することで、ランクがkに縮退した近似行列D_kを生成する。なお、式（２）において、Ｖ_k ^Tは成分行列Ｖ_kの転置行列を示している。

D_k＝Ｕ_kΣ_kＶ_k ^T ・・・（２）

以上、LSA演算部２０により実行されるLSA演算について説明した。

メタデータ抽出部２１は、重み付け処理部１９で各成分が重み付けされたメタデータ行列Ｄの各成分値、或いは、LSA演算部２０のLSA演算により生成された近似行列Ｄ_kの各成分値に対して、所定の演算を施し、その演算結果に基づいて、特徴のあるメタデータを抽出しする。メタデータ抽出部２１は、さらに、抽出されたメタデータのID番号などを他のブロックに適宜通知する。

ベクトル演算部２２は、重み付け処理部１９やLSA演算部２０で適切に処理が施されたコンテンツベクトル群を利用して、即ち、メタデータ行列Ｄまたは近似行列Ｄ_kの各列成分のうちの１以上の列成分の集合体を利用して、余弦相関などによるベクトル同士の類似度の演算を行う処理（マッチング処理）や、複数のグループに分類するクラスタリング処理などを実行する。なお、これらの処理の制御は、コンテンツ推薦部２３により行われるとする。

コンテンツ推薦部２３は、重み付け処理部１９で各成分が重み付けされたメタデータ行列Ｄ、或いは、LSA演算部２０のLSA演算により生成された近似行列Ｄ_kを用いて、ベクトル演算部２２に対する適切な処理(上述したマッチング処理やクラスタリング処理)の依頼処理、コンテンツ記憶部１５からの所定のコンテンツの読み出し処理、ユーザインタフェース部１１を介するコンテンツのユーザへの呈示処理などを実行する。

情報伝送部２４は、以上説明したユーザインタフェース部１１乃至コンテンツ推薦部２３のうちの所定のブロックから送信された各種情報を、ユーザインタフェース部１１乃至コンテンツ推薦部２３のうちの適切なブロックに伝送する。

以上、図１を参照して、本発明の情報処理システムについて説明した。

本発明の情報処理システムが、例えば、クライアントとサーバとから構成される場合、図１のユーザインタフェース部１１はクライアントに配置されるが、その他のユーザプロファイル記憶部１２乃至コンテンツ推薦部２３のそれぞれは、サーバ側に配置されてもよいし、クライアント側に配置されても構わない。

具体的には例えば、ユーザインタフェース部１１、並びに、ユーザのプライバシーに関連するユーザプロファイル記憶部１２、および、ユーザ辞書記憶部１３はクライアント側に配置させ、その他の一般辞書記憶部１４乃至コンテンツ推薦部２３はサーバ側に配置させることが可能である。

または例えば、大量の記憶容量を必要とするコンテンツ記憶部１５とメタデータ記憶１６とは、サーバ側に配置させ、その他のブロック、即ち、ユーザインタフェース部１１乃至一般辞書記憶部１４、およびメタデータ取得部１７乃至コンテンツ推薦部２３は、クライアント側に配置させることが可能である。

または例えば、計算負荷を分散するように、ユーザインタフェース部１１乃至コンテンツ推薦部２３のそれぞれは、サーバ側とクライアント側に適切に分散させて配置させることも可能である。

また、この場合、即ち、本発明の情報処理システムが、例えば、クライアントとサーバとから構成される場合、情報伝送部２４には、ネットワークを介する他の情報処理装置との通信を行う通信機器が含まれ、この通信機器が、サーバとクライアントとのそれぞれに設けられる。即ち、サーバとクライアントとは、内蔵する通信機器をそれぞれ利用して、ネットワークを介する通信を相互に行う。

さらに、この場合、情報伝送部２４には、サーバとクラインとのそれぞれの内部に設けられる各種バスが含まれることもある。即ち、クライアント内に、ユーザインタフェース部１１乃至コンテンツ推薦部２３のうちの少なくとも２つのブロックが配置されている場合、これらのブロック間の情報のやり取りは、クライアント内の各種バスを介して行われる。同様に、サーバ内に、ユーザプロファイル記憶部１２乃至コンテンツ推薦部２３のうちの少なくとも２つのブロックが配置されている場合、これらのブロック間の情報のやり取りは、サーバ内の各種バスを介して行われる。

その他例えば、ユーザインタフェース部１１乃至コンテンツ推薦部２３の全てがクライアント側に配置される形態を取ることも可能である。即ち、１台の情報処理装置内に、ユーザインタフェース部１１乃至コンテンツ推薦部２３の全てが配置されてもよい。この場合、情報伝送部２４は例えば、その情報処理装置の内部に設けられる各種バスで構成される。

かかる構成を有する図１の情報処理システムは、上述したように、複数のコンテンツのうちの少なくとも１つに対応付けられるＮ個（Ｎは1以上の整数値）のメタデータを基底として、複数のコンテンツのうちのＭ個（Ｍは１以上の整数値）のコンテンツのそれぞれをベクトル化し、その結果得られるＭ個のベクトルを列成分または行成分とする行列をメタデータ行列Ｄとして生成することができる。さらに、図１の情報処理システムは、そのメタデータに対して、重み付け処理を施したり、LSA演算を施すことができる。これにより、適切に重み付けが施されたメタデータ行列Ｄや、その近似行列Ｄ_kを得ることが可能になる。

従って、図１の情報処理システムは、適切に重み付けが施されたメタデータ行列Ｄや、その近似行列Ｄ_kを利用する様々な処理を施すことができる。例えば、図１の情報処理システムは、上述した従来のコンテンツ推薦処理を実行できるのは勿論こと、さらに、次の第１の処理乃至第５の処理といった、本発明人が発明した処理を実行できる。

即ち、本発明人は、次の第１の処理乃至第５の処理のそれぞれを実行可能な情報処理システムまたは情報処理装置を新たに発明したとも言える。そして、本発明人は、その一実施形態として、図１の構成の情報処理システムを開示したと言える。従って、次の第１の処理乃至第５の処理のそれぞれを実行可能な情報処理システムまたは情報処理装置であれば、その形態は図１の例に限定されないのは言うまでもない。

第１の処理とは、「共起関係を考慮した不要メタデータ抽出処理」である。第２の処理とは、「共起関係を考慮した推薦処理」である。第３の処理とは、「クラスタリングされたUPV（ユーザ嗜好ベクトル）群の差分を利用した推薦処理」である。第４の処理とは、「LSAによるコンテンツの再評価処理」である。第５の処理とは、「LSAと他手法とのハイブリッドによる推薦処理」である。

以下、第１の処理乃至第５の処理の詳細について、その順番に個別に説明していく。即ち、以下、第１の処理乃至第５の処理のそれれぞれを実行する情報処理システムまたは情報処理装置の実施の形態について、その順番に個別に説明していく。なお、以下、第１の処理乃至第５の処理のそれれぞれを実行する情報処理システムまたは情報処理装置の実施の形態のそれぞれを、説明の簡略上、第１実施形態乃至第５実施形態と称する。

（第１実施形態）

はじめに、第１実施形態について説明する。

例えば、コンテンツが文章である場合、そのメタデータとして、その文書に出現する単語の頻度(あるいはそれに応じた適切な重み値)を採用することができる。

この場合、新規の処理対象となる新たな文書が追加されたとき、その新たな文章に出現する各単語のうちのこれまでに出現しなかった新規単語は、新たなメタデータの基底ベクトルとしてメタデータ空間に追加される。

即ち、メタデータ空間の次元数は、これまでに処理対象とされた全文章に出現した単語の種類数と等しくなる。従って、処理対象とされた文章の数が増えれば増えるほど、即ち、ユーザがこれまでに作成または閲覧した文章の数が増えれば増えるほど、メタデータ空間の次元数も増えていく。具体的には、メタデータ空間の次元数は、一般に数千から数万にまでなってしまう。

その結果、その後段の計算、例えばマッチング処理やクラスタリング処理の計算が困難になる問題があった。このとき、従来においても、単語重みに基づく単語数の削減は試みられているが、TF/IDFなどを利用している場合は、メタデータ（単語）の共起関係(あるいは同義性)は考慮されず、削除すべきではない単語が削除されてしまう場合が多々ある、という課題があった。

そこで、この課題を解決するために、本発明人は、上述した第１の処理、即ち、「共起関係を考慮した不要メタデータの抽出処理」を発明した。

この第１の処理は、LSAによって生成された近似行列Ｄ_kを利用する。近似行列Ｄ_kが、共起関係を考慮して生成される行列だからである。ただし、近似行列Ｄ_kと共起関係との関連性については後述する。

以下、図２乃至図６を参照して、第１実施形態の情報処理システムまたは情報処理装置、即ち、「共起関係を考慮した不要メタデータ抽出処理」を実行する情報処理システムまたは情報処理装置について説明する。

図２は、第１実施形態の情報処理システムまたは情報処理装置の機能的構成例を表している。

換言すると、図１のユーザインタフェース部１１乃至コンテンツ推薦部２３の全ブロックの中から「共起関係を考慮した不要メタデータの抽出処理」の実行に必要なブロックが抽出され、それらのブロックが、「共起関係を考慮した不要メタデータの抽出処理」の実行時の情報の流れに従って並べられた図が、図２である。従って、図２に示される各ブロックの説明については、図１を参照して上述しているので、ここでは省略する。

なお、図２の例では省略されているが、実際には、２つのブロックを結ぶ各矢印内には、即ち、２つのブロックの間には、図１の情報伝送部２４が配置されることになる。

図３は、「共起関係を考慮した不要メタデータ抽出処理」の例を説明するフローチャートである。そこで、以下、図３のフローチャートを参照して、「共起関係を考慮した不要メタデータ抽出処理」の例について説明する。

なお、この「共起関係を考慮した不要メタデータ抽出処理」の理解を容易なものとするために、以下、図４乃至図６を適宜参照しながら説明していく。即ち、図４乃至図６は、「共起関係を考慮した不要メタデータ抽出処理」の処理結果の具体例を示している。

図３のステップＳ１において、行列生成部１８は、メタデータ行列Ｄを生成する。

詳細には、ステップＳ１において、行列生成部１８は、ユーザが経験済みの１以上のコンテンツへのそれぞれのポインタ(ID番号など)をユーザプロファイル記憶部１２から取得する。次に、行列生成部１８は、各ポインタのそれぞれが付されたメタデータ、即ち、ユーザが経験済みの各コンテンツのそれぞれに対応するメタデータをメタデータ記憶部１６から取得し、取得されたメタデータを基底ベクトルとして、ユーザが経験済みの各コンテンツのそれぞれをベクトル化する。これにより、ユーザが経験済みの各コンテンツのそれぞれに対応するコンテンツベクトルが生成される。そして、行列生成部１８は、各コンテンツベクトルのそれぞれを列成分とするメタデータ行列Ｄを生成する。

なお、ステップＳ１の処理で集積されるメタデータは、１ユーザが経験済みのコンテンツに対応するメタデータの他、全コンテンツに対応するメタデータでもよいし、複数のユーザが経験済みのコンテンツに対応するメタデータでもよい。ただし、メタデータ取得処理の処理対象となるコンテンツに応じて、後述するステップＳ６の不要メタデータの登録先が異なることになる。

ステップＳ２において、重み付け処理部１９は、所定の重み付け手法を利用して、ステップＳ１の処理で行列生成部１８により生成されたメタデータ行列Ｄに対して、重み付けを行う。

ステップＳ２の処理で利用される重み付け手法は、上述したように、特に限定されず、TF/IDFを利用する手法、正規化TFを利用する手法、あるいはコンテンツまたはメタデータごとに時間経過などを反映したヒューリスティックな重み付けを行う手法等が採用可能である。

ただし、ここでは例えば、コンテンツとして５つの文章d1乃至d5が処理対象とされ、メタデータとして、文書ｄ1乃至文章d5に出現する単語が採用されており、重み付け手法として、文章内の単語頻度をそのまま重み値とする手法が採用されているとする。

具体的には、例えば、文章d1においては、“京都”，”豆腐”，”温泉”，”紅葉”，”USB”，”ソフトウエア”，”価格”のそれぞれの単語の頻度が、３，４，１，０，０，０，１のそれぞれであったとする。文章d2においては、“京都”，”豆腐”，”温泉”，”紅葉”，”USB”，”ソフトウエア”，”価格”のそれぞれの単語の頻度が、１，０，３，３，０，０，１のそれぞれであったとする。文章d3においては、“京都”，”豆腐”，”温泉”，”紅葉”，”USB”，”ソフトウエア”，”価格”のそれぞれの単語の頻度が、４，１，０，０，０，０，２のそれぞれであったとする。文章d4においては、“京都”，”豆腐”，”温泉”，”紅葉”，”USB”，”ソフトウエア”，”価格”のそれぞれの単語の頻度が、０，１，０，４，０，０，０のそれぞれであったとする。文章d5においては、“京都”，”豆腐”，”温泉”，”紅葉”，”USB”，”ソフトウエア”，”価格”のそれぞれの単語の頻度が、０，０，０，０，２，１，１のそれぞれであったとする。

この場合、ステップＳ２の処理の結果、図４に示されるような、重み付けがなされたメタデータ行列Ｄが生成されることになる。即ち、ステップＳ２の処理の結果、文章d1乃至d5の各コンテンツベクトル（頻度による重み付けがなされたコンテンツベクトルであり、いわゆる特徴ベクトルである）のそれぞれを、１列目乃至５列目のそれぞれの列成分とする７行５列のメタデータ行列Ｄが生成されることになる。

なお、文章d1のコンテンツベクトル（“京都”，”豆腐”，”温泉”，”紅葉”，”USB”，”ソフトウエア”，”価格”）とは（3,4,1,0,0,0,1）である。文章d2のコンテンツベクトルとは（1,0,3,3,0,0,1）である。文章d3のコンテンツベクトルとは（4,1,0,0,0,0,2）である。文章d4のコンテンツベクトルとは（0,1,0,4,0,0,0）である。文章d5のコンテンツベクトルとは（0,0,0,0,2,1,1）である。

図３に戻り、ステップＳ３において、LSA演算部２０は、ステップＳ２の処理で重み付け処理部１９により適切な重み付けがなされたメタデータ行列Ｄに対して、LSA演算を実行する。

なお、ここでは、ステップＳ３の処理として、LSA演算のうちの第１の処理と第３の処理が実行されて、その結果、適切に次元圧縮された近似行列Ｄ_kが生成される。

具体的にはいまの場合、図４の行列Ｄに対して、ステップＳ３の処理が施されると、例えば、２次元に圧縮された図５に示される近似行列Ｄ_kが生成される。

即ち、ステップＳ３の処理の結果、次のように更新された文章d1乃至d5の各コンテンツベクトルのそれぞれを、１列目乃至５列目のそれぞれの列成分とする７行５列の近似行列Ｄ_kが生成されることになる。

即ち、文章d1の更新されたコンテンツベクトルとは（3．6999,2．6836,0．7968,0．1194,0．0846,0．0423,1．6540）である。文章d2の更新されたコンテンツベクトルとは（0．8301,0．8297,1．6489,3．5394,0．0168,0．0084,0．6448）である。文章d3の更新されたコンテンツベクトルとは（3．2099,2．3044,0．5377,-0．2633,0．0736,0．0368,1．4063）である。文章d4の更新されたコンテンツベクトルとは（0．0886,0．2855,1．4478,3．4166,-0．0001,-0．0001,0．3057）である。文章d5の更新されたコンテンツベクトルとは（0．2824,0．2058,0．0674,0．0249,0．0064,0．0032,0．1275）である。

図３に戻り、メタデータ抽出部２１は、ステップＳ４において、ステップＳ３の処理でLSA演算部２０により演算された近似行列Ｄ_kを用いて、各メタデータの特徴差分のそれぞれを演算する。

特徴差分とは、メタデータ行列Ｄと近似行列Ｄ_kとの差異（変化）を利用して生成される、メタデータの重要度の指標値を指す。

以下、この特徴差分についてさらに詳しく説明する。

例えば、図５の近似行列Ｄ_kの例では、”↑↑”といった２つの上向きの矢印は、図４のメタデータ行列Ｄに比較して１以上重み値（成分値）が増加した成分であることを示している。同様に、”↑”といった１つの上向きの矢印は、図４のメタデータ行列Ｄに比較して0．5以上重み値が増加した成分であることを示している。

ここで、近似行列Ｄ_kの成分値が、メタデータ行列Ｄのそれよりも増加する意味について説明する。

即ち、所定のコンテンツ内での所定のメタデータの重要度は本来高いものであるにも係らず、各コンテンツにまたがるメタデータの共起性が考慮されずに生成されたメタデータ行列Ｄの時点では重要度は低いとみなされ、その結果、メタデータ行列Ｄの対応する成分値が低い値となっている場合がある。

この場合、近似行列Ｄ_kが生成されると、そのコンテンツ内でのそのメタデータの本来の高い重要度が浮き彫りになり、その結果、近似行列Ｄ_kの対応する成分値は高い値に更新されるのである。

なぜならば、近似行列Ｄ_kは、概念空間において主成分として重要で無いとされた(特異値が小さかった)基底成分が削減されて再演算された結果得られ行列だからである。即ち、近似行列Ｄ_kとは、各コンテンツにまたがるメタデータの共起性が考慮されて各成分値が更新された行列だからである。

以上の内容が、近似行列Ｄ_kの成分値が、メタデータ行列Ｄのそれよりも増加する意味である。

また例えば、図５の近似行列Ｄ_kの例では、”↓↓”といった２つの下向き矢印は、図４のメタデータ行列Ｄに比較して１以上重み値が減少した成分であることを示している。同様に、”↓”といった１つ下向きの矢印は、図４のメタデータ行列Ｄに比較して0．5以上重み値が減少した成分であることを示している。

ここで、近似行列Ｄ_kの成分値が、メタデータ行列Ｄのそれよりも減少する意味について説明する。

即ち、所定のコンテンツ内での所定のメタデータの重要度は本来低いものであるにも係らず、各コンテンツにまたがるメタデータの共起性が考慮されずに生成されたメタデータ行列Ｄの時点では重要度は高いとみなされ、その結果、メタデータ行列Ｄの対応する成分値が高い値となっている場合がある。

この場合、近似行列Ｄ_kが生成されると、そのコンテンツ内でのそのメタデータの本来の低い重要度が浮き彫りになり、その結果、近似行列Ｄ_kの対応する成分値は低い値に更新されるのである。

以上の内容が、近似行列Ｄ_kの成分値が、メタデータ行列Ｄのそれよりも減少する意味である。

このように、メタデータ行列Ｄと近似行列Ｄ_kとの差異（変化）とは、各コンテンツにまたがるメタデータの共起性が考慮される前と後とにおける、メタデータの重要度の捉え方の差異を表現していると言える。

従って、メタデータ行列Ｄと近似行列Ｄ_kとの差異（変化）を利用することで、メタデータの重要度の指標値、即ち、メタデータの特徴差分を演算することが可能になるのである。

換言すると、メタデータの特徴差分の演算手法は、メタデータ行列Ｄと近似行列Ｄ_kとの差異（変化）を利用する手法であれば特に限定されず、様々な手法を適用することができる。

例えば、メタデータの特徴差分は、次の第１の特徴差分演算手法乃至第３の特徴差分演算手法により算出可能である。

第１の特徴差分演算手法とは、近似行列Ｄ_kの成分値自身を利用して特徴差分を演算する手法である。近似行列Ｄ_kの成分値自身を利用することも、メタデータ行列Ｄと近似行列Ｄ_kとの差異（変化）を利用していると言えるからである。

具体的には、メタデータ行列Ｄと近似行列Ｄ_kとのそれぞれにおいて、所定のメタデータは１つの行に対応する。例えば、上述した図４のメタデータ行列Ｄと図５の近似行列Ｄ_kとの例では、“京都”というメタデータ（単語）は、１行目に対応する。即ち、所定の行の各成分値のそれぞれは、各コンテンツ（文章）のそれぞれについての、その行に対応するメタデータの重み値を指す。例えば、上述した図４のメタデータ行列Ｄと図５の近似行列Ｄ_kとの例では、１行目の各成分値のそれぞれは、文章d1乃至d5のそれぞれについての、“京都”というメタデータ（単語）の重み値を指す。

従って、例えば、Ｎ個のメタデータとＭ個のコンテンツからメタデータ行列Ｄが生成されている場合、即ち、メタデータ行列ＤがＮ行Ｍ列の行列である場合、Ｎ個のメタデータのそれぞれを、処理の対象として注目すべきメタデータ（以下、注目メタデータと称する）として順次設定し、注目メタデータを示す行のＭ個の成分値の平均値または最大値を演算し、即ち、注目メタデータのＭ個のコンテンツについての各重み値の平均値または最大値を演算し、その演算結果を注目メタデータの特徴差分とするという手法が、第１の特徴差分演算手法の一例である。

第２の特徴差分演算手法とは、近似行列Ｄ_kの各成分の値のそれぞれと、メタデータ行列Ｄの対応する成分の値との差分値のそれぞれを利用して特徴差分を演算する手法である。

具体的には例えば、メタデータ行列ＤがＮ行Ｍ列の行列である場合、Ｎ個のメタデータのそれぞれを注目メタデータとして順次設定し、近似行列Ｄ_kのうちの注目メタデータを示す行のＭ個の成分値のそれぞれと、メタデータ行列Ｄのうちの対応する成分値との差分値のそれぞれを演算し、演算されたＭ個の差分値の平均値または最大値を演算し、その演算結果を注目メタデータの特徴差分とするという手法が、第２の特徴差分演算手法の一例である。

所定の成分値がLSA演算により増加した場合、即ち、所定の成分において、近似行列Ｄ_kよりもメタデータ行列Ｄの方が大きい値となっている場合、その成分についての、近似行列Ｄ_kとメタデータ行列Ｄとの差分値は、当然ながら正値となる。

以上の内容と、成分値がLSA演算により増加する上述した意味とを考慮すると、結局、第２の特徴差分演算手法により演算される注目メタデータの特徴差分が正値になることとは、注目メタデータは、各コンテンツにまたがるメタデータの共起性が考慮された結果、重要であると判断されたことと等価である。正確には、正値になることとは、注目メタデータの本来の高い重要度が浮き彫りになったことと等価である。

また、正値になることの理由と逆の理由で、第２の特徴差分演算手法により演算される注目メタデータの特徴差分が負値になることとは、そのメタデータは、各コンテンツにまたがるメタデータの共起性が考慮された結果、重要度が低いと判断されたことと等価である。正確には、負値になることとは、注目メタデータの本来の低い重要度が浮き彫りになったことと等価である。

具体的には例えば、図５の近似行列Ｄ_kを用いて、第２の特徴差分演算手法により演算された特徴差分の演算結果が図６に示されている。より正確には、“京都”、“豆腐”，“温泉”，“紅葉”，“USB”，“ソフトウエア”，“価格”のそれぞれの単語を注目メタデータとして順次設定し、図５の近似行列Ｄ_kのうちの注目メタデータを示す行の５個の成分値、即ち、文章d1乃至d5における注目メタデータの重み値のそれぞれと、図４のメタデータ行列Ｄのうちの対応する成分値との差分値のそれぞれを演算し、これら５個の差分値の平均値を注目メタデータの特徴差分として演算した場合の、その演算結果が図６に示されている。

詳細には、図６に示されるように、“京都”の特徴差分は0．0222になる。また、“豆腐”，“温泉”，“紅葉”，“USB”，“ソフトウエア”，“価格”のそれぞれの特徴差分は、0．0618,0．0997,-0．326,-0．3638,-0．1819,-0．1723のそれぞれになる。

従って、“京都”，“豆腐”，“温泉”のそれぞれは、文章d1乃至d5にまたがる単語の共起性が考慮された結果、重要度が高いと判断された、正確には、本来の高い重要度が浮き彫りになったと言える。

これに対して、“紅葉”，“USB”，“ソフトウエア”，“価格”のそれぞれは、文章d1乃至d5にまたがる単語の共起性が考慮された結果、重要度が低いと判断された、正確には、本来の低い重要度が浮き彫りになったと言える。

より具体的には、図６の各メタデータの特徴差分から次のことがわかる。即ち、他の文書とは関連の薄い文章d5にのみ出現する”USB”や”ソフトウエア”といった、お互いを除き他の単語との関連が薄い単語の重要度は非常に低くなる（重みが大きく下がる）ことがわかる。また、“価格”といった、どの文章にも出現しやすい一般的な単語の重要度も低くなる（重みが下がる）ことがわかる。これに対して、“温泉”や”豆腐”といった、文書を特徴づけ、かつ似たような文書が複数あるような単語の重要度は高くなる（重みが大きくなる）ことがわかる。

以上、第２の特徴差分演算手法について説明した。次に、第３の特徴差分演算手法について説明する。

第３の特徴差分演算手法とは、近似行列Ｄ_kの各成分の値のそれぞれを、メタデータ行列Ｄの対応する成分の値で除算した除算値のそれぞれを利用して特徴差分を演算する手法である。

具体的には例えば、メタデータ行列ＤがＮ行Ｍ列の行列である場合、Ｎ個のメタデータのそれぞれを注目メタデータとして順次設定し、近似行列Ｄ_kのうちの注目メタデータを示す行のＭ個の成分値のそれぞれを、メタデータ行列Ｄのうちの対応する成分値で除算した除算値のそれぞれを演算し、演算されたＭ個の除算値の平均値または最大値を演算し、その演算結果を注目メタデータの特徴差分とするという手法が、第３の特徴差分演算手法の一例である。

所定の成分値がLSA演算により増加した場合、即ち、所定の成分において、近似行列Ｄ_kよりもメタデータ行列Ｄの方が大きい値となっている場合、その成分についての、近似行列Ｄ_kに対するメタデータ行列Ｄの除算値は、当然ながら１より大きくなる。

以上の内容と、成分値がLSA演算により増加する上述した意味とを考慮すると、結局、第３の特徴差分演算手法により演算される注目メタデータの特徴差分が１より大きくなることとは、注目メタデータは、各コンテンツにまたがるメタデータの共起性が考慮された結果、重要であると判断されたことと等価である。正確には、１より大きくなることとは、注目メタデータの本来の高い重要度が浮き彫りになったことと等価である。

また、１より大きくなることの理由と逆の理由で、第２の特徴差分演算手法により演算される注目メタデータの特徴差分が１より小さくなることとは、注目メタデータは、各コンテンツにまたがるメタデータの共起性が考慮された結果、重要度が低いと判断されたことと等価である。正確には、１より小さくなることとは、注目メタデータの本来の低い重要度が浮き彫りになったことと等価である。

以上、図３のステップＳ４におけるメタデータの特徴差分の演算手法の例として、第１の特徴差分演算手法乃至第３の特徴差分演算手法について説明した。

このようにして、ステップＳ４の処理により各メタデータの特徴差分のそれぞれが演算されると、処理はステップＳ５に進む。

ステップＳ５において、メタデータ抽出部２１は、メタデータの特徴差分が閾値以下であるか否かを判定する。

各メタデータの特徴差分の全てが閾値を超えている場合、ステップＳ５でＮＯであると判定されて、処理は終了となる。

これに対して、各メタデータの特徴差分の中に閾値以下の特徴差分が１つでも存在する場合、ステップＳ５でＹＥＳであると判定されて、処理はステップＳ６に進む。

ステップＳ６において、メタデータ抽出部２１は、不要メタデータの登録や呈示を行う。詳細には、ステップＳ６において、メタデータ抽出部２１は、閾値以下の特徴差分を有するメタデータを不要メタデータであると特定し、不要メタデータをメタデータ記憶部１６から抽出する。そして、メタデータ抽出部２１は、抽出された不要メタデータを、ユーザ辞書記憶部１３または一般辞書記憶部１４に登録（記憶）させたり、ユーザインタフェース部１１を介してユーザに呈示する。これにより、「共起関係を考慮した不要メタデータ抽出処理」は終了となる。

このように、ステップＳ５の処理で利用される閾値は、各メタデータのそれぞれを不要メタデータに分類するか否かを判定するために、各メタデータの特徴差分のそれぞれと比較される値である。即ち、閾値を超える特徴差分を有するメタデータとは、不要メタデータには分類されない重要度の高いメタデータである。これに対して、閾値未満の特徴差分を有するメタデータとは、不要メタデータに分類される重要度の低いメタデータである。

従って、この閾値は、上述したステップＳ４の処理に採用される特徴差分演算手法に応じて異なる値になることが多い。

例えば、差分値を使用する上述した第２の特徴差分演算手法が採用されている場合には、閾値として例えば０未満の値を設定すると好適である。具体的には例えば、閾値として-0．1が設定された場合、上述した図６の例では、”USB”，”ソフトウエア”，”価格”が不要メタデータとして抽出されることになる。

これに対して、例えば、除算値を使用する上述した第３の特徴差分演算手法が採用されている場合には、閾値として例えば１未満の値を設定すると好適である。

以上、図２乃至図６を参照して、第１実施形態の情報処理システムまたは情報処理装置、即ち、「共起関係を考慮した不要メタデータ抽出処理」を実行する情報処理システムまたは情報処理装置について説明した。

第１実施形態においては、近似行列Ｄ_kや、近似行列Ｄ_kと元のメタデータ行列Ｄとの差異などを利用することによって、潜在的な意味レベルでのメタデータ間の関連性（共起関係）を考慮した重み付けがなされる。その結果、特徴差分といった、共起関係を考慮した重要度の指標値が得られる。

従って、このような共起関係を考慮した重要度の指標値（重み値）を利用することで、一見他と関係のないようなメタデータや、一見他と関係があるようで実際には関連性が低いメタデータを発見し、それに基づいた取捨選択が可能となる。

即ち、一見他と関係のないようなメタデータであるが、本来重要度の高いメタデータを、不要メタデータに誤分類してしまうことを防止することが可能になる。また、一見他と関係があるようで実際には関連性が低いメタデータ、即ち、一見重要度が高そうで実際には重要度が低いメタデータを、不要メタデータに確実に分類することが可能になる。

（第２実施形態）

次に、第２実施形態について説明する。

従来のコンテンツの推薦では、メタデータの共起関係は考慮されずに、単にTF/IDFによるメタデータ行列Ｄにおける重みか、あるいはLSAによってメタデータ行列Ｄが次元圧縮された結果得られる近似行列Ｄ_kにおける重みが使われており、いずれの方法でも既知の(ユーザが経験した、あるいは高い評価を与えた)ものに類似したコンテンツの推薦しか実現できなかった、という課題があった。

そこで、この課題を解決するために、本発明人は、上述した第２の処理、即ち、「共起関係を考慮した推薦処理」を発明した。

この第２の処理は、LSAによって生成された近似行列Ｄ_k、または、第１実施形態で説明したメタデータの特徴差分を利用する。上述したように、近似行列Ｄ_kは、メタデータの共起関係を考慮して生成される行列だからであり、メタデータの特徴差分は、そのメタデータについての共起関係を考慮した重要度の指標値だからである。

以下、この第２の処理の概略について説明する。

第２実施形態の情報処理システムまたは情報処理装置（以下、第２の処理の概略の説明においては、単に装置と称する）は、とあるコンテンツ(列ベクトル)に着目したときに、特徴差分または近似行列Ｄ_kの成分値に基づいて、コンテンツ推薦に使用するメタデータを１以上抽出する。

詳細には、上述したように、特徴差分が大きいメタデータは、元のメタデータ行列Ｄではそれほど重みが大きくなかったものの、他のメタデータとの共起関係を考慮すると重要であると判断されたメタデータ（以下、重要メタデータと称する）である。従って、ここで言う重要メタデータとは、ユーザがこれまで気がつかなかった創発性の高いメタデータであると考えられる。

そこで、装置は、例えば特徴差分が大きい上位数個のメタデータを重要メタデータとして抽出することができる。

また、近似行列Ｄ_kのうちの大きな成分値に対応するメタデータもまた、重要メタデータであると言える。

そこで、装置は、例えば、近似行列Ｄ_kの成分値うちの上位数個に対応するメタデータを重要メタデータとして抽出することができる。

或いは、装置は、特徴差分に基づいて重要メタデータを抽出するとともに、近似行列Ｄ_kの成分値に基づいて重要メタデータを抽出することもできる。即ち、コンテンツ推薦に使用する１以上の重要メタデータとして、特徴差分に基づいて抽出された重要メタデータのみを用いてもよいし、近似行列Ｄ_kの成分値に基づいて抽出された重要メタデータのみを用いてもよいし、或いは、特徴差分に基づいて抽出された重要メタデータと、近似行列Ｄ_kの成分値に基づいて抽出された重要メタデータとを組み合わせて用いてもよい。

その後、装置は、このようにして抽出された１以上の重要メタデータそのものを、ユーザがコンテンツを選択するためのきっかけとなる情報として推薦する。或いは、装置は、このようにして抽出された１以上の重要メタデータからなるメタデータ群をひとつのコンテンツ（列ベクトル)とみなして、メタデータ群（列ベクトル）と他のコンテンツ（列ベクトル）とのマッチング処理を行い、そのマッチング処理の結果に基づいて、他のコンテンツを推薦する。

以上、第２の処理、即ち、「共起関係を考慮した推薦処理」の概略について説明した。

次に、図７と図８を参照して、第２実施形態の情報処理システムまたは情報処理装置、即ち、「共起関係を考慮した推薦処理」を実行する情報処理システムまたは情報処理装置について説明する。

図７は、第２実施形態の情報処理システムまたは情報処理装置の機能的構成例を表している。

換言すると、図１のユーザインタフェース部１１乃至コンテンツ推薦部２３の全ブロックの中から「共起関係を考慮した推薦処理」の実行に必要なブロックが抽出され、それらのブロックが、「共起関係を考慮した推薦処理」の実行時の情報の流れに従って並べられた図が、図７である。従って、図７に示される各ブロックの説明については、図１を参照して上述しているので、ここでは省略する。

なお、図７の例では省略されているが、実際には、２つのブロックを結ぶ各矢印内には、即ち、２つのブロックの間には、図１の情報伝送部２４が配置されることになる。

図８は、「共起関係を考慮した推薦処理」の例を説明するフローチャートである。そこで、以下、図８のフローチャートを参照して、「共起関係を考慮した推薦処理」の例について説明する。

図８のステップＳ２１乃至Ｓ２３のそれぞれは、上述した図３のステップＳ１乃至Ｓ３のそれぞれと基本的に同様の処理である。従って、ステップＳ２１乃至Ｓ２３の処理の説明については省略する。

ただし、ステップＳ２１の処理で生成されるメタデータ行列Ｄの中に、ユーザの経験と無関係なコンテンツ（コンテンツベクトル）が多く含まれれば含まれるるほど、ステップＳ２３の処理の結果得られる近似行列Ｄ_kは、ユーザ特有のメタデータの共起関係の偏りが薄まった行列となり、一般的な意味での共起関係が考慮された行列となる。従って、このような近似行列Ｄ_kの各成分値、或いは、このような近似行列Ｄ_kから得られる特徴差分に基づいて、後述するステップＳ２６の処理で重要メタデータとして抽出されるメタデータは、ユーザにとっての創発性は低下したメタデータとなるので、その点注意を要する。即ち、ユーザにとっての創発性が高いメタデータの抽出を所望する場合、ステップＳ２１の処理で生成されるメタデータ行列Ｄの中に、ユーザの経験済みのコンテンツ（コンテンツベクトル）を可能な限り多く含めるとよい。

ステップＳ２３の処理でLSA演算部２０により近似行列Ｄ_kが生成されると、処理はステップＳ２４に進む。

ステップＳ２４において、LSA演算部２０は、メタデータ抽出部２１により実行される後述するステップＳ２６の処理において、特徴差分を利用するか否かを判定する。

LSA演算部２０は、ステップＳ２４において、特徴差分を利用すると判定した場合、ステップＳ２５において、各メタデータの特徴差分を演算する。なお、ステップＳ２５の処理は、上述した図３のステップＳ４の処理と基本的に同様の処理である。従って、ステップＳ２５の処理の詳細については省略する。

その後、近似行列Ｄ_kと各メタデータの特徴差分とが、LSA演算部２０からメタデータ抽出部２１に供給されると、処理はステップＳ２６に進む。

これに対して、ステップＳ２４において、特徴差分を利用しないと判定された場合、近似行列Ｄ_kのみがLSA演算部２０からメタデータ抽出部２１に供給されて、処理はステップＳ２６に進む。

ステップＳ２６において、メタデータ抽出部２１は、近似行列Ｄ_kの成分値と、各メタデータの特徴差分とのうちの少なくとも一方を利用して、推薦に利用するメタデータ、即ち、重要メタデータを１以上特定し、特定された１以上の重要メタデータをメタデータ記憶部１６から抽出する。

ステップＳ２６における重要メタデータの抽出手法（特定手法）は、特に限定されないが、例えば、次のような抽出手法が採用可能である。

即ち、例えば、近似行列Ｄ_kの全列成分、即ち、全コンテンツベクトルの平均ベクトル、あるいはユーザが指定する特定のコンテンツベクトルにおいて、最も高い成分値に対応するメタデータ(または高い方から任意個数のメタデータ)を重要メタデータとして抽出する、といった抽出手法を適用することが可能である。要約すると、近似行列Ｄ_kの成分値を利用する抽出手法を適用することが可能である。

また、例えば、最も高い特徴差分を有するメタデータ(または高い方から任意個数のメタデータ)を重要メタデータとして抽出する、即ち、重み値が上昇したメタデータを重要メタデータとして抽出する、といった抽出手法を適用することが可能である。要約すると、特徴差分を利用する抽出手法を適用することが可能である。

具体的には、例えばいま、上述したステップＳ２１乃至Ｓ２３の処理で、第１実施形態で説明した図４のメタデータ行列Ｄが生成され、かつ、図５の近似行列Ｄ_kが生成されたとする。また、ステップＳ２５の処理で、図５の近似行列Ｄ_kと図４のメタデータ行列Ｄとの差分値を利用する上述した第２の特徴差分演算手法により、図６の各メタデータの特徴差分が演算されたとする。

この場合、ステップＳ２６の処理で、例えば、0．05以上の特徴差分を有するメタデータが重要メタデータとして抽出されるとすれば、”豆腐”と”温泉”とが抽出されることになる。

メタデータ抽出部２１により抽出された１以上の重要メタデータがコンテンツ推薦部２３に供給されると、処理はステップＳ２７に進む。

ステップＳ２７において、コンテンツ推薦部２３は、コンテンツの推薦を行うか否かを判定する。

ステップＳ２７において、コンテンツの推薦を行わないと判定された場合、処理はステップＳ２８に進む。

ステップＳ２８において、コンテンツ推薦部２３は、ステップＳ２６の処理でメタデータ抽出部２１により抽出された１以上の重要メタデータを、ユーザインタフェース部１１を介してユーザに呈示する。

これにより、「共起関係を考慮した推薦処理」は終了となる。

これに対して、ステップＳ２７において、コンテンツの推薦を行うと判定された場合、処理はステップＳ２９に進む。正確には、コンテンツ推薦部２３は、ステップＳ２７において、コンテンツの推薦を行うと判定した場合、ステップＳ２６の処理でメタデータ抽出部２１により抽出された１以上の重要メタデータをベクトル演算部２２に供給するとともに、マッチング処理の依頼を行うことで、処理はステップＳ２９に進む。

ステップＳ２９において、ベクトル演算部２２は、ステップＳ２６の処理でメタデータ抽出部２１により抽出された１以上の重要メタデータからなるメタデータ群を用いて、コンテンツのマッチング処理を行う。即ち、ステップＳ２９において、ベクトル演算部２２は、このメタデータ群を１つのコンテンツ（コンテンツベクトル）とみなし、それと、コンテンツ記憶部１５に記憶されている他のコンテンツ（コンテンツベクトル）との類似度を演算し、もっとも類似度の高いコンテンツ(または高い方から任意個数のコンテンツ)を選択し、コンテンツ推薦部２３に供給する。

すると、ステップＳ２８において、コンテンツ推薦部２３は、ステップＳ２９の処理でベクトル演算部２２により選択された1以上のコンテンツの推薦を行う。即ち、ステップＳ２８において、コンテンツ推薦部２３は、１以上のそれらのコンテンツのメタデータ（或いは、そのメタデータや関連情報）をユーザインタフェース部１１を介してユーザに呈示する。

以上、図７と図８を参照して、第２実施形態の情報処理システムまたは情報処理装置、即ち、「共起関係を考慮した推薦処理」を実行する情報処理システムまたは情報処理装置について説明した。

第２実施形態においては、近似行列Ｄ_kが得られ、その近似行列Ｄ_kや、その近似行列Ｄ_kと元のメタデータ行列Ｄとの差異などを利用することによって、潜在的な意味レベルでのメタデータ間の関連性（共起関係）を考慮した重み付けがなされる。即ち、メタデータの共起関係を考慮した近似行列Ｄ_kが得られる。その結果、メタデータについての共起関係を考慮した重要度の指標値である特徴差分も得られる。

従って、このような共起関係を考慮した近似行列Ｄ_kの成分値や、共起関係を考慮した重要度の指標値（重み値）を利用することで、一見他と関係のないようなメタデータや、一見他と関係があるようで実際には関連性が低いメタデータを発見し、それに基づいた取捨選択が可能となる。

即ち、一見他と関係のないようなメタデータであるが、本来重要度の高いメタデータとは、上述したように、ユーザがこれまで気がつかなかった創発性の高いメタデータ、即ち、重要メタデータであると考えられる。従って、このような重要メタデータに基づいて推薦されるコンテンツも、ユーザがこれまで気がつかなかった創発性の高いコンテンツであると考えられる。

なお、以上説明した第１実施形態や第２実施形態の情報処理システムまたは情報処理装置は、データマイニングや文書分類などの分野における、Feature Selectionなどと呼ばれる属性(メタデータ)の選別処理にも適用可能である。即ち、メタデータの共起関係を考慮した属性(メタデータ)の選別処理の実現も容易に可能である。

（第３実施形態）

次に、第３実施形態について説明する。

従来、ベクトル空間法をベースにしたコンテンツ推薦システムのユーザ嗜好ベクトル(User Preference Vector：UPV)の生成手法として、ユーザが高評価を与えたコンテンツ群のコンテンツベクトルの平均によりUPVを生成する生成手法が採用されていることが多い。このような生成手法で生成されたUPVは、ユーザの多様な嗜好をなまらせたベクトルとなっており、このようなUPVを用いてコンテンツの推薦を行っても、幅のある推薦が難しいという課題があった。また、高い評価を与えたコンテンツ群を複数のグループにクラスタリングしてたとえバラエティを出したとしても、やはりユーザがまったく経験したことの無いようなコンテンツの推薦は困難であるという課題があった。

そこで、この課題を解決するために、本発明人は、上述した第３の処理、即ち、「クラスタリングされたUPV群の差分を利用した推薦処理」を発明した。

以下、この第３の処理の概略について説明する。

第３実施形態の情報処理システムまたは情報処理装置（以下、第３の処理の概略の説明においては、単に装置と称する）は、メタデータ空間あるいは概念空間において、ユーザが高評価を与えたコンテンツベクトルを、所定のアルゴリズムを用いて複数のクラスタ（グループ）にクラスタリングする。

装置は、各クラスタのそれぞれについて、対応するクラスタに属する１以上のコンテンツベクトルの平均などにより代表となるベクトル（以下、代表ベクトルと称する）を求め、さらに、各クラスタの代表ベクトル同士の差分ベクトル（以下、差分UPVと称する）を生成する。

即ち、第３実施形態における各グループの代表ベクトルからなるベクトル群とは、クラスタリングされた従来のUPV群である。即ち、各クラスタの代表ベクトル同士の差分ベクトルとは、クラスタリングされた従来のUPV群の差分により生成されるベクトルを指す。従って、以下、各クラスタの代表ベクトル同士の差分ベクトルを、差分UPVと称する。

装置は、差分UPVを利用してコンテンツのマッチング処理を行い、そのマッチング処理の結果に基づいて、コンテンツの推薦を行う。

ここで注目すべき点は、差分UPVとは、コンテンツベクトルの平均（従来のUPV）では表れなかった(計算し得なかった)嗜好を表すベクトルである点である。従って、差分UPVを利用することで、ユーザがこれまで気がつかなかったコンテンツの推薦が可能になる。

以上、第３の処理、即ち、「クラスタリングされたUPV群の差分を利用した推薦処理」の概略について説明した。

次に、図９と図１０を参照して、第３実施形態の情報処理システムまたは情報処理装置、即ち、「クラスタリングされたUPV群の差分を利用した推薦処理」を実行する情報処理システムまたは情報処理装置について説明する。

図９は、第３実施形態の情報処理システムまたは情報処理装置の機能的構成例を表している。

換言すると、図１のユーザインタフェース部１１乃至コンテンツ推薦部２３の全ブロックの中から「クラスタリングされたUPV群の差分を利用した推薦処理」の実行に必要なブロックが抽出され、それらのブロックが、「クラスタリングされたUPV群の差分を利用した推薦処理」の実行時の情報の流れに従って並べられた図が、図９である。従って、図９に示される各ブロックの説明については、図１を参照して上述しているので、ここでは省略する。

なお、図９の例では省略されているが、実際には、２つのブロックを結ぶ各矢印内には、即ち、２つのブロックの間には、図１の情報伝送部２４が配置されることになる。

図１０は、「クラスタリングされたUPV群の差分を利用した推薦処理」の例を説明するフローチャートである。そこで、以下、図１０のフローチャートを参照して、「クラスタリングされたUPV群の差分を利用した抽出処理」の例について説明する。

図１０のステップＳ４１とＳ４２のそれぞれは、上述した図３のステップＳ１とＳ２のそれぞれと基本的に同様の処理である。従って、ステップＳ４１とＳ４２の処理の説明については省略する。

例えばいま、ステップＳ４１とＳ４２の処理で重み付けがなされたｎ行ｍ列のメタデータ行列Ｄとして、ユーザ評価が高いコンテンツベクトルを集めた行列Aが生成されたとする。なお、以下、行列Aの各列成分、即ち、各コンテンツベクトルをai(i=0,1,・・・,m-1)と記述する。即ち、行列Aは、次の式（３）で示される。

A = ( a0, a1, ・・・ , am-1) ・・・（３）

この場合、ステップＳ４３において、LSA演算部２０は、この式（３）で示されるメタデータ行列Ａに対して、LSA演算を実行する。

ただし、第３実施形態のステップＳ４３の処理では、LSA演算のうちの第１の処理と第２の処理が実行される。

具体的には例えば、上述した式（１）で示されるように、行列Aは、特異値分解により３つの成分行列Ｕ，Σ，Ｖのそれぞれに分解される。

次に、成分行列Ｕがk次元に圧縮され、その結果、射影行列U_kが得られる。即ち、射影行列U_kとは、成分行列Ｕのうちの、特異値の大きい方からk個の列成分（列ベクトル）のみを残し、それ以外の成分が0である行列を指す。

その結果、射影行列U_kによって行列Aが概念空間に射影される。なお、その結果得られる行列を、例えば、行列Ｂと記述するとする。この場合、射影行列U_kによって行列Aが概念空間に射影されるとは、次の式（４）に従った演算がなされたことを指す。なお、式（４）において、行列U_k ^Tは、射影行列U_kの転置行列を表している。

B = U_k ^TA ・・・（４）

また、行列Ｂの各列成分（列ベクトル）をbi(i=0,1,・・・,m-1)と記述するとする。この場合、行列Bは、次の式（５）で表される。

B = ( b0, b1, ・・・ , bm-1) ・・・（５）

この列ベクトルbiが、k次元に圧縮されたコンテンツベクトル、即ち、概念空間に射影されたコンテンツベクトルである。

即ち、ステップＳ４３の処理では、概念空間に射影された各コンテンツベクトルbiが得られることになる。なお、以下、概念空間に射影された各コンテンツベクトルbiの集合体、即ち、行列Ｂを、概念空間に射影されたコンテンツベクトル群と称する。

そこで、ステップＳ４４において、ベクトル演算部２２は、ステップＳ４３のLSA演算部２０の処理により概念空間に射影されたコンテンツベクトル群のクラスタリングを行う。即ち、ステップＳ４４において、ベクトル演算部２２は、概念空間に射影された各コンテンツベクトルbiのそれぞれを、所定のアルゴリズムを利用して、任意の数の任意の種類のクラスタのうちのいずれかに分類する。

このように、ステップＳ４４の処理を実行するベクトル演算部２２は、クラスタリング部２２であると言える。そこで、図９のLSA演算部２０の下方に示されるベクトル演算部２２は、クラスタリング部２２と括弧書きで示されているのである。

具体的には例えばいま、ステップＳ４４において、概念空間に射影された各コンテンツベクトルbiのそれぞれが、s個のクラスタのうちのいずれかに分類されたとする。

次に、ステップＳ４５において、ベクトル演算部２２は、代表ベクトル（UPV）をそれぞれ生成する。即ち、いまの場合、ステップＳ４５において、ベクトル演算部２２は、ｓ個のクラスタのそれぞれについて、対応するクラスタに属する１以上のコンテンツベクトルbiの平均ベクトルを生成し、その平均ベクトルを代表ベクトル(UPV)とする。

なお、以下、この代表ベクトルを、cj'( j = 0,1,・・・,s-1)と記述するとする。

ステップＳ４６において、ベクトル演算部２２は、代表ベクトル(UPV)同士の差分である差分UPVを生成する。即ち、ステップＳ４６において、ベクトル演算部２２は、ｓ個のクラスタの代表ベクトルcj'のうちの所定の２個の組み合わせの差分を求めることで、１つの差分ベクトルを生成する。

なお、このような２個のクラスタの組の組み合せ数は、クラスタの個数sに応じて異なるが、クラスタの個数sが３以上の場合、当然ながら複数になる。従って、この場合、仮に全ての組み合わせの組について、差分UPVがそれぞれ生成されるとすると、複数の差分UPVが生成されることになる。

具体的には例えばいまの場合、ステップＳ４６の処理で、次の式（６）の右辺が演算され、ベクトルd'p,qのそれぞれが、各差分UPVとして生成されることになる。なお、式（６）において、p,q = 0,1,・・・,s-1である。ただしp≠qである。

d'p,q = c'p - c'q ・・・（６）

なお、差分UPVを生成するための２つの代表ベクトルの組は、全ての組合せを利用する必要は特になく、任意の数の任意の組合せを利用すればよい。いずれにしても、ステップＳ４６の処理で１以上の差分UPVが生成されることになる。そこで、以下、１以上の差分UPVを、差分UPV群とする。即ち、ステップＳ４６の処理で差分UPV群が生成されることになる。

また、ステップＳ４６の処理としてさらに、ベクトル演算部２２は、概念空間の第１主成分(特異値分解によって最も高い特異値とペアとなるベクトル基底値)の値が高い順などの所定の規則に従って、差分UPV群に属する各差分UPVのそれぞれの順序付けをすることもできる。

ベクトル演算部２２は、差分UPV群を生成すると、その旨コンテンツ推薦部２３に通知する。その後、コンテンツ推薦部２３からマッチング処理の依頼がベクトル演算部２２に通知されると、処理はステップＳ４７に進む。

ステップＳ４７において、ベクトル演算部２２は、ステップＳ４６の処理で生成された差分UPV群を利用して、コンテンツのマッチング処理を行う。

即ち、ステップＳ４７において、ベクトル演算部２２は、差分UPV群に属する各差分UPVのそれぞれと、コンテンツ記憶部１５に記憶されている他のコンテンツ（コンテンツベクトル）との類似度を演算し、もっとも類似度の高いコンテンツ(または高い方から任意個数のコンテンツ)を選択し、コンテンツ推薦部２３に供給する。

具体的には例えばいまの場合、差分UPV群には、各ベクトルd'p,q ( p,q = 0,1,・・・,s-1、ただしp≠q )が属しているので、ステップＳ４７の処理で、全てのp,qについて(あるいは順位付けされていれば上位の数個について)、対応するベクトルd'p,qと新たなコンテンツベクトルとの類似度が演算される。

なお、ステップＳ４４の処理を実行するベクトル演算部２２に対して、このステップＳ４７の処理を実行するベクトル演算部２２は、マッチング部２２であると言える。そこで、図９のコンテンツ推薦部２３の右隣に示されるベクトル演算部２２は、マッチング部２２と括弧書きで示されているのである。

ステップＳ４８において、コンテンツ推薦部２３は、ステップＳ４７の処理でベクトル演算部２２により選択された1以上のコンテンツの推薦を行う。即ち、ステップＳ４８において、コンテンツ推薦部２３は、１以上のそれらのコンテンツ（或いは、そのメタデータや関連情報）をユーザインタフェース部１１を介してユーザに呈示する。

これにより、「クラスタリングされたUPV群の差分を利用した推薦処理」は終了となる。

以上、図９と図１０を参照して、第３実施形態の情報処理システムまたは情報処理装置、即ち、「クラスタリングされたUPV群の差分を利用した推薦処理」を実行する情報処理システムまたは情報処理装置について説明した。

第３実施形態においては、次のような効果を奏することが可能になる。即ち、従来においては、上述したように、UPVは、ユーザ評価の高いコンテンツベクトルの平均などから生成される。従って、そのようなUPVと類似度の高いコンテンツは必然的にユーザが経験したコンテンツに似たものになり、コンテンツ推薦のバリエーションが狭いという課題があった。これに対して、第３の実施形態においては、差分UPVを利用したマッチング処理の結果に基づいてコンテンツ推薦が行われるので、ユーザが経験したことが無く、かつユーザの好みをある程度反映したコンテンツの推薦ができる、という効果を奏することが可能になる。

なお、第３実施形態のこの効果は、メタデータ空間における差分UPVを利用するよりも、概念空間における差分UPVを利用した方がより顕著になる。以下、その理由について説明する。なお、理解を容易なものとするために、上述した図１０のフローチャートに示される各ステップを適宜参照しながら説明していく。

射影前のメタデータ空間においては、即ち、ステップＳ４３の処理の前においては、例えば文書における単語頻度などを利用してメタデータ行列Ｄが生成されている場合、その列成分、即ち、コンテンツベクトルの負のベクトル要素（負の成分値であり、以下、負要素と称する）は意味を持たない。

従って、メタデータ空間においては、コンテンツベクトル群がクラスタリングされ、各クラスタの代表ベクトル（UPV）が生成され、代表ベクトル同士の差分がとられたとしても、その結果得られる差分UPVとコンテンツ（コンテンツベクトル）とのマッチング処理では、負要素は情報として利用できない

これに対して、ステップＳ４３の処理後においては、即ち、特異値分解によりメタデータ空間が射影された結果得られる概念空間においては、上述したように、各コンテンツベクトルは、負要素を持つようになる。

従って、概念空間においては、上述したステップＳ４４乃至Ｓ４６の結果得られた差分UPVがステップＳ４７のマッチング処理で利用される場合、負要素を含めた全ての要素が有効になる。

具体的には例えば、ステップＳ４４の処理で、概念空間においてユーザの好みによりクラスタリングが行われ、第１の好みを示すクラスタの代表ベクトルc1ではe1,e2,e3という概念基底で高い重みがついており、第１の好みとは別の第２の好みを示すクラスタの代表ベクトルc2ではe2,e3,e4という概念基底で高い重みがついているとする。なお、説明の簡略上、e1乃至e4の重み値（成分値）は全て正値とする。

なお、概念基底とは、概念空間を張る基底を指し、具体的には例えば、メタデータ行列Ｄを上述した式（１）に従って特異値分解したときの成分行列Uの各列成分（列ベクトル）を指す。

この場合、代表ベクトルc1と代表ベクトルc2の差分UPVであるベクトル(c1-c2)においては、概念基底e1の正の高い重み値と、概念基底e4の負の高い重み値とが残る。即ち、概念基底e2と概念基底e3においては、高い重み値と高い重み値との差分が取られた結果、両者の重み値は相殺しあって、その重み値の絶対値は、概念基底e1，e4の重み値の絶対値に比較して遥かに低い値になる。

従って、ステップＳ４７において、このような概念空間における差分UPVにマッチするコンテンツとは、概念基底e1に射影されるメタデータに高い重みがあり、かつ概念基底e4に関して負方向に射影されるメタデータに高い重みがあるものであると言える。概念基底e4に負方向に射影されるメタデータは、概念基底e1乃至e4の正方向に射影されるメタデータと何かしらの関連があったとしても、ユーザが経験したコンテンツには付加されていない可能性がある。このため、概念基底e4に負方向に射影されるメタデータもマッチング処理の対象に加えることで、ユーザの新たな興味の触発を図ることが可能なコンテンツ推薦を行うことが可能になる。

以上の内容が、メタデータ空間における差分UPVよりも概念空間における差分UPVの方が、第３実施形態の上述した効果がより顕著になる理由である。

（第４実施形態）

次に、第４実施形態について説明する。

従来においても、ユーザ評価値を利用したコンテンツの推薦が行われている。例えば、P． Resnick, N． Iacovou, M． Suchak, P． Bergstrom, and J． Riedl． “GroupLens: Open Architecture for Collaborative Filtering of Newnews．” Conference on Computer Supported Cooperative Work, pp． 175-186, 1994．などには、協調フィルタリングとユーザ評価値とを利用したコンテンツの推薦の手法が開示されている。また、特開2002-269143号公報には、LSAとユーザ評価値とを利用したコンテンツの推薦の手法が開示されている。

しかしながら、これらの手法では、異なるユーザ間の評価の類似性を単に利用しているだけであり、１ユーザ内での同じような傾向を持つコンテンツに対する評価の時間的な変化と、その把握内容とは考慮されていない。このため、このような手法で推薦されるコンテンツは現在のユーザの嗜好に必ずしも適したものではない、という課題があった。

そこで、この課題を解決するために、本発明人は、上述した第４の処理、即ち、「LSAによるコンテンツの再評価処理」を発明した。

以下、この第４の処理の概略について説明する。

例えばいま、ユーザの経験したコンテンツ（新規コンテンツ）が増え、それに伴い、第４実施形態の情報処理システムまたは情報処理装置（以下、第４の処理の概略の説明においては、単に装置と称する）が、新規コンテンツのコンテンツベクトルを元のメタデータ行列Ｄに加えることでメタデータ行列Ｄを更新し、更新後のメタデータ行列Ｄの近似行列Ｄ_kを生成したとする。即ち、近似行列Ｄ_kが更新されたとする。

この場合、更新前の近似行列Ｄ_kに含まれていたコンテンツベクトル（列成分）の成分は、更新後の近似行列Ｄ_kにおいてはその成分値が変化することになる。

そこで、第４実施形態においては、メタデータの他にユーザの評価値も基底として有するコンテンツベクトルが利用され、このようなコンテンツベクトルからメタデータ行列Ｄが生成される。

その後、ユーザの経験したコンテンツ（新規コンテンツ）が増え、新規コンテンツに対するユーザの評価値も入力された場合、装置は、新規コンテンツを、そのメタデータとユーザの評価値とを基底としてベクトル化する。これにより、新規コンテンツのコンテンツベクトルが生成される。そして、装置は、新規コンテンツのコンテンツベクトルを元のメタデータ行列Ｄに加えることでメタデータ行列Ｄを更新し、更新後のメタデータ行列Ｄの近似行列Ｄ_kを生成する。即ち、近似行列Ｄ_kが更新される。

この場合、上述したように、新規コンテンツのコンテンツベクトルの評価値（更新後のメタデータ行列Ｄの対応する成分値）によって、新規コンテンツと類似する既存のコンテンツの評価値（更新後の近似行列Ｄ_kの対応する評価値）も変化することになる。

換言すると、装置は、近似行列Ｄ_kを、新規コンテンツのコンテンツベクトルを含むように更新することで、既存のコンテンツの再評価（評価値の更新）を行っていると言える。

このような既存のコンテンツの再評価により、かつてはユーザ推薦対象の基準値に達していなかったコンテンツの評価値がLSA実行後に基準値に達する場合がでてくる。このような場合、装置は、LSA実行後に基準値に達した評価値を有するコンテンツ自身またはそれと類似するコンテンツをユーザに推薦することができる。即ち、装置は、過去においては推薦の対象外であったコンテンツ、即ち、過去においては推薦されずに切り捨てられていたたコンテンツの中から、現在のユーザの嗜好にあった推薦を行うことが可能となる。換言すると、嗜好の時間変化への対応が可能となる。

以上、第４の処理、即ち、「LSAによるコンテンツの再評価処理」の概略について説明した。

次に、図１１と図１２を参照して、第４実施形態の情報処理システムまたは情報処理装置、即ち、「LSAによるコンテンツの再評価処理」を実行する情報処理システムまたは情報処理装置について説明する。

図１１は、第４実施形態の情報処理システムまたは情報処理装置の機能的構成例を表している。

換言すると、図１のユーザインタフェース部１１乃至コンテンツ推薦部２３の全ブロックの中から「LSAによるコンテンツの再評価処理」の実行に必要なブロックが抽出され、それらのブロックが、「LSAによるコンテンツの再評価処理」の実行時の情報の流れに従って並べられた図が、図１１である。従って、図１１に示される各ブロックの説明については、図１を参照して上述しているので、ここでは省略する。

なお、図１１の例では省略されているが、実際には、２つのブロックを結ぶ各矢印内には、即ち、２つのブロックの間には、図１の情報伝送部２４が配置されることになる。

図１２は、「LSAによるコンテンツの再評価処理」の例を説明するフローチャートである。そこで、以下、図１２のフローチャートを参照して、「LSAによるコンテンツの再評価処理」の例について説明する。

なお、この「LSAによるコンテンツの再評価処理」の理解を容易なものとするために、以下、図１３乃至図１６を適宜参照しながら説明していく。即ち、図１３乃至図１６は、「LSAによるコンテンツの再評価処理」の処理結果の具体例を示している。

ここでは例えば、図１３乃至図１６に示されるように、コンテンツとして楽曲が処理対象とされ、メタデータとして、その楽曲の特徴量が採用されているとする。具体的には例えば、図１３乃至図１６に示されるように、“テンポ”，“明るさ”，“緩急”，“音量”，“音の密度”といった５つの特徴量が採用されているとする。また、コンテンツベクトルの基底は、これらの５つの特徴量の他に、音楽に対するユーザの評価値である“評価”が加えられているとする。即ち、図１３乃至図１６に示されるように、ここでは、コンテンツベクトルとは、（“テンポ”，“明るさ”，“緩急”，“音量”，“音の密度”，“評価”）といった形式のベクトルとなる。

また、４つの楽曲t1乃至t4が処理対象となる「LSAによるコンテンツの再評価処理」が過去に行われ、その際に、図１３のメタデータ行列D0が生成され、また、そのメタデータ行列D0がLSA演算により２次元に圧縮された結果として、図１４の近似行列D0_kが生成されたとする。

図１３に示されるように、メタデータ行列D0とは、楽曲t1乃至t4の各コンテンツベクトルのそれぞれを、１列目乃至４列目のそれぞれの列成分とする６行４列の行列である。楽曲t1のコンテンツベクトルとは（3,4,1,1,1,2）である。楽曲t2のコンテンツベクトルとは（1,1,3,3,１,3）である。楽曲t3のコンテンツベクトルとは（1,1,1,4,3,4）である。楽曲t4のコンテンツベクトルとは（1,1,3,1,2,1）である。

また、図１４に示されるように、近似行列D0_kとは、次のように更新された楽曲t1乃至楽曲t4の各コンテンツベクトルのそれぞれを、１列目乃至４列目のそれぞれの列成分とする６行４列の行列である。楽曲t1の更新されたコンテンツベクトルとは（2．9829,3．9135,1,1460,0．9474,1．3666,1．8780）である。楽曲t2の更新されたコンテンツベクトルとは（1．0413,1．0535,1．8432,3．2809,1．1293,3．2931）である。楽曲t3の更新されたコンテンツベクトルとは（0．9531,0．8869,2．0439,3,7325,1．1950,3．6664）である。楽曲t4の更新されたコンテンツベクトルとは（1．0503,1．2953,0．7850,1．1136,0．6536,1．3586）である。

その後、ユーザは、新規楽曲t5を視聴し、図１１のユーザインタフェース部１１を利用して新規楽曲t5の評価を行ったとする。この場合、新規楽曲t5のIDと評価値とはユーザプロファイル記憶部１２に記憶され、新規楽曲t5のメタデータ、即ち、新規楽曲t5についての“テンポ”，“明るさ”，“緩急”，“音量”，“音の密度”はメタデータ記憶部１６に記憶される。

そして、それに伴い、図１２の「LSAによるコンテンツの再評価処理」が開始されたとする。

この場合、ステップＳ６１とＳ６２において、図３のステップＳ１とＳ２と同様の処理が実行されて、例えば図１５に示されるようなメタデータ行列Ｄが行列生成部１８により生成される。

詳細には例えば、楽曲t5のコンテンツベクトルとして（4,2,1,1,1,5）が生成され、その楽曲t5のコンテンツベクトルが、図１３のメタデータ行列D0に付加されて、図１５のメタデータ行列Dが生成される。

このようにして、ステップＳ６１とＳ６２の処理により、楽曲t1乃至t5の各コンテンツベクトルのそれぞれを、１列目乃至５列目のそれぞれの列成分とする６行５列の行列が、メタデータ行列Dとして生成される。このメタデータ行列Dが重み付け処理部１９からLSA演算部２０に供給されると、処理はステップＳ６３に進む。

図１２に戻り、ステップＳ６３において、LSA演算部２０は、図１５のメタデータ行列Ｄに対して、LSA演算を実行する。

いまの場合、ステップＳ６３の処理として、LSA演算のうちの第１の処理と第３の処理が実行されて、その結果、例えば、２次元に圧縮された図１６に示される近似行列Ｄ_kが生成される。

即ち、いまの場合、ステップＳ６３の処理の結果、次のように更新された楽曲t1乃至楽曲t5の各コンテンツベクトルのそれぞれを、１列目乃至５列目のそれぞれの列成分とする６行５列の近似行列Ｄ_kが生成されることになる。

即ち、楽曲t1の更新されたコンテンツベクトルとは（3．3622,2．9437,0．7306,0．4177,0．9981,2．8258）である。楽曲t2の更新されたコンテンツベクトルとは（1．0252,0．7929,1．8142,3．2245,1．0748,3．4327）である。楽曲t3の更新されたコンテンツベクトルとは（1．0908,0．8379,2．0166,3．5988,1．1854,3．7918）である。楽曲t4の更新されたコンテンツベクトルとは（1．0652,0．9030,0．6816,1．0083,0．5341,1．6224）である。楽曲t5の更新されたコンテンツベクトルとは（3．6087,3．1206,1．3746,1．5976,1．3572,3．9869）である。

この図１６の近似行列ＤｋがLSA演算部２０からコンテンツ推薦部２３に供給されると、処理はステップＳ６４に進む。

ステップＳ６４において、コンテンツ推薦部２３は、各コンテンツの評価値の判定を行う。そして、ステップＳ６５において、コンテンツ推薦部２３は、その判定結果に基づいてコンテンツの推薦を行う。これにより、「LSAによるコンテンツの再評価処理」は終了となる。

なお、ステップＳ６４のコンテンツの評価値の判定手法は、特に限定されず様々な判定手法を採用可能である。例えば、各コンテンツベクトルのそれぞれについて、近似行列Dk中の“評価”成分が次の第１の条件乃至第３の条件を満たした場合、対応するコンテンツをユーザに推薦すべであると判定する、といった判定手法が採用可能である。さらに、この判定手法を基にして、ユーザの時間的な嗜好の変化の度合いを考慮し、あまり直近に経験したコンテンツが推薦されないようにある程度古いコンテンツに重みを付ける、といった判定手法が採用可能である。

なお、第１の条件とは、近似行列D_k中の“評価”成分の値が、もとのメタデータ行列Dの対応する成分値よりも大きくなった、という条件を指す。

第２の条件とは、近似行列D_k中の“評価”成分の値が、所定の閾値より大きくなったという条件を指す。

第３の条件とは、近似行列D_k中の“評価”成分の値から演算される上述した特徴差分、または、近似行列D_k中の評価値成分の値と、もとのメタデータ行列Dの対応する成分値との差分値若しくは除算値から演算される上述した特徴差分が、所定の閾値より大きいという条件を指す。

具体的には例えばいまの場合、第２の条件が採用され、閾値として2．5が設定されているとする。この場合、近似行列Dk中の“評価”成分の値が2．5より大きいコンテンツ（楽曲）は、楽曲t1，楽曲t2，楽曲t3，楽曲t5である。従って、ステップＳ６４において、楽曲t1，楽曲t2，楽曲t3，楽曲t5が推薦すべきコンテンツであると判定され、ステップＳ６５において、楽曲t1，楽曲t2，楽曲t3，楽曲t5の推薦が行われるのである。

ここで注目すべき点は次の点である。

即ち、例えば楽曲t1に着目すると、図１３に示されるように、この楽曲t1の元の評価値、即ち、“評価”成分の値は２と低い値になっている。また、楽曲t1は、楽曲t2乃至t4と特に類似しているわけではないため、図１４に示されるように、LSA演算により更新された後の楽曲t1の“評価”成分の値も1．8780と、閾値2．5より小さい値になっている。従って、ユーザが新規楽曲t5を視聴する前においては、この楽曲t1は推薦されなかった。

ところが、その後、ユーザが新規楽曲t5を視聴したところその新規楽曲t5に高い評価を与えており、即ち、図１５に示されるように、楽曲t5の“評価”の成分値は５と高い値となっており、また、この楽曲t5は、楽曲t1乃至t4の中では楽曲t1に最も類似している。従って、この楽曲t5を含む図１５のメタデータ行列Ｄに対してLSA演算が施されると、楽曲t5の高い評価値によって、メタデータ（音楽特徴量）の関連性に基づいて、楽曲t5と類似している楽曲t1の“評価”の成分値も2．8258と高い値に更新される。従って、上述したように、かつて低い評価が与えられていたために推薦されなかった（推薦が忘れられていた可能性が高い）楽曲t1が、最近のユーザの興味に基づいて、即ち、楽曲t5へのユーザの高評価に基づいて、再度ユーザに推薦することが可能になる、という点である。

以上説明したように、第４実施形態においては、近似行列Ｄ_kが、新規コンテンツのコンテンツベクトルを含むように更新されることで、既存のコンテンツの再評価（評価値の更新）が行われる。これにより、過去においては推薦の対象外であったコンテンツ、即ち、過去においては推薦されずに切り捨てられていたたコンテンツの中から、現在のユーザの嗜好にあった推薦を行うことが可能となる。換言すると、嗜好の時間変化への対応が可能となる。

（第５実施形態）

次に、第５実施形態について説明する。

上述したように、コンテンツのコンテンツベクトルは、メタデータを基底とするベクトルである。コンテンツベクトルの基底として多数のメタデータを使用すると、当然ながら性質が異なるメタデータが混在することが多々ある。例えば、その性質上、他からは影響を受けないメタデータが存在する等、他に与える影響の度合い、或いは、他から受ける影響の度合いが異なるメタデータが混在することが多々ある。

しかしながら、従来のコンテンツの推薦では、これらのメタデータの性質の違い、例えば、他に与える影響の度合いや他から受ける影響の度合いは考慮しておらず、その結果、ユーザにとって適切なコンテンツを必ずしも推薦できていない、という課題があった。

例えば、メタデータの重み付けに使用する各種アルゴリズム（重み付け手法）は、全性質のメタデータに適している訳ではなく、ある性質のメタデータには適しているが、別の性質のメタデータには適していないという場合が大半である。しかしながら、従来においては、性質の違いによらず、全メタデータに対して同一のアルゴリズムが使用されて重み付けがなされており、そのような重み付けがなされたメタデータを利用してコンテンツの推薦が行われた場合、そのコンテンツは、ユーザにとって必ずしも適しているとは限らない、という課題があった。

そこで、この課題を解決するために、本発明人は、上述した第５の処理、即ち、「LSAと他手法とのハイブリッドによる推薦処理」を発明した。

以下、この第５の処理の概略について説明する。

上述したように、メタデータがその特性によって何種類かに分類できて、各種類毎に、適切な重み付けアルゴリズムがそれぞれ異なる場合がある。

このような場合、第５実施形態の情報処理システムまたは情報処理装置（以下、第５の処理の概略の説明においては、単に装置と称する）は、マッチングに使用する行列の重み付け処理を、メタデータの種類毎に個別に実行する。

装置は、このようにして重み付けがなされた行列を利用して、コンテンツのマッチング処理を行う。これにより、従来に比較してより適切なマッチング処理が可能となる。

また、装置は、２以上のアルゴリズム毎に、対応するアルゴリズムにより計算された成分値に所定の係数を乗じて重み付けを変えることもできる。

例えば、コンテンツが電子メールとされ、メタデータとしては、電子メール内の単語、送受信時間帯、やり取りした相手、場所が採用されているとする。この場合、装置は、例えば、これらのメタデータのうちの、電子メール内の単語を第１の種類に分類し、それ以外の３要素、即ち、送受信時間帯、やり取りした相手、場所を第２の種類に分類する。

次に、装置は、メタデータ行列を生成し、それを、第１の種類のメタデータに対応する成分からなる第１の部分行列と、第２の種類のメタデータに対応する成分からなる第２の部分行列とに区分する。

次に、装置は、例えば、第１の部分行列に対しては、TF/IDFなど一般の重み付けアルゴリズムで重み付けを行う重み付け処理を実行する一方、第２の部分行列に対しては、例えばLSAなどの第２の重み付けアルゴリズムで重み付け処理を実行する。なお、このときのアルゴリズムの組み合わせは、この例に限定されず、任意の組み合わせでいいことは言うまでもない。

そして、装置は、このように異なるアルゴリズムで重み付けされた第１の部分行列と第２の部分行列を合成し、その結果得られる行列（以下、近似合成行列と称する）を利用してマッチング処理を行う。

以上、第５の処理、即ち、「LSAと他手法とのハイブリッドによるによる推薦処理」の概略について説明した。

なお、以下、上述した送受信時間帯、やり取りした相手、場所等のメタデータを、コンテクストと称する。即ち、本明細書においては、コンテクスト(context)とは、ユーザの内的状態および外的状態の全てを指す。ユーザの内的状態とは、ユーザの体調、または、情動（気分や心理状態）等を指す。また、ユーザの外的状態とは、ユーザの空間的または時間的な配置位置（時間的な配置位置とは、例えば、現在時刻を指す）の他、ユーザの周囲の空間方向若しくは時間方向に分布する（または、いずれの方向にも分布する）所定の状態も指す。

次に、図１７と図１８を参照して、第５実施形態の情報処理システムまたは情報処理装置、即ち、「LSAと他手法とのハイブリッドによる推薦処理」を実行する情報処理システムまたは情報処理装置について説明する。

図１７は、第５実施形態の情報処理システムまたは情報処理装置の機能的構成例を表している。

換言すると、図１のユーザインタフェース部１１乃至コンテンツ推薦部２３の全ブロックの中から「LSAと多手法とのハイブリッドによる推薦処理」の実行に必要なブロックが抽出され、それらのブロックが、「LSAと多手法とのハイブリッドによる推薦処理」の実行時の情報の流れに従って並べられた図が、図１７である。従って、図１７に示される各ブロックの説明については、図１を参照して上述しているので、ここでは省略する。

なお、図１７の例では省略されているが、実際には、２つのブロックを結ぶ各矢印内には、即ち、２つのブロックの間には、図１の情報伝送部２４が配置されることになる。

図１８は、「LSAと他手法とのハイブリッドによる推薦処理」の例を説明するフローチャートである。そこで、以下、図１８のフローチャートを参照して、「LSAと多手法とのハイブリッドによる推薦処理」の例について説明する。

ここでは例えば、第１の種類のメタデータ群M1と、第１の種類とは異質な第２の種類のメタデータ群M2とが採用され、かつ、メタデータ群M1とメタデータ群M2のうちの一方から他方へは影響を与えるが、その逆方向への影響は無いとされているとする。例えばここでは、影響の与え方の方向は、メタデータ群M2からメタデータ群M1に向かう方向とされているとする。

具体的には例えば、コンテンツとして楽曲が処理対象とされた場合には、その楽曲の特徴量がメタデータ群M2として採用可能であり、また、ユーザがコンテンツを経験する場所、時間、状況、感情などのコンテクストがメタデータ群M1として採用可能である。なぜならば、特徴量とコンテクストとは当然ながら異質なものであり、かつ、コンテクストが音楽の印象（特徴量）に影響しても、音楽（特徴量）がコンテクストに直接作用することは無いからである。

また、全メタデータのうちの、メタデータ群M1に分類される種類がｓ種類存在し、メタデータ群M2に分類される種類がt種類存在するとする。そして、処理の対象のコンテンツがｎ個存在するとする。即ち、ｎ個のコンテンツのそれぞれについて、ｓ＋ｔ個のメタデータが付与されているとする。

この場合、図１８のステップＳ８１の行列生成部１８の処理の結果、メタデータ行列Ｄとして、次の式（７）に示される行列Ａが生成されることになる。

・・・（７）

式（７）において、m1u,v（u=0乃至s-1，v=0乃至n-1）は、v番目のコンテンツに付加されたメタデータであって、メタデータ群M１に分類されるｓ種類のメタデータのうちの、u番目のメタデータに対応する成分値を示している。また、m2w,x（w=0乃至t-1，x=0乃至n-1）は、x番目のコンテンツに付加されたメタデータであって、メタデータ群M2に分類されるｔ種類のメタデータのうちの、w番目のメタデータに対応する成分値を示している。

ステップＳ８２において、行列生成部１８は、メタデータ行列を２つの部分行列に区分する。即ち、いまの場合、ステップＳ８２において、行列生成部１８は、式（７）の最右辺に示されるように、部分行列Mt1と部分行列Mt2に区分する。

部分行列Mt1とは、行列Aのうちの上からｓ行分の行列成分から構成される行列、即ち、m1u,v（u=0乃至s-1，v=0乃至n-1）を成分値として有する行列である。従って、部分行列Mt1は、s行ｎ列の行列になる。

これに対して、部分行列Mt2とは、行列Aのうちの下からｔ行分の行列成分から構成される行列、即ち、m2w,x（w=0乃至t-1，x=0乃至n-1）を成分値として有する行列である。従って、部分行列Mt2は、t行ｎ列の行列になる。

ステップＳ８３において、重み付け処理部１９は、２つの部分行列のそれぞれに対して重み付けをそれぞれ実行する。

ステップＳ８４において、LSA演算部２０は、２つの部分行列のうちの少なくとも１つに対してLSA演算を実行する。

なお、ここで言う部分行列に対してLSA演算を実行するとは、部分行列単体に対してLSA演算を施して、部分行列単体の近似行列を生成することを含む他、メタデータ行列全体に対してLSA演算を実行し、その結果得られるメタデータ行列の近似行列のうちの、対象となる部分行列に対応する成分のみを使用することを指す。

後者について具体的に説明する。例えばいまの場合、式（７）のメタデータ行列Ａ全体に対してLSA演算が施されると、次の式（８）に示される行列Ａ'が、メタデータ行列Ａの近似行列として生成されることになる。

・・・（８）

この場合、行列生成部１８が、ステップＳ８２の処理と全く同様に近似行列A'も区分すると、即ち、メタデータ行列Ａを２つの部分行列Mt1，Mt2に区分したのと同様に近似行列A'も区分すると、式（８）に示されるように、２つの部分行列Mt1'，Mt2'が得られる。

部分行列Mt1'とは、近似行列A'のうちの上からｓ行分の行列成分から構成される行列、即ち、LSA演算により値が更新されたm1u,v（u=0乃至s-1，v=0乃至n-1）を成分値として有する行列である。従って、部分行列Mt1'も、s行ｎ列の行列になる。

これに対して、部分行列Mt2'とは、近似行列A'のうちの下からｔ行分の行列成分から構成される行列、即ち、LSA演算により値が更新されたm2w,x（w=0乃至t-1，x=0乃至n-1）を成分値として有する行列である。従って、部分行列Mt2'も、t行ｎ列の行列になる。

この場合、例えば、部分行列Mt1がステップＳ８４の処理対象にされているとすると、ステップＳ８４の処理の結果として、式（８）の部分行列Mt1'が得られることになる。

換言すると、ステップＳ８３とＳ８４の処理とは、ステップＳ８２の処理により区分された第１の部分行列と第２の部分行列とのそれぞれに対して、特異値分解を施す第１の重み付け手法と、それとは異なる第２の重み付け手法とのうちのいずれか一方を、メタデータ群M1とメタデータ群M2との種類間での影響の及ぼしあい方の特徴に応じてそれぞれ個別に選択し、個別に選択された重み付け手法のそれぞれを利用して、第１の部分行列と第２の部分行列のそれぞれに対して個別に重み付けを行う処理である。

このようなステップＳ８３とＳ８４の処理により、それぞれ個別に重み付けがなされた第１の部分行列と第２の部分行列とが得られ、行列生成部１８に供給されると、処理はステップＳ８５に進む。

ステップＳ８５において、行列生成部１８は、２つの部分行列を合成することで、近似合成行列を生成する。

例えばいまの場合、次の式（９）に示される行列Ｂが、近似合成行列として生成されることになる。

・・・（９）

式（９）において、部分行列Mt1'は、上述した式（８）のそれと同一の行列である。部分行列Mt2は、上述した式（７）のそれに対して、ステップＳ８３の処理で重み付けされた行列である。

この近似合成行列Ｂがコンテンツ推薦部２３に供給され、コンテンツ推薦部２３からベクトル演算部２２に対してマッチング処理の要求がなされると、処理はステップＳ８６に進む。

ステップＳ８６において、ベクトル演算部２２は、近似合成行列Ｂを利用して、コンテンツのマッチング処理を行う。具体的には例えば、ステップＳ８６において、ベクトル演算部２２は、近似合成行列の各列成分、即ち、各コンテンツベクトルのうちの、ユーザが高評価を与えたコンテンツベクトルからUPVを生成する。ベクトル演算部２２は、このUPVと既存のコンテンツベクトルとで類似度を計算し、もっとも類似度の高いコンテンツ(または高い方から任意個数のコンテンツ)を選択し、その選択結果をコンテンツ推薦部２３に通知する。

すると、ステップＳ８７において、コンテンツ推薦部２３は、ベクトル演算部２２から通知されたそのコンテンツの推薦を行う。即ち、ステップＳ８７において、コンテンツ推薦部２３は、推薦すべきそのコンテンツをコンテンツ記録部１５から取得し、ユーザインタフェース部１１を介してユーザに呈示する。

これにより、「LSAと他手法とのハイブリッドによる推薦処理」は終了となる。

以下、「LSAと他手法とのハイブリッドによる推薦処理」についてさらに説明する。

上述したように、式（７）のメタデータ行列Aの近似行列が、式（８）の行列A'である。この近似行列A'から区分される２つの部分行列Mt1'、Mt2'は、式（７）のメタデータ行列Aに対する次元圧縮によりお互いに影響しあっている。

即ち、例えば、メタデータ行列Aのc列に対応するコンテンツにおいて、メタデータ群M1内のi番目のメタデータの重み（成分値）m1_i,cと、メタデータ群M2のj番目のメタデータの重み（成分値）m2_j,cがともに大きいとする。即ち、これらの２つのメタデータは共起しているとする。この場合、他のコンテンツにおいて、メタデータ群M1内のi番目のメタデータの重み（成分値）が大きく、メタデータ群M2内のj番目のメタデータの重み（成分値）が小さいと、LSA演算の特異値分解による次元圧縮の性質によって、j番目のメタデータの重み（成分値）が引き上げられる。なお、メタデータ群M1とメタデータ群M2との関係が逆の場合も同様である。

このメタデータ群M1とメタデータ群M2との相互の影響は、例えば文書をコンテンツとして、単語をメタデータとした場合には、上述した第１実施形態と第２実施形態で説明したように、単語の共起関係を考慮した重み付けとして有用であることが示されている。

しかしながら、この第５実施形態の上述した例では、メタデータ群M2からメタデータ群M1への影響のみが存在し、その逆方向への影響は存在しないことが前提とされている。従って、このような前提がなされる場合、メタデータ群M2からメタデータM1への影響だけを重み付けに利用したいという要望が挙げられることになる。

そこで、この要請を実現するために、第５実施形態においては、重み付けされたメタデータ行列として、上述した式（９）で示される近似合成行列Bが利用されるのである。

式（９）の近似合成行列Bにおいて、その下部の部分行列Mt2は、上述したように、次元圧縮前のメタデータ行列A、即ち、式（７）のメタデータ行列Aに対してステップＳ８３の処理で重み付けされた行列の上部の部分行列である。また、式（９）の近似合成行列Bにおいて、その上部の部分行列Mt1'は、式（８）の近似行列Ｂの上部の部分行列である。

即ち、式（９）の近似合成行列Bにおいて、上部の部分行列Mt1'は、メタデータ群M1のメタデータ群M2からの影響が考慮された重み付け行列となっている一方、下部の部分行列Mt2は、メタデータ群M1から影響を受けない重み付け行列となっている。

従って、近似合成行列Bとは、メタデータ群M2からメタデータ群M1へという片方向への影響のみが考慮された、重み付けメタデータ近似行列であると言える。

なお、行列生成部１８乃至LSA演算部２０は、ここでさらに、近似合成行列Bの下部の部分行列Mt2に対してtf/idfなどの重み付けを行ったり、部分行列Mt2をさらに区分した詳細部分行列を生成し、詳細部分行列のそれぞれに対して別の重み付けを行うこともできる。なお、この場合の重み付けは、上述したような片方の影響のみを実現する特異値分解の再帰的な適用を含む。

即ち、行列生成部１８は、重み付け処理部１９やLSA演算部２０により第１の部分行列と第２の部分行列とのそれぞれの重み付けが行われた後であって、合成近似行列を生成する前に、さらに、第１の部分行列と第２の部分行列とのうちの少なくとも一方を２以上の詳細部分行列に分解することができる。この場合、重み付け処理部１９やLSA演算部２０は、さらに、２以上の詳細部分行列のうちの少なくとも１つに対して、特異値分解を施す第１の重み付け手法と、それとは異なる第２の重み付け手法とのうちのいずれか一方をそれぞれ個別に選択し、選択された重み付け手法をそれぞれ利用して重み付けをそれぞれ個別に行うことができる。

ところで、上述した例では、メタデータ群M1とメタデータ群M2とのうちの一方から他方といった片方向にのみ影響をおよぼすことが前提とされたが、メタデータ群M1とメタデータ群M2とが完全に独立で、かつそれぞれの内部では共起関係を考慮したい場合も多々ある。

このような場合、ステップＳ８４の処理で、LSA演算部２０は、ステップＳ８３の処理で重み付けがなされた式（７）の部分行列Mt1と部分行列Mt2とのそれぞれに対して個別に特異値分解を施すことができる。

即ち、ステップＳ８４の処理で、LSA演算部２０は、次の式（１０）と式（１１）に示される特異値分解のそれぞれを個別に実行する。

・・・（１０）

・・・（１１）

そして、LSA演算部２０は、次の式（１２）と式（１３）に示されるように、部分行列Mt1と部分行列Mt2のそれぞれを、k1次元とk2次元のそれぞれ圧縮した近似部分行列Mt1_k1’’と近似部分行列Mt2_k2’’のそれぞれを生成することができる。

・・・（１２）

・・・（１３）

従って、行列生成部１８は、ステップＳ８５の処理で、次の式（１４）で示される近似合成行列A’’を生成することができる。

・・・（１４）

これにより、近似合成行列A’’は、メタデータ群M1とメタデータ群M2とは互いに影響しあわないが、それぞれの内部では共起関係等が考慮された、重み付けメタデータ近似行列となる。

以上、図１７と図１８を参照して、第５実施形態の情報処理システムまたは情報処理装置、即ち、「LSAと他手法とのハイブリッドによる推薦処理」を実行する情報処理システムまたは情報処理装置について説明した。

第５実施形態においては、メタデータ群M1とメタデータ群M2において、それぞれの内部だけでの相互関係を考慮した重み付け、または、メタデータ群M2からメタデータ群M1への影響だけ若しくはメタデータ群M1からメタデータ群M2への影響だけを前提とした個別の重み付けを行うことができる。このような個別の重み付けがなされたメタデータ群M1とメタデータ群M2とを利用することで、従来に比較してより適切なマッチング処理が実行でき、それに伴い、従来に比較してより適切なコンテンツ推薦が行えるようになる。

以上、第１実施形態乃至第５実施形態について説明した。

ところで、第１実施形態乃至第５実施形態等で上述した一連の処理は、ハードウエアにより実行させることもできるが、ソフトウエアにより実行させることができる。

この場合、図１の情報処理装置は、例えば、図１９に示されるようなパーソナルコンピュータで構成することができる。

図１９において、CPU（Central Processing Unit）１０１は、ROM（Read Only Memory）１０２に記録されているプログラム、または記憶部１０８からRAM（Random Access Memory）１０３にロードされたプログラムに従って各種の処理を実行する。RAM１０３にはまた、CPU１０１が各種の処理を実行する上において必要なデータなども適宜記憶される。

CPU１０１、ROM１０２、およびRAM１０３は、バス１０４を介して相互に接続されている。このバス１０４にはまた、入出力インタフェース１０５も接続されている。

入出力インタフェース１０５には、キーボード、マウスなどよりなる入力部１０６、ディスプレイなどよりなる出力部１０７、ハードディスクなどより構成される記憶部１０８、および、モデム、ターミナルアダプタなどより構成される通信部１０９が接続されている。通信部１０９は、インターネットを含むネットワークを介して他の情報処理装置との通信処理を行う。

入出力インタフェース１０５にはまた、必要に応じてドライブ１１０が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどよりなるリムーバブル記録媒体１１１が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部１０８にインストールされる。

一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。

このようなプログラムを含む記録媒体は、図１９に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク（フロッピディスクを含む）、光ディスク（CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む）、光磁気ディスク（ＭＤ（Mini-Disk）を含む）、もしくは半導体メモリなどよりなるリムーバブル記録媒体（パッケージメディア）１１１により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM１０２や、記憶部１０８に含まれるハードディスクなどで構成される。

なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、本明細書において、システムとは、複数の装置や処理部により構成される装置全体を表すものである。

本発明が適用される情報処理システムの機能的構成例を示す機能ブロック図である。「共起関係を考慮した不要メタデータ抽出処理」を実行する場合の情報の流れの観点で図１の情報処理システムを示した機能ブロック図である。図２の情報処理システムが実行する「共起関係を考慮した不要メタデータ抽出処理」を説明するフローチャートである。図３の「共起関係を考慮した不要メタデータ抽出処理」の処理結果を示す例である。図３の「共起関係を考慮した不要メタデータ抽出処理」の処理結果を示す例である。図３の「共起関係を考慮した不要メタデータ抽出処理」の処理結果を示す例である。「共起関係を考慮した推薦処理」を実行する場合の情報の流れの観点で図１の情報処理システムを示した機能ブロック図である。図７の情報処理システムが実行する「共起関係を考慮した推薦抽出処理」を説明するフローチャートである。「クラスタリングされたUPV群の差分を利用した推薦処理」を実行する場合の情報の流れの観点で図１の情報処理システムを示した機能ブロック図である。図９の情報処理システムが実行する「クラスタリングされたUPV群の差分を利用した推薦処理」を説明するフローチャートである。「LSAによるコンテンツの再評価処理」を実行する場合の情報の流れの観点で図１の情報処理システムを示した機能ブロック図である。図１１の情報処理システムが実行する「LSAによるコンテンツの再評価処理」を説明するフローチャートである。図１１の「LSAによるコンテンツの再評価処理」の処理結果を示す例である。図１１の「LSAによるコンテンツの再評価処理」の処理結果を示す例である。図１１の「LSAによるコンテンツの再評価処理」の処理結果を示す例である。図１１の「LSAによるコンテンツの再評価処理」の処理結果を示す例である。「LSAと他手法とのハイブリッドによる推薦処理」を実行する場合の情報の流れの観点で図１の情報処理システムを示した機能ブロック図である。図１７の情報処理システムが実行する「LSAと他手法とのハイブリッドによる推薦処理」を説明するフローチャートである。本発明が適用される情報処理装置（図１の情報処理システムの少なくとも一部）のハードウエアの構成例を示すブロック図である。

符号の説明

１１ユーザインタフェース部，１２ユーザプロファイル記憶部，１３ユーザ辞書記憶部，１４一般辞書記憶部，１５コンテンツ記憶部，１６メタデータ記憶部，１７メタデータ取得部，１８行列生成部，１９重み付け処理部，２０ LSA演算部，２１メタデータ抽出部，２２ベクトル演算部，１０１ CPU，１０２ ROM，１０３ RAM，１０８記憶部，１１１リムーバブル記録媒体

Claims

複数のコンテンツのうちの少なくとも１つに対応付けられるＮ個（Ｎは1以上の整数値）のメタデータを基底として、複数の前記コンテンツのうちのＭ個（Ｍは１以上の整数値）のコンテンツのそれぞれをベクトル化し、その結果得られるＭ個のベクトルを列成分または行成分とする行列をメタデータ行列として生成する行列生成手段と、
前記行列生成手段により生成された前記メタデータ行列に対して特異値分解を施すことで、前記メタデータ行列の近似行列を生成する近似行列生成手段と、
前記行列生成手段により生成された前記メタデータ行列と、前記近似行列生成手段により生成された前記近似行列との差異に基づいて、Ｎ個の前記メタデータのそれぞれについて、対応するメタデータの重要度を示す指標値を演算する指標値演算手段と、
前記指標値演算手段により演算されたＮ個の前記指標値に基づいて、Ｎ個の前記メタデータの中から少なくとも１つを、重要度が高い重要メタデータまたは重要度が低い不要メタデータとして抽出する抽出手段と
を備えることを特徴とする情報処理装置。
前記指標値演算手段は、Ｎ個の前記メタデータのそれぞれを注目メタデータとして順次設定し、前記近似行列のうちの前記注目メタデータを示す行または列のＭ個の成分値のそれぞれと、前記メタデータ行列のうちの対応する成分値との差分値のそれぞれを演算し、演算されたＭ個の前記差分値の平均値または最大値を、前記注目メタデータの重要度を示す前記指標値として演算する
ことを特徴とする請求項１に記載の情報処理装置。
前記指標値演算手段は、Ｎ個の前記メタデータのそれぞれを注目メタデータとして順次設定し、前記近似行列のうちの前記注目メタデータを示す行または列のＭ個の成分値のそれぞれを、前記メタデータ行列のうちの対応する成分値で除算した除算値のそれぞれを演算し、演算されたＭ個の前記除算値の平均値または最大値を、前記注目メタデータの重要度を示す前記指標値として演算する
ことを特徴とする請求項１に記載の情報処理装置。
Ｎ個の前記メタデータのうちの、前記抽出手段により抽出された前記重要メタデータ、または、前記抽出手段により抽出された前記不要メタデータを除くメタデータを利用して、複数の前記コンテンツの中から、ユーザに推薦すべきコンテンツを１以上決定する推薦手段と、
前記推薦手段により前記ユーザに推薦すべきであると決定された前記コンテンツを、前記ユーザに呈示する呈示手段と
をさらに備えることを特徴とする請求項１に記載の情報処理装置。
前記抽出手段により抽出された前記重要メタデータまたは前記不要メタデータを、ユーザに呈示する呈示手段
をさらに備えることを特徴とする請求項１に記載の情報処理装置。
前記抽出手段により抽出された前記重要メタデータまたは前記不要メタデータを記憶する記憶手段
をさらに備えることを特徴とする請求項１に記載の情報処理装置。
複数のコンテンツのうちの少なくとも１つに対応付けられるＮ個（Ｎは1以上の整数値）のメタデータを基底として、複数の前記コンテンツのうちのＭ個（Ｍは１以上の整数値）のコンテンツのそれぞれをベクトル化し、その結果得られるＭ個のベクトルを列成分または行成分とする行列をメタデータ行列として生成する行列生成ステップと、
前記行列生成ステップの処理により生成された前記メタデータ行列に対して特異値分解を施すことで、前記メタデータ行列の近似行列を生成する近似行列生成ステップと、
前記行列生成ステップの処理により生成された前記メタデータ行列と、前記近似行列生成ステップの処理により生成された前記近似行列との差異に基づいて、Ｎ個の前記メタデータのそれぞれについて、対応するメタデータの重要度を示す指標値を演算する指標値演算ステップと、
前記指標値演算ステップの処理により演算されたＮ個の前記指標値に基づいて、Ｎ個の前記メタデータの中から少なくとも１つを、重要度が高い重要メタデータまたは重要度が低い不要メタデータとして抽出する抽出ステップと
を含むことを特徴とする情報処理方法。
コンピュータに実行させるプログラムであって、
複数のコンテンツのうちの少なくとも１つに対応付けられるＮ個（Ｎは1以上の整数値）のメタデータを基底として、複数の前記コンテンツのうちのＭ個（Ｍは１以上の整数値）のコンテンツのそれぞれをベクトル化し、その結果得られるＭ個のベクトルを列成分または行成分とする行列をメタデータ行列として生成する行列生成ステップと、
前記行列生成ステップの処理により生成された前記メタデータ行列に対して特異値分解を施すことで、前記メタデータ行列の近似行列を生成する近似行列生成ステップと、
前記行列生成ステップの処理により生成された前記メタデータ行列と、前記近似行列生成ステップの処理により生成された前記近似行列との差異に基づいて、Ｎ個の前記メタデータのそれぞれについて、対応するメタデータの重要度を示す指標値を演算する指標値演算ステップと、
前記指標値演算ステップの処理により演算されたＮ個の前記指標値に基づいて、Ｎ個の前記メタデータの中から少なくとも１つを、重要度が高い重要メタデータまたは重要度が低い不要メタデータとして抽出する抽出ステップと
を含むことを特徴とするプログラム。