JP2006048286A - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JP2006048286A
JP2006048286A JP2004226788A JP2004226788A JP2006048286A JP 2006048286 A JP2006048286 A JP 2006048286A JP 2004226788 A JP2004226788 A JP 2004226788A JP 2004226788 A JP2004226788 A JP 2004226788A JP 2006048286 A JP2006048286 A JP 2006048286A
Authority
JP
Japan
Prior art keywords
metadata
matrix
content
approximate
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2004226788A
Other languages
English (en)
Inventor
Hiroshi Tateno
啓 舘野
Noriyuki Yamamoto
則行 山本
Mari Saito
真里 斎藤
Mitsuhiro Miyazaki
充弘 宮嵜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2004226788A priority Critical patent/JP2006048286A/ja
Priority to US11/190,858 priority patent/US20060036640A1/en
Priority to CNA2005101160013A priority patent/CN1750003A/zh
Publication of JP2006048286A publication Critical patent/JP2006048286A/ja
Abandoned legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Abstract

【課題】メタデータの共起関係を考慮して、コンテンツ推薦等のメタデータを利用する処理を実行できるようにする。
【解決手段】 行列生成部18は、N個(Nは1以上の整数値)のメタデータのそれぞれに対応するN行と、M個(Mは1以上の整数値)のコンテンツのそれぞれに対応するM列からなるメタデータ行列を生成する。LSA演算部20は、メタデータ行列に対して特異値分解を施すことで、メタデータ行列の近似行列を生成する。メタデータ抽出部21は、メタデータ行列と近似行列との差異に基づいて、N個のメタデータのそれぞれについて、対応するメタデータの重要度を示す指標値、例えば特徴差分を演算し、それらの指標値に基づいて、N個のメタデータの中から重要メタデータまたは不要メタデータをメタデータ記憶部16から抽出する。本発明は、コンテンツ推薦を行う情報処理装置に適用可能である。
【選択図】図2

Description

本発明は、情報処理装置および方法、並びにプログラムに関し、特に、メタデータの共起関係を考慮して、コンテンツ推薦等のメタデータを利用する処理を実行できる、情報処理装置および方法、並びに、プログラムに関する。
近年、情報処理システムのひとつとして、ユーザにコンテンツを推薦するシステム(以下、コンテンツ推薦システムと称する)が普及してきている。
以下、従来のコンテンツ推薦システムが、コンテンツを推薦するまでの一連の処理(以下、コンテンツ推薦処理と称する)の概略について説明する。
ただし、説明の簡略上、1台の情報処理装置がコンテンツ推薦処理の全てを実行するとする。
はじめに、情報処理装置は、とあるコンテンツに付与されているメタデータを基底ベクトルとして、そのコンテンツをベクトル化する。なお、以下、このようなベクトルを、コンテンツベクトルと称する。
次に、情報処理装置は、このようなコンテンツベクトルを複数生成し、複数のコンテンツベクトルのそれぞれを所定の方向に順番に並べた行列、即ち、複数のコンテンツベクトルを行成分または列成分として有する行列を生成する。なお、以下、このような行列をメタデータ行列と称する。また、メタデータを基底ベクトルとして全メタデータによって張られる空間をメタデータ空間と称する。
次に、情報処理装置は、このメタデータ行列の各成分のそれぞれに対して、所定の重み付け手法を利用して重み付けを行う(重み値を与える)。なお、重み付け手法としては、例えば、メタデータのコンテンツ内の登場頻度や、メタデータのコンテンツ内での網羅性や特定性によるTF/IDF法(コンテンツに含まれるメタデータの頻度:TFと、そのメタデータを含むコンテンツの個数の逆数:IDFを乗じたものを利用する手法)などを利用する重み付け手法が幅広く使用されている。
このようにして、メタデータ行列の各列成分または各行成分、即ち、コンテンツベクトルは、メタデータによって適切に重み付けされたコンテンツベクトルになる。
さらに、情報処理装置は必要に応じて、重み付けされた1以上のコンテンツベクトルを利用して、ユーザの嗜好を示すベクトルを生成する。なお、以下、ユーザの嗜好を示すベクトルを、ユーザ嗜好ベクトル、または、UPV(User Preference Vector)と称する。
そして、情報処理装置は、このUPVと、ユーザが未経験の複数のコンテンツのそれぞれに対応する特徴ベクトルとの余弦相関などの類似度をそれぞれ求め(マッチング処理を行い)、例えば、類似度の高い順にコンテンツを推薦していく。
以上、従来のコンテンツ推薦システムにおけるコンテンツ推薦処理の概略について説明した。
ところで、近年、LSA(Latent Semantci Analysis)と呼ばれる手法を用いて次元の圧縮された空間においてマッチングを行う技術が確立されている(非特許文献1乃至3、および特許文献1参照)。このようなLSAを用いる技術は、単語間の意味的なまとまりを考慮した文書の分類や検索に関する技術として実績がある。
このようなLSAを用いる技術をコンテンツ推薦処理に適用することも可能である。
即ち、情報処理装置が、上述したメタデータ行列に対して特異値分解を施すと、その結果として、上述したメタデータ空間から、関連性の深いメタデータ同士がひとつの次元にまとまった概念空間が生成される。概念空間の各基底には特異値(基底の重要度)が結びついている。そこで、情報処理装置が、特異値の大きい上位の基底のみを使用(次元圧縮)してメタデータ空間への逆射影を行うと、その結果として、メタデータ間の関連性が浮かび上がった行列が生成される。なお、以下、このような行列を、近似行列と称する。
以上の一連の処理がLSAと称されており、情報処理装置は、LSAにより生成された近似行列をメタデータ行列の変わりに利用して、コンテンツのマッチング処理を行うこともできる。
米国特許第4839853号公報 米国特許第5301109号公報 S. C. Deerwester, S. T. Dumais, T. K. Landauer, G. W. Furnas, and R. A. Harshman. "Indexing by latent semantic analysis." Journal of the American Society of Information Science, 41 (6):391-407, 1990. 特開平11-296552号公報
しかしながら、以上説明したような、メタデータを利用した従来のコンテンツ推薦システムにおいては、例えば自然言語による文書(メールやWebなど)をコンテンツとして取り扱う場合には、即ち、文章を推薦する場合には、文章に出現する単語をメタデータとして取り扱うため、文書量の増加とともに単語数が増大し、すなわちメタデータ空間の次元が増大し、計算が困難になる問題があった。このとき、単語重みに基づく単語数の削減は試みられているが、TF/IDFなどを利用している場合は、メタデータ(単語)の共起関係(あるいは同義性)は考慮されず、削除すべきではない単語が削除されてしまう場合が多々ある、という課題があった。
また、データマイニングや文書分類などの分野において、Feature Selectionなどと呼ばれる属性(メタデータ)の選別処理では、個々の属性に対して求められる統計的、情報論的数値(対数尤度比やχ2値、分類クラスとの相互情報量など)によって利用するか否かを決定するのが一般的であり、やはりメタデータ(属性)の共起関係は考慮されない、という課題があった。
さらにまた、コンテンツの推薦にも、メタデータの共起関係は考慮されずに、単にTF/IDFによるメタデータ行列における重みか、あるいはLSAによってメタデータ行列が次元圧縮された結果得られる近似行列の重みが使われており、いずれの方法でも既知の(ユーザが経験した、あるいは高い評価を与えた)ものに類似したコンテンツの推薦しか実現できなかった、という課題があった。
本発明は、このような状況に鑑みてなされたものであり、メタデータの共起関係を考慮して、コンテンツ推薦等のメタデータを利用する処理を実行できるようにするものである。
本発明の情報処理装置は、複数のコンテンツのうちの少なくとも1つに対応付けられるN個(Nは1以上の整数値)のメタデータを基底として、複数のコンテンツのうちのM個(Mは1以上の整数値)のコンテンツのそれぞれをベクトル化し、その結果得られるM個のベクトルを列成分または行成分とする行列をメタデータ行列として生成する行列生成手段と、行列生成手段により生成されたメタデータ行列に対して特異値分解を施すことで、メタデータ行列の近似行列を生成する近似行列生成手段と、行列生成手段により生成されたメタデータ行列と、近似行列生成手段により生成された近似行列との差異に基づいて、N個のメタデータのそれぞれについて、対応するメタデータの重要度を示す指標値を演算する指標値演算手段と、指標値演算手段により演算されたN個の指標値に基づいて、N個のメタデータの中から少なくとも1つを、重要度が高い重要メタデータまたは重要度が低い不要メタデータとして抽出する抽出手段とを備えることを特徴とする。
指標値演算手段は、N個のメタデータのそれぞれを注目メタデータとして順次設定し、近似行列のうちの注目メタデータを示す行または列のM個の成分値のそれぞれと、メタデータ行列のうちの対応する成分値との差分値のそれぞれを演算し、演算されたM個の差分値の平均値または最大値を、注目メタデータの重要度を示す指標値として演算するようにすることができる。
指標値演算手段は、N個のメタデータのそれぞれを注目メタデータとして順次設定し、近似行列のうちの注目メタデータを示す行または列のM個の成分値のそれぞれを、メタデータ行列のうちの対応する成分値で除算した除算値のそれぞれを演算し、演算されたM個の除算値の平均値または最大値を、注目メタデータの重要度を示す指標値として演算するようにすることができる。
N個のメタデータのうちの、抽出手段により抽出された重要メタデータ、または、抽出手段により抽出された不要メタデータを除くメタデータを利用して、複数のコンテンツの中から、ユーザに推薦すべきコンテンツを1以上決定する推薦手段と、推薦手段によりユーザに推薦すべきであると決定されたコンテンツを、ユーザに呈示する呈示手段とをさらに設けるようにすることができる。
抽出手段により抽出された重要メタデータまたは不要メタデータを、ユーザに呈示する呈示手段をさらに設けるようにすることができる。
抽出手段により抽出された重要メタデータまたは不要メタデータを記憶する記憶手段をさらに設けるようにすることができる。
本発明の情報処理方法は、複数のコンテンツのうちの少なくとも1つに対応付けられるN個(Nは1以上の整数値)のメタデータを基底として、複数のコンテンツのうちのM個(Mは1以上の整数値)のコンテンツのそれぞれをベクトル化し、その結果得られるM個のベクトルを列成分または行成分とする行列をメタデータ行列として生成する行列生成ステップと、行列生成ステップの処理により生成されたメタデータ行列に対して特異値分解を施すことで、メタデータ行列の近似行列を生成する近似行列生成ステップと、行列生成ステップの処理により生成されたメタデータ行列と、近似行列生成ステップの処理により生成された近似行列との差異に基づいて、N個のメタデータのそれぞれについて、対応するメタデータの重要度を示す指標値を演算する指標値演算ステップと、指標値演算ステップの処理により演算されたN個の指標値に基づいて、N個のメタデータの中から少なくとも1つを、重要度が高い重要メタデータまたは重要度が低い不要メタデータとして抽出する抽出ステップとを含むことを特徴とする。
本発明のプログラムは、コンピュータに実行させるプログラムであって、複数のコンテンツのうちの少なくとも1つに対応付けられるN個(Nは1以上の整数値)のメタデータを基底として、複数のコンテンツのうちのM個(Mは1以上の整数値)のコンテンツのそれぞれをベクトル化し、その結果得られるM個のベクトルを列成分または行成分とする行列をメタデータ行列として生成する行列生成ステップと、行列生成ステップの処理により生成されたメタデータ行列に対して特異値分解を施すことで、メタデータ行列の近似行列を生成する近似行列生成ステップと、行列生成ステップの処理により生成されたメタデータ行列と、近似行列生成ステップの処理により生成された近似行列との差異に基づいて、N個のメタデータのそれぞれについて、対応するメタデータの重要度を示す指標値を演算する指標値演算ステップと、指標値演算ステップの処理により演算されたN個の指標値に基づいて、N個のメタデータの中から少なくとも1つを、重要度が高い重要メタデータまたは重要度が低い不要メタデータとして抽出する抽出ステップとを含むことを特徴とする。
本発明の情報処理装置および方法、並びにプログラムにおいては、複数のコンテンツのうちの少なくとも1つに対応付けられるN個(Nは1以上の整数値)のメタデータが基底とされて、複数のコンテンツのうちのM個(Mは1以上の整数値)のコンテンツがベクトル化され、その結果得られるM個のベクトルを列成分または行成分とする行列がメタデータ行列として生成される。さらに、このメタデータ行列に対して特異値分解が施されて、メタデータ行列の近似行列が生成される。そして、メタデータ行列と近似行列との差異に基づいて、N個のメタデータのそれぞれについて、対応するメタデータの重要度を示す指標値が演算され、演算されたN個の指標値に基づいて、N個のメタデータの中から少なくとも1つが、重要度が高い重要メタデータまたは重要度が低い不要メタデータとして抽出される。
以上のごとく、本発明によれば、コンテンツのメタデータを取り扱うことができる。特に、メタデータの共起関係を考慮してメタデータの重要度を示す指標値を演算し、その指標値に基づいて不要メタデータまたは重要メタデータの抽出ができる。これにより、メタデータの共起関係を考慮して、コンテンツ推薦等のメタデータを利用する処理の実現が可能になる。
以下に本発明の実施の形態を説明するが、請求項に記載の構成要件と、発明の実施の形態における具体例との対応関係を例示すると、次のようになる。この記載は、請求項に記載されている発明をサポートする具体例が、発明の実施の形態に記載されていることを確認するためのものである。従って、発明の実施の形態中には記載されているが、構成要件に対応するものとして、ここには記載されていない具体例があったとしても、そのことは、その具体例が、その構成要件に対応するものではないことを意味するものではない。逆に、具体例が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その具体例が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。
さらに、この記載は、発明の実施の形態に記載されている具体例に対応する発明が、請求項に全て記載されていることを意味するものではない。換言すれば、この記載は、発明の実施の形態に記載されている具体例に対応する発明であって、この出願の請求項には記載されていない発明の存在、すなわち、将来、分割出願されたり、補正により追加される発明の存在を否定するものではない。
本発明によれば、情報処理装置が提供される。この情報処理装置(図1の情報処理装置であって、後述する第1実施形態または第2実施形態の情報処理装置)は、複数のコンテンツのうちの少なくとも1つに対応付けられるN個(Nは1以上の整数値)のメタデータ(例えば、図4の各単語であって、具体的には例えば、“京都”,“豆腐”,“温泉”,“紅葉”,“USB”,“ソフトウエア”)を基底として、複数の前記コンテンツのうちのM個(Mは1以上の整数値)のコンテンツ(例えば、図4の文章d1乃至d5)をベクトル化し、その結果得られるM個のベクトルを列成分または行成分とする行列(例えば、図4の行列D)をメタデータ行列として生成する行列生成手段(例えば、図1(図2または図7)の行列生成部18)と、前記行列生成手段により生成された前記メタデータ行列に対して特異値分解を施すことで、前記メタデータ行列の近似行列(例えば、図5の近似行列Dk)を生成する近似行列生成手段(例えば、図1(図2または図7)のLSA演算部20)と、前記行列生成手段により生成された前記メタデータ行列と、前記近似行列生成手段により生成された前記近似行列との差異に基づいて、N個の前記メタデータのそれぞれについて、対応するメタデータの重要度を示す指標値(例えば、図6の特徴差分)を演算する指標値演算手段(例えば、図1(図2または図7)のメタデータ抽出部21のうちの、図3のステップS4、または、図8のステップS25を実行する部分)と、前記指標値演算手段により演算されたN個の前記指標値に基づいて、N個の前記メタデータの中から少なくとも1つを、重要度が高い重要メタデータまたは重要度が低い不要メタデータとして抽出する抽出手段(例えば、図1(図2または図7)のメタデータ抽出部21のうちの、図3のステップS5とS6、または、図8のステップS26を実行する部分)とを備えることを特徴とする。
この情報処理装置において、N個の前記メタデータのうちの、前記抽出手段により抽出された前記重要メタデータ、または、前記抽出手段により抽出された前記不要メタデータを除くメタデータを利用して、複数のコンテンツの中から、ユーザに推薦すべきコンテンツを1以上決定する推薦手段(例えば、図1(図2または図7)のコンテンツ推薦部23)と、前記推薦手段により前記ユーザに推薦すべきであると決定された前記コンテンツを、前記ユーザに呈示する呈示手段(例えば、図8のステップS30の処理における、図1(図2または図7)のユーザインタフェース部11)とをさらに設けるようにすることができる。
この情報処理装置は、前記抽出手段により抽出された前記重要メタデータまたは前記不要メタデータを、ユーザに呈示する呈示手段(例えば、図8のステップS28の処理における、図1(図2または図7)のユーザインタフェース部11)をさらに設けるようにすることができる。
この情報処理装置は、前記抽出手段により抽出された前記重要メタデータまたは前記不要メタデータを記憶する記憶手段(例えば、図1(図2)のユーザ辞書記憶部13または一般辞書記憶部14)をさらに設けるようにすることができる。
本発明によれば、情報処理方法が提供される。この情報処理方法(例えば、図3の「共起関係を考慮した不要メタデータ抽出処理」または図8の「共起関係を考慮した推薦処理」に対応する方法)は、複数のコンテンツのうちの少なくとも1つに対応付けられるN個(Nは1以上の整数値)のメタデータを基底として、複数の前記コンテンツのうちのM個(Mは1以上の整数値)のコンテンツのそれぞれをベクトル化し、その結果得られるM個のベクトルを列成分または行成分とする行列をメタデータ行列として生成する行列生成ステップ(例えば、図3のステップS1(S2を含んでもよい)または図8のステップS21(S22を含んでもよい))と、前記行列生成ステップの処理により生成された前記メタデータ行列に対して特異値分解を施すことで、前記メタデータ行列の近似行列を生成する近似行列生成ステップ(例えば、図3のステップS3または図8のステップS23)と、前記行列生成ステップの処理により生成された前記メタデータ行列と、前記近似行列生成ステップの処理により生成された前記近似行列との差異に基づいて、N個の前記メタデータのそれぞれについて、対応するメタデータの重要度を示す指標値を演算する指標値演算ステップ(例えば、図3のステップS4または図8のステップS25)と、前記指標値演算ステップの処理により演算されたN個の前記指標値に基づいて、N個の前記メタデータの中から少なくとも1つを、重要度が高い重要メタデータまたは重要度が低い不要メタデータとして抽出する抽出ステップ(例えば、図3のステップS5およびS6、または図8のステップS26)とを含むことを特徴とする。
本発明によれば、プログラムが提供される。このプログラムは、上述した本発明の情報処理方法に対応するプログラムであって、例えば、図19のコンピュータにより実行される。
以上説明したように、本発明においては、コンテンツとそのメタデータとが処理対象になる。
ここで注目すべき点は、本発明におけるコンテンツとメタデータとは、即ち、本発明で処理可能なコンテンツとメタデータとは、一般的に称されるコンテンツとメタデータと比較して広義な概念であるという点である。
即ち、本発明におけるコンテンツとは、一般的にコンテンツと称されているテレビジョン放送番組、映画、写真、楽曲等(動画像、静止画像、若しくは音声、または、それらの組合せ等)の他、文書、商品(物品含)、会話等のユーザが使用可能なソフトウエアまたはハードウエアの全てを指す広い概念である。ただし、コンテンツが物品(ハードウエア)の場合、例えば、その物品が動画像や静止画像等に射影されてデータ化されたものが、コンテンツデータとして使用される。
なお、ここでは、コンテンツとコンテンツデータとを個々に区別する必要がない場合、それらをまとめてコンテンツと称する。
また、本発明におけるメタデータとは次のような情報を指す。即ち、本発明におけるコンテンツとは、上述したように、一般的なコンテンツのみならず、ユーザの私的な文書(例えばメール)等も含まれる。従って、本発明におけるメタデータとは、番組メタデータ等の一般的なメタデータを単に指すのではなく、本発明におけるコンテンツ(幅広い概念のコンテンツ)自身若しくはその一部分、またはそのコンテンツの属性等が単語化された情報(数値も単語化された情報の1つとして捉える)等も指す広い概念である。換言すると、本発明におけるコンテンツの1以上の特徴を示す情報であれば、その情報の全てがメタデータになり得る。
具体的には例えば、コンテンツの中には、上述したテレビジョン放送番組、映画、音楽の他、Webページ、メール、Web掲示板、書籍なども含まれる。
この場合、テレビジョン放送番組のメタデータの種類としては、例えば、放送時間、出演者、スタッフ、ジャンル、チャンネルなどが挙げられる。映画のメタデータの種類としては、例えば、放映時間、出演者、スタッフ、ジャンル、配給元などが挙げられる。音楽のメタデータの種類としては、例えば、アーティスト名、ジャンル、楽器、リズム、ムードなどが挙げられる。Webページのメタデータの種類としては、例えば、作成者、リンク、被リンク、URL(地域etc.)、出現単語などが挙げられる。メールのメタデータの種類としては、送受信者、送受信日時、出現単語などが挙げられる。Web掲示板のメタデータの種類としては、書き込み者、書き込み日時、出現単語などが挙げられる。書籍のメタデータの種類としては、著者、出版社、出版日時、出現単語などが挙げられる。
次に、図面を参照して、以上のような広義のコンテンツとメタデータとを取り扱うことが可能な、本発明が適用される情報処理システムの実施の形態例について説明する。
図1は、本発明が適用される情報処理システムの機能的構成例を示している。
図1に示されるように、この情報処理システムには、ユーザインタフェース部11乃至情報伝送部24が設けられている。
ユーザインタフェース部11は、ユーザがコンテンツを経験するための出力装置と、コンテンツに対する操作をユーザが行うための入力装置とで構成される。具体的には例えば、出力装置としては、ディスプレイやスピーカなどが挙げられる。入力装置としては、キーボード、マウス、リモコン、タッチパネルなどが挙げられる。
ユーザプロファイル記憶部12は、ユーザが過去に経験したコンテンツへのポインタ(ID番号など)と、それに対する評価などの情報を記憶する。なお、この評価は、ユーザがユーザインタフェース部11を利用して入力したものである。
従って、他のブロックは、ユーザプロファイル記憶部12に記憶された各種情報を参照することで、所望のコンテンツをコンテンツ記憶部17から読み出したり、それに関連付けられたメタデータをメタデータ記憶部18から読み出すことができる。
ユーザ辞書記憶部13は、ユーザが経験したコンテンツのメタデータのうちの、頻出メタデータ、重要メタデータ、不要メタデータ等を記憶する。なお、重要メタデータと不要メタデータとの詳細については後述する。また、ユーザ辞書記憶部13には、ユーザ固有のメタデータに対する重みなどが記憶されることもある。このユーザ辞書記憶部13においては、ユーザインタフェース部11、コンテンツ推薦部16、メタデータ抽出部22などとの間でデータの授受が行われ、任意の数の任意のデータの追加、削除、および参照のいずれもが自在に可能であるとする。
一般辞書記憶部14は、ユーザ共通のメタデータを記憶する。例えば、全出現メタデータが一般辞書記憶部14に記憶されたたり、全ユーザに共通する重要メタデータや不要メタデータが一般辞書記憶部14に記憶される。また、一般辞書記憶部14には、ユーザ共通のメタデータに対する重みなどが記憶されることもある。この一般辞書記憶部14も、ユーザインタフェース部11、コンテンツ推薦部16、メタデータ抽出部22などとの間でデータの授受が行われ、任意の数の任意のデータの追加、削除、および参照のいずれもが自在に可能であるとする。
コンテンツ記憶部15は、ユーザに提供可能なコンテンツ、即ち例えば、映像、音楽、文章、Web等などを記憶する。コンテンツ記憶部15の主機能は、コンテンツ推薦部18からの要求に対して、データをコンテンツ推薦部18に提供する機能である。コンテンツ記憶部15に記憶される各コンテンツにはID番号などの識別子が付加されている。また、コンテンツ記憶部15においては、任意の数の任意のコンテンツの追加、削除、および参照が自在に可能であるとする。
メタデータ記憶部16は、コンテンツ記憶部15に記憶されたコンテンツに対応するメタデータを記憶する。なお、メタデータを記憶するとは、メタデータそのものを単に記憶することを指すのではなく、上述したID番号などの識別子で識別可能な各コンテンツに対して任意個数のメタデータが関連付けられており、そのコンテンツにおける各メタデータのそれぞれの頻度やヒューリスティックに決められた重みのそれぞれを記憶することも指す広義な概念である。
以上説明したユーザプロファイル記憶部12乃至メタデータ記憶部16のそれぞれは、例えばハードディスク等のメモリの一領域として構成される。
これに対して、次に説明するメタデータ取得部17乃至コンテンツ推薦部23のそれぞれは、構成が可能であれば、ソフトウエアで構成してもよいし、ハードウエアで構成してもよいし、或いは、それらの組合せで構成してもよい。
メタデータ取得部17は、上述したメタデータ記憶部16に記憶させるべきメタデータを取得し、メタデータ記憶部16に記憶させる。例えば、コンテンツが文章の場合には、メタデータ取得部17は、例えば、その文章に登場している単語を抽出し、その単語の出現頻度などを解析し、各単語のそれぞれとそれらの出現頻度とを関連付けてメタデータ記憶部16に記憶させる。
行列生成部18は、複数のコンテンツのそれぞれを表す上述したコンテンツベクトルを集積し、各コンテンツベクトルを例えば列成分として有するメタデータ行列を生成する。なお、行列生成部18では、重み付けなどの処理は行われない。
重み付け処理部19は、行列生成部18により生成されたメタデータ行列に対して、TF/IDFなどの各種アルゴリズムによって重み付けを行う。なお、重み付け処理部19の重み付け処理のタイミングは、特に限定されず、後述するLSA演算部20のLSA演算処理の前でもよいし後でもよい。
LSA演算部20は、行列生成部18により生成されたメタデータ行列、または、重み付け処理部19により各成分が重み付けされたメタデータ行列に対して、LSA演算を実行する。ここでのLSA演算とは、次の第1の処理乃至第3の処理を指す。
第1の処理とは、特異値分解を実行する処理である。
第2の処理とは、第1の処理の処理結果を利用して射影行列を生成し、その射影行列によって、メタデータ行列の各列成分、即ち、各コンテンツベクトル(群)を概念空間に射影する処理である。
第3の処理とは、第2の処理結果り利用してメタデータ行列の近似行列を生成する処理である。即ち、メタデータ行列に対して次元が適切に圧縮された近似行列を生成する処理が、第3の処理である。
以下、LSA演算についてさらに詳しく説明する。
例えばいま、N行M列のメタデータ行列Dが、行列生成部18または重み付け処理部19からLSA演算部20に供給されたとする。
この場合、LSA演算部20は、第1の処理として、N行M列のメタデータ行列Dに対して特異値分解を施すことで、メタデータ行列Dを次の式(1)を満たす成分行列U,Σ,Vのそれぞれに分解する。なお、式(1)において、成分行列UはN行N列の左特異ベクトルを、成分行列VはM行M列の右特異ベクトルを、成分行列ΣはN行M列の特異行列を、それぞれ示している。また、VTは成分行列Vの転置行列を示している。
D = UΣVT ・・・(1)
ここで、メタデータ行列Dのランクをr(rは、N,M以下の整数値)とすると、成分行列Σは、r個の特異値が対角線上の要素として並び、他の要素は全て0の行列となる。また、成分行列Uの最初のr個の列成分(左特異ベクトル)が正規直交基底であり、左から順に重要な列成分であるので、k個(kは、rより小さい整数値)の左特異ベクトルを使って、各コンテンツベクトルを表現する(射影する)ことで最良の近似ができる。
そこで、LSA演算部20は、第2の処理のひとつとして、成分行列Uの先頭のk個の列成分(左特異ベクトル)からなる射影行列(以下、Ukと記述する)、即ち、N行k列の射影行列Ukを生成する。
次に、LSA演算部20は、第2の処理のひとつとして、メタデータ行列Dの各列成分のそれぞれ、即ち、各コンテンツベクトル(N次元)に対して、この射影行列Ukの転置行列を左から掛けることで、k次元に次元削減された各コンテンツベクトルのそれぞれ(各コンテンツベクトルの近似ベクトルのそれぞれ)を生成する。即ち、LSA演算部20は、各コンテンツベクトルをk次元の概念空間に射影する。換言すると、LSA演算部20は、第1の処理で射影行列Ukを生成することで、概念空間を生成しているとも言える。
また、LSA演算部20は、第3の処理のひとつとして、成分行列Vについても同様に、最初のk 個の右特異ベクトルを用いるとして、成分行列Vの先頭のk個の列成分(右特異ベクトル)からなる行列(以下、Vkと称する)、即ち、M行k列の行列Vkを生成する。
さらに、LSA演算部20は、第3の処理のひとつとして、成分行列Σの先頭のk個の列成分のうちの1行乃至k行までの要素(成分行列Σのうちの、k×k個の要素からなる左上成分)からなる行列(以下、Σkと称する)、即ち、k行k列の行列Σkを生成する。
そして、LSA演算部20は、第3の処理のひとつとして、次の式(2)の右辺を演算することで、ランクがkに縮退した近似行列Dkを生成する。なお、式(2)において、Vk Tは成分行列Vkの転置行列を示している。
Dk= UkΣkk T ・・・(2)
以上、LSA演算部20により実行されるLSA演算について説明した。
メタデータ抽出部21は、重み付け処理部19で各成分が重み付けされたメタデータ行列Dの各成分値、或いは、LSA演算部20のLSA演算により生成された近似行列Dkの各成分値に対して、所定の演算を施し、その演算結果に基づいて、特徴のあるメタデータを抽出しする。メタデータ抽出部21は、さらに、抽出されたメタデータのID番号などを他のブロックに適宜通知する。
ベクトル演算部22は、重み付け処理部19やLSA演算部20で適切に処理が施されたコンテンツベクトル群を利用して、即ち、メタデータ行列Dまたは近似行列Dkの各列成分のうちの1以上の列成分の集合体を利用して、余弦相関などによるベクトル同士の類似度の演算を行う処理(マッチング処理)や、複数のグループに分類するクラスタリング処理などを実行する。なお、これらの処理の制御は、コンテンツ推薦部23により行われるとする。
コンテンツ推薦部23は、重み付け処理部19で各成分が重み付けされたメタデータ行列D、或いは、LSA演算部20のLSA演算により生成された近似行列Dkを用いて、ベクトル演算部22に対する適切な処理(上述したマッチング処理やクラスタリング処理)の依頼処理、コンテンツ記憶部15からの所定のコンテンツの読み出し処理、ユーザインタフェース部11を介するコンテンツのユーザへの呈示処理などを実行する。
情報伝送部24は、以上説明したユーザインタフェース部11乃至コンテンツ推薦部23のうちの所定のブロックから送信された各種情報を、ユーザインタフェース部11乃至コンテンツ推薦部23のうちの適切なブロックに伝送する。
以上、図1を参照して、本発明の情報処理システムについて説明した。
本発明の情報処理システムが、例えば、クライアントとサーバとから構成される場合、図1のユーザインタフェース部11はクライアントに配置されるが、その他のユーザプロファイル記憶部12乃至コンテンツ推薦部23のそれぞれは、サーバ側に配置されてもよいし、クライアント側に配置されても構わない。
具体的には例えば、ユーザインタフェース部11、並びに、ユーザのプライバシーに関連するユーザプロファイル記憶部12、および、ユーザ辞書記憶部13はクライアント側に配置させ、その他の一般辞書記憶部14乃至コンテンツ推薦部23はサーバ側に配置させることが可能である。
または例えば、大量の記憶容量を必要とするコンテンツ記憶部15とメタデータ記憶16とは、サーバ側に配置させ、その他のブロック、即ち、ユーザインタフェース部11乃至一般辞書記憶部14、およびメタデータ取得部17乃至コンテンツ推薦部23は、クライアント側に配置させることが可能である。
または例えば、計算負荷を分散するように、ユーザインタフェース部11乃至コンテンツ推薦部23のそれぞれは、サーバ側とクライアント側に適切に分散させて配置させることも可能である。
また、この場合、即ち、本発明の情報処理システムが、例えば、クライアントとサーバとから構成される場合、情報伝送部24には、ネットワークを介する他の情報処理装置との通信を行う通信機器が含まれ、この通信機器が、サーバとクライアントとのそれぞれに設けられる。即ち、サーバとクライアントとは、内蔵する通信機器をそれぞれ利用して、ネットワークを介する通信を相互に行う。
さらに、この場合、情報伝送部24には、サーバとクラインとのそれぞれの内部に設けられる各種バスが含まれることもある。即ち、クライアント内に、ユーザインタフェース部11乃至コンテンツ推薦部23のうちの少なくとも2つのブロックが配置されている場合、これらのブロック間の情報のやり取りは、クライアント内の各種バスを介して行われる。同様に、サーバ内に、ユーザプロファイル記憶部12乃至コンテンツ推薦部23のうちの少なくとも2つのブロックが配置されている場合、これらのブロック間の情報のやり取りは、サーバ内の各種バスを介して行われる。
その他例えば、ユーザインタフェース部11乃至コンテンツ推薦部23の全てがクライアント側に配置される形態を取ることも可能である。即ち、1台の情報処理装置内に、ユーザインタフェース部11乃至コンテンツ推薦部23の全てが配置されてもよい。この場合、情報伝送部24は例えば、その情報処理装置の内部に設けられる各種バスで構成される。
かかる構成を有する図1の情報処理システムは、上述したように、複数のコンテンツのうちの少なくとも1つに対応付けられるN個(Nは1以上の整数値)のメタデータを基底として、複数のコンテンツのうちのM個(Mは1以上の整数値)のコンテンツのそれぞれをベクトル化し、その結果得られるM個のベクトルを列成分または行成分とする行列をメタデータ行列Dとして生成することができる。さらに、図1の情報処理システムは、そのメタデータに対して、重み付け処理を施したり、LSA演算を施すことができる。これにより、適切に重み付けが施されたメタデータ行列Dや、その近似行列Dkを得ることが可能になる。
従って、図1の情報処理システムは、適切に重み付けが施されたメタデータ行列Dや、その近似行列Dkを利用する様々な処理を施すことができる。例えば、図1の情報処理システムは、上述した従来のコンテンツ推薦処理を実行できるのは勿論こと、さらに、次の第1の処理乃至第5の処理といった、本発明人が発明した処理を実行できる。
即ち、本発明人は、次の第1の処理乃至第5の処理のそれぞれを実行可能な情報処理システムまたは情報処理装置を新たに発明したとも言える。そして、本発明人は、その一実施形態として、図1の構成の情報処理システムを開示したと言える。従って、次の第1の処理乃至第5の処理のそれぞれを実行可能な情報処理システムまたは情報処理装置であれば、その形態は図1の例に限定されないのは言うまでもない。
第1の処理とは、「共起関係を考慮した不要メタデータ抽出処理」である。第2の処理とは、「共起関係を考慮した推薦処理」である。第3の処理とは、「クラスタリングされたUPV(ユーザ嗜好ベクトル)群の差分を利用した推薦処理」である。第4の処理とは、「LSAによるコンテンツの再評価処理」である。第5の処理とは、「LSAと他手法とのハイブリッドによる推薦処理」である。
以下、第1の処理乃至第5の処理の詳細について、その順番に個別に説明していく。即ち、以下、第1の処理乃至第5の処理のそれれぞれを実行する情報処理システムまたは情報処理装置の実施の形態について、その順番に個別に説明していく。なお、以下、第1の処理乃至第5の処理のそれれぞれを実行する情報処理システムまたは情報処理装置の実施の形態のそれぞれを、説明の簡略上、第1実施形態乃至第5実施形態と称する。
(第1実施形態)
はじめに、第1実施形態について説明する。
例えば、コンテンツが文章である場合、そのメタデータとして、その文書に出現する単語の頻度(あるいはそれに応じた適切な重み値)を採用することができる。
この場合、新規の処理対象となる新たな文書が追加されたとき、その新たな文章に出現する各単語のうちのこれまでに出現しなかった新規単語は、新たなメタデータの基底ベクトルとしてメタデータ空間に追加される。
即ち、メタデータ空間の次元数は、これまでに処理対象とされた全文章に出現した単語の種類数と等しくなる。従って、処理対象とされた文章の数が増えれば増えるほど、即ち、ユーザがこれまでに作成または閲覧した文章の数が増えれば増えるほど、メタデータ空間の次元数も増えていく。具体的には、メタデータ空間の次元数は、一般に数千から数万にまでなってしまう。
その結果、その後段の計算、例えばマッチング処理やクラスタリング処理の計算が困難になる問題があった。このとき、従来においても、単語重みに基づく単語数の削減は試みられているが、TF/IDFなどを利用している場合は、メタデータ(単語)の共起関係(あるいは同義性)は考慮されず、削除すべきではない単語が削除されてしまう場合が多々ある、という課題があった。
そこで、この課題を解決するために、本発明人は、上述した第1の処理、即ち、「共起関係を考慮した不要メタデータの抽出処理」を発明した。
この第1の処理は、LSAによって生成された近似行列Dkを利用する。近似行列Dkが、共起関係を考慮して生成される行列だからである。ただし、近似行列Dkと共起関係との関連性については後述する。
以下、図2乃至図6を参照して、第1実施形態の情報処理システムまたは情報処理装置、即ち、「共起関係を考慮した不要メタデータ抽出処理」を実行する情報処理システムまたは情報処理装置について説明する。
図2は、第1実施形態の情報処理システムまたは情報処理装置の機能的構成例を表している。
換言すると、図1のユーザインタフェース部11乃至コンテンツ推薦部23の全ブロックの中から「共起関係を考慮した不要メタデータの抽出処理」の実行に必要なブロックが抽出され、それらのブロックが、「共起関係を考慮した不要メタデータの抽出処理」の実行時の情報の流れに従って並べられた図が、図2である。従って、図2に示される各ブロックの説明については、図1を参照して上述しているので、ここでは省略する。
なお、図2の例では省略されているが、実際には、2つのブロックを結ぶ各矢印内には、即ち、2つのブロックの間には、図1の情報伝送部24が配置されることになる。
図3は、「共起関係を考慮した不要メタデータ抽出処理」の例を説明するフローチャートである。そこで、以下、図3のフローチャートを参照して、「共起関係を考慮した不要メタデータ抽出処理」の例について説明する。
なお、この「共起関係を考慮した不要メタデータ抽出処理」の理解を容易なものとするために、以下、図4乃至図6を適宜参照しながら説明していく。即ち、図4乃至図6は、「共起関係を考慮した不要メタデータ抽出処理」の処理結果の具体例を示している。
図3のステップS1において、行列生成部18は、メタデータ行列Dを生成する。
詳細には、ステップS1において、行列生成部18は、ユーザが経験済みの1以上のコンテンツへのそれぞれのポインタ(ID番号など)をユーザプロファイル記憶部12から取得する。次に、行列生成部18は、各ポインタのそれぞれが付されたメタデータ、即ち、ユーザが経験済みの各コンテンツのそれぞれに対応するメタデータをメタデータ記憶部16から取得し、取得されたメタデータを基底ベクトルとして、ユーザが経験済みの各コンテンツのそれぞれをベクトル化する。これにより、ユーザが経験済みの各コンテンツのそれぞれに対応するコンテンツベクトルが生成される。そして、行列生成部18は、各コンテンツベクトルのそれぞれを列成分とするメタデータ行列Dを生成する。
なお、ステップS1の処理で集積されるメタデータは、1ユーザが経験済みのコンテンツに対応するメタデータの他、全コンテンツに対応するメタデータでもよいし、複数のユーザが経験済みのコンテンツに対応するメタデータでもよい。ただし、メタデータ取得処理の処理対象となるコンテンツに応じて、後述するステップS6の不要メタデータの登録先が異なることになる。
ステップS2において、重み付け処理部19は、所定の重み付け手法を利用して、ステップS1の処理で行列生成部18により生成されたメタデータ行列Dに対して、重み付けを行う。
ステップS2の処理で利用される重み付け手法は、上述したように、特に限定されず、TF/IDFを利用する手法、正規化TFを利用する手法、あるいはコンテンツまたはメタデータごとに時間経過などを反映したヒューリスティックな重み付けを行う手法等が採用可能である。
ただし、ここでは例えば、コンテンツとして5つの文章d1乃至d5が処理対象とされ、メタデータとして、文書d1乃至文章d5に出現する単語が採用されており、重み付け手法として、文章内の単語頻度をそのまま重み値とする手法が採用されているとする。
具体的には、例えば、文章d1においては、“京都”,”豆腐”,”温泉”,”紅葉”,”USB”,”ソフトウエア”,”価格”のそれぞれの単語の頻度が、3,4,1,0,0,0,1のそれぞれであったとする。文章d2においては、“京都”,”豆腐”,”温泉”,”紅葉”,”USB”,”ソフトウエア”,”価格”のそれぞれの単語の頻度が、1,0,3,3,0,0,1のそれぞれであったとする。文章d3においては、“京都”,”豆腐”,”温泉”,”紅葉”,”USB”,”ソフトウエア”,”価格”のそれぞれの単語の頻度が、4,1,0,0,0,0,2のそれぞれであったとする。文章d4においては、“京都”,”豆腐”,”温泉”,”紅葉”,”USB”,”ソフトウエア”,”価格”のそれぞれの単語の頻度が、0,1,0,4,0,0,0のそれぞれであったとする。文章d5においては、“京都”,”豆腐”,”温泉”,”紅葉”,”USB”,”ソフトウエア”,”価格”のそれぞれの単語の頻度が、0,0,0,0,2,1,1のそれぞれであったとする。
この場合、ステップS2の処理の結果、図4に示されるような、重み付けがなされたメタデータ行列Dが生成されることになる。即ち、ステップS2の処理の結果、文章d1乃至d5の各コンテンツベクトル(頻度による重み付けがなされたコンテンツベクトルであり、いわゆる特徴ベクトルである)のそれぞれを、1列目乃至5列目のそれぞれの列成分とする7行5列のメタデータ行列Dが生成されることになる。
なお、文章d1のコンテンツベクトル(“京都”,”豆腐”,”温泉”,”紅葉”,”USB”,”ソフトウエア”,”価格”)とは(3,4,1,0,0,0,1)である。文章d2のコンテンツベクトルとは(1,0,3,3,0,0,1)である。文章d3のコンテンツベクトルとは(4,1,0,0,0,0,2)である。文章d4のコンテンツベクトルとは(0,1,0,4,0,0,0)である。文章d5のコンテンツベクトルとは(0,0,0,0,2,1,1)である。
図3に戻り、ステップS3において、LSA演算部20は、ステップS2の処理で重み付け処理部19により適切な重み付けがなされたメタデータ行列Dに対して、LSA演算を実行する。
なお、ここでは、ステップS3の処理として、LSA演算のうちの第1の処理と第3の処理が実行されて、その結果、適切に次元圧縮された近似行列Dkが生成される。
具体的にはいまの場合、図4の行列Dに対して、ステップS3の処理が施されると、例えば、2次元に圧縮された図5に示される近似行列Dkが生成される。
即ち、ステップS3の処理の結果、次のように更新された文章d1乃至d5の各コンテンツベクトルのそれぞれを、1列目乃至5列目のそれぞれの列成分とする7行5列の近似行列Dkが生成されることになる。
即ち、文章d1の更新されたコンテンツベクトルとは(3.6999,2.6836,0.7968,0.1194,0.0846,0.0423,1.6540)である。文章d2の更新されたコンテンツベクトルとは(0.8301,0.8297,1.6489,3.5394,0.0168,0.0084,0.6448)である。文章d3の更新されたコンテンツベクトルとは(3.2099,2.3044,0.5377,-0.2633,0.0736,0.0368,1.4063)である。文章d4の更新されたコンテンツベクトルとは(0.0886,0.2855,1.4478,3.4166,-0.0001,-0.0001,0.3057)である。文章d5の更新されたコンテンツベクトルとは(0.2824,0.2058,0.0674,0.0249,0.0064,0.0032,0.1275)である。
図3に戻り、メタデータ抽出部21は、ステップS4において、ステップS3の処理でLSA演算部20により演算された近似行列Dkを用いて、各メタデータの特徴差分のそれぞれを演算する。
特徴差分とは、メタデータ行列Dと近似行列Dkとの差異(変化)を利用して生成される、メタデータの重要度の指標値を指す。
以下、この特徴差分についてさらに詳しく説明する。
例えば、図5の近似行列Dkの例では、”↑↑”といった2つの上向きの矢印は、図4のメタデータ行列Dに比較して1以上重み値(成分値)が増加した成分であることを示している。同様に、”↑”といった1つの上向きの矢印は、図4のメタデータ行列Dに比較して0.5以上重み値が増加した成分であることを示している。
ここで、近似行列Dkの成分値が、メタデータ行列Dのそれよりも増加する意味について説明する。
即ち、所定のコンテンツ内での所定のメタデータの重要度は本来高いものであるにも係らず、各コンテンツにまたがるメタデータの共起性が考慮されずに生成されたメタデータ行列Dの時点では重要度は低いとみなされ、その結果、メタデータ行列Dの対応する成分値が低い値となっている場合がある。
この場合、近似行列Dkが生成されると、そのコンテンツ内でのそのメタデータの本来の高い重要度が浮き彫りになり、その結果、近似行列Dkの対応する成分値は高い値に更新されるのである。
なぜならば、近似行列Dkは、概念空間において主成分として重要で無いとされた(特異値が小さかった)基底成分が削減されて再演算された結果得られ行列だからである。即ち、近似行列Dkとは、各コンテンツにまたがるメタデータの共起性が考慮されて各成分値が更新された行列だからである。
以上の内容が、近似行列Dkの成分値が、メタデータ行列Dのそれよりも増加する意味である。
また例えば、図5の近似行列Dkの例では、”↓↓”といった2つの下向き矢印は、図4のメタデータ行列Dに比較して1以上重み値が減少した成分であることを示している。同様に、”↓”といった1つ下向きの矢印は、図4のメタデータ行列Dに比較して0.5以上重み値が減少した成分であることを示している。
ここで、近似行列Dkの成分値が、メタデータ行列Dのそれよりも減少する意味について説明する。
即ち、所定のコンテンツ内での所定のメタデータの重要度は本来低いものであるにも係らず、各コンテンツにまたがるメタデータの共起性が考慮されずに生成されたメタデータ行列Dの時点では重要度は高いとみなされ、その結果、メタデータ行列Dの対応する成分値が高い値となっている場合がある。
この場合、近似行列Dkが生成されると、そのコンテンツ内でのそのメタデータの本来の低い重要度が浮き彫りになり、その結果、近似行列Dkの対応する成分値は低い値に更新されるのである。
以上の内容が、近似行列Dkの成分値が、メタデータ行列Dのそれよりも減少する意味である。
このように、メタデータ行列Dと近似行列Dkとの差異(変化)とは、各コンテンツにまたがるメタデータの共起性が考慮される前と後とにおける、メタデータの重要度の捉え方の差異を表現していると言える。
従って、メタデータ行列Dと近似行列Dkとの差異(変化)を利用することで、メタデータの重要度の指標値、即ち、メタデータの特徴差分を演算することが可能になるのである。
換言すると、メタデータの特徴差分の演算手法は、メタデータ行列Dと近似行列Dkとの差異(変化)を利用する手法であれば特に限定されず、様々な手法を適用することができる。
例えば、メタデータの特徴差分は、次の第1の特徴差分演算手法乃至第3の特徴差分演算手法により算出可能である。
第1の特徴差分演算手法とは、近似行列Dkの成分値自身を利用して特徴差分を演算する手法である。近似行列Dkの成分値自身を利用することも、メタデータ行列Dと近似行列Dkとの差異(変化)を利用していると言えるからである。
具体的には、メタデータ行列Dと近似行列Dkとのそれぞれにおいて、所定のメタデータは1つの行に対応する。例えば、上述した図4のメタデータ行列Dと図5の近似行列Dkとの例では、“京都”というメタデータ(単語)は、1行目に対応する。即ち、所定の行の各成分値のそれぞれは、各コンテンツ(文章)のそれぞれについての、その行に対応するメタデータの重み値を指す。例えば、上述した図4のメタデータ行列Dと図5の近似行列Dkとの例では、1行目の各成分値のそれぞれは、文章d1乃至d5のそれぞれについての、“京都”というメタデータ(単語)の重み値を指す。
従って、例えば、N個のメタデータとM個のコンテンツからメタデータ行列Dが生成されている場合、即ち、メタデータ行列DがN行M列の行列である場合、N個のメタデータのそれぞれを、処理の対象として注目すべきメタデータ(以下、注目メタデータと称する)として順次設定し、注目メタデータを示す行のM個の成分値の平均値または最大値を演算し、即ち、注目メタデータのM個のコンテンツについての各重み値の平均値または最大値を演算し、その演算結果を注目メタデータの特徴差分とするという手法が、第1の特徴差分演算手法の一例である。
第2の特徴差分演算手法とは、近似行列Dkの各成分の値のそれぞれと、メタデータ行列Dの対応する成分の値との差分値のそれぞれを利用して特徴差分を演算する手法である。
具体的には例えば、メタデータ行列DがN行M列の行列である場合、N個のメタデータのそれぞれを注目メタデータとして順次設定し、近似行列Dkのうちの注目メタデータを示す行のM個の成分値のそれぞれと、メタデータ行列Dのうちの対応する成分値との差分値のそれぞれを演算し、演算されたM個の差分値の平均値または最大値を演算し、その演算結果を注目メタデータの特徴差分とするという手法が、第2の特徴差分演算手法の一例である。
所定の成分値がLSA演算により増加した場合、即ち、所定の成分において、近似行列Dkよりもメタデータ行列Dの方が大きい値となっている場合、その成分についての、近似行列Dkとメタデータ行列Dとの差分値は、当然ながら正値となる。
以上の内容と、成分値がLSA演算により増加する上述した意味とを考慮すると、結局、第2の特徴差分演算手法により演算される注目メタデータの特徴差分が正値になることとは、注目メタデータは、各コンテンツにまたがるメタデータの共起性が考慮された結果、重要であると判断されたことと等価である。正確には、正値になることとは、注目メタデータの本来の高い重要度が浮き彫りになったことと等価である。
また、正値になることの理由と逆の理由で、第2の特徴差分演算手法により演算される注目メタデータの特徴差分が負値になることとは、そのメタデータは、各コンテンツにまたがるメタデータの共起性が考慮された結果、重要度が低いと判断されたことと等価である。正確には、負値になることとは、注目メタデータの本来の低い重要度が浮き彫りになったことと等価である。
具体的には例えば、図5の近似行列Dkを用いて、第2の特徴差分演算手法により演算された特徴差分の演算結果が図6に示されている。より正確には、“京都”、“豆腐”,“温泉”,“紅葉”,“USB”,“ソフトウエア”,“価格”のそれぞれの単語を注目メタデータとして順次設定し、図5の近似行列Dkのうちの注目メタデータを示す行の5個の成分値、即ち、文章d1乃至d5における注目メタデータの重み値のそれぞれと、図4のメタデータ行列Dのうちの対応する成分値との差分値のそれぞれを演算し、これら5個の差分値の平均値を注目メタデータの特徴差分として演算した場合の、その演算結果が図6に示されている。
詳細には、図6に示されるように、“京都”の特徴差分は0.0222になる。また、“豆腐”,“温泉”,“紅葉”,“USB”,“ソフトウエア”,“価格”のそれぞれの特徴差分は、0.0618,0.0997,-0.326,-0.3638,-0.1819,-0.1723のそれぞれになる。
従って、“京都”,“豆腐”,“温泉”のそれぞれは、文章d1乃至d5にまたがる単語の共起性が考慮された結果、重要度が高いと判断された、正確には、本来の高い重要度が浮き彫りになったと言える。
これに対して、“紅葉”,“USB”,“ソフトウエア”,“価格”のそれぞれは、文章d1乃至d5にまたがる単語の共起性が考慮された結果、重要度が低いと判断された、正確には、本来の低い重要度が浮き彫りになったと言える。
より具体的には、図6の各メタデータの特徴差分から次のことがわかる。即ち、他の文書とは関連の薄い文章d5にのみ出現する”USB”や”ソフトウエア”といった、お互いを除き他の単語との関連が薄い単語の重要度は非常に低くなる(重みが大きく下がる)ことがわかる。また、“価格”といった、どの文章にも出現しやすい一般的な単語の重要度も低くなる(重みが下がる)ことがわかる。これに対して、“温泉”や”豆腐”といった、文書を特徴づけ、かつ似たような文書が複数あるような単語の重要度は高くなる(重みが大きくなる)ことがわかる。
以上、第2の特徴差分演算手法について説明した。次に、第3の特徴差分演算手法について説明する。
第3の特徴差分演算手法とは、近似行列Dkの各成分の値のそれぞれを、メタデータ行列Dの対応する成分の値で除算した除算値のそれぞれを利用して特徴差分を演算する手法である。
具体的には例えば、メタデータ行列DがN行M列の行列である場合、N個のメタデータのそれぞれを注目メタデータとして順次設定し、近似行列Dkのうちの注目メタデータを示す行のM個の成分値のそれぞれを、メタデータ行列Dのうちの対応する成分値で除算した除算値のそれぞれを演算し、演算されたM個の除算値の平均値または最大値を演算し、その演算結果を注目メタデータの特徴差分とするという手法が、第3の特徴差分演算手法の一例である。
所定の成分値がLSA演算により増加した場合、即ち、所定の成分において、近似行列Dkよりもメタデータ行列Dの方が大きい値となっている場合、その成分についての、近似行列Dkに対するメタデータ行列Dの除算値は、当然ながら1より大きくなる。
以上の内容と、成分値がLSA演算により増加する上述した意味とを考慮すると、結局、第3の特徴差分演算手法により演算される注目メタデータの特徴差分が1より大きくなることとは、注目メタデータは、各コンテンツにまたがるメタデータの共起性が考慮された結果、重要であると判断されたことと等価である。正確には、1より大きくなることとは、注目メタデータの本来の高い重要度が浮き彫りになったことと等価である。
また、1より大きくなることの理由と逆の理由で、第2の特徴差分演算手法により演算される注目メタデータの特徴差分が1より小さくなることとは、注目メタデータは、各コンテンツにまたがるメタデータの共起性が考慮された結果、重要度が低いと判断されたことと等価である。正確には、1より小さくなることとは、注目メタデータの本来の低い重要度が浮き彫りになったことと等価である。
以上、図3のステップS4におけるメタデータの特徴差分の演算手法の例として、第1の特徴差分演算手法乃至第3の特徴差分演算手法について説明した。
このようにして、ステップS4の処理により各メタデータの特徴差分のそれぞれが演算されると、処理はステップS5に進む。
ステップS5において、メタデータ抽出部21は、メタデータの特徴差分が閾値以下であるか否かを判定する。
各メタデータの特徴差分の全てが閾値を超えている場合、ステップS5でNOであると判定されて、処理は終了となる。
これに対して、各メタデータの特徴差分の中に閾値以下の特徴差分が1つでも存在する場合、ステップS5でYESであると判定されて、処理はステップS6に進む。
ステップS6において、メタデータ抽出部21は、不要メタデータの登録や呈示を行う。詳細には、ステップS6において、メタデータ抽出部21は、閾値以下の特徴差分を有するメタデータを不要メタデータであると特定し、不要メタデータをメタデータ記憶部16から抽出する。そして、メタデータ抽出部21は、抽出された不要メタデータを、ユーザ辞書記憶部13または一般辞書記憶部14に登録(記憶)させたり、ユーザインタフェース部11を介してユーザに呈示する。これにより、「共起関係を考慮した不要メタデータ抽出処理」は終了となる。
このように、ステップS5の処理で利用される閾値は、各メタデータのそれぞれを不要メタデータに分類するか否かを判定するために、各メタデータの特徴差分のそれぞれと比較される値である。即ち、閾値を超える特徴差分を有するメタデータとは、不要メタデータには分類されない重要度の高いメタデータである。これに対して、閾値未満の特徴差分を有するメタデータとは、不要メタデータに分類される重要度の低いメタデータである。
従って、この閾値は、上述したステップS4の処理に採用される特徴差分演算手法に応じて異なる値になることが多い。
例えば、差分値を使用する上述した第2の特徴差分演算手法が採用されている場合には、閾値として例えば0未満の値を設定すると好適である。具体的には例えば、閾値として-0.1が設定された場合、上述した図6の例では、”USB”,”ソフトウエア”,”価格”が不要メタデータとして抽出されることになる。
これに対して、例えば、除算値を使用する上述した第3の特徴差分演算手法が採用されている場合には、閾値として例えば1未満の値を設定すると好適である。
以上、図2乃至図6を参照して、第1実施形態の情報処理システムまたは情報処理装置、即ち、「共起関係を考慮した不要メタデータ抽出処理」を実行する情報処理システムまたは情報処理装置について説明した。
第1実施形態においては、近似行列Dkや、近似行列Dkと元のメタデータ行列Dとの差異などを利用することによって、潜在的な意味レベルでのメタデータ間の関連性(共起関係)を考慮した重み付けがなされる。その結果、特徴差分といった、共起関係を考慮した重要度の指標値が得られる。
従って、このような共起関係を考慮した重要度の指標値(重み値)を利用することで、一見他と関係のないようなメタデータや、一見他と関係があるようで実際には関連性が低いメタデータを発見し、それに基づいた取捨選択が可能となる。
即ち、一見他と関係のないようなメタデータであるが、本来重要度の高いメタデータを、不要メタデータに誤分類してしまうことを防止することが可能になる。また、一見他と関係があるようで実際には関連性が低いメタデータ、即ち、一見重要度が高そうで実際には重要度が低いメタデータを、不要メタデータに確実に分類することが可能になる。
(第2実施形態)
次に、第2実施形態について説明する。
従来のコンテンツの推薦では、メタデータの共起関係は考慮されずに、単にTF/IDFによるメタデータ行列Dにおける重みか、あるいはLSAによってメタデータ行列Dが次元圧縮された結果得られる近似行列Dkにおける重みが使われており、いずれの方法でも既知の(ユーザが経験した、あるいは高い評価を与えた)ものに類似したコンテンツの推薦しか実現できなかった、という課題があった。
そこで、この課題を解決するために、本発明人は、上述した第2の処理、即ち、「共起関係を考慮した推薦処理」を発明した。
この第2の処理は、LSAによって生成された近似行列Dk、または、第1実施形態で説明したメタデータの特徴差分を利用する。上述したように、近似行列Dkは、メタデータの共起関係を考慮して生成される行列だからであり、メタデータの特徴差分は、そのメタデータについての共起関係を考慮した重要度の指標値だからである。
以下、この第2の処理の概略について説明する。
第2実施形態の情報処理システムまたは情報処理装置(以下、第2の処理の概略の説明においては、単に装置と称する)は、とあるコンテンツ(列ベクトル)に着目したときに、特徴差分または近似行列Dkの成分値に基づいて、コンテンツ推薦に使用するメタデータを1以上抽出する。
詳細には、上述したように、特徴差分が大きいメタデータは、元のメタデータ行列Dではそれほど重みが大きくなかったものの、他のメタデータとの共起関係を考慮すると重要であると判断されたメタデータ(以下、重要メタデータと称する)である。従って、ここで言う重要メタデータとは、ユーザがこれまで気がつかなかった創発性の高いメタデータであると考えられる。
そこで、装置は、例えば特徴差分が大きい上位数個のメタデータを重要メタデータとして抽出することができる。
また、近似行列Dkのうちの大きな成分値に対応するメタデータもまた、重要メタデータであると言える。
そこで、装置は、例えば、近似行列Dkの成分値うちの上位数個に対応するメタデータを重要メタデータとして抽出することができる。
或いは、装置は、特徴差分に基づいて重要メタデータを抽出するとともに、近似行列Dkの成分値に基づいて重要メタデータを抽出することもできる。即ち、コンテンツ推薦に使用する1以上の重要メタデータとして、特徴差分に基づいて抽出された重要メタデータのみを用いてもよいし、近似行列Dkの成分値に基づいて抽出された重要メタデータのみを用いてもよいし、或いは、特徴差分に基づいて抽出された重要メタデータと、近似行列Dkの成分値に基づいて抽出された重要メタデータとを組み合わせて用いてもよい。
その後、装置は、このようにして抽出された1以上の重要メタデータそのものを、ユーザがコンテンツを選択するためのきっかけとなる情報として推薦する。或いは、装置は、このようにして抽出された1以上の重要メタデータからなるメタデータ群をひとつのコンテンツ(列ベクトル)とみなして、メタデータ群(列ベクトル)と他のコンテンツ(列ベクトル)とのマッチング処理を行い、そのマッチング処理の結果に基づいて、他のコンテンツを推薦する。
以上、第2の処理、即ち、「共起関係を考慮した推薦処理」の概略について説明した。
次に、図7と図8を参照して、第2実施形態の情報処理システムまたは情報処理装置、即ち、「共起関係を考慮した推薦処理」を実行する情報処理システムまたは情報処理装置について説明する。
図7は、第2実施形態の情報処理システムまたは情報処理装置の機能的構成例を表している。
換言すると、図1のユーザインタフェース部11乃至コンテンツ推薦部23の全ブロックの中から「共起関係を考慮した推薦処理」の実行に必要なブロックが抽出され、それらのブロックが、「共起関係を考慮した推薦処理」の実行時の情報の流れに従って並べられた図が、図7である。従って、図7に示される各ブロックの説明については、図1を参照して上述しているので、ここでは省略する。
なお、図7の例では省略されているが、実際には、2つのブロックを結ぶ各矢印内には、即ち、2つのブロックの間には、図1の情報伝送部24が配置されることになる。
図8は、「共起関係を考慮した推薦処理」の例を説明するフローチャートである。そこで、以下、図8のフローチャートを参照して、「共起関係を考慮した推薦処理」の例について説明する。
図8のステップS21乃至S23のそれぞれは、上述した図3のステップS1乃至S3のそれぞれと基本的に同様の処理である。従って、ステップS21乃至S23の処理の説明については省略する。
ただし、ステップS21の処理で生成されるメタデータ行列Dの中に、ユーザの経験と無関係なコンテンツ(コンテンツベクトル)が多く含まれれば含まれるるほど、ステップS23の処理の結果得られる近似行列Dkは、ユーザ特有のメタデータの共起関係の偏りが薄まった行列となり、一般的な意味での共起関係が考慮された行列となる。従って、このような近似行列Dkの各成分値、或いは、このような近似行列Dkから得られる特徴差分に基づいて、後述するステップS26の処理で重要メタデータとして抽出されるメタデータは、ユーザにとっての創発性は低下したメタデータとなるので、その点注意を要する。即ち、ユーザにとっての創発性が高いメタデータの抽出を所望する場合、ステップS21の処理で生成されるメタデータ行列Dの中に、ユーザの経験済みのコンテンツ(コンテンツベクトル)を可能な限り多く含めるとよい。
ステップS23の処理でLSA演算部20により近似行列Dkが生成されると、処理はステップS24に進む。
ステップS24において、LSA演算部20は、メタデータ抽出部21により実行される後述するステップS26の処理において、特徴差分を利用するか否かを判定する。
LSA演算部20は、ステップS24において、特徴差分を利用すると判定した場合、ステップS25において、各メタデータの特徴差分を演算する。なお、ステップS25の処理は、上述した図3のステップS4の処理と基本的に同様の処理である。従って、ステップS25の処理の詳細については省略する。
その後、近似行列Dkと各メタデータの特徴差分とが、LSA演算部20からメタデータ抽出部21に供給されると、処理はステップS26に進む。
これに対して、ステップS24において、特徴差分を利用しないと判定された場合、近似行列DkのみがLSA演算部20からメタデータ抽出部21に供給されて、処理はステップS26に進む。
ステップS26において、メタデータ抽出部21は、近似行列Dkの成分値と、各メタデータの特徴差分とのうちの少なくとも一方を利用して、推薦に利用するメタデータ、即ち、重要メタデータを1以上特定し、特定された1以上の重要メタデータをメタデータ記憶部16から抽出する。
ステップS26における重要メタデータの抽出手法(特定手法)は、特に限定されないが、例えば、次のような抽出手法が採用可能である。
即ち、例えば、近似行列Dkの全列成分、即ち、全コンテンツベクトルの平均ベクトル、あるいはユーザが指定する特定のコンテンツベクトルにおいて、最も高い成分値に対応するメタデータ(または高い方から任意個数のメタデータ)を重要メタデータとして抽出する、といった抽出手法を適用することが可能である。要約すると、近似行列Dkの成分値を利用する抽出手法を適用することが可能である。
また、例えば、最も高い特徴差分を有するメタデータ(または高い方から任意個数のメタデータ)を重要メタデータとして抽出する、即ち、重み値が上昇したメタデータを重要メタデータとして抽出する、といった抽出手法を適用することが可能である。要約すると、特徴差分を利用する抽出手法を適用することが可能である。
具体的には、例えばいま、上述したステップS21乃至S23の処理で、第1実施形態で説明した図4のメタデータ行列Dが生成され、かつ、図5の近似行列Dkが生成されたとする。また、ステップS25の処理で、図5の近似行列Dkと図4のメタデータ行列Dとの差分値を利用する上述した第2の特徴差分演算手法により、図6の各メタデータの特徴差分が演算されたとする。
この場合、ステップS26の処理で、例えば、0.05以上の特徴差分を有するメタデータが重要メタデータとして抽出されるとすれば、”豆腐”と”温泉”とが抽出されることになる。
メタデータ抽出部21により抽出された1以上の重要メタデータがコンテンツ推薦部23に供給されると、処理はステップS27に進む。
ステップS27において、コンテンツ推薦部23は、コンテンツの推薦を行うか否かを判定する。
ステップS27において、コンテンツの推薦を行わないと判定された場合、処理はステップS28に進む。
ステップS28において、コンテンツ推薦部23は、ステップS26の処理でメタデータ抽出部21により抽出された1以上の重要メタデータを、ユーザインタフェース部11を介してユーザに呈示する。
これにより、「共起関係を考慮した推薦処理」は終了となる。
これに対して、ステップS27において、コンテンツの推薦を行うと判定された場合、処理はステップS29に進む。正確には、コンテンツ推薦部23は、ステップS27において、コンテンツの推薦を行うと判定した場合、ステップS26の処理でメタデータ抽出部21により抽出された1以上の重要メタデータをベクトル演算部22に供給するとともに、マッチング処理の依頼を行うことで、処理はステップS29に進む。
ステップS29において、ベクトル演算部22は、ステップS26の処理でメタデータ抽出部21により抽出された1以上の重要メタデータからなるメタデータ群を用いて、コンテンツのマッチング処理を行う。即ち、ステップS29において、ベクトル演算部22は、このメタデータ群を1つのコンテンツ(コンテンツベクトル)とみなし、それと、コンテンツ記憶部15に記憶されている他のコンテンツ(コンテンツベクトル)との類似度を演算し、もっとも類似度の高いコンテンツ(または高い方から任意個数のコンテンツ)を選択し、コンテンツ推薦部23に供給する。
すると、ステップS28において、コンテンツ推薦部23は、ステップS29の処理でベクトル演算部22により選択された1以上のコンテンツの推薦を行う。即ち、ステップS28において、コンテンツ推薦部23は、1以上のそれらのコンテンツのメタデータ(或いは、そのメタデータや関連情報)をユーザインタフェース部11を介してユーザに呈示する。
これにより、「共起関係を考慮した推薦処理」は終了となる。
以上、図7と図8を参照して、第2実施形態の情報処理システムまたは情報処理装置、即ち、「共起関係を考慮した推薦処理」を実行する情報処理システムまたは情報処理装置について説明した。
第2実施形態においては、近似行列Dkが得られ、その近似行列Dkや、その近似行列Dkと元のメタデータ行列Dとの差異などを利用することによって、潜在的な意味レベルでのメタデータ間の関連性(共起関係)を考慮した重み付けがなされる。即ち、メタデータの共起関係を考慮した近似行列Dkが得られる。その結果、メタデータについての共起関係を考慮した重要度の指標値である特徴差分も得られる。
従って、このような共起関係を考慮した近似行列Dkの成分値や、共起関係を考慮した重要度の指標値(重み値)を利用することで、一見他と関係のないようなメタデータや、一見他と関係があるようで実際には関連性が低いメタデータを発見し、それに基づいた取捨選択が可能となる。
即ち、一見他と関係のないようなメタデータであるが、本来重要度の高いメタデータとは、上述したように、ユーザがこれまで気がつかなかった創発性の高いメタデータ、即ち、重要メタデータであると考えられる。従って、このような重要メタデータに基づいて推薦されるコンテンツも、ユーザがこれまで気がつかなかった創発性の高いコンテンツであると考えられる。
なお、以上説明した第1実施形態や第2実施形態の情報処理システムまたは情報処理装置は、データマイニングや文書分類などの分野における、Feature Selectionなどと呼ばれる属性(メタデータ)の選別処理にも適用可能である。即ち、メタデータの共起関係を考慮した属性(メタデータ)の選別処理の実現も容易に可能である。
(第3実施形態)
次に、第3実施形態について説明する。
従来、ベクトル空間法をベースにしたコンテンツ推薦システムのユーザ嗜好ベクトル(User Preference Vector:UPV)の生成手法として、ユーザが高評価を与えたコンテンツ群のコンテンツベクトルの平均によりUPVを生成する生成手法が採用されていることが多い。このような生成手法で生成されたUPVは、ユーザの多様な嗜好をなまらせたベクトルとなっており、このようなUPVを用いてコンテンツの推薦を行っても、幅のある推薦が難しいという課題があった。また、高い評価を与えたコンテンツ群を複数のグループにクラスタリングしてたとえバラエティを出したとしても、やはりユーザがまったく経験したことの無いようなコンテンツの推薦は困難であるという課題があった。
そこで、この課題を解決するために、本発明人は、上述した第3の処理、即ち、「クラスタリングされたUPV群の差分を利用した推薦処理」を発明した。
以下、この第3の処理の概略について説明する。
第3実施形態の情報処理システムまたは情報処理装置(以下、第3の処理の概略の説明においては、単に装置と称する)は、メタデータ空間あるいは概念空間において、ユーザが高評価を与えたコンテンツベクトルを、所定のアルゴリズムを用いて複数のクラスタ(グループ)にクラスタリングする。
装置は、各クラスタのそれぞれについて、対応するクラスタに属する1以上のコンテンツベクトルの平均などにより代表となるベクトル(以下、代表ベクトルと称する)を求め、さらに、各クラスタの代表ベクトル同士の差分ベクトル(以下、差分UPVと称する)を生成する。
即ち、第3実施形態における各グループの代表ベクトルからなるベクトル群とは、クラスタリングされた従来のUPV群である。即ち、各クラスタの代表ベクトル同士の差分ベクトルとは、クラスタリングされた従来のUPV群の差分により生成されるベクトルを指す。従って、以下、各クラスタの代表ベクトル同士の差分ベクトルを、差分UPVと称する。
装置は、差分UPVを利用してコンテンツのマッチング処理を行い、そのマッチング処理の結果に基づいて、コンテンツの推薦を行う。
ここで注目すべき点は、差分UPVとは、コンテンツベクトルの平均(従来のUPV)では表れなかった(計算し得なかった)嗜好を表すベクトルである点である。従って、差分UPVを利用することで、ユーザがこれまで気がつかなかったコンテンツの推薦が可能になる。
以上、第3の処理、即ち、「クラスタリングされたUPV群の差分を利用した推薦処理」の概略について説明した。
次に、図9と図10を参照して、第3実施形態の情報処理システムまたは情報処理装置、即ち、「クラスタリングされたUPV群の差分を利用した推薦処理」を実行する情報処理システムまたは情報処理装置について説明する。
図9は、第3実施形態の情報処理システムまたは情報処理装置の機能的構成例を表している。
換言すると、図1のユーザインタフェース部11乃至コンテンツ推薦部23の全ブロックの中から「クラスタリングされたUPV群の差分を利用した推薦処理」の実行に必要なブロックが抽出され、それらのブロックが、「クラスタリングされたUPV群の差分を利用した推薦処理」の実行時の情報の流れに従って並べられた図が、図9である。従って、図9に示される各ブロックの説明については、図1を参照して上述しているので、ここでは省略する。
なお、図9の例では省略されているが、実際には、2つのブロックを結ぶ各矢印内には、即ち、2つのブロックの間には、図1の情報伝送部24が配置されることになる。
図10は、「クラスタリングされたUPV群の差分を利用した推薦処理」の例を説明するフローチャートである。そこで、以下、図10のフローチャートを参照して、「クラスタリングされたUPV群の差分を利用した抽出処理」の例について説明する。
図10のステップS41とS42のそれぞれは、上述した図3のステップS1とS2のそれぞれと基本的に同様の処理である。従って、ステップS41とS42の処理の説明については省略する。
例えばいま、ステップS41とS42の処理で重み付けがなされたn行m列のメタデータ行列Dとして、ユーザ評価が高いコンテンツベクトルを集めた行列Aが生成されたとする。なお、以下、行列Aの各列成分、即ち、各コンテンツベクトルをai(i=0,1,・・・,m-1)と記述する。即ち、行列Aは、次の式(3)で示される。
A = ( a0, a1, ・・・ , am-1) ・・・(3)
この場合、ステップS43において、LSA演算部20は、この式(3)で示されるメタデータ行列Aに対して、LSA演算を実行する。
ただし、第3実施形態のステップS43の処理では、LSA演算のうちの第1の処理と第2の処理が実行される。
具体的には例えば、上述した式(1)で示されるように、行列Aは、特異値分解により3つの成分行列U,Σ,Vのそれぞれに分解される。
次に、成分行列Uがk次元に圧縮され、その結果、射影行列Ukが得られる。即ち、射影行列Ukとは、成分行列Uのうちの、特異値の大きい方からk個の列成分(列ベクトル)のみを残し、それ以外の成分が0である行列を指す。
その結果、射影行列Ukによって行列Aが概念空間に射影される。なお、その結果得られる行列を、例えば、行列Bと記述するとする。この場合、射影行列Ukによって行列Aが概念空間に射影されるとは、次の式(4)に従った演算がなされたことを指す。なお、式(4)において、行列Uk Tは、射影行列Ukの転置行列を表している。
B = Uk TA ・・・(4)
また、行列Bの各列成分(列ベクトル)をbi(i=0,1,・・・,m-1)と記述するとする。この場合、行列Bは、次の式(5)で表される。
B = ( b0, b1, ・・・ , bm-1) ・・・(5)
この列ベクトルbiが、k次元に圧縮されたコンテンツベクトル、即ち、概念空間に射影されたコンテンツベクトルである。
即ち、ステップS43の処理では、概念空間に射影された各コンテンツベクトルbiが得られることになる。なお、以下、概念空間に射影された各コンテンツベクトルbiの集合体、即ち、行列Bを、概念空間に射影されたコンテンツベクトル群と称する。
そこで、ステップS44において、ベクトル演算部22は、ステップS43のLSA演算部20の処理により概念空間に射影されたコンテンツベクトル群のクラスタリングを行う。即ち、ステップS44において、ベクトル演算部22は、概念空間に射影された各コンテンツベクトルbiのそれぞれを、所定のアルゴリズムを利用して、任意の数の任意の種類のクラスタのうちのいずれかに分類する。
このように、ステップS44の処理を実行するベクトル演算部22は、クラスタリング部22であると言える。そこで、図9のLSA演算部20の下方に示されるベクトル演算部22は、クラスタリング部22と括弧書きで示されているのである。
具体的には例えばいま、ステップS44において、概念空間に射影された各コンテンツベクトルbiのそれぞれが、s個のクラスタのうちのいずれかに分類されたとする。
次に、ステップS45において、ベクトル演算部22は、代表ベクトル(UPV)をそれぞれ生成する。即ち、いまの場合、ステップS45において、ベクトル演算部22は、s個のクラスタのそれぞれについて、対応するクラスタに属する1以上のコンテンツベクトルbiの平均ベクトルを生成し、その平均ベクトルを代表ベクトル(UPV)とする。
なお、以下、この代表ベクトルを、cj'( j = 0,1,・・・,s-1)と記述するとする。
ステップS46において、ベクトル演算部22は、代表ベクトル(UPV)同士の差分である差分UPVを生成する。即ち、ステップS46において、ベクトル演算部22は、s個のクラスタの代表ベクトルcj'のうちの所定の2個の組み合わせの差分を求めることで、1つの差分ベクトルを生成する。
なお、このような2個のクラスタの組の組み合せ数は、クラスタの個数sに応じて異なるが、クラスタの個数sが3以上の場合、当然ながら複数になる。従って、この場合、仮に全ての組み合わせの組について、差分UPVがそれぞれ生成されるとすると、複数の差分UPVが生成されることになる。
具体的には例えばいまの場合、ステップS46の処理で、次の式(6)の右辺が演算され、ベクトルd'p,qのそれぞれが、各差分UPVとして生成されることになる。なお、式(6)において、p,q = 0,1,・・・,s-1である。ただしp≠qである。
d'p,q = c'p - c'q ・・・(6)
なお、差分UPVを生成するための2つの代表ベクトルの組は、全ての組合せを利用する必要は特になく、任意の数の任意の組合せを利用すればよい。いずれにしても、ステップS46の処理で1以上の差分UPVが生成されることになる。そこで、以下、1以上の差分UPVを、差分UPV群とする。即ち、ステップS46の処理で差分UPV群が生成されることになる。
また、ステップS46の処理としてさらに、ベクトル演算部22は、概念空間の第1主成分(特異値分解によって最も高い特異値とペアとなるベクトル基底値)の値が高い順などの所定の規則に従って、差分UPV群に属する各差分UPVのそれぞれの順序付けをすることもできる。
ベクトル演算部22は、差分UPV群を生成すると、その旨コンテンツ推薦部23に通知する。その後、コンテンツ推薦部23からマッチング処理の依頼がベクトル演算部22に通知されると、処理はステップS47に進む。
ステップS47において、ベクトル演算部22は、ステップS46の処理で生成された差分UPV群を利用して、コンテンツのマッチング処理を行う。
即ち、ステップS47において、ベクトル演算部22は、差分UPV群に属する各差分UPVのそれぞれと、コンテンツ記憶部15に記憶されている他のコンテンツ(コンテンツベクトル)との類似度を演算し、もっとも類似度の高いコンテンツ(または高い方から任意個数のコンテンツ)を選択し、コンテンツ推薦部23に供給する。
具体的には例えばいまの場合、差分UPV群には、各ベクトルd'p,q ( p,q = 0,1,・・・,s-1、ただしp≠q )が属しているので、ステップS47の処理で、全てのp,qについて(あるいは順位付けされていれば上位の数個について)、対応するベクトルd'p,qと新たなコンテンツベクトルとの類似度が演算される。
なお、ステップS44の処理を実行するベクトル演算部22に対して、このステップS47の処理を実行するベクトル演算部22は、マッチング部22であると言える。そこで、図9のコンテンツ推薦部23の右隣に示されるベクトル演算部22は、マッチング部22と括弧書きで示されているのである。
ステップS48において、コンテンツ推薦部23は、ステップS47の処理でベクトル演算部22により選択された1以上のコンテンツの推薦を行う。即ち、ステップS48において、コンテンツ推薦部23は、1以上のそれらのコンテンツ(或いは、そのメタデータや関連情報)をユーザインタフェース部11を介してユーザに呈示する。
これにより、「クラスタリングされたUPV群の差分を利用した推薦処理」は終了となる。
以上、図9と図10を参照して、第3実施形態の情報処理システムまたは情報処理装置、即ち、「クラスタリングされたUPV群の差分を利用した推薦処理」を実行する情報処理システムまたは情報処理装置について説明した。
第3実施形態においては、次のような効果を奏することが可能になる。即ち、従来においては、上述したように、UPVは、ユーザ評価の高いコンテンツベクトルの平均などから生成される。従って、そのようなUPVと類似度の高いコンテンツは必然的にユーザが経験したコンテンツに似たものになり、コンテンツ推薦のバリエーションが狭いという課題があった。これに対して、第3の実施形態においては、差分UPVを利用したマッチング処理の結果に基づいてコンテンツ推薦が行われるので、ユーザが経験したことが無く、かつユーザの好みをある程度反映したコンテンツの推薦ができる、という効果を奏することが可能になる。
なお、第3実施形態のこの効果は、メタデータ空間における差分UPVを利用するよりも、概念空間における差分UPVを利用した方がより顕著になる。以下、その理由について説明する。なお、理解を容易なものとするために、上述した図10のフローチャートに示される各ステップを適宜参照しながら説明していく。
射影前のメタデータ空間においては、即ち、ステップS43の処理の前においては、例えば文書における単語頻度などを利用してメタデータ行列Dが生成されている場合、その列成分、即ち、コンテンツベクトルの負のベクトル要素(負の成分値であり、以下、負要素と称する)は意味を持たない。
従って、メタデータ空間においては、コンテンツベクトル群がクラスタリングされ、各クラスタの代表ベクトル(UPV)が生成され、代表ベクトル同士の差分がとられたとしても、その結果得られる差分UPVとコンテンツ(コンテンツベクトル)とのマッチング処理では、負要素は情報として利用できない
これに対して、ステップS43の処理後においては、即ち、特異値分解によりメタデータ空間が射影された結果得られる概念空間においては、上述したように、各コンテンツベクトルは、負要素を持つようになる。
従って、概念空間においては、上述したステップS44乃至S46の結果得られた差分UPVがステップS47のマッチング処理で利用される場合、負要素を含めた全ての要素が有効になる。
具体的には例えば、ステップS44の処理で、概念空間においてユーザの好みによりクラスタリングが行われ、第1の好みを示すクラスタの代表ベクトルc1ではe1,e2,e3という概念基底で高い重みがついており、第1の好みとは別の第2の好みを示すクラスタの代表ベクトルc2ではe2,e3,e4という概念基底で高い重みがついているとする。なお、説明の簡略上、e1乃至e4の重み値(成分値)は全て正値とする。
なお、概念基底とは、概念空間を張る基底を指し、具体的には例えば、メタデータ行列Dを上述した式(1)に従って特異値分解したときの成分行列Uの各列成分(列ベクトル)を指す。
この場合、代表ベクトルc1と代表ベクトルc2の差分UPVであるベクトル(c1-c2)においては、概念基底e1の正の高い重み値と、概念基底e4の負の高い重み値とが残る。即ち、概念基底e2と概念基底e3においては、高い重み値と高い重み値との差分が取られた結果、両者の重み値は相殺しあって、その重み値の絶対値は、概念基底e1,e4の重み値の絶対値に比較して遥かに低い値になる。
従って、ステップS47において、このような概念空間における差分UPVにマッチするコンテンツとは、概念基底e1に射影されるメタデータに高い重みがあり、かつ概念基底e4に関して負方向に射影されるメタデータに高い重みがあるものであると言える。概念基底e4に負方向に射影されるメタデータは、概念基底e1乃至e4の正方向に射影されるメタデータと何かしらの関連があったとしても、ユーザが経験したコンテンツには付加されていない可能性がある。このため、概念基底e4に負方向に射影されるメタデータもマッチング処理の対象に加えることで、ユーザの新たな興味の触発を図ることが可能なコンテンツ推薦を行うことが可能になる。
以上の内容が、メタデータ空間における差分UPVよりも概念空間における差分UPVの方が、第3実施形態の上述した効果がより顕著になる理由である。
(第4実施形態)
次に、第4実施形態について説明する。
従来においても、ユーザ評価値を利用したコンテンツの推薦が行われている。例えば、P. Resnick, N. Iacovou, M. Suchak, P. Bergstrom, and J. Riedl. “GroupLens: Open Architecture for Collaborative Filtering of Newnews.” Conference on Computer Supported Cooperative Work, pp. 175-186, 1994.などには、協調フィルタリングとユーザ評価値とを利用したコンテンツの推薦の手法が開示されている。また、特開2002-269143号公報には、LSAとユーザ評価値とを利用したコンテンツの推薦の手法が開示されている。
しかしながら、これらの手法では、異なるユーザ間の評価の類似性を単に利用しているだけであり、1ユーザ内での同じような傾向を持つコンテンツに対する評価の時間的な変化と、その把握内容とは考慮されていない。このため、このような手法で推薦されるコンテンツは現在のユーザの嗜好に必ずしも適したものではない、という課題があった。
そこで、この課題を解決するために、本発明人は、上述した第4の処理、即ち、「LSAによるコンテンツの再評価処理」を発明した。
以下、この第4の処理の概略について説明する。
例えばいま、ユーザの経験したコンテンツ(新規コンテンツ)が増え、それに伴い、第4実施形態の情報処理システムまたは情報処理装置(以下、第4の処理の概略の説明においては、単に装置と称する)が、新規コンテンツのコンテンツベクトルを元のメタデータ行列Dに加えることでメタデータ行列Dを更新し、更新後のメタデータ行列Dの近似行列Dkを生成したとする。即ち、近似行列Dkが更新されたとする。
この場合、更新前の近似行列Dkに含まれていたコンテンツベクトル(列成分)の成分は、更新後の近似行列Dkにおいてはその成分値が変化することになる。
そこで、第4実施形態においては、メタデータの他にユーザの評価値も基底として有するコンテンツベクトルが利用され、このようなコンテンツベクトルからメタデータ行列Dが生成される。
その後、ユーザの経験したコンテンツ(新規コンテンツ)が増え、新規コンテンツに対するユーザの評価値も入力された場合、装置は、新規コンテンツを、そのメタデータとユーザの評価値とを基底としてベクトル化する。これにより、新規コンテンツのコンテンツベクトルが生成される。そして、装置は、新規コンテンツのコンテンツベクトルを元のメタデータ行列Dに加えることでメタデータ行列Dを更新し、更新後のメタデータ行列Dの近似行列Dkを生成する。即ち、近似行列Dkが更新される。
この場合、上述したように、新規コンテンツのコンテンツベクトルの評価値(更新後のメタデータ行列Dの対応する成分値)によって、新規コンテンツと類似する既存のコンテンツの評価値(更新後の近似行列Dkの対応する評価値)も変化することになる。
換言すると、装置は、近似行列Dkを、新規コンテンツのコンテンツベクトルを含むように更新することで、既存のコンテンツの再評価(評価値の更新)を行っていると言える。
このような既存のコンテンツの再評価により、かつてはユーザ推薦対象の基準値に達していなかったコンテンツの評価値がLSA実行後に基準値に達する場合がでてくる。このような場合、装置は、LSA実行後に基準値に達した評価値を有するコンテンツ自身またはそれと類似するコンテンツをユーザに推薦することができる。即ち、装置は、過去においては推薦の対象外であったコンテンツ、即ち、過去においては推薦されずに切り捨てられていたたコンテンツの中から、現在のユーザの嗜好にあった推薦を行うことが可能となる。換言すると、嗜好の時間変化への対応が可能となる。
以上、第4の処理、即ち、「LSAによるコンテンツの再評価処理」の概略について説明した。
次に、図11と図12を参照して、第4実施形態の情報処理システムまたは情報処理装置、即ち、「LSAによるコンテンツの再評価処理」を実行する情報処理システムまたは情報処理装置について説明する。
図11は、第4実施形態の情報処理システムまたは情報処理装置の機能的構成例を表している。
換言すると、図1のユーザインタフェース部11乃至コンテンツ推薦部23の全ブロックの中から「LSAによるコンテンツの再評価処理」の実行に必要なブロックが抽出され、それらのブロックが、「LSAによるコンテンツの再評価処理」の実行時の情報の流れに従って並べられた図が、図11である。従って、図11に示される各ブロックの説明については、図1を参照して上述しているので、ここでは省略する。
なお、図11の例では省略されているが、実際には、2つのブロックを結ぶ各矢印内には、即ち、2つのブロックの間には、図1の情報伝送部24が配置されることになる。
図12は、「LSAによるコンテンツの再評価処理」の例を説明するフローチャートである。そこで、以下、図12のフローチャートを参照して、「LSAによるコンテンツの再評価処理」の例について説明する。
なお、この「LSAによるコンテンツの再評価処理」の理解を容易なものとするために、以下、図13乃至図16を適宜参照しながら説明していく。即ち、図13乃至図16は、「LSAによるコンテンツの再評価処理」の処理結果の具体例を示している。
ここでは例えば、図13乃至図16に示されるように、コンテンツとして楽曲が処理対象とされ、メタデータとして、その楽曲の特徴量が採用されているとする。具体的には例えば、図13乃至図16に示されるように、“テンポ”,“明るさ”,“緩急”,“音量”,“音の密度”といった5つの特徴量が採用されているとする。また、コンテンツベクトルの基底は、これらの5つの特徴量の他に、音楽に対するユーザの評価値である“評価”が加えられているとする。即ち、図13乃至図16に示されるように、ここでは、コンテンツベクトルとは、(“テンポ”,“明るさ”,“緩急”,“音量”,“音の密度”,“評価”)といった形式のベクトルとなる。
また、4つの楽曲t1乃至t4が処理対象となる「LSAによるコンテンツの再評価処理」が過去に行われ、その際に、図13のメタデータ行列D0が生成され、また、そのメタデータ行列D0がLSA演算により2次元に圧縮された結果として、図14の近似行列D0kが生成されたとする。
図13に示されるように、メタデータ行列D0とは、楽曲t1乃至t4の各コンテンツベクトルのそれぞれを、1列目乃至4列目のそれぞれの列成分とする6行4列の行列である。楽曲t1のコンテンツベクトルとは(3,4,1,1,1,2)である。楽曲t2のコンテンツベクトルとは(1,1,3,3,1,3)である。楽曲t3のコンテンツベクトルとは(1,1,1,4,3,4)である。楽曲t4のコンテンツベクトルとは(1,1,3,1,2,1)である。
また、図14に示されるように、近似行列D0kとは、次のように更新された楽曲t1乃至楽曲t4の各コンテンツベクトルのそれぞれを、1列目乃至4列目のそれぞれの列成分とする6行4列の行列である。楽曲t1の更新されたコンテンツベクトルとは(2.9829,3.9135,1,1460,0.9474,1.3666,1.8780)である。楽曲t2の更新されたコンテンツベクトルとは(1.0413,1.0535,1.8432,3.2809,1.1293,3.2931)である。楽曲t3の更新されたコンテンツベクトルとは(0.9531,0.8869,2.0439,3,7325,1.1950,3.6664)である。楽曲t4の更新されたコンテンツベクトルとは(1.0503,1.2953,0.7850,1.1136,0.6536,1.3586)である。
その後、ユーザは、新規楽曲t5を視聴し、図11のユーザインタフェース部11を利用して新規楽曲t5の評価を行ったとする。この場合、新規楽曲t5のIDと評価値とはユーザプロファイル記憶部12に記憶され、新規楽曲t5のメタデータ、即ち、新規楽曲t5についての“テンポ”,“明るさ”,“緩急”,“音量”,“音の密度”はメタデータ記憶部16に記憶される。
そして、それに伴い、図12の「LSAによるコンテンツの再評価処理」が開始されたとする。
この場合、ステップS61とS62において、図3のステップS1とS2と同様の処理が実行されて、例えば図15に示されるようなメタデータ行列Dが行列生成部18により生成される。
詳細には例えば、楽曲t5のコンテンツベクトルとして(4,2,1,1,1,5)が生成され、その楽曲t5のコンテンツベクトルが、図13のメタデータ行列D0に付加されて、図15のメタデータ行列Dが生成される。
このようにして、ステップS61とS62の処理により、楽曲t1乃至t5の各コンテンツベクトルのそれぞれを、1列目乃至5列目のそれぞれの列成分とする6行5列の行列が、メタデータ行列Dとして生成される。このメタデータ行列Dが重み付け処理部19からLSA演算部20に供給されると、処理はステップS63に進む。
図12に戻り、ステップS63において、LSA演算部20は、図15のメタデータ行列Dに対して、LSA演算を実行する。
いまの場合、ステップS63の処理として、LSA演算のうちの第1の処理と第3の処理が実行されて、その結果、例えば、2次元に圧縮された図16に示される近似行列Dkが生成される。
即ち、いまの場合、ステップS63の処理の結果、次のように更新された楽曲t1乃至楽曲t5の各コンテンツベクトルのそれぞれを、1列目乃至5列目のそれぞれの列成分とする6行5列の近似行列Dkが生成されることになる。
即ち、楽曲t1の更新されたコンテンツベクトルとは(3.3622,2.9437,0.7306,0.4177,0.9981,2.8258)である。楽曲t2の更新されたコンテンツベクトルとは(1.0252,0.7929,1.8142,3.2245,1.0748,3.4327)である。楽曲t3の更新されたコンテンツベクトルとは(1.0908,0.8379,2.0166,3.5988,1.1854,3.7918)である。楽曲t4の更新されたコンテンツベクトルとは(1.0652,0.9030,0.6816,1.0083,0.5341,1.6224)である。楽曲t5の更新されたコンテンツベクトルとは(3.6087,3.1206,1.3746,1.5976,1.3572,3.9869)である。
この図16の近似行列DkがLSA演算部20からコンテンツ推薦部23に供給されると、処理はステップS64に進む。
ステップS64において、コンテンツ推薦部23は、各コンテンツの評価値の判定を行う。そして、ステップS65において、コンテンツ推薦部23は、その判定結果に基づいてコンテンツの推薦を行う。これにより、「LSAによるコンテンツの再評価処理」は終了となる。
なお、ステップS64のコンテンツの評価値の判定手法は、特に限定されず様々な判定手法を採用可能である。例えば、各コンテンツベクトルのそれぞれについて、近似行列Dk中の“評価”成分が次の第1の条件乃至第3の条件を満たした場合、対応するコンテンツをユーザに推薦すべであると判定する、といった判定手法が採用可能である。さらに、この判定手法を基にして、ユーザの時間的な嗜好の変化の度合いを考慮し、あまり直近に経験したコンテンツが推薦されないようにある程度古いコンテンツに重みを付ける、といった判定手法が採用可能である。
なお、第1の条件とは、近似行列Dk中の“評価”成分の値が、もとのメタデータ行列Dの対応する成分値よりも大きくなった、という条件を指す。
第2の条件とは、近似行列Dk中の“評価”成分の値が、所定の閾値より大きくなったという条件を指す。
第3の条件とは、近似行列Dk中の“評価”成分の値から演算される上述した特徴差分、または、近似行列Dk中の評価値成分の値と、もとのメタデータ行列Dの対応する成分値との差分値若しくは除算値から演算される上述した特徴差分が、所定の閾値より大きいという条件を指す。
具体的には例えばいまの場合、第2の条件が採用され、閾値として2.5が設定されているとする。この場合、近似行列Dk中の“評価”成分の値が2.5より大きいコンテンツ(楽曲)は、楽曲t1,楽曲t2,楽曲t3,楽曲t5である。従って、ステップS64において、楽曲t1,楽曲t2,楽曲t3,楽曲t5が推薦すべきコンテンツであると判定され、ステップS65において、楽曲t1,楽曲t2,楽曲t3,楽曲t5の推薦が行われるのである。
ここで注目すべき点は次の点である。
即ち、例えば楽曲t1に着目すると、図13に示されるように、この楽曲t1の元の評価値、即ち、“評価”成分の値は2と低い値になっている。また、楽曲t1は、楽曲t2乃至t4と特に類似しているわけではないため、図14に示されるように、LSA演算により更新された後の楽曲t1の“評価”成分の値も1.8780と、閾値2.5より小さい値になっている。従って、ユーザが新規楽曲t5を視聴する前においては、この楽曲t1は推薦されなかった。
ところが、その後、ユーザが新規楽曲t5を視聴したところその新規楽曲t5に高い評価を与えており、即ち、図15に示されるように、楽曲t5の“評価”の成分値は5と高い値となっており、また、この楽曲t5は、楽曲t1乃至t4の中では楽曲t1に最も類似している。従って、この楽曲t5を含む図15のメタデータ行列Dに対してLSA演算が施されると、楽曲t5の高い評価値によって、メタデータ(音楽特徴量)の関連性に基づいて、楽曲t5と類似している楽曲t1の“評価”の成分値も2.8258と高い値に更新される。従って、上述したように、かつて低い評価が与えられていたために推薦されなかった(推薦が忘れられていた可能性が高い)楽曲t1が、最近のユーザの興味に基づいて、即ち、楽曲t5へのユーザの高評価に基づいて、再度ユーザに推薦することが可能になる、という点である。
以上説明したように、第4実施形態においては、近似行列Dkが、新規コンテンツのコンテンツベクトルを含むように更新されることで、既存のコンテンツの再評価(評価値の更新)が行われる。これにより、過去においては推薦の対象外であったコンテンツ、即ち、過去においては推薦されずに切り捨てられていたたコンテンツの中から、現在のユーザの嗜好にあった推薦を行うことが可能となる。換言すると、嗜好の時間変化への対応が可能となる。
(第5実施形態)
次に、第5実施形態について説明する。
上述したように、コンテンツのコンテンツベクトルは、メタデータを基底とするベクトルである。コンテンツベクトルの基底として多数のメタデータを使用すると、当然ながら性質が異なるメタデータが混在することが多々ある。例えば、その性質上、他からは影響を受けないメタデータが存在する等、他に与える影響の度合い、或いは、他から受ける影響の度合いが異なるメタデータが混在することが多々ある。
しかしながら、従来のコンテンツの推薦では、これらのメタデータの性質の違い、例えば、他に与える影響の度合いや他から受ける影響の度合いは考慮しておらず、その結果、ユーザにとって適切なコンテンツを必ずしも推薦できていない、という課題があった。
例えば、メタデータの重み付けに使用する各種アルゴリズム(重み付け手法)は、全性質のメタデータに適している訳ではなく、ある性質のメタデータには適しているが、別の性質のメタデータには適していないという場合が大半である。しかしながら、従来においては、性質の違いによらず、全メタデータに対して同一のアルゴリズムが使用されて重み付けがなされており、そのような重み付けがなされたメタデータを利用してコンテンツの推薦が行われた場合、そのコンテンツは、ユーザにとって必ずしも適しているとは限らない、という課題があった。
そこで、この課題を解決するために、本発明人は、上述した第5の処理、即ち、「LSAと他手法とのハイブリッドによる推薦処理」を発明した。
以下、この第5の処理の概略について説明する。
上述したように、メタデータがその特性によって何種類かに分類できて、各種類毎に、適切な重み付けアルゴリズムがそれぞれ異なる場合がある。
このような場合、第5実施形態の情報処理システムまたは情報処理装置(以下、第5の処理の概略の説明においては、単に装置と称する)は、マッチングに使用する行列の重み付け処理を、メタデータの種類毎に個別に実行する。
装置は、このようにして重み付けがなされた行列を利用して、コンテンツのマッチング処理を行う。これにより、従来に比較してより適切なマッチング処理が可能となる。
また、装置は、2以上のアルゴリズム毎に、対応するアルゴリズムにより計算された成分値に所定の係数を乗じて重み付けを変えることもできる。
例えば、コンテンツが電子メールとされ、メタデータとしては、電子メール内の単語、送受信時間帯、やり取りした相手、場所が採用されているとする。この場合、装置は、例えば、これらのメタデータのうちの、電子メール内の単語を第1の種類に分類し、それ以外の3要素、即ち、送受信時間帯、やり取りした相手、場所を第2の種類に分類する。
次に、装置は、メタデータ行列を生成し、それを、第1の種類のメタデータに対応する成分からなる第1の部分行列と、第2の種類のメタデータに対応する成分からなる第2の部分行列とに区分する。
次に、装置は、例えば、第1の部分行列に対しては、TF/IDFなど一般の重み付けアルゴリズムで重み付けを行う重み付け処理を実行する一方、第2の部分行列に対しては、例えばLSAなどの第2の重み付けアルゴリズムで重み付け処理を実行する。なお、このときのアルゴリズムの組み合わせは、この例に限定されず、任意の組み合わせでいいことは言うまでもない。
そして、装置は、このように異なるアルゴリズムで重み付けされた第1の部分行列と第2の部分行列を合成し、その結果得られる行列(以下、近似合成行列と称する)を利用してマッチング処理を行う。
以上、第5の処理、即ち、「LSAと他手法とのハイブリッドによるによる推薦処理」の概略について説明した。
なお、以下、上述した送受信時間帯、やり取りした相手、場所等のメタデータを、コンテクストと称する。即ち、本明細書においては、コンテクスト(context)とは、ユーザの内的状態および外的状態の全てを指す。ユーザの内的状態とは、ユーザの体調、または、情動(気分や心理状態)等を指す。また、ユーザの外的状態とは、ユーザの空間的または時間的な配置位置(時間的な配置位置とは、例えば、現在時刻を指す)の他、ユーザの周囲の空間方向若しくは時間方向に分布する(または、いずれの方向にも分布する)所定の状態も指す。
次に、図17と図18を参照して、第5実施形態の情報処理システムまたは情報処理装置、即ち、「LSAと他手法とのハイブリッドによる推薦処理」を実行する情報処理システムまたは情報処理装置について説明する。
図17は、第5実施形態の情報処理システムまたは情報処理装置の機能的構成例を表している。
換言すると、図1のユーザインタフェース部11乃至コンテンツ推薦部23の全ブロックの中から「LSAと多手法とのハイブリッドによる推薦処理」の実行に必要なブロックが抽出され、それらのブロックが、「LSAと多手法とのハイブリッドによる推薦処理」の実行時の情報の流れに従って並べられた図が、図17である。従って、図17に示される各ブロックの説明については、図1を参照して上述しているので、ここでは省略する。
なお、図17の例では省略されているが、実際には、2つのブロックを結ぶ各矢印内には、即ち、2つのブロックの間には、図1の情報伝送部24が配置されることになる。
図18は、「LSAと他手法とのハイブリッドによる推薦処理」の例を説明するフローチャートである。そこで、以下、図18のフローチャートを参照して、「LSAと多手法とのハイブリッドによる推薦処理」の例について説明する。
ここでは例えば、第1の種類のメタデータ群M1と、第1の種類とは異質な第2の種類のメタデータ群M2とが採用され、かつ、メタデータ群M1とメタデータ群M2のうちの一方から他方へは影響を与えるが、その逆方向への影響は無いとされているとする。例えばここでは、影響の与え方の方向は、メタデータ群M2からメタデータ群M1に向かう方向とされているとする。
具体的には例えば、コンテンツとして楽曲が処理対象とされた場合には、その楽曲の特徴量がメタデータ群M2として採用可能であり、また、ユーザがコンテンツを経験する場所、時間、状況、感情などのコンテクストがメタデータ群M1として採用可能である。なぜならば、特徴量とコンテクストとは当然ながら異質なものであり、かつ、コンテクストが音楽の印象(特徴量)に影響しても、音楽(特徴量)がコンテクストに直接作用することは無いからである。
また、全メタデータのうちの、メタデータ群M1に分類される種類がs種類存在し、メタデータ群M2に分類される種類がt種類存在するとする。そして、処理の対象のコンテンツがn個存在するとする。即ち、n個のコンテンツのそれぞれについて、s+t個のメタデータが付与されているとする。
この場合、図18のステップS81の行列生成部18の処理の結果、メタデータ行列Dとして、次の式(7)に示される行列Aが生成されることになる。
Figure 2006048286
・・・(7)
式(7)において、m1u,v(u=0乃至s-1,v=0乃至n-1)は、v番目のコンテンツに付加されたメタデータであって、メタデータ群M1に分類されるs種類のメタデータのうちの、u番目のメタデータに対応する成分値を示している。また、m2w,x(w=0乃至t-1,x=0乃至n-1)は、x番目のコンテンツに付加されたメタデータであって、メタデータ群M2に分類されるt種類のメタデータのうちの、w番目のメタデータに対応する成分値を示している。
ステップS82において、行列生成部18は、メタデータ行列を2つの部分行列に区分する。即ち、いまの場合、ステップS82において、行列生成部18は、式(7)の最右辺に示されるように、部分行列Mt1と部分行列Mt2に区分する。
部分行列Mt1とは、行列Aのうちの上からs行分の行列成分から構成される行列、即ち、m1u,v(u=0乃至s-1,v=0乃至n-1)を成分値として有する行列である。従って、部分行列Mt1は、s行n列の行列になる。
これに対して、部分行列Mt2とは、行列Aのうちの下からt行分の行列成分から構成される行列、即ち、m2w,x(w=0乃至t-1,x=0乃至n-1)を成分値として有する行列である。従って、部分行列Mt2は、t行n列の行列になる。
ステップS83において、重み付け処理部19は、2つの部分行列のそれぞれに対して重み付けをそれぞれ実行する。
ステップS84において、LSA演算部20は、2つの部分行列のうちの少なくとも1つに対してLSA演算を実行する。
なお、ここで言う部分行列に対してLSA演算を実行するとは、部分行列単体に対してLSA演算を施して、部分行列単体の近似行列を生成することを含む他、メタデータ行列全体に対してLSA演算を実行し、その結果得られるメタデータ行列の近似行列のうちの、対象となる部分行列に対応する成分のみを使用することを指す。
後者について具体的に説明する。例えばいまの場合、式(7)のメタデータ行列A全体に対してLSA演算が施されると、次の式(8)に示される行列A'が、メタデータ行列Aの近似行列として生成されることになる。
Figure 2006048286
・・・(8)
この場合、行列生成部18が、ステップS82の処理と全く同様に近似行列A'も区分すると、即ち、メタデータ行列Aを2つの部分行列Mt1,Mt2に区分したのと同様に近似行列A'も区分すると、式(8)に示されるように、2つの部分行列Mt1',Mt2'が得られる。
部分行列Mt1'とは、近似行列A'のうちの上からs行分の行列成分から構成される行列、即ち、LSA演算により値が更新されたm1u,v(u=0乃至s-1,v=0乃至n-1)を成分値として有する行列である。従って、部分行列Mt1'も、s行n列の行列になる。
これに対して、部分行列Mt2'とは、近似行列A'のうちの下からt行分の行列成分から構成される行列、即ち、LSA演算により値が更新されたm2w,x(w=0乃至t-1,x=0乃至n-1)を成分値として有する行列である。従って、部分行列Mt2'も、t行n列の行列になる。
この場合、例えば、部分行列Mt1がステップS84の処理対象にされているとすると、ステップS84の処理の結果として、式(8)の部分行列Mt1'が得られることになる。
換言すると、ステップS83とS84の処理とは、ステップS82の処理により区分された第1の部分行列と第2の部分行列とのそれぞれに対して、特異値分解を施す第1の重み付け手法と、それとは異なる第2の重み付け手法とのうちのいずれか一方を、メタデータ群M1とメタデータ群M2との種類間での影響の及ぼしあい方の特徴に応じてそれぞれ個別に選択し、個別に選択された重み付け手法のそれぞれを利用して、第1の部分行列と第2の部分行列のそれぞれに対して個別に重み付けを行う処理である。
このようなステップS83とS84の処理により、それぞれ個別に重み付けがなされた第1の部分行列と第2の部分行列とが得られ、行列生成部18に供給されると、処理はステップS85に進む。
ステップS85において、行列生成部18は、2つの部分行列を合成することで、近似合成行列を生成する。
例えばいまの場合、次の式(9)に示される行列Bが、近似合成行列として生成されることになる。
Figure 2006048286
・・・(9)
式(9)において、部分行列Mt1'は、上述した式(8)のそれと同一の行列である。部分行列Mt2は、上述した式(7)のそれに対して、ステップS83の処理で重み付けされた行列である。
この近似合成行列Bがコンテンツ推薦部23に供給され、コンテンツ推薦部23からベクトル演算部22に対してマッチング処理の要求がなされると、処理はステップS86に進む。
ステップS86において、ベクトル演算部22は、近似合成行列Bを利用して、コンテンツのマッチング処理を行う。具体的には例えば、ステップS86において、ベクトル演算部22は、近似合成行列の各列成分、即ち、各コンテンツベクトルのうちの、ユーザが高評価を与えたコンテンツベクトルからUPVを生成する。ベクトル演算部22は、このUPVと既存のコンテンツベクトルとで類似度を計算し、もっとも類似度の高いコンテンツ(または高い方から任意個数のコンテンツ)を選択し、その選択結果をコンテンツ推薦部23に通知する。
すると、ステップS87において、コンテンツ推薦部23は、ベクトル演算部22から通知されたそのコンテンツの推薦を行う。即ち、ステップS87において、コンテンツ推薦部23は、推薦すべきそのコンテンツをコンテンツ記録部15から取得し、ユーザインタフェース部11を介してユーザに呈示する。
これにより、「LSAと他手法とのハイブリッドによる推薦処理」は終了となる。
以下、「LSAと他手法とのハイブリッドによる推薦処理」についてさらに説明する。
上述したように、式(7)のメタデータ行列Aの近似行列が、式(8)の行列A'である。この近似行列A'から区分される2つの部分行列Mt1'、Mt2'は、式(7)のメタデータ行列Aに対する次元圧縮によりお互いに影響しあっている。
即ち、例えば、メタデータ行列Aのc列に対応するコンテンツにおいて、メタデータ群M1内のi番目のメタデータの重み(成分値)m1i,cと、メタデータ群M2のj番目のメタデータの重み(成分値)m2j,cがともに大きいとする。即ち、これらの2つのメタデータは共起しているとする。この場合、他のコンテンツにおいて、メタデータ群M1内のi番目のメタデータの重み(成分値)が大きく、メタデータ群M2内のj番目のメタデータの重み(成分値)が小さいと、LSA演算の特異値分解による次元圧縮の性質によって、j番目のメタデータの重み(成分値)が引き上げられる。なお、メタデータ群M1とメタデータ群M2との関係が逆の場合も同様である。
このメタデータ群M1とメタデータ群M2との相互の影響は、例えば文書をコンテンツとして、単語をメタデータとした場合には、上述した第1実施形態と第2実施形態で説明したように、単語の共起関係を考慮した重み付けとして有用であることが示されている。
しかしながら、この第5実施形態の上述した例では、メタデータ群M2からメタデータ群M1への影響のみが存在し、その逆方向への影響は存在しないことが前提とされている。従って、このような前提がなされる場合、メタデータ群M2からメタデータM1への影響だけを重み付けに利用したいという要望が挙げられることになる。
そこで、この要請を実現するために、第5実施形態においては、重み付けされたメタデータ行列として、上述した式(9)で示される近似合成行列Bが利用されるのである。
式(9)の近似合成行列Bにおいて、その下部の部分行列Mt2は、上述したように、次元圧縮前のメタデータ行列A、即ち、式(7)のメタデータ行列Aに対してステップS83の処理で重み付けされた行列の上部の部分行列である。また、式(9)の近似合成行列Bにおいて、その上部の部分行列Mt1'は、式(8)の近似行列Bの上部の部分行列である。
即ち、式(9)の近似合成行列Bにおいて、上部の部分行列Mt1'は、メタデータ群M1のメタデータ群M2からの影響が考慮された重み付け行列となっている一方、下部の部分行列Mt2は、メタデータ群M1から影響を受けない重み付け行列となっている。
従って、近似合成行列Bとは、メタデータ群M2からメタデータ群M1へという片方向への影響のみが考慮された、重み付けメタデータ近似行列であると言える。
なお、行列生成部18乃至LSA演算部20は、ここでさらに、近似合成行列Bの下部の部分行列Mt2に対してtf/idfなどの重み付けを行ったり、部分行列Mt2をさらに区分した詳細部分行列を生成し、詳細部分行列のそれぞれに対して別の重み付けを行うこともできる。なお、この場合の重み付けは、上述したような片方の影響のみを実現する特異値分解の再帰的な適用を含む。
即ち、行列生成部18は、重み付け処理部19やLSA演算部20により第1の部分行列と第2の部分行列とのそれぞれの重み付けが行われた後であって、合成近似行列を生成する前に、さらに、第1の部分行列と第2の部分行列とのうちの少なくとも一方を2以上の詳細部分行列に分解することができる。この場合、重み付け処理部19やLSA演算部20は、さらに、2以上の詳細部分行列のうちの少なくとも1つに対して、特異値分解を施す第1の重み付け手法と、それとは異なる第2の重み付け手法とのうちのいずれか一方をそれぞれ個別に選択し、選択された重み付け手法をそれぞれ利用して重み付けをそれぞれ個別に行うことができる。
ところで、上述した例では、メタデータ群M1とメタデータ群M2とのうちの一方から他方といった片方向にのみ影響をおよぼすことが前提とされたが、メタデータ群M1とメタデータ群M2とが完全に独立で、かつそれぞれの内部では共起関係を考慮したい場合も多々ある。
このような場合、ステップS84の処理で、LSA演算部20は、ステップS83の処理で重み付けがなされた式(7)の部分行列Mt1と部分行列Mt2とのそれぞれに対して個別に特異値分解を施すことができる。
即ち、ステップS84の処理で、LSA演算部20は、次の式(10)と式(11)に示される特異値分解のそれぞれを個別に実行する。
Figure 2006048286
・・・(10)
Figure 2006048286
・・・(11)
そして、LSA演算部20は、次の式(12)と式(13)に示されるように、部分行列Mt1と部分行列Mt2のそれぞれを、k1次元とk2次元のそれぞれ圧縮した近似部分行列Mt1k1’’と近似部分行列Mt2k2’’のそれぞれを生成することができる。
Figure 2006048286
・・・(12)
Figure 2006048286
・・・(13)
従って、行列生成部18は、ステップS85の処理で、次の式(14)で示される近似合成行列A’’を生成することができる。
Figure 2006048286
・・・(14)
これにより、近似合成行列A’’は、メタデータ群M1とメタデータ群M2とは互いに影響しあわないが、それぞれの内部では共起関係等が考慮された、重み付けメタデータ近似行列となる。
以上、図17と図18を参照して、第5実施形態の情報処理システムまたは情報処理装置、即ち、「LSAと他手法とのハイブリッドによる推薦処理」を実行する情報処理システムまたは情報処理装置について説明した。
第5実施形態においては、メタデータ群M1とメタデータ群M2において、それぞれの内部だけでの相互関係を考慮した重み付け、または、メタデータ群M2からメタデータ群M1への影響だけ若しくはメタデータ群M1からメタデータ群M2への影響だけを前提とした個別の重み付けを行うことができる。このような個別の重み付けがなされたメタデータ群M1とメタデータ群M2とを利用することで、従来に比較してより適切なマッチング処理が実行でき、それに伴い、従来に比較してより適切なコンテンツ推薦が行えるようになる。
以上、第1実施形態乃至第5実施形態について説明した。
ところで、第1実施形態乃至第5実施形態等で上述した一連の処理は、ハードウエアにより実行させることもできるが、ソフトウエアにより実行させることができる。
この場合、図1の情報処理装置は、例えば、図19に示されるようなパーソナルコンピュータで構成することができる。
図19において、CPU(Central Processing Unit)101は、ROM(Read Only Memory)102に記録されているプログラム、または記憶部108からRAM(Random Access Memory)103にロードされたプログラムに従って各種の処理を実行する。RAM103にはまた、CPU101が各種の処理を実行する上において必要なデータなども適宜記憶される。
CPU101、ROM102、およびRAM103は、バス104を介して相互に接続されている。このバス104にはまた、入出力インタフェース105も接続されている。
入出力インタフェース105には、キーボード、マウスなどよりなる入力部106、ディスプレイなどよりなる出力部107、ハードディスクなどより構成される記憶部108、および、モデム、ターミナルアダプタなどより構成される通信部109が接続されている。通信部109は、インターネットを含むネットワークを介して他の情報処理装置との通信処理を行う。
入出力インタフェース105にはまた、必要に応じてドライブ110が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどよりなるリムーバブル記録媒体111が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部108にインストールされる。
一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。
このようなプログラムを含む記録媒体は、図19に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク(フロッピディスクを含む)、光ディスク(CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク(MD(Mini-Disk)を含む)、もしくは半導体メモリなどよりなるリムーバブル記録媒体(パッケージメディア)111により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM102や、記憶部108に含まれるハードディスクなどで構成される。
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムとは、複数の装置や処理部により構成される装置全体を表すものである。
本発明が適用される情報処理システムの機能的構成例を示す機能ブロック図である。 「共起関係を考慮した不要メタデータ抽出処理」を実行する場合の情報の流れの観点で図1の情報処理システムを示した機能ブロック図である。 図2の情報処理システムが実行する「共起関係を考慮した不要メタデータ抽出処理」を説明するフローチャートである。 図3の「共起関係を考慮した不要メタデータ抽出処理」の処理結果を示す例である。 図3の「共起関係を考慮した不要メタデータ抽出処理」の処理結果を示す例である。 図3の「共起関係を考慮した不要メタデータ抽出処理」の処理結果を示す例である。 「共起関係を考慮した推薦処理」を実行する場合の情報の流れの観点で図1の情報処理システムを示した機能ブロック図である。 図7の情報処理システムが実行する「共起関係を考慮した推薦抽出処理」を説明するフローチャートである。 「クラスタリングされたUPV群の差分を利用した推薦処理」を実行する場合の情報の流れの観点で図1の情報処理システムを示した機能ブロック図である。 図9の情報処理システムが実行する「クラスタリングされたUPV群の差分を利用した推薦処理」を説明するフローチャートである。 「LSAによるコンテンツの再評価処理」を実行する場合の情報の流れの観点で図1の情報処理システムを示した機能ブロック図である。 図11の情報処理システムが実行する「LSAによるコンテンツの再評価処理」を説明するフローチャートである。 図11の「LSAによるコンテンツの再評価処理」の処理結果を示す例である。 図11の「LSAによるコンテンツの再評価処理」の処理結果を示す例である。 図11の「LSAによるコンテンツの再評価処理」の処理結果を示す例である。 図11の「LSAによるコンテンツの再評価処理」の処理結果を示す例である。 「LSAと他手法とのハイブリッドによる推薦処理」を実行する場合の情報の流れの観点で図1の情報処理システムを示した機能ブロック図である。 図17の情報処理システムが実行する「LSAと他手法とのハイブリッドによる推薦処理」を説明するフローチャートである。 本発明が適用される情報処理装置(図1の情報処理システムの少なくとも一部)のハードウエアの構成例を示すブロック図である。
符号の説明
11 ユーザインタフェース部, 12 ユーザプロファイル記憶部, 13 ユーザ辞書記憶部, 14 一般辞書記憶部, 15 コンテンツ記憶部, 16 メタデータ記憶部, 17 メタデータ取得部, 18 行列生成部, 19 重み付け処理部, 20 LSA演算部, 21 メタデータ抽出部, 22 ベクトル演算部, 101 CPU, 102 ROM, 103 RAM, 108 記憶部, 111 リムーバブル記録媒体

Claims (8)

  1. 複数のコンテンツのうちの少なくとも1つに対応付けられるN個(Nは1以上の整数値)のメタデータを基底として、複数の前記コンテンツのうちのM個(Mは1以上の整数値)のコンテンツのそれぞれをベクトル化し、その結果得られるM個のベクトルを列成分または行成分とする行列をメタデータ行列として生成する行列生成手段と、
    前記行列生成手段により生成された前記メタデータ行列に対して特異値分解を施すことで、前記メタデータ行列の近似行列を生成する近似行列生成手段と、
    前記行列生成手段により生成された前記メタデータ行列と、前記近似行列生成手段により生成された前記近似行列との差異に基づいて、N個の前記メタデータのそれぞれについて、対応するメタデータの重要度を示す指標値を演算する指標値演算手段と、
    前記指標値演算手段により演算されたN個の前記指標値に基づいて、N個の前記メタデータの中から少なくとも1つを、重要度が高い重要メタデータまたは重要度が低い不要メタデータとして抽出する抽出手段と
    を備えることを特徴とする情報処理装置。
  2. 前記指標値演算手段は、N個の前記メタデータのそれぞれを注目メタデータとして順次設定し、前記近似行列のうちの前記注目メタデータを示す行または列のM個の成分値のそれぞれと、前記メタデータ行列のうちの対応する成分値との差分値のそれぞれを演算し、演算されたM個の前記差分値の平均値または最大値を、前記注目メタデータの重要度を示す前記指標値として演算する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記指標値演算手段は、N個の前記メタデータのそれぞれを注目メタデータとして順次設定し、前記近似行列のうちの前記注目メタデータを示す行または列のM個の成分値のそれぞれを、前記メタデータ行列のうちの対応する成分値で除算した除算値のそれぞれを演算し、演算されたM個の前記除算値の平均値または最大値を、前記注目メタデータの重要度を示す前記指標値として演算する
    ことを特徴とする請求項1に記載の情報処理装置。
  4. N個の前記メタデータのうちの、前記抽出手段により抽出された前記重要メタデータ、または、前記抽出手段により抽出された前記不要メタデータを除くメタデータを利用して、複数の前記コンテンツの中から、ユーザに推薦すべきコンテンツを1以上決定する推薦手段と、
    前記推薦手段により前記ユーザに推薦すべきであると決定された前記コンテンツを、前記ユーザに呈示する呈示手段と
    をさらに備えることを特徴とする請求項1に記載の情報処理装置。
  5. 前記抽出手段により抽出された前記重要メタデータまたは前記不要メタデータを、ユーザに呈示する呈示手段
    をさらに備えることを特徴とする請求項1に記載の情報処理装置。
  6. 前記抽出手段により抽出された前記重要メタデータまたは前記不要メタデータを記憶する記憶手段
    をさらに備えることを特徴とする請求項1に記載の情報処理装置。
  7. 複数のコンテンツのうちの少なくとも1つに対応付けられるN個(Nは1以上の整数値)のメタデータを基底として、複数の前記コンテンツのうちのM個(Mは1以上の整数値)のコンテンツのそれぞれをベクトル化し、その結果得られるM個のベクトルを列成分または行成分とする行列をメタデータ行列として生成する行列生成ステップと、
    前記行列生成ステップの処理により生成された前記メタデータ行列に対して特異値分解を施すことで、前記メタデータ行列の近似行列を生成する近似行列生成ステップと、
    前記行列生成ステップの処理により生成された前記メタデータ行列と、前記近似行列生成ステップの処理により生成された前記近似行列との差異に基づいて、N個の前記メタデータのそれぞれについて、対応するメタデータの重要度を示す指標値を演算する指標値演算ステップと、
    前記指標値演算ステップの処理により演算されたN個の前記指標値に基づいて、N個の前記メタデータの中から少なくとも1つを、重要度が高い重要メタデータまたは重要度が低い不要メタデータとして抽出する抽出ステップと
    を含むことを特徴とする情報処理方法。
  8. コンピュータに実行させるプログラムであって、
    複数のコンテンツのうちの少なくとも1つに対応付けられるN個(Nは1以上の整数値)のメタデータを基底として、複数の前記コンテンツのうちのM個(Mは1以上の整数値)のコンテンツのそれぞれをベクトル化し、その結果得られるM個のベクトルを列成分または行成分とする行列をメタデータ行列として生成する行列生成ステップと、
    前記行列生成ステップの処理により生成された前記メタデータ行列に対して特異値分解を施すことで、前記メタデータ行列の近似行列を生成する近似行列生成ステップと、
    前記行列生成ステップの処理により生成された前記メタデータ行列と、前記近似行列生成ステップの処理により生成された前記近似行列との差異に基づいて、N個の前記メタデータのそれぞれについて、対応するメタデータの重要度を示す指標値を演算する指標値演算ステップと、
    前記指標値演算ステップの処理により演算されたN個の前記指標値に基づいて、N個の前記メタデータの中から少なくとも1つを、重要度が高い重要メタデータまたは重要度が低い不要メタデータとして抽出する抽出ステップと
    を含むことを特徴とするプログラム。
JP2004226788A 2004-08-03 2004-08-03 情報処理装置および方法、並びにプログラム Abandoned JP2006048286A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2004226788A JP2006048286A (ja) 2004-08-03 2004-08-03 情報処理装置および方法、並びにプログラム
US11/190,858 US20060036640A1 (en) 2004-08-03 2005-07-28 Information processing apparatus, information processing method, and program
CNA2005101160013A CN1750003A (zh) 2004-08-03 2005-08-03 信息处理装置,信息处理方法,和程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004226788A JP2006048286A (ja) 2004-08-03 2004-08-03 情報処理装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2006048286A true JP2006048286A (ja) 2006-02-16

Family

ID=35801226

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004226788A Abandoned JP2006048286A (ja) 2004-08-03 2004-08-03 情報処理装置および方法、並びにプログラム

Country Status (3)

Country Link
US (1) US20060036640A1 (ja)
JP (1) JP2006048286A (ja)
CN (1) CN1750003A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007241888A (ja) * 2006-03-10 2007-09-20 Sony Corp 情報処理装置および方法、並びにプログラム
JP2011227633A (ja) * 2010-04-19 2011-11-10 Nippon Telegr & Teleph Corp <Ntt> コンテンツ管理装置,情報関連度算出方法および情報関連度算出プログラム
US8478781B2 (en) 2005-12-05 2013-07-02 Sony Corporation Information processing apparatus, information processing method and program

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060101504A1 (en) * 2004-11-09 2006-05-11 Veveo.Tv, Inc. Method and system for performing searches for television content and channels using a non-intrusive television interface and with reduced text input
US7895218B2 (en) * 2004-11-09 2011-02-22 Veveo, Inc. Method and system for performing searches for television content using reduced text input
US20070266406A1 (en) * 2004-11-09 2007-11-15 Murali Aravamudan Method and system for performing actions using a non-intrusive television with reduced text input
US7646886B2 (en) * 2005-05-11 2010-01-12 Lockheed Martin Corporation Closely-spaced multiple targets detection using a regional window as a discriminant function
JP4752623B2 (ja) * 2005-06-16 2011-08-17 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US7779011B2 (en) 2005-08-26 2010-08-17 Veveo, Inc. Method and system for dynamically processing ambiguous, reduced text search queries and highlighting results thereof
US7788266B2 (en) 2005-08-26 2010-08-31 Veveo, Inc. Method and system for processing ambiguous, multi-term search queries
US7644054B2 (en) * 2005-11-23 2010-01-05 Veveo, Inc. System and method for finding desired results by incremental search using an ambiguous keypad with the input containing orthographic and typographic errors
US8380726B2 (en) 2006-03-06 2013-02-19 Veveo, Inc. Methods and systems for selecting and presenting content based on a comparison of preference signatures from multiple users
US20070226207A1 (en) * 2006-03-27 2007-09-27 Yahoo! Inc. System and method for clustering content items from content feeds
US8073860B2 (en) 2006-03-30 2011-12-06 Veveo, Inc. Method and system for incrementally selecting and providing relevant search engines in response to a user query
WO2007124429A2 (en) 2006-04-20 2007-11-01 Veveo, Inc. User interface methods and systems for selecting and presenting content based on user navigation and selection actions associated with the content
US8762418B1 (en) * 2006-05-31 2014-06-24 Oracle America, Inc. Metadata that allows refiltering and data reclassification without accessing the data
WO2008034057A2 (en) * 2006-09-14 2008-03-20 Veveo, Inc. Methods and systems for dynamically rearranging search results into hierarchically organized concept clusters
US7925986B2 (en) 2006-10-06 2011-04-12 Veveo, Inc. Methods and systems for a linear character selection display interface for ambiguous text input
FR2906910B1 (fr) * 2006-10-10 2008-12-26 Criteo Sa Dispositif informatique de correlation propagative
WO2008063987A2 (en) 2006-11-13 2008-05-29 Veveo, Inc. Method of and system for selecting and presenting content based on user identification
US20080120319A1 (en) 2006-11-21 2008-05-22 International Business Machines Corporation System and method for identifying computer users having files with common attributes
WO2008148012A1 (en) * 2007-05-25 2008-12-04 Veveo, Inc. System and method for text disambiguation and context designation in incremental search
JP4360428B2 (ja) * 2007-07-19 2009-11-11 ソニー株式会社 記録装置、記録方法、コンピュータプログラムおよび記録媒体
US20090132264A1 (en) * 2007-11-16 2009-05-21 Wood Mark D Media asset evaluation based on social relationships
US8560576B2 (en) * 2007-12-27 2013-10-15 Sap Ag Mass change of master data via templates
JP5166949B2 (ja) * 2008-04-10 2013-03-21 株式会社エヌ・ティ・ティ・ドコモ レコメンド情報生成装置およびレコメンド情報生成方法
JP4591794B2 (ja) * 2008-04-22 2010-12-01 ソニー株式会社 情報処理装置および方法、並びにプログラム
US9166714B2 (en) 2009-09-11 2015-10-20 Veveo, Inc. Method of and system for presenting enriched video viewing analytics
WO2011067620A1 (en) * 2009-12-04 2011-06-09 Telefonaktiebolaget L M Ericsson System and methods for protecting the privacy of user information in a recommendation system
JP5564919B2 (ja) * 2009-12-07 2014-08-06 ソニー株式会社 情報処理装置、予測変換方法およびプログラム
US20110191330A1 (en) * 2010-02-04 2011-08-04 Veveo, Inc. Method of and System for Enhanced Content Discovery Based on Network and Device Access Behavior
EP2423831A1 (en) * 2010-08-27 2012-02-29 Axel Springer Digital TV Guide GmbH Recommender system with consistent profile application
US20130117147A1 (en) * 2011-11-07 2013-05-09 Nathan J. Ackerman Similarity and Relatedness of Content
JP2013105309A (ja) * 2011-11-14 2013-05-30 Sony Corp 情報処理装置、情報処理方法、及びプログラム
CN104035934B (zh) * 2013-03-06 2019-01-15 腾讯科技(深圳)有限公司 一种多媒体信息推荐的方法及装置
US10176260B2 (en) * 2014-02-12 2019-01-08 Regents Of The University Of Minnesota Measuring semantic incongruity within text data
US10521439B2 (en) * 2014-04-04 2019-12-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method, apparatus, and computer program for data mining
JP6690181B2 (ja) * 2015-10-22 2020-04-28 ヤマハ株式会社 楽音評価装置及び評価基準生成装置
CN110019957A (zh) * 2017-12-27 2019-07-16 飞狐信息技术(天津)有限公司 一种视频推荐方法及装置
JP7006402B2 (ja) * 2018-03-14 2022-01-24 富士通株式会社 クラスタリングプログラム、クラスタリング方法およびクラスタリング装置
CN110210691B (zh) * 2018-04-27 2024-02-06 腾讯科技(深圳)有限公司 资源推荐方法、装置、存储介质及设备
CN108919265B (zh) * 2018-07-16 2022-05-06 北京航空航天大学 一种基于互信息量最大的星载TomoSAR空间基线序列设计方法
CN112528610B (zh) * 2020-12-09 2023-11-14 北京百度网讯科技有限公司 一种数据标注方法、装置、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6356864B1 (en) * 1997-07-25 2002-03-12 University Technology Corporation Methods for analysis and evaluation of the semantic content of a writing based on vector length
US6847966B1 (en) * 2002-04-24 2005-01-25 Engenium Corporation Method and system for optimally searching a document database using a representative semantic space
US7464075B2 (en) * 2004-01-05 2008-12-09 Microsoft Corporation Personalization of web page search rankings

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8478781B2 (en) 2005-12-05 2013-07-02 Sony Corporation Information processing apparatus, information processing method and program
JP2007241888A (ja) * 2006-03-10 2007-09-20 Sony Corp 情報処理装置および方法、並びにプログラム
US7778988B2 (en) 2006-03-10 2010-08-17 Sony Corporation Information processing device, method, and program for determining relativity between contents
JP2011227633A (ja) * 2010-04-19 2011-11-10 Nippon Telegr & Teleph Corp <Ntt> コンテンツ管理装置,情報関連度算出方法および情報関連度算出プログラム

Also Published As

Publication number Publication date
US20060036640A1 (en) 2006-02-16
CN1750003A (zh) 2006-03-22

Similar Documents

Publication Publication Date Title
JP2006048286A (ja) 情報処理装置および方法、並びにプログラム
US11151145B2 (en) Tag selection and recommendation to a user of a content hosting service
Konstas et al. On social networks and collaborative recommendation
JP4650541B2 (ja) 推薦装置および方法、プログラム、並びに記録媒体
JP4622589B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
Vozalis et al. Using SVD and demographic data for the enhancement of generalized collaborative filtering
Nanopoulos et al. Musicbox: Personalized music recommendation based on cubic analysis of social tags
JP4678546B2 (ja) 推薦装置および方法、プログラム、並びに記録媒体
Marinho et al. Social tagging recommender systems
US7953735B2 (en) Information processing apparatus, method and program
US8065306B2 (en) Method and system for lexical mapping between document sets having a common topic
US20150242750A1 (en) Asymmetric Rankers for Vector-Based Recommendation
US7680768B2 (en) Information processing apparatus and method, program, and storage medium
US20070214124A1 (en) Information processing device and method, and program
WO2009044341A2 (en) Classifying a set of content items
CN101116073A (zh) 信息处理设备、信息处理方法及程序
Cheng et al. Efficient prediction of difficult keyword queries over databases
Tatli et al. A tag-based hybrid music recommendation system using semantic relations and multi-domain information
JP2004287835A (ja) オブジェクト表作成方法及びオブジェクト推薦方法及びオブジェクト表作成プログラム及びオブジェクト推薦方法
JP2004157649A (ja) 階層化されたユーザプロファイル作成方法およびシステム並びに階層化されたユーザプロファイル作成プログラムおよびそれを記録した記録媒体
JP2006048288A (ja) 情報処理装置および方法、並びにプログラム
JP2006048289A (ja) 情報処理装置および方法、並びにプログラム
JP2008171336A (ja) 文書クラスタ処理装置、文書クラスタ処理方法およびプログラム
JP2007183927A (ja) 情報処理装置および方法、並びにプログラム
JP2010128598A (ja) 文書検索装置及び方法及びプログラム及びプログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070703

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20080826