JP2007241888A - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JP2007241888A
JP2007241888A JP2006066469A JP2006066469A JP2007241888A JP 2007241888 A JP2007241888 A JP 2007241888A JP 2006066469 A JP2006066469 A JP 2006066469A JP 2006066469 A JP2006066469 A JP 2006066469A JP 2007241888 A JP2007241888 A JP 2007241888A
Authority
JP
Japan
Prior art keywords
content
information
link
relevance
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006066469A
Other languages
English (en)
Inventor
Hiroshi Tateno
啓 舘野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2006066469A priority Critical patent/JP2007241888A/ja
Priority to US11/713,642 priority patent/US7778988B2/en
Priority to EP07103857A priority patent/EP1835422A1/en
Priority to CNB200710087709XA priority patent/CN100517333C/zh
Publication of JP2007241888A publication Critical patent/JP2007241888A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】特定のリンク元コンテンツと関連性の高いリンク先コンテンツとともに、そのリンク先コンテンツとリンク元コンテンツの関連性を示す関連性情報が検出されるようにする。
【解決手段】同一空間上に生成したコンテンツの数値モデルと抽出情報の数値モデルを利用して、特定のリンク元コンテンツに対するリンク元コンテンツ以外のリンク先対象コンテンツ(アーティストB,C等)とコンテンツ情報から抽出された抽出情報(悲しい、切なさ等)の組の関連度が計算され、計算された関連度に基づいて、リンク元コンテンツに関連するリンク先コンテンツと、そのリンク先コンテンツとリンク元コンテンツの関連性を示す関連性情報が検出される。本発明は、コンテンツを利用するための処理を行う情報処理装置に適用できる。
【選択図】図9

Description

本発明は情報処理装置および方法、並びにプログラムに関し、特に、コンテンツを効率的に選択できる情報をユーザに提示することができるようにする情報処理装置および方法、並びにプログラムに関する。
ユーザが各種コンテンツ(静止画、動画、音楽、Web文書など)を効率的に選択することができるようにするために、ユーザの指定した特定のコンテンツに類似するコンテンツ群を、空間法に基づくTF/IDF法によるマッチングやシソーラスを利用することによって検索方法はすでに実用化されている(特許文献1参照)。例えば入力された文章に類似する文献情報を提示するサービスがインターネット上に存在する(Webcat Plus(http://webcatplus.nii.ac.jp/)。
また複数のコンテンツをまとめて説明するようなラベル付け(特徴的なキーワードの抽出)を行う手法も存在する(特許文献2参照)。
さらに、クエリ(データベース管理システムに対する処理要求(問い合わせ)を文字列として表したもの)による検索結果をクラスタリング(分類)して提示するようなものも、インターネット上のサービスとして存在する(Clusty(http://clusty.jp/))。
特開平3-172966号公報 特開2003-248686号公報
しかしながら特許文献1における手法では、検索された類似コンテンツが、どのような視点で特定のコンテンツと「類似」すると判断されたかユーザは認識することができない。
また特許文献2における手法でも、複数コンテンツが等価に扱われるため、起点となるコンテンツとそれに関連するコンテンツの関係性を示すようなことは想定されていない。
またクエリによる情報検索は、あくまで単語に対する関連コンテンツを探すという機能であり、その単語はユーザが指定するものであることから、ユーザにとって任意の視点からコンテンツを選択することはできない。
本発明はこのような状況に鑑みてなされたものであり、特定のコンテンツとユーザにとって任意の視点から関連するコンテンツを検索するとともに、検索されたコンテンツとその特定のコンテンツの関連性を示す情報をも検出して提示することができるようにするものである。
本発明の一側面の情報処理装置は、複数のコンテンツ、前記複数のコンテンツのコンテンツ情報から抽出される抽出情報、および前記コンテンツ毎に前記抽出情報が示す値に基づき、前記コンテンツの数値モデルと前記抽出情報の数値モデルを、2次元以上の同一空間上に生成する生成手段と、前記同一空間上に生成された前記コンテンツの数値モデルと前記抽出情報の数値モデルを利用して、前記複数のコンテンツのうち所定のリンク元コンテンツに対して、前記リンク元コンテンツ、前記複数のコンテンツのうち前記リンク元コンテンツ以外のリンク先対象コンテンツ、および前記抽出情報の組の関連度を計算する計算手段と、前記計算手段により計算された前記関連度に基づいて、前記リンク元コンテンツに関連するリンク先コンテンツ、および前記リンク先コンテンツと前記リンク元コンテンツの関連性を示す関連性情報を検出するリンク検出手段と、前記リンク検出手段により検出された前記リンク先コンテンツと前記関連性情報を提示する提示手段とを備える。
前記リンク検出手段は、閾値より大きい前記関連度が得られた前記組の前記リンク先対象コンテンツを、前記リンク先コンテンツとし、前記組の抽出情報を、前記関連性情報とすることができる。
前記提示手段は、前記リンク検出手段により検出された前記リンク先コンテンツと前記関連性情報を表示することができる。
前記提示手段は、前記リンク先コンテンツの表示に対応させて、前記リンク先コンテンツのコンテンツ情報の全部または一部を表示させるようにすることができる。
前記提示手段は、前記リンク先コンテンツの表示に対応させて表示した前記コンテンツ情報の中の、前記関連性情報に対応する部分を強調表示することができる。
前記提示手段は、前記関連度に基づいてリンク先コンテンツまたは関連性情報の表示形態を決定することができる。
前記抽出情報をグループ化し、前記抽出情報のクラスタを生成するクラスタ生成手段をさらに設け、前記計算手段には、計算した前記リンク元コンテンツ、前記リンク先対象コンテンツ、および前記抽出情報の組の関連度を、前記抽出情報のクラスタに対応する関連度に変換させ、前記リンク検出手段には、閾値より大きい前記抽出情報のクラスタに対応する関連度が得られた前記組の前記リンク先対象コンテンツを、前記リンク先コンテンツとし、前記組の前記抽出情報のクラスタを代表する代表抽出情報を、前記関連性情報とするようにさせることができる。
前記リンク先対象コンテンツをグループ化し、前記リンク先対象コンテンツのリンク先対象クラスタを生成するクラスタ生成手段をさらに設け、前記計算手段には、前記リンク元コンテンツ、前記リンク先対象クラスタ、および前記抽出情報の組の関連度を計算させ、前記リンク検出手段には、閾値より大きい前記関連度が得られた前記組の前記リンク先対象クラスタに属するリンク先対象コンテンツを、前記リンク先コンテンツとし、前記組の前記抽出情報を、前記関連性情報とするようにさせることができる。
コンテンツ情報を入力する入力手段をさらに設け、前記モデル生成手段には、前記入力手段により入力された前記コンテンツ情報の前記抽出情報に応じたベクトルを生成させるとともに、すでに生成した前記コンテンツの数値化モデルに追加して前記コンテンツのモデルを再構築させることができる。
本発明の一側面の情報処理方法は、複数のコンテンツ、前記複数のコンテンツのコンテンツ情報から抽出される抽出情報、および前記コンテンツ毎に前記抽出情報が示す値に基づき、前記コンテンツの数値モデルと前記抽出情報の数値モデルを、2次元以上の同一空間上に生成する生成ステップと、前記同一空間上に生成された前記コンテンツの数値モデルと前記抽出情報の数値モデルを利用して、前記複数のコンテンツのうち所定のリンク元コンテンツに対して、前記リンク元コンテンツ、前記複数のコンテンツのうち前記リンク元コンテンツ以外のリンク先対象コンテンツ、および前記抽出情報の組の関連度を計算する計算ステップと、前記計算ステップの処理で計算された前記関連度に基づいて、前記リンク元コンテンツに関連するリンク先コンテンツ、および前記リンク先コンテンツと前記リンク元コンテンツの関連性を示す関連性情報を検出するリンク検出ステップと、前記リンク検出ステップの処理で検出された前記リンク先コンテンツと前記関連性情報を提示する提示ステップとを含む。
本発明の一側面のプログラムは、特定のコンテンツに関連するコンテンツを示す情報を提示する提示処理をコンピュータに実行させるプログラムにおいて、複数のコンテンツ、前記複数のコンテンツのコンテンツ情報から抽出される抽出情報、および前記コンテンツ毎に前記抽出情報が示す値に基づき、前記コンテンツの数値モデルと前記抽出情報の数値モデルを、2次元以上の同一空間上に生成する生成ステップと、前記同一空間上に生成された前記コンテンツの数値モデルと前記抽出情報の数値モデルを利用して、前記複数のコンテンツのうち所定のリンク元コンテンツに対して、前記リンク元コンテンツ、前記複数のコンテンツのうち前記リンク元コンテンツ以外のリンク先対象コンテンツ、および前記抽出情報の組の関連度を計算する計算ステップと、前記計算ステップの処理で計算された前記関連度に基づいて、前記リンク元コンテンツに関連するリンク先コンテンツ、および前記リンク先コンテンツと前記リンク元コンテンツの関連性を示す関連性情報を検出するリンク検出ステップと、前記リンク検出ステップの処理で検出された前記リンク先コンテンツと前記関連性情報を提示する提示ステップとを含む。
本発明の一側面の情報処理装置、情報処理方法、またはプログラムにおいては、複数のコンテンツ、前記複数のコンテンツのコンテンツ情報から抽出される抽出情報、および前記コンテンツ毎に前記抽出情報が示す値に基づき、前記コンテンツの数値モデルと前記抽出情報の数値モデルが、2次元以上の同一空間上に生成され、前記同一空間上に生成された前記コンテンツの数値モデルと前記抽出情報の数値モデルを利用して、前記複数のコンテンツのうち所定のリンク元コンテンツに対して、前記リンク元コンテンツ、前記複数のコンテンツのうち前記リンク元コンテンツ以外のリンク先対象コンテンツ、および前記抽出情報の組の関連度が計算され、計算された前記関連度に基づいて、前記リンク元コンテンツに関連するリンク先コンテンツ、および前記リンク先コンテンツと前記リンク元コンテンツの関連性を示す関連性情報が検出され、検出された前記リンク先コンテンツと前記関連性情報が提示される。
本発明によれば、リンク元コンテンツ、リンク先対象コンテンツおよび抽出情報の組の関連度に基づいて、リンク元コンテンツに関連するリンク先コンテンツと、そのリンク先コンテンツとリンク元コンテンツの関連性を示す関連性情報を検出し、提示することができる。
以下に本発明の実施の形態を説明するが、本発明の構成要件と、明細書又は図面の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、明細書又は図面に記載されていることを確認するためのものである。従って、明細書又は図面中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。
本発明の一側面の情報処理装置は、
複数のコンテンツ、前記複数のコンテンツのコンテンツ情報から抽出される抽出情報、および前記コンテンツ毎に前記抽出情報が示す値に基づき、前記コンテンツの数値モデルと前記抽出情報の数値モデルを、2次元以上の同一空間上に生成する生成手段(例えば、図1のモデル生成部12)と、
前記同一空間上に生成された前記コンテンツの数値モデルと前記抽出情報の数値モデルを利用して、前記複数のコンテンツのうち所定のリンク元コンテンツに対して、前記リンク元コンテンツ、前記複数のコンテンツのうち前記リンク元コンテンツ以外のリンク先対象コンテンツ、および前記抽出情報の組の関連度を計算する計算手段(例えば、図1の関連度計算部14)と、
前記計算手段により計算された前記関連度に基づいて、前記リンク元コンテンツに関連するリンク先コンテンツ、および前記リンク先コンテンツと前記リンク元コンテンツの関連性を示す関連性情報を検出するリンク検出手段(例えば、図1のリンク検出部15)と、
前記リンク検出手段により検出された前記リンク先コンテンツと前記関連性情報を提示する提示手段(例えば、図1の提示部16)と
を備える。
前記リンク検出手段は、閾値より大きい前記関連度が得られた前記組の前記リンク先対象コンテンツを、前記リンク先コンテンツとし、前記組の抽出情報を、前記関連性情報とすることができる(例えば、図2のステップS3)。
前記提示手段は、前記リンク検出手段により検出された前記リンク先コンテンツと前記関連性情報を表示することができる(例えば、図2のステップS4)(例えば、図10)。
前記提示手段は、前記リンク先コンテンツの表示に対応させて、前記リンク先コンテンツのコンテンツ情報の全部または一部を表示させることができる(例えば、図11)。
前記提示手段は、前記リンク先コンテンツの表示に対応させて表示した前記コンテンツ情報の中の、前記関連性情報に対応する部分を強調表示することができる(例えば、図11)。
前記提示手段は、前記関連度に基づいてリンク先コンテンツまたは関連性情報の表示形態を決定することができる(例えば、図11)。
前記抽出情報をグループ化し、前記抽出情報のクラスタを生成するクラスタ生成手段(例えば、図12の抽出情報クラスタ生成部21)をさらに設け、
前記計算手段には、計算した前記リンク元コンテンツ、前記リンク先対象コンテンツ、および前記抽出情報の組の関連度を、前記抽出情報のクラスタに対応する関連度に変換させ(例えば、図14)、
前記リンク検出手段には、閾値より大きい前記抽出情報のクラスタに対応する関連度が得られた前記組の前記リンク先対象コンテンツを、前記リンク先コンテンツとし、前記組の前記抽出情報のクラスタを代表する代表抽出情報を、前記関連性情報とするようにさせることができる(例えば、図15)。
前記リンク先対象コンテンツをグループ化し、前記リンク先対象コンテンツのリンク先対象クラスタを生成するクラスタ生成手段をさらに設け(例えば、図17のコンテンツクラスタ生成部31)、
前記計算手段には、前記リンク元コンテンツ、前記リンク先対象クラスタ、および前記抽出情報の組の関連度を計算させ(例えば、図19)、
前記リンク検出手段には、閾値より大きい前記関連度が得られた前記組の前記リンク先対象クラスタに属するリンク先対象コンテンツを、前記リンク先コンテンツとし、前記組の前記抽出情報を、前記関連性情報とするようにさせることができる(例えば、図20)。
コンテンツ情報を入力する入力手段(例えば、図22のコンテンツ情報入力部41)をさらに設け、
前記モデル生成手段には、前記入力手段により入力された前記コンテンツ情報の前記抽出情報に応じたベクトルを生成させるとともに、すでに生成した前記コンテンツの数値化モデルに追加して前記コンテンツのモデルを再構築させることができる。
本発明の一側面の情報処理方法、またはプログラムは、
複数のコンテンツ、前記複数のコンテンツのコンテンツ情報から抽出される抽出情報、および前記コンテンツ毎に前記抽出情報が示す値に基づき、前記コンテンツの数値モデルと前記抽出情報の数値モデルを、2次元以上の同一空間上に生成する生成ステップ(例えば、図2のステップS1)と、
前記同一空間上に生成された前記コンテンツの数値モデルと前記抽出情報の数値モデルを利用して、前記複数のコンテンツのうち所定のリンク元コンテンツに対して、前記リンク元コンテンツ、前記複数のコンテンツのうち前記リンク元コンテンツ以外のリンク先対象コンテンツ、および前記抽出情報の組の関連度を計算する計算ステップ(例えば、図2のステップS2)と、
前記計算ステップの処理で計算された前記関連度に基づいて、前記リンク元コンテンツに関連するリンク先コンテンツ、および前記リンク先コンテンツと前記リンク元コンテンツの関連性を示す関連性情報を検出するリンク検出ステップ(例えば、図2のステップS3)と、
前記リンク検出ステップの処理で検出された前記リンク先コンテンツと前記関連性情報を提示する提示ステップ(例えば、図2のステップS4)と
を含む。
図1は、本発明を適用した情報処理装置1の構成例を示している。この情報処理装置1は、コンテンツをユーザが効率的に選択するための情報を生成し、それを提供する。
コンテンツ情報記憶部11は、例えばユーザが利用可能なコンテンツに関する情報(以下、コンテンツ情報と称する)を、コンテンツ毎に記憶している。
ここでコンテンツは、公的または私的なものを問わず、例えば、静止画、テレビジョン放送番組若しくは映画等の動画、音楽、Webページ、または文書(自然言語による文章)となどである。
また、コンテンツ情報は、コンテンツが、例えばテレビジョン放送番組である場合にはEPG(Electric Program Guide)情報、映画、画像や音楽である場合には作品若しくはアーティスト等のレビュー文またはそのコンテンツを表す特徴量(テンポやリズムといった音楽的特徴量、色やテクスチャなどの画像情報等)、静止画である場合にはそれに付けたコメント文、Webページである場合にはそのWebページ上のコンテンツの文章部分などである。
またコンテンツが文書である場合は、その文書そのものをコンテンツ情報とすることができる。すなわちコンテンツそのものがコンテンツ情報となる場合もある。さらにコンテンツ本体に付与された作者名やキーワードなどのメタデータをコンテンツ情報とすることもできる。
なおここでは、関連する個人や団体が同じ複数のコンテンツなど、ある基準において関連する複数のコンテンツを、1つのコンテンツとして扱いことができる。
モデル生成部12は、コンテンツ情報記憶部11に記憶されているコンテンツ情報の全部または一部から抽出される抽出情報の、各コンテンツ情報からの抽出頻度に基づいて、コンテンツおよび抽出情報をモデル化(数値表現化)し、その結果得られたコンテンツのモデルおよび抽出情報のモデルをモデル記憶部13に記憶させる。
抽出情報は、コンテンツ情報が文章である場合、それに出現する単語、言葉若しくはメタデータ(ジャンル、アーティストの出身地等)である。また所定のシンボルや画像とすることもできる。すなわち、他と離散的に区別することができる情報であれば任意である。また実際に出現した言葉等ではなく、他の表現に置き換えたものを抽出情報としたり、ある基準に基づいて順位付けし、上位のものだけを抽出情報とすることもできる。
関連度計算部14は、モデル記憶部13に記憶されたコンテンツのモデルと抽出情報のモデルに基づいて、所定のコンテンツ(以下、リンク元コンテンツと称する)(例えばユーザにより指定された、ユーザが利用可能なコンテンツの中の特定のコンテンツ)とリンク元コンテンツ以外のコンテンツ(以下、リンク先対象コンテンツと称する)(例えばユーザが利用可能なコンテンツの中のリンク元コンテンツ以外のコンテンツ)が、抽出情報からみて、どれだけ関連しているかを示す関連度を計算する(言い換えれば、リンク元コンテンツと抽出情報が、リンク先対象コンテンツからみて、どれだけ関連しているかを示す関連度を計算する)。
すなわち関連度が、リンク元コンテンツ、リンク先対象コンテンツ、および抽出情報の組毎に検出される。なおこの関連度を、以下において、適宜、リンク元コンテンツに対するリンク先対象コンテンツと抽出情報の組の関連度と称する。
リンク検出部15は、例えば関連度計算部14により計算された関連度のうちその値が高い組のリンク先対象コンテンツを、リンク元コンテンツと関連性の高いコンテンツ(以下、リンク先コンテンツと称する)として検出するとともに、その組の抽出情報を、そのリンク先コンテンツとリンク元コンテンツの関連性を示す情報(以下、関連性情報と称する)として検出する。なおリンク先コンテンツとリンク元コンテンツの関連性を示す抽出情報そのものを関連性情報とすることもできるし、それを他の表現に置き換えたものを関連性情報とすることもできる。
提示部16は、例えばリンク検出部15により検出されたリンク先コンテンツの名称等と関連性情報を表示する表示画面を生成し、図示せぬ表示部に表示して、リンク先コンテンツおよび関連性情報をユーザに提示する。
すなわち本発明では、例えばユーザが指定したコンテンツ(リンク元コンテンツ)と関連性があるリンク先コンテンツ、およびその関連性を表す関連性情報が検出されて提示される。このことより、ユーザは、提示されたリンク先コンテンツとリンク元コンテンツの関連性を関連性情報から把握することができる。
また関連性情報は、コンテンツ情報の抽出情報に相当する情報であり、ユーザにより設定されるものではない。従ってユーザにとって任意の視点からリンク先コンテンツが検出される。
なおコンテンツデータそのものは、情報処理装置1が有していてもよいし、他の装置が有していてもよい。
次に、情報処理装置1における提示処理を、図2のフローチャートを参照して説明する。
ステップS1において、モデル生成部12は、コンテンツ情報記憶部11に記憶されているコンテンツ情報の全部または一部から抽出される抽出情報の、各コンテンツ情報からの抽出頻度に基づいて、コンテンツおよび抽出情報をモデル化(数値表現化)し、その結果得られたコンテンツのモデルおよび抽出情報のモデルをモデル記憶部13に記憶させる。
本発明においては、同一空間上にコンテンツのモデルと抽出情報のモデルが生成される。
例えばLSA(Latent Semantic Analysis)を用いて、同一空間上にコンテンツのモデルと抽出情報のモデルを生成することができる。LSAについては、以下の文献に詳細に記載されている。
S. C. Deerwester, S. T. Dumais, T. K. Landauer, G. W. Furnas, and R. A. Harshman. “Indexing by latent semantic analysis.” Journal of the American Society of Information Science, 41 (6):391-407, 1990.
LSAを例としてここでのモデル化処理を説明すると、はじめに、コンテンツを行項目とし、抽出情報を列項目とし、そしてコンテンツ(のコンテンツ情報)毎の抽出情報の抽出頻度を行列要素とする行列(以下、コンテンツ-抽出情報頻度行列と称する)Xが求められる。すなわちコンテンツがNc個で、抽出情報(の種類)がNw個であるとき、コンテンツ-抽出情報頻度行列Xは、(Nc×Nw)行列となる。
例えばコンテンツを楽曲とするが、同じアーティストによる楽曲群を1つのコンテンツとして扱い、コンテンツ情報を、そのコンテンツ(正確には、コンテンツ群)に付随するアーティストに関わるレビュー文とし、抽出情報を、そのレビュー文に出現する単語とすると、図3に示すようなコンテンツ-抽出情報頻度行列Xが得られる。
図3に示すコンテンツ-抽出情報頻度行列Xは、行項目が5個(=Nc)のアーティストA乃至アーティストEの項目となり、列項目が、それらのアーティストのコンテンツに付随するレビュー文(コンテンツ情報)に出現した6個の単語(抽出情報)の項目となり、そして行列要素が各レビュー文からのその単語の出現頻度となっている。
次にこのように求められたコンテンツ-抽出情報頻度行列Xが、式(1)に示すように特異値分解される。
Figure 2007241888
式(1)中、Uは、Nc×r(=行列Xのランク)行列、Sは、対角要素が特異値の降順に並んだr×r行列、VTは、r×Nw行列である。なお式(1)の各行列を模式的に示すと、図4のようになる。
次に、コンテンツ-抽出情報頻度行列Xを特異値分解した結果得られた行列U、行列S、および行列Vを用いて、式(2)および式(3)が演算され、m次元に削減された行列D(行項目がコンテンツの項目となる行列)がコンテンツのモデルとして、m次元に削減された行列W(行項目が抽出情報の項目となる行列)が抽出情報のモデルとして、それぞれ求められる。
Figure 2007241888
Figure 2007241888
式(2)および式(3)中、Umは、行列Uの第1列目から第m列目までの部分行列、Vmは、行列Vの第1列目から第m列目までの部分行列、そしてSm1/2は、対角行列Sの第1列目から第m列目までの部分行列で、Sの各要素の平方根をとったものである。なお式(2)および式(3)を模式的に示すと、図5または図6のようになる。
例えば図3に示したコンテンツ-抽出情報頻度行列Xを、m=3として特異値分解し、その結果得られた行列U、行列S、および行列Vを用いて式(2)および式(3)を演算すると、図7に示す3次元の行列Dがコンテンツのモデルとして、そして図8に示す3次元の行列Wが抽出情報のモデルとして求められる。
このようにしてm次元に圧縮された同一空間上にコンテンツのモデルと抽出情報のモデル(すなわち、同一の複数の属性により定義されたコンテンツのモデルと抽出情報のモデル)が生成される。生成されたこれらのモデルは、モデル記憶部13に記憶される。
なおここでは、LSAを用いてコンテンツのモデルと抽出情報のモデルを同一空間上に生成する場合を説明したが、対応分析やPLSA(Probabilistic Latent Semantic Analysis)を用いてコンテンツのモデルと抽出情報のモデルを同一空間上に生成することもできる。
対応分析の場合は、LSAと同様にコンテンツと抽出情報がユークリッド空間上にベクトル化される。PLSAの場合は、条件付き確率P(z|d)によりコンテンツが表現される。ここでzは潜在的な確率変数であり、z=z1,z2,・・・であることによって、この条件付き確率を表現上はベクトルとして扱うことが可能となる。
例えばPLSAの詳細は、以下の文献に記載されている。
Hofmann, T., “Probabilistic Latent Semantic Analysis,” Proc. of Uncertainty in Artificial Intelligence, 1999.
図2に戻り次にステップS2において、関連度計算部14は、モデル記憶部13に記憶されたコンテンツのモデル(図7)と抽出情報のモデル(図8)に基づいて、リンク元コンテンツに対するリンク先対象コンテンツと抽出情報の組の関連度(リンク元コンテンツとリンク先対象コンテンツが、抽出情報から見て、どれだけ関連しているかを示す関連度、またリンク元コンテンツと抽出情報が、リンク先対象コンテンツからみて、どれだけ関連しているかを示す関連度)を計算する。
LSAによってコンテンツと抽出情報がモデル化されている場合、リンク元コンテンツを、コンテンツ-抽出情報頻度行列Xの第1番目の行項目からみて第i番目のコンテンツ(以下、リンク元コンテンツCiと称する)とし、リンク元コンテンツCiに対する、行列Xの第1番目の行項目からみて第k(k≠i)番目のリンク先対象コンテンツ(以下、リンク先対象コンテンツCkと称する)と行列Xの第1番目の列項目からみて第j番目の抽出情報(以下、抽出情報Hjと称する)の組の関連度fi(hj,ck)は、式(4)に示すように求められる。
Figure 2007241888
式(4)中、ベクトルdiまたはdkは、行列D(式(2))(図7)の第i番目または第k番目の行ベクトル(第i番目または第k番目の行項目の各列項目に対応する要素群)、ベクトルwjは、行列W(式(3))(図8)の第j番目の行ベクトルである。
すなわち抽出情報ベクトルとリンク先対象コンテンツベクトルのコサイン類似度と、抽出情報ベクトルとリンク元コンテンツベクトルのコサイン類似度との乗算結果が、関連度fi(hj,ck)される。
図9は、行列Dと行列Wが図7および図8に示した行列であってリンク元コンテンツをアーティストAのコンテンツとした場合の、リンク元コンテンツに対するリンク先対象コンテンツと抽出情報の組の関連度を示している。関連度が大きければ関連性が高いことになるので、ここでの計算によって、リンク元コンテンツに対するリンク先対象コンテンツと抽出情報の組の関連性上の順位付がなけされる。
なおPLSAなどによってコンテンツと抽出情報がモデル化された場合(すなわち確率表現された場合)は、同時確率(式(5))や条件付き確率(式(6))などを、関連度することができる。
Figure 2007241888
Figure 2007241888
次にステップS3において、リンク検出部15は、ステップS2で求められた関連度を参照し、関連度が高いリンク先対象コンテンツと抽出情報の組のリンク先対象コンテンツを、リンク先コンテンツ(リンク元コンテンツと関連性が高いコンテンツ)として検出するとともに、その組の抽出情報を、関連性情報(リンク元コンテンツとリンク先コンテンツとの関連性を説明する情報)として検出する。
具体的には、所定の閾値以上の関連度が得られた組のリンク先対象コンテンツが、リンク先コンテンツとして検出され、その組の抽出情報が関連性情報として検出される。
例えば図9に示す関連度が得られた場合において、関連度の閾値を0.5とすると、閾値以上の関連度が得られた組は、
(悲しい、アーティストB),(悲しい、アーティストC)、
(切なさ、アーティストB)、(切なさ、アーティストC)、
(センチメンタル、アーティストB)、(センチメンタル、アーティストC)、
(ノリノリ、アーティストD)、(ノリノリ、アーティストE)、
(躍動、アーティストD)、(躍動、アーティストE)の組であるので、
「アーティストB」、「アーティストC」、「アーティストD」、および「アーティストE」がリンク先コンテンツとして検出されるとともに、「悲しい」、「切なさ」、および「センチメンタル」が「アーティストB」および「アーティストC」に対応する関連性情報として、そして「ノリノリ」および「躍動」が「アーティストD」および「アーティストE」に対応する関連性情報としてそれぞれ検出される。
次にステップS4において、提示部16は、ステップS3で検出されたリンク先コンテンツと関連性情報を、ユーザに提示する。
具体的には、提示部16は、例えばリンク先コンテンツと関連性情報を表示する表示画面を生成し、図示せぬ表示部に表示させる。
図10は、図9に示す関連度から閾値を0.5とした場合に検出されたリンク先コンテンツと関連性情報の表示例を示している。
この例では、「アーティストA」の楽曲(リンク元コンテンツ)に関連するコンテンツとして、「悲しい」、「切なさ」、および「センチメンタル」の表示のそれぞれに、「アーティストB」と「アーティストC」の名前等の表示が対応付けられて表示され、「ノリノリ」および「躍動」の表示のそれぞれに、「アーティストD」と「アーティストE」の名前等の表示が対応付けられて表示されている。
すなわちこれにより、「アーティストA」の楽曲に対して、「アーティストB」および「アーティストC」の楽曲は、「悲しい」、「切なさ」、または「センチメンタル」の文言の意味において関連し、「アーティストD」および「アーティストE」の楽曲は、「ノリノリ」または「躍動」の文言の意味において関連していることを、ユーザは把握することができる。
その結果、例えばいま聞いている「アーティストA」の楽曲がリンク元コンテンツである場合、次に、「悲しい」楽曲(例えば、テンポが遅い楽曲)を聞きたいとき、ユーザは、「アーティストB」または「アーティストC」の楽曲を選曲することができ、また「ノリノリ」の楽曲(例えば、テンポが速い楽曲)を聞きたいとき、「アーティストD」または「アーティストE」の楽曲を選曲することができる。
なお1つの関連性情報が複数のコンテンツに対応付けられている場合、関連度に応じてコンテンツの提示方法を決定することができる。図10の例では、「悲しい」、「切なさ」、および「センチメンタル」の表示には、「アーティストB」と「アーティストC」の表示が対応付けられ、「ノリノリ」および「躍動」の表示には、「アーティストD」および「アーティストE」が対応付けられているが、各関連性情報の表示に対して関連度が大きいコンテンツの表示が先に(上側に)表示されるようになされている。
例えば「悲しい」についての関連度においては、「アーティストB」との関連度(0.77)の方が、「アーティストC」との関連度(0.72)より大きいので、「悲しい」に対応して、「アーティストB」の表示が「アーティストC」の表示より上に表示されている。
また図10の例では、関連性情報に対応してリンク先コンテンツの表示のみが表示されたが、リンク先コンテンツの表示が選択されたとき(フォーカスされたとき)、そのコンテンツのコンテンツ情報が表示されるようにすることもできる。さらに、そのコンテンツ情報の中の関連性情報に対応する情報が強調表示されるようにすることもできる。
例えば図10の例において「切なさ」に対応してい表示されている「アーティストC」が選択された場合、図11に示すように、「アーティストC」のレビュー文(コンテンツ情報)が選択された「アーティストC」の表示の下側に表示され、またその中の関連性情報としての「切なさ」に対応する文言(「切なさ」)が強調表示(下線が付されて表示)されるようにすることができる。
なお強調表示としては、下線の他、太字にしたり、文字の色を変えたり、またはアニメーションなどを対応付けるようにすることもできる。
またコンテンツ情報が、リンク先コンテンツが選択されたときに表示されるのではなく、はじめからリンク先コンテンツ毎に表示されるようにすることができる。なおこの場合コンテンツ情報の全部が表示されるようにしてもよいし、関連性情報に対応する情報を含む部分(例えば、関連性情報に対応する単語を含む前後数語分)だけが表示されるようにしてもよい。
また図10のように関連性情報の表示と、リンク先コンテンツの表示を対応させて配列表示するのではなく、例えば「”切なさ”の感じの”アーティストB”・”アーティストC”はいかがですか?」といったようなメッセージを生成して提示することもできる。
以上のようにして提示処理が行われる。
このようにリンク元コンテンツに対するリンク先対象コンテンツと抽出情報の組の関連度を計算するようにしたので、リンク元コンテンツと関連性が高いリンク先コンテンツとともに、リンク先コンテンツとリンク元コンテンツとの関連性を示す関連性情報を同時に検出することができ、それらを提示することができる。このことより、ユーザは、提示されたリンク先コンテンツとリンク元コンテンツの関連性を関連性情報から把握することができる。
また関連性情報は、コンテンツ情報から抽出される抽出情報に相当する情報であり、ユーザにより設定されるものではないので、ユーザにとって任意の視点からリンク先コンテンツが検出される。
なお図3、図7、図8、および図9の例では、コンテンツ情報をレビュー文したが、あくまで一例であり、他のものであってもよい。
図12は、本発明を適用した他の情報処理装置1の構成例を示している。この情報処理装置1には、図1の情報処理装置1に、抽出情報クラスタ生成部21がさらに設けられ、関連度計算部14に代えて関連度計算部22が設けられている。他の部分は、図1の情報処理装置1と同様であるので、適宜説明を省略する。
例えば提示情報を表示する場合、表示領域の大きさの問題から提示情報の情報量を少なくしたい場合がある。またもっと効率的な提示情報が要求される場合がある。
そこでこの情報処理装置1は、抽出情報を所定の基準に基づいて分類することによって、最終的に提示される提示情報の情報量を少なくする。
抽出情報クラスタ生成部21は、抽出情報を、その意味あるいはモデルに基づいてグループ分けし、抽出情報のクラスタを生成する。
例えば抽出情報が単語である場合、表記ゆれが一定範囲内のものや語彙の差が微妙のものは1つにまとめられる。また抽出情報がメタデータである場合、相関の高いメタデータは1つにまとめられる。
抽出情報クラスタ生成部21はまた、生成したクラスタを代表する抽出情報(以下、代表抽出情報と称する)を決定する。
抽出情報が単語である場合、例えば、k-means法のように空間中にクラスタ中心が定義され、クラスタ中心にもっとも近い単語がそのクラスタを代表する単語が、代表抽出情報とされる。この場合コンテンツ情報に実際に出現していない単語が、代表抽出情報となるときもある。
なお予め用意された一般的なあるいはドメイン限定のシソーラスによってクラスタを生成し、例えば上位概念に位置する言葉を代表抽出情報とすることもできる。またこれらの方法に限らず、人手で置き換え表現を作成しても良い。
関連度計算部22は、図1の関連度計算部14と同様に、リンク元コンテンツに対するリンク先対象コンテンツと抽出情報の組の関連度(図9)を計算する。
関連度計算部22はまた、計算したリンク元コンテンツに対するリンク先対象コンテンツと抽出情報の組の関連度を、抽出情報クラスタ生成部21により生成されたクラスタに対応するように変換する。
具体的には、式(7)が演算される。
Figure 2007241888
式(7)中、Rは、リンク元コンテンツに対する抽出情報とリンク先対象コンテンツの組の関連度を示す(Nc−1)×Nwの行列(図9)である。またTは、抽出情報を行項目とし、クラスタを列項目とし、そして行列要素が式(8)となるNw×Nkw行列である。Nkwは、クラスタ(代表抽出情報)の総数である。
Figure 2007241888
式(8)中、tは、非ゼロの正値であり、置き換えに重みを付ける場合はp,qに応じた所定の値で、そうでない場合は1である。
例えば、図8に示したようにモデル化された抽出情報についてクラスタリングが行われ、「悲しい」、「切なさ」、および「センチメンタル」がクラスタ1に、「ノリノリ」および「躍動」がクラスタ2に、そして「清楚」がクラスタ3にそれぞれ分けられた場合、図13に示すような、要素が1または0の2値となる行列Tが得られる。なお抽出情報から代表抽出情報への対応の重み付けが行われるときは、所定の値となる。
そしてこの行列Tと図9の行列Rに基づいて式(7)を演算すると、図14に示すような抽出情報のクラスタに対応した関連度が計算される。なお図13および図14の例では、クラスタ1、クラスタ2、およびクラスタ3の代表抽出情報は、「切なさ」、「ノリノリ」、および「清らか」である。
このようにしてリンク元コンテンツに対するリンク先対象コンテンツと抽出情報の組の関連度(図9)が、抽出情報のクラスタに対応する関連度(すなわち、リンク元コンテンツに対するリンク先対象コンテンツと抽出情報のクラスタの組の関連度)(図14)に変換される。
図12に戻りリンク検出部15は、関連度計算部22により計算されたリンク元コンテンツに対するリンク先対象コンテンツと抽出情報のクラスタの組の関連度(図14)において、関連度が高い組のリンク先対象コンテンツを、リンク先コンテンツとして検出するとともに、その組のクラスタの代表抽出情報を、関連性情報として検出する。
すなわち図14に示す関連度が得られた場合において、関連度の閾値を0.5とすると、閾値以上の関連度が得られた組は、
(切なさ、アーティストB)、(切なさ、アーティストC)、
(ノリノリ、アーティストD)、(ノリノリ、アーティストE)の組であるので、
「アーティストB」、「アーティストC」、「アーティストD」、および「アーティストE」がリンク先コンテンツとして検出されるとともに、「切なさ」が、「アーティストB」および「アーティストC」に対応する関連性情報として検出され、「ノリノリ」が、「アーティストD」および「アーティストE」に対応する関連性情報として検出される。
提示部16は、図1における場合と同様に、例えばリンク検出部15により検出されたリンク先コンテンツの名称等と関連性情報を表示する表示画面を生成し、図示せぬ表示部に表示して、リンク先コンテンツおよび関連性情報をユーザに提示する。
図15には、図14の関連度に基づいてリンク先コンテンツと関連性情報が検出された場合の表示例が示されているが、図10に示した提示情報に比べ情報量が少なくなっている。
なお以上においては、図14の関連度からリンク先コンテンツおよび関連性情報を検出するようにしたが、式(9)を演算して、図16に示すようなリンク元コンテンツに対する抽出情報のクラスタの関連度をはじめに計算し、それから関連性情報(閾値を0.5として、「切なさ」、「ノリノリ」)を検出し、リンク先対象コンテンツと抽出情報のクラスタの組の関連度(図14)の中のここで検出した関連性情報(「切なさ」、「ノリノリ」)を代表抽出情報とするクラスタに対応する関連度を参照して、閾値以上の関連度が得られたリンク先対象コンテンツ(「アーティストB」、「アーティストC」)を、リンク先コンテンツとして検出することもできる。
Figure 2007241888
また図16に示すようなリンク元コンテンツに対する抽出情報(またはそのクラスタ)の関連度を計算した場合、その関連度に応じて関連性情報の提示方法を決定することができる。図15の例では、「切ない」の表示が「ノリノリ」の表示より先に(上側に)表示されるようになされている。
図16の例によれば、「切ない」との関連度(1.17)の方が、「ノリノリ」との関連度(0.72)より大きいので、図15において「切ない」の表示が「ノリノリ」の表示より上に表示されている。
以上のように、抽出情報をクラスタリングし、抽出情報のクラスタに応じた関連度が得られるようにしたので、提示情報の情報量を適切に少なくすることができる。
また本発明では、コンテンツのモデルと抽出情報のモデルを同一空間上に生成し、リンク元コンテンツに対する関連度を、リンク先対象コンテンツと抽出情報の組毎に計算するようにしたので(図9)、抽出情報をクラスタリングしても、このリンク元コンテンツに対するリンク先対象コンテンツと抽出情報の組の関連度から容易に、抽出情報のクラスタに応じた関連度を計算することができる(例えば、式(7))。
図17は、本発明を適用した情報処理装置1の他の構成例を示している。この情報処理装置1には、図1の情報処理装置1に、コンテンツクラスタ生成部31が設けられるとともに、関連度計算部14に代えて関連度計算部32が、そしてリンク検出部15に代えてリンク検出部33が設けられている。
コンテンツクラスタ生成部31は、リンク先対象コンテンツを、適切な方法でクラスタリングする。
関連度計算部32は、リンク元コンテンツに対する、コンテンツクラスタ生成部31により生成されたリンク先対象コンテンツのクラスタ(以下、リンク先対象クラスタと称する)と抽出情報の組の関連度を計算する。
リンク検出部33は、関連度計算部32により計算されたリンク元コンテンツに対するリンク先対象クラスタと抽出情報の組の関連度から、リンク先コンテンツと関連性情報を検出する。
この情報処理装置1の動作を、図18のフローチャートを参照して説明する。
ステップS11において、モデル生成部12は、図2のステップS1における場合と同様に、コンテンツのモデル(図7)と抽出情報のモデル(図8)を生成し、モデル記憶部13に記憶させる。
ステップS12において、コンテンツクラスタ生成部31は、リンク先対象コンテンツをクラスタリングする。
このクラスタリング方法は任意であり、k-means法などの領域分割型クラスタリングや、最長距離法などの階層型クラスタリングなどを採用することができる。あるいは、モデル化された抽出情報に対して生成されるボロノイ図によって区切られる空間上の部分領域内のコンテンツのまとまりをコンテンツクラスタとしても良い。
コンテンツが、上述した例と同様に、「アーティストA」、「アーティストB」、「アーティストC」、「アーティストD」および「アーティストE」であって、リンク元コンテンツが「アーティストA」である場合、例えば、リンク先対象コンテンツである「アーティストB」と「アーティストC」からなる第1のリンク先対象クラスタ1と、「アーティストD」および「アーティストE」からなる第2のリンク先対象クラスタ2が生成される。
ステップS13において、関連度計算部32は、リンク元コンテンツに対するリンク先対象クラスタと抽出情報の組の関連度を計算する。
LSAによってコンテンツと抽出情報がモデル化されている場合、第i番目のリンク元コンテンツCiに対する第j番目の抽出情報Hjと第k番目のリンク先対象クラスタCCkの組みの関連度は、式(10)によって計算される。
Figure 2007241888
コンテンツのモデルおよび抽出情報のモデルが図7および図8に示すモデルであって、リンク先対象コンテンツである「アーティストB」と「アーティストC」からなる第1のリンク先対象クラスタ1と「アーティストD」および「アーティストE」からなる第2のリンク先対象クラスタ2とが生成されている場合、図19に示すような、リンク元コンテンツに対するリンク先対象クラスタと抽出情報の組の関連度が計算される。
ステップS14において、リンク検出部33は、関連度計算部32により計算されたリンク元コンテンツに対するリンク先対象クラスタと抽出情報の組の関連度から、リンク先コンテンツと関連性情報を検出する。
図19に示す関連度が得られた場合において、関連度の閾値を0.5としたとき、閾値以上の関連度が得られた組は、
(悲しい、リンク先対象クラスタ1)、
(切なさ、リンク先対象クラスタ1)、
(センチメンタル、リンク先対象クラスタ1)、
(ノリノリ、リンク先対象クラスタ2)、
(躍動、リンク先対象クラスタ2)の組であるので、
リンク先対象クラスタ1に分類された「アーティストB」および「アーティストC」、並びにリンク先対象クラスタ2に分類された「アーティストD」および「アーティストE」がリンク先コンテンツとして検出されるとともに、「悲しい」、「切なさ」、および「センチメンタル」が「アーティストB」および「アーティストC」に対応する関連性情報として検出され、「ノリノリ」および「躍動」が「アーティストD」および「アーティストE」に対応する関連性情報として検出される。
次にステップS15において、提示部16は、ステップS14で検出されたリンク先コンテンツと関連性情報を、ユーザに提示する。
図20は、図19に示す関連度から閾値を0.5とした場合に検出されたリンク先コンテンツと関連性情報の表示例を示している。
この例の場合、図10の例のときと同様に、「アーティストA」の楽曲(リンク元コンテンツ)に関連するコンテンツとして、「悲しい」、「切なさ」、および「センチメンタル」のそれぞれの表示に、「アーティストB」と「アーティストC」の名前等の表示が対応付けられて表示され、「ノリノリ」および「躍動」のそれぞれの表示に、「アーティストD」と「アーティストE」の名前等の表示が対応付けられて表示されているが、アーティストの表示にクラスタ毎に異なる背景が付されている(「アーティストB」と「アーティストC」の表示に同じ背景が付され、「アーティストD」と「アーティストE」の表示に同じ背景が付さされている)。
なおこの例においても、図12の情報処理装置1における場合と同様に、抽出情報クラスタ生成部21を設け、図21に示すようにリンク元コンテンツに対するリンク先対象クラスタと抽出情報のクラスタの組の関連度を計算し、それに基づいてリンク先コンテンツと関連性情報を検出するようにすることもできる。また図16に示したリンク先コンテンツに対する抽出情報のクラスタの関連度を計算し、それをさらに利用してリンク先コンテンツおよび関連性情報を検出することもできる。
図22は、本発明を適用した他の情報処理装置1の構成例を示している。この情報処理装置1には、図1の情報処理装置1にコンテンツ情報入力部41がさらに設けられ、モデル生成部12に代えてモデル生成部42が、そして関連度計算部14に代えて関連度計算部43がそれぞれ設けられている。
新規なコンテンツが追加される毎に、その新規コンテンツのコンテンツ情報を含めたコンテンツ情報で、コンテンツのモデルおよび抽出情報のモデルを上述したように再生成しようとすると(図2のステップS1)、手間やコストがかかる。
そこでこの情報処理装置1は、新規なコンテンツが追加されたとき、すでに生成されているコンテンツのモデルに、新規コンテンツのコンテンツ情報のベクトルを追加して、簡易的にコンテンツのモデルを再構築する。
コンテンツ情報入力部41は、新規コンテンツのコンテンツ情報を入力し、モデル生成部42に供給する。
モデル生成部42は、コンテンツ情報入力部41からコンテンツ情報が供給される以前に、図1のモデル生成部12と同様にして、コンテンツ情報記憶部11に記憶されているコンテンツ情報から、コンテンツのモデルと抽出情報のモデルを生成し、モデル記憶部13に記憶している。
モデル生成部42は、コンテンツ情報入力部41からコンテンツ情報が供給されると、そのコンテンツ情報のベクトルを、モデル記憶部13に記憶されているコンテンツのモデルに追加して、コンテンツのモデルを再構築する。
具体的には例えばコンテンツと抽出情報がLSAによってモデル化されている場合、式(11)に示すように、新規のコンテンツ(のコンテンツ情報)のベクトルDnewがすでに生成されている抽出情報のモデル(行列W)によって、すでに生成されているコンテンツのモデルに対応するベクトルD’newに変換される。
Figure 2007241888
そしてこのように算出されたベクトルD’newをすでに生成されているコンテンツのモデル(行列D)に追加するようにしてコンテンツのモデルが再構築される。
例えば図3に示すコンテンツ-抽出情報頻度行列Xから、すでに図7に示すコンテンツのモデルおよび図8に示す抽出情報のモデルが生成されている場合において、個人の日記がコンテンツとして新たに追加され、その中の、「今日悲しい出来事があった。切なさに耐え切れない。」といった文章がコンテンツ情報としてコンテンツ情報入力部41から供給されたとき、モデル生成部42は、式(12)に示す、抽出情報としての「悲しい」、「切なさ」、「センチメンタル」、「ノリノリ」、「躍動」、「清楚」に対応するこのコンテンツ情報のベクトルDnew(新規コンテンツのコンテンツ情報におけるこれらの抽出情報の抽出頻度の群)を求める。
Figure 2007241888
そしてモデル生成部42は、式(12)に示したベクトルDnewを用いて、式(11)を演算し、すでに生成されたコンテンツのモデル(図7)(3次元の行列D)に対応するベクトルD'newを、式(13)に示すように求め、そのベクトルD'newを、すでに生成されているコンテンツのモデル(図7)に追加してコンテンツのモデルを再構築する。
Figure 2007241888
このようにしてコンテンツのモデルが再構築される。
図22に戻り関連度計算部43は、モデル生成部42により再構築されたコンテンツのモデルと、すでに生成されている抽出情報のモデルを利用して(例えば、式(4)を演算して)、リンク元コンテンツに対するリンク先コンテンツと抽出情報の組の関連度を計算する。
例えば式(13)に示すベクトルD’newを図7に示すコンテンツのモデルに追加して再構築されたコンテンツのモデルを利用した場合において、新規コンテンツをリンク元コンテンツとしたとき、図23に示すリンク先対象コンテンツ(この場合、アーティストAがリンク先対象コンテンツとなっている)と抽出情報の組の関連度が得られる。
図22に戻りリンク検出部15は、例えば関連度計算部43により計算された関連度のうち値が高い組のリンク先対象コンテンツを、リンク先コンテンツとして検出するとともに、その組の抽出情報を、関連性情報として検出する。
すなわち図23に示す関連度が得られた場合において、関連度の閾値を0.5とすると、閾値以上の関連度が得られた組は、
(悲しい、アーティストA)、(悲しい、アーティストB),(悲しい、アーティストC)、
(切なさ、アーティストA)、(切なさ、アーティストB)、(切なさ、アーティストC)、
(センチメンタル、アーティストA)、(センチメンタル、アーティストB)、(センチメンタル、アーティストC)、
の組であるので、
「アーティストA」、「アーティストB」、および「アーティストC」がリンク先コンテンツとして検出されるとともに、「悲しい」、「切なさ」、および「センチメンタル」が「アーティストA」、「アーティストB」および「アーティストC」に対応する関連性情報として検出される。
提示部16は、図1における場合と同様に、例えばリンク検出部15により検出されたリンク先コンテンツの名称等と関連性情報を表示する表示画面を生成し、図示せぬ表示部に表示して、リンク先コンテンツおよび関連性情報をユーザに提示する。
以上のように、新規コンテンツが追加された場合、簡易的にコンテンツのモデルを再構成するようにしたので、新規コンテンツが追加されても簡単にリンク先コンテンツおよび関連性情報を検出することができる。
またこのように簡単にリンク先コンテンツおよび関連性情報を検出することができるようにしたので、新規コンテンツが追加されたとき、その新規コンテンツをリンク元コンテンツとして、そのコンテンツとの関係からリンク先コンテンツおよび関連性情報を検出して提示することができる。すなわち例えば日記が更新される毎に、その内容に応じたリンク先コンテンツと関連性情報をユーザに提示することができる。
なおこの例においても、図12の情報処理装置1における場合と同様に、抽出情報クラスタ生成部21を設け、図24に示すようにリンク元コンテンツ(例えば、追加された日記)に対するリンク先対象コンテンツと抽出情報のクラスタの組の関連度を計算し、それに基づいてリンク先コンテンツと関連性情報を検出するようにすることもできる。
図1、図12、図17、図22において、1つの情報処理装置1内に各部が設けられているようにしたが、必ずしもその必要はなく、例えば各部を実行するモジュールがネットワーク上に分散されていても良い。
また上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
そこで、図25は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク2005やROM2003に予め記録しておくことができる。
あるいはまた、プログラムは、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体2011に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体2011は、いわゆるパッケージソフトウエアとして提供することができる。
なお、プログラムは、上述したようなリムーバブル記録媒体2011からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部2008で受信し、内蔵するハードディスク2005にインストールすることができる。
コンピュータは、CPU(Central Processing Unit)2002を内蔵している。CPU2002には、バス2001を介して、入出力インタフェース2010が接続されており、CPU2002は、入出力インタフェース2010を介して、ユーザによって、キーボードや、マウス、マイク等で構成される入力部2007が操作等されることにより指令が入力されると、それにしたがって、ROM(Read Only Memory)2003に格納されているプログラムを実行する。あるいは、また、CPU2002は、ハードディスク2005に格納されているプログラム、衛星若しくはネットワークから転送され、通信部2008で受信されてハードディスク2005にインストールされたプログラム、またはドライブ2009に装着されたリムーバブル記録媒体2011から読み出されてハードディスク2005にインストールされたプログラムを、RAM(Random Access Memory)2004にロードして実行する。これにより、CPU2002は、上述したブロック図の構成により行われる処理を行う。そして、CPU2002は、その処理結果を、必要に応じて、例えば、入出力インタフェース2010を介して、LCD(Liquid Crystal Display)やスピーカ等で構成される出力部2006から出力、あるいは、通信部2008から送信、さらには、ハードディスク2005に記録等させる。
ここで、プログラムは、1のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
本発明を適用した情報処理装置1の構成例を示すブロック図である。 図1の情報処理装置1の提示処理を説明するフローチャートである。 コンテンツ-抽出情報頻度行列の例を示す図である。 コンテンツ-抽出情報頻度行列の特異値分解を模式的に示す図である。 コンテンツのモデルとしての行列Dを模式的に示す図である。 抽出情報のモデルとしての行列Wを模式的に示す図である。 コンテンツのモデルの例を示す図である。 抽出情報のモデルの例を示す図である。 リンク元コンテンツに対するリンク先対象コンテンツと抽出情報の組の関連度の例を示す図である。 リンク先コンテンツと関連性情報の表示例を示す図である。 リンク先コンテンツと関連性情報の他の表示例を示す図である。 本発明を適用した他の情報処理装置1の構成例を示すブロック図である。 抽出情報のクラスタリングを説明する図である。 リンク元コンテンツに対するリンク先対象コンテンツと抽出情報のクラスタの組の関連度の例を示す図である。 他のリンク先コンテンツと関連性情報の表示例を示す図である。 リンク元コンテンツに対する抽出情報のクラスタの関連度を示す図である。 本発明を適用した他の情報処理装置1の構成例を示すブロック図である。 図17の情報処理装置1の提示処理を説明するフローチャートである。 リンク元コンテンツに対するリンク先対象クラスタと抽出情報の組の関連度の例を示す図である。 リンク先コンテンツと関連性情報の他の表示例を示す図である。 リンク元コンテンツに対するリンク先対象クラスタと抽出情報のクラスタの組の関連度の例を示す図である。 本発明を適用した他の情報処理装置1の構成例を示すブロック図である。 他のリンク元コンテンツに対するリンク先対象コンテンツと抽出情報の組の関連度の例を示す図である。 他のリンク元コンテンツに対するリンク先対象コンテンツと抽出情報のクラスタの組の関連度の例を示す図である。 パーソナルコンピュータの構成例を示す図である。
符号の説明
1 情報処理装置, 11 コンテンツ情報記憶部, 12 モデル生成部, 13 モデル記憶部, 14 関連度計算部, 15 リンク検出部, 16 提示部, 21 抽出情報クラスタ生成部, 22 関連度計算部, 31 コンテンツクラスタ生成部, 32 関連度計算部, 33 リンク検出部, 41 コンテンツ情報入力部, 42 モデル生成部

Claims (11)

  1. 複数のコンテンツ、前記複数のコンテンツのコンテンツ情報から抽出される抽出情報、および前記コンテンツ毎に前記抽出情報が示す値に基づき、前記コンテンツの数値モデルと前記抽出情報の数値モデルを、2次元以上の同一空間上に生成する生成手段と、
    前記同一空間上に生成された前記コンテンツの数値モデルと前記抽出情報の数値モデルを利用して、前記複数のコンテンツのうち所定のリンク元コンテンツに対して、前記リンク元コンテンツ、前記複数のコンテンツのうち前記リンク元コンテンツ以外のリンク先対象コンテンツ、および前記抽出情報の組の関連度を計算する計算手段と、
    前記計算手段により計算された前記関連度に基づいて、前記リンク元コンテンツに関連するリンク先コンテンツ、および前記リンク先コンテンツと前記リンク元コンテンツの関連性を示す関連性情報を検出するリンク検出手段と、
    前記リンク検出手段により検出された前記リンク先コンテンツと前記関連性情報を提示する提示手段と
    を備える情報処理装置。
  2. 前記リンク検出手段は、閾値より大きい前記関連度が得られた前記組の前記リンク先対象コンテンツを、前記リンク先コンテンツとし、前記組の抽出情報を、前記関連性情報とする
    請求項1に記載の情報処理装置。
  3. 前記提示手段は、前記リンク検出手段により検出された前記リンク先コンテンツと前記関連性情報を表示する
    請求項1に記載の情報処理装置。
  4. 前記提示手段は、前記リンク先コンテンツの表示に対応させて、前記リンク先コンテンツのコンテンツ情報の全部または一部を表示させる
    請求項3に記載の情報処理装置。
  5. 前記提示手段は、前記リンク先コンテンツの表示に対応させて表示した前記コンテンツ情報の中の、前記関連性情報に対応する部分を強調表示する
    請求項4に記載の情報処理装置。
  6. 前記提示手段は、前記関連度に基づいてリンク先コンテンツまたは関連性情報の表示形態を決定する
    請求項3に記載の情報処理装置。
  7. 前記抽出情報をグループ化し、前記抽出情報のクラスタを生成するクラスタ生成手段をさらに備え、
    前記計算手段は、計算した前記リンク元コンテンツ、前記リンク先対象コンテンツ、および前記抽出情報の組の関連度を、前記抽出情報のクラスタに対応する関連度に変換し、
    前記リンク検出手段は、閾値より大きい前記抽出情報のクラスタに対応する関連度が得られた前記組の前記リンク先対象コンテンツを、前記リンク先コンテンツとし、前記組の前記抽出情報のクラスタを代表する代表抽出情報を、前記関連性情報とする
    請求項1に記載の情報処理装置。
  8. 前記リンク先対象コンテンツをグループ化し、前記リンク先対象コンテンツのリンク先対象クラスタを生成するクラスタ生成手段をさらに備え、
    前記計算手段は、前記リンク元コンテンツ、前記リンク先対象クラスタ、および前記抽出情報の組の関連度を計算し、
    前記リンク検出手段は、閾値より大きい前記関連度が得られた前記組の前記リンク先対象クラスタに属するリンク先対象コンテンツを、前記リンク先コンテンツとし、前記組の前記抽出情報を、前記関連性情報とする
    請求項1に記載の情報処理装置。
  9. コンテンツ情報を入力する入力手段をさらに備え、
    前記モデル生成手段は、前記入力手段により入力された前記コンテンツ情報の前記抽出情報に応じたベクトルを生成するとともに、すでに生成した前記コンテンツの数値化モデルに追加して前記コンテンツのモデルを再構築する
    請求項1に記載の情報処理装置。
  10. 複数のコンテンツ、前記複数のコンテンツのコンテンツ情報から抽出される抽出情報、および前記コンテンツ毎に前記抽出情報が示す値に基づき、前記コンテンツの数値モデルと前記抽出情報の数値モデルを、2次元以上の同一空間上に生成する生成ステップと、
    前記同一空間上に生成された前記コンテンツの数値モデルと前記抽出情報の数値モデルを利用して、前記複数のコンテンツのうち所定のリンク元コンテンツに対して、前記リンク元コンテンツ、前記複数のコンテンツのうち前記リンク元コンテンツ以外のリンク先対象コンテンツ、および前記抽出情報の組の関連度を計算する計算ステップと、
    前記計算ステップの処理で計算された前記関連度に基づいて、前記リンク元コンテンツに関連するリンク先コンテンツ、および前記リンク先コンテンツと前記リンク元コンテンツの関連性を示す関連性情報を検出するリンク検出ステップと、
    前記リンク検出ステップの処理で検出された前記リンク先コンテンツと前記関連性情報を提示する提示ステップと
    を含む情報処理方法。
  11. 特定のコンテンツに関連するコンテンツを示す情報を提示する提示処理をコンピュータに実行させるプログラムにおいて、
    複数のコンテンツ、前記複数のコンテンツのコンテンツ情報から抽出される抽出情報、および前記コンテンツ毎に前記抽出情報が示す値に基づき、前記コンテンツの数値モデルと前記抽出情報の数値モデルを、2次元以上の同一空間上に生成する生成ステップと、
    前記同一空間上に生成された前記コンテンツの数値モデルと前記抽出情報の数値モデルを利用して、前記複数のコンテンツのうち所定のリンク元コンテンツに対して、前記リンク元コンテンツ、前記複数のコンテンツのうち前記リンク元コンテンツ以外のリンク先対象コンテンツ、および前記抽出情報の組の関連度を計算する計算ステップと、
    前記計算ステップの処理で計算された前記関連度に基づいて、前記リンク元コンテンツに関連するリンク先コンテンツ、および前記リンク先コンテンツと前記リンク元コンテンツの関連性を示す関連性情報を検出するリンク検出ステップと、
    前記リンク検出ステップの処理で検出された前記リンク先コンテンツと前記関連性情報を提示する提示ステップと
    を含む提示処理をコンピュータに実行させるプログラム。
JP2006066469A 2006-03-10 2006-03-10 情報処理装置および方法、並びにプログラム Pending JP2007241888A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2006066469A JP2007241888A (ja) 2006-03-10 2006-03-10 情報処理装置および方法、並びにプログラム
US11/713,642 US7778988B2 (en) 2006-03-10 2007-03-05 Information processing device, method, and program for determining relativity between contents
EP07103857A EP1835422A1 (en) 2006-03-10 2007-03-09 Information processing device and method, and program
CNB200710087709XA CN100517333C (zh) 2006-03-10 2007-03-12 信息处理设备和方法以及程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006066469A JP2007241888A (ja) 2006-03-10 2006-03-10 情報処理装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2007241888A true JP2007241888A (ja) 2007-09-20

Family

ID=38325211

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006066469A Pending JP2007241888A (ja) 2006-03-10 2006-03-10 情報処理装置および方法、並びにプログラム

Country Status (4)

Country Link
US (1) US7778988B2 (ja)
EP (1) EP1835422A1 (ja)
JP (1) JP2007241888A (ja)
CN (1) CN100517333C (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010003108A (ja) * 2008-06-20 2010-01-07 Konica Minolta Business Technologies Inc 画像処理装置、画像処理方法、およびコンピュータプログラム
WO2013150701A1 (en) 2012-04-06 2013-10-10 Sony Corporation Information processing apparatus, information processing method, and program
US8843949B2 (en) 2009-05-01 2014-09-23 Sony Corporation Apparatus, method, and program for processing information

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008165303A (ja) * 2006-12-27 2008-07-17 Fujifilm Corp コンテンツ登録装置、及びコンテンツ登録方法、及びコンテンツ登録プログラム
JP4329839B2 (ja) * 2007-04-20 2009-09-09 コニカミノルタビジネステクノロジーズ株式会社 画像形成装置及びプログラム
JP2009026083A (ja) * 2007-07-19 2009-02-05 Fujifilm Corp コンテンツ検索装置
KR101392273B1 (ko) * 2008-01-07 2014-05-08 삼성전자주식회사 키워드 제공 방법 및 이를 적용한 영상기기
US9367216B2 (en) * 2009-05-21 2016-06-14 Sony Interactive Entertainment Inc. Hand-held device with two-finger touch triggered selection and transformation of active elements
JP5609056B2 (ja) * 2009-10-14 2014-10-22 ソニー株式会社 コンテンツ関係可視化装置、表示制御装置、コンテンツ関係可視化方法およびプログラム
JP5742506B2 (ja) * 2011-06-27 2015-07-01 日本電気株式会社 文書類似度算出装置
US9892167B2 (en) * 2015-03-31 2018-02-13 Rovi Guides, Inc. Methods and systems for generating cluster-based search results
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
CN107402984B (zh) * 2017-07-11 2018-11-20 北京金堤科技有限公司 一种基于主题的分类方法及装置
CN109040774B (zh) * 2018-07-24 2021-10-26 成都优地技术有限公司 一种节目信息提取方法、终端设备、服务器及存储介质
WO2021178440A1 (en) * 2020-03-03 2021-09-10 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for dynamic cluster-based search and retrieval

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001195415A (ja) * 2000-01-13 2001-07-19 Omron Corp 検索情報の表示方法およびその方法を用いた情報検索装置
JP2006048286A (ja) * 2004-08-03 2006-02-16 Sony Corp 情報処理装置および方法、並びにプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2742115B2 (ja) 1989-12-01 1998-04-22 日本電信電話株式会社 類似文書検索装置
JPH03282676A (ja) * 1990-03-30 1991-12-12 Hitachi Ltd 情報検索方法
US7302638B1 (en) * 1995-06-07 2007-11-27 Wolfe Mark A Efficiently displaying and researching information about the interrelationships between documents
JP3172966B2 (ja) 1997-01-08 2001-06-04 大光炉材株式会社 流しこみ耐火組成物の湿式吹付け施工方法
CA2242158C (en) * 1997-07-01 2004-06-01 Hitachi, Ltd. Method and apparatus for searching and displaying structured document
JP3573688B2 (ja) * 2000-06-28 2004-10-06 松下電器産業株式会社 類似文書検索装置及び関連キーワード抽出装置
JP3918531B2 (ja) * 2001-11-29 2007-05-23 株式会社日立製作所 類似文書検索方法およびシステム
JP2003248686A (ja) 2002-02-22 2003-09-05 Ricoh Co Ltd 文書群ラベル生成装置、文書群ラベル生成方法及び記録媒体
US8589373B2 (en) * 2003-09-14 2013-11-19 Yaron Mayer System and method for improved searching on the internet or similar networks and especially improved MetaNews and/or improved automatically generated newspapers
JP4428036B2 (ja) * 2003-12-02 2010-03-10 ソニー株式会社 情報処理装置および方法、プログラム、並びに、情報処理システムおよび方法
WO2006073095A1 (ja) * 2005-01-07 2006-07-13 Matsushita Electric Industrial Co., Ltd. 連想辞書作成装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001195415A (ja) * 2000-01-13 2001-07-19 Omron Corp 検索情報の表示方法およびその方法を用いた情報検索装置
JP2006048286A (ja) * 2004-08-03 2006-02-16 Sony Corp 情報処理装置および方法、並びにプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010003108A (ja) * 2008-06-20 2010-01-07 Konica Minolta Business Technologies Inc 画像処理装置、画像処理方法、およびコンピュータプログラム
JP4569671B2 (ja) * 2008-06-20 2010-10-27 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置、画像処理方法、およびコンピュータプログラム
US8102544B2 (en) 2008-06-20 2012-01-24 Konica Minolta Business Technologies, Inc. Image processing apparatus, image processing method, and computer-readable storage medium for computer program
US8843949B2 (en) 2009-05-01 2014-09-23 Sony Corporation Apparatus, method, and program for processing information
WO2013150701A1 (en) 2012-04-06 2013-10-10 Sony Corporation Information processing apparatus, information processing method, and program

Also Published As

Publication number Publication date
US7778988B2 (en) 2010-08-17
CN101034414A (zh) 2007-09-12
EP1835422A1 (en) 2007-09-19
US20070214124A1 (en) 2007-09-13
CN100517333C (zh) 2009-07-22

Similar Documents

Publication Publication Date Title
JP2007241888A (ja) 情報処理装置および方法、並びにプログラム
US20220035827A1 (en) Tag selection and recommendation to a user of a content hosting service
US9396413B2 (en) Choosing image labels
CN104885081B (zh) 搜索系统和相应方法
US7912868B2 (en) Advertisement placement method and system using semantic analysis
US20110072047A1 (en) Interest Learning from an Image Collection for Advertising
WO2010014082A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
JP2006251866A (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP7451747B2 (ja) コンテンツを検索する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
Arguello Aggregated search
JP2013003663A (ja) 情報処理装置、情報処理方法、およびプログラム
JP2005149014A (ja) 文書関連語彙獲得方法及び装置及びプログラム
JP4544047B2 (ja) Web画像検索結果分類提示方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP2010128598A (ja) 文書検索装置及び方法及びプログラム及びプログラムを記録した記録媒体
Ung et al. Combination of features for vietnamese news multi-document summarization
JP2015036892A (ja) 情報処理装置、情報処理方法、及び、プログラム
Ahmad et al. A comparative study on text mining techniques
Yunus et al. Visualizing Quran documents results by stemming semantic speech query
Tsapatsoulis Web image indexing using WICE and a learning-free language model
Pushpalatha et al. A tree based representation for effective pattern discovery from multimedia documents
Laukkanen et al. Towards Ontology-Based Yellow Page Services.
Piasecki et al. Literary Exploration Machine. New Tool for Distant Readers of Polish Literature.
Benkoussas et al. Cross-Document Search Engine For Book Recommendation.
Kaur et al. Automated scientific document retrieval
JP2012243130A (ja) 情報検索装置、方法、及びプログラム

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070706

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070706

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100126

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100323

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100427