JP5344715B2

JP5344715B2 - コンテンツ検索装置およびコンテンツ検索プログラム

Info

Publication number: JP5344715B2
Application number: JP2010536802A
Authority: JP
Inventors: 美紀長谷山
Original assignee: Hokkaido University NUC
Current assignee: Hokkaido University NUC
Priority date: 2008-11-07
Filing date: 2009-11-06
Publication date: 2013-11-20
Anticipated expiration: 2029-11-06
Also published as: JPWO2010053160A1; US20110225153A1; WO2010053160A1; US9077949B2

Description

本発明は、類似するコンテンツデータを検索するコンテンツ検索装置およびコンテンツ検索プログラムに関する。

近年の情報通信ネットワークや記憶媒体の発達に伴い、ユーザは大量のコンテンツデータを取得することができるようになった。ユーザは、自身が作成したコンテンツデータを取得できるのみならず、配信サイトなどに接続してコンテンツデータを取得することができる。このコンテンツデータは、画像データ、動画データ、音楽データ等の各種のコンテンツデータが含まれる。画像データは、静止画等のデータである。動画データは、テレビ録画物、ビデオ録画物、映画やアニメーションなどのデータである。音楽データは、クラッシック音楽、歌謡曲、ＢＧＭなどのデータである。

これらコンテンツデータの数は膨大である。従ってユーザは、膨大な数のコンテンツデータから所望のコンテンツデータを検索するために、コンピュータにより実現される検索システムを利用することが一般的である。

一般的には、これらの各コンテンツ種別について、所望のコンテンツを検索する装置が開示されている。例えば動画データを検索する検索装置（例えば、特許文献１参照。）、音楽データを検索する検索装置（例えば、特許文献２参照。）などがある。また、楽曲の繰り返し区間を検出する方法もある（例えば、非特許文献１参照。）。

国際公開第２００２／０３３５８９号特開２００５−１０７７１号公報

M. A. Bartsch and G. H. Wake_eld, "To chatch a chorus: using chroma-based representations for audio thumbnailing," Proc. WAS-PAA'01, pp. 15-18, 2001.

しかしながら、上記特許文献１または特許文献２に記載の検索システムにおいては、各種コンテンツデータのうち、特定の１種類のコンテンツデータのみを検索対象としている。従って、従来の検索システムにおいては、動画像、画像、音楽のそれぞれのコンテンツの検索において個別の検索システムを用いなければならなかった。また、動画像と画像、画像と音楽、および音楽と動画像など、異なるコンテンツ種別のコンテンツデータから、類似するコンテンツを検索することはできなかった。

また、従来、各コンテンツデータについて予め、作成者、コンテンツ内容等のメタデータが付与されており、これらのメタデータを用いて類似するコンテンツデータを検索する検索システムが多い。このような検索システムを利用する場合、予め各コンテンツデータにメタデータを付与する必要があり、膨大な数のコンテンツデータの処理をするに際し、弊害となるおそれがある。

そこで、ユーザが、コンテンツ種別を意識することなく、またメタデータがなくとも所望のコンテンツデータを容易に検索することができる技術の開発が期待されている。

従って本発明の目的は、異なる種別のコンテンツデータについて、類似するコンテンツデータを検索するコンテンツ検索装置およびコンテンツ検索プログラムを提供することである。

上記課題を解決するために、本発明の第１の特徴は、異なる種別のコンテンツデータについて、類似するコンテンツデータを検索するコンテンツ検索装置に関する。即ち本発明の第１の特徴に係るコンテンツ検索装置は、画像特徴、音響特徴および意味特徴のうちいずれか一つ以上を有する複数のコンテンツデータが、コンテンツ識別子に対応づけて記憶装置に記憶されたコンテンツデータ記憶部と、コンテンツデータ記憶部に記憶された各コンテンツデータについて、各コンテンツデータが有する画像特徴、音響特徴および意味特徴のうちいずれか一つ以上の特徴量を算出し、コンテンツ識別子と、画像特徴、音響特徴および意味特徴の特徴種別と、その特徴量とを関連づけた特徴量データを、記憶装置に記憶する特徴量算出手段と、特徴量データにおいて、コンテンツ識別子に対応づけられた特徴種別の特徴量から、コンテンツ識別子に対応づけられていない特徴種別の未知の特徴量を算出し、特徴推定値として特徴量データに記憶する未知特徴量算出手段と、特徴量データに記憶されている特徴量および特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出する距離算出手段と、距離算出手段によって算出された距離に基づいて、コンテンツデータに対応するサムネイルの表示位置を決定して、表示装置に表示する表示手段とを備える。
ここで、未知特徴量算出手段は、例えば、特徴量データにおいて、コンテンツ識別子に対応づけられた特徴種別の特徴量から、主成分分析を用いて特徴推定値を算出する。また他の例としては、未知特徴量算出手段は、特徴量データにおいて、コンテンツ識別子に対応づけられた特徴種別の特徴量から、正準相関分析を用いて特徴推定値を算出する。

特徴量算出手段は、音響特徴の特徴量を算出する際、音響信号のうち繰り返し現れるメロディーを特定し、その繰り返しメロディーの特徴量を、音響特徴の特徴量としても良い。

第１の特徴に係るコンテンツ検索装置は、さらに、ユーザ識別子と、当該ユーザの嗜好に合うコンテンツ識別子とが関連づけられたユーザ嗜好データが、記憶装置に記憶されたユーザ嗜好データ記憶部と、各コンテンツ識別子について、ユーザ嗜好データにおいて当該コンテンツに関連づけられたユーザ識別子の集合を作成するとともに、各集合において、ユーザ間に有向辺を作成し、各集合を代表する重要ユーザを決定する重要ユーザ決定手段と、をさらに備えても良い。この場合、距離算出手段は、ユーザ嗜好データにおいて重要ユーザのユーザ識別子に関連づけられたコンテンツ識別子を抽出し、抽出したコンテンツ識別子に対応する特徴量および特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出することが好ましい。

表示手段はさらに、ユーザ嗜好データにおいて、所定のコンテンツに関連づけられた複数のユーザの識別子を抽出し、複数のユーザの識別子のそれぞれをノードと、ユーザ間の有向辺を考慮したノード間のリンクを含むユーザネットワークを表示して、表示装置に表示しても良い。

本発明の第２の特徴は、異なる種別のコンテンツデータについて、類似するコンテンツデータを検索するコンテンツ検索プログラムに関する。即ち本発明の第２の特徴に係るコンテンツ検索プログラムは、コンピュータに、画像特徴、音響特徴および意味特徴のうちいずれか一つ以上を有する複数のコンテンツデータが、コンテンツ識別子に対応づけて記憶装置に記憶された各コンテンツデータについて、各コンテンツデータが有する画像特徴、音響特徴および意味特徴のうちいずれか一つ以上の特徴量を算出し、コンテンツ識別子と、画像特徴、音響特徴および意味特徴の特徴種別と、その特徴量とを関連づけた特徴量データを、記憶装置に記憶する特徴量算出手段と、特徴量データにおいて、コンテンツ識別子に対応づけられた特徴種別の特徴量から、コンテンツ識別子に対応づけられていない特徴種別の未知の特徴量を算出し、特徴推定値として特徴量データに記憶する未知特徴量算出手段と、特徴量データに記憶されている特徴量および特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出する距離算出手段と、距離算出手段によって算出された距離に基づいて、コンテンツデータに対応するサムネイルの表示位置を決定して、表示装置に表示する表示手段として実現させる。

ここで、未知特徴量算出手段は、例えば、特徴量データにおいて、コンテンツ識別子に対応づけられた特徴種別の特徴量から、主成分分析を用いて特徴推定値を算出する。また他の例としては、未知特徴量算出手段は、特徴量データにおいて、コンテンツ識別子に対応づけられた特徴種別の特徴量から、正準相関分析を用いて特徴推定値を算出する。

第２の特徴に係るコンテンツ検索プログラムは、ユーザ識別子と、当該ユーザの嗜好に合うコンテンツ識別子とが関連づけられたユーザ嗜好データが、記憶装置に記憶されたユーザ嗜好データにおいて当該コンテンツに関連づけられたユーザ識別子の集合を、各コンテンツ識別子について作成するとともに、各集合において、ユーザ間に有向辺を作成し、各集合を代表する重要ユーザを決定する重要ユーザ決定手段と、をさらにコンピュータに実行させても良い。この場合、距離算出手段は、ユーザ嗜好データにおいて重要ユーザのユーザ識別子に関連づけられたコンテンツ識別子を抽出し、抽出したコンテンツ識別子に対応する特徴量および特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出することが好ましい。

本発明によれば、異なる種別のコンテンツデータについて、類似するコンテンツデータを検索するコンテンツ検索装置およびコンテンツ検索プログラムを提供することができる。

図１は、本発明の実施の形態に係るコンテンツ検索装置の機能を説明する図である。図２は、本発明の実施の形態に係るコンテンツ検索装置で算出する特徴量を説明する図である。図３は、本発明の実施の形態に係るコンテンツ検索装置で算出する未知の特徴量を説明する図である。図４は、本発明の実施の形態に係るコンテンツ検索装置のハードウェア構成を説明する図である。図５は、本発明の実施の形態に係るコンテンツ検索装置の特徴量データのデータ構造とデータの一例を説明する図である。図６は、本発明の実施の形態に係るコンテンツ検索装置の画像特徴量算出処理を説明するフローチャートである。図７は、本発明の実施の形態に係るコンテンツ検索装置の意味特徴量算出処理を説明するフローチャートである。図８は、本発明の実施の形態に係るコンテンツ検索装置の音響特徴量算出処理を説明するフローチャートである。図９は、本発明の実施の形態に係るコンテンツ検索装置において、主成分分析による未知特徴量算出処理を説明するフローチャートである。図１０は、本発明の実施の形態に係るコンテンツ検索装置において、正準相関分析による未知特徴量算出処理を説明するフローチャートである。図１１は、本発明の実施の形態に係るコンテンツ検索装置において、重みなし距離を算出する距離算出処理を説明するフローチャートである。図１２は、本発明の実施の形態に係るコンテンツ検索装置において、重み付き距離を算出する距離算出処理を説明するフローチャートである。図１３は、本発明の実施の形態に係るコンテンツ検索装置において、画面中央にクエリコンテンツデータのサムネイルを表示し、その周囲に検索結果のコンテンツデータのサムネイルを表示する画面構成を説明する図である。図１４は、本発明の実施の形態に係るコンテンツ検索装置において、クエリコンテンツデータを指定する画面の一例を説明する図である。図１５は、本発明の実施の形態に係るコンテンツ検索装置において、画面中央にクエリコンテンツデータのサムネイルを表示し、その周囲に検索結果のコンテンツデータのサムネイルを表示する画面の一例を説明する図である。図１６は、本発明の実施の形態に係るコンテンツ検索装置において、コンテンツデータの種別毎に表示エリアを分けて表示する画面構成を説明する図である。図１７は、本発明の実施の形態に係るコンテンツ検索装置において、コンテンツデータの種別毎に表示エリアを分けて表示する画面の一例を説明する図である。図１８は、本発明の実施の形態に係るコンテンツ検索装置において、画面左上にクエリコンテンツデータのサムネイルを表示し、クエリコンテンツデータのサムネイルから放射状に検索結果のコンテンツデータのサムネイルを表示する画面構成を説明する図である。図１９は、本発明の実施の形態に係るコンテンツ検索装置において、画面左上にクエリコンテンツデータのサムネイルを表示し、クエリコンテンツデータのサムネイルから放射状に、検索結果の一つの動画データにフォーカスをあてて表示する画面の一例を説明する図である。図２０は、本発明の実施の形態に係るコンテンツ検索装置において、画面左上にクエリコンテンツデータのサムネイルを表示し、クエリコンテンツデータのサムネイルから放射状に、検索結果の一つの音楽データにフォーカスをあてて表示する画面の一例を説明する図である。図２１は、本発明の実施の形態に係るコンテンツ検索装置において、画面左上にクエリコンテンツデータのサムネイルを表示し、クエリコンテンツデータのサムネイルから放射状に、検索結果の一つの画像データにフォーカスをあてて表示する画面の一例を説明する図である。図２２は、本発明の実施の形態に係るコンテンツ検索装置において、クロマベクトル算出の概要を説明する図である。図２３は、本発明の実施の形態に係るコンテンツ検索装置において、遷移行列を説明する図である。図２４は、本発明の実施の形態に係るコンテンツ検索装置において、正準相関分析で得られた相関行列を説明する図である。図２５は、本発明の第２の変形例に係るコンテンツ検索装置の機能を説明する図である。図２６は、本発明の第２の変形例に係るコンテンツ検索装置において、重要ユーザを決定する重要ユーザ決定処理を説明するフローチャートである。図２７は、本発明の第２の変形例に係るコンテンツ検索装置において、ユーザネットワークを表示する画面の一例を説明する図である。

次に、図面を参照して、本発明の実施の形態を説明する。以下の図面の記載において、同一又は類似の部分には同一又は類似の符号を付している。

（実施の形態）
図１に示すように、本発明の実施の形態に係るコンテンツ検索装置１は、異なる種別のコンテンツデータについて、類似するコンテンツデータを検索する。具体的にはコンテンツ検索装置１は、コンテンツデータ記憶部３０に記憶された各種コンテンツデータについて、各コンテンツデータから特徴量を算出する。この際、コンテンツ検索装置１は、各種コンテンツデータにメタデータが付与されているか否かにかかわらず、特徴量を算出する。
さらにコンテンツ検索装置１は、各コンテンツデータの未知の特徴量を、算出可能な特徴量から推定する。コンテンツ検索装置１は、算出された特徴量および推定された特徴量から、各コンテンツデータの距離を算出し、類似度を決定し、表示装置１０５に検索結果を３次元の空間として表現して表示する。

本発明の実施の形態において「コンテンツデータ」は、画像データ、動画データおよび音楽データを示す。またコンテンツデータとして、テキストデータが含まれていても良い。また本発明の実施の形態において「特徴量」は、画像特徴量、意味特徴量および音響特徴量を示す。画像特徴量は、静止画の画像データや動画の各フレームのデータの色ヒストグラムに基づいて算出される。意味特徴量は、単語が出現する頻度などに基づいて算出される。音響特徴量は、音階の時間変化に基づいて算出される。

図２および図３を参照して、各コンテンツデータについて、算出される特徴量と、推定される未知の特徴量とを説明する。

図２に示すように、画像データは画像特徴を有しているので、コンテンツ検索装置１は、画像データから画像特徴量を算出する。また、画像データにメタデータが付与されている場合、コンテンツ検索装置１は、画像データのメタデータから意味特徴量も算出する。さらにコンテンツ検索装置１は、未知特徴量として音響特徴量を算出するとともに、メタデータがない場合、さらに意味特徴量も算出する。これにより、図３に示すように画像データは、画像特徴量、意味特徴量および音響特徴量の全ての特徴量を有する。

図２に示すように、音楽データは音響特徴を有しているので、コンテンツ検索装置１は、音楽データから音響特徴量を算出する。また、音楽データにメタデータが付与されている場合、コンテンツ検索装置１は、音楽データのメタデータから意味特徴量も算出する。さらにコンテンツ検索装置１は、未知特徴量として画像特徴量を算出するとともに、メタデータがない場合、さらに意味特徴量も算出する。これにより、図３に示すように音楽データは、画像特徴量、意味特徴量および音響特徴量の全ての特徴量を有する。

図２に示すように、動画データは画像特徴および音響特徴を有しているので、コンテンツ検索装置１は、動画データから画像特徴量および音響特徴量を算出する。また、動画データにメタデータが付与されている場合、コンテンツ検索装置１は、動画データのメタデータから意味特徴量も算出する。また、動画データに人の声やキャプションなどが含まれている場合、これらのデータをテキストデータとして抽出することにより、コンテンツ検索装置１は、動画データの意味特徴量も算出する。意味特徴量が算出されない場合、さらにコンテンツ検索装置１は、未知特徴量として意味特徴量を算出する。これにより、図３に示すように動画データは、画像特徴量、意味特徴量および音響特徴量の全ての特徴量を有する。

このように、本発明の実施の形態に係るコンテンツ検索装置１は、コンテンツの種別にかかわらず、各コンテンツデータについて、画像特徴量、意味特徴量および音響特徴量を算出することができる。さらに、コンテンツ検索装置１は、各コンテンツデータに対応付けられた画像特徴量、意味特徴量および音響特徴量に基づいてコンテンツ間の距離を算出し、コンテンツの類似度を算出することができる。従って、コンテンツの種別にかかわらず、類似するコンテンツを検索することができる。

このようなコンテンツ検索装置１は、例えば、画像データに類似する音楽データを検索することにより、画像に合う音楽を抽出することができる。また、コンテンツ検索装置１は、音楽データに類似する動画データを検索することにより、音楽に合う動画を抽出することができる。

（コンテンツ検索装置のハードウェア構成）
図４に示すように、本発明の実施の形態に係るコンテンツ検索装置１は、中央処理制御装置１０１、ＲＯＭ（Read Only Memory）１０２、ＲＡＭ（Random Access Memory）１０３及び入出力インタフェース１０９が、バス１１０を介して接続されている。入出力インタフェース１０９には、入力装置１０４、表示装置１０５、通信制御装置１０６、記憶装置１０７及びリムーバブルディスク１０８が接続されている。

中央処理制御装置１０１は、入力装置１０４からの入力信号に基づいてＲＯＭ１０２からコンテンツ検索装置１を起動するためのブートプログラムを読み出して実行し、更に記憶装置１０７に記憶されたオペレーティングシステムを読み出す。更に中央処理制御装置１０１は、入力装置１０４や通信制御装置１０６などの入力信号に基づいて、各種装置の制御を行ったり、ＲＡＭ１０３や記憶装置１０７などに記憶されたプログラム及びデータを読み出してＲＡＭ１０３にロードするとともに、ＲＡＭ１０３から読み出されたプログラムのコマンドに基づいて、データの計算又は加工など、後述する一連の処理を実現する処理装置である。

入力装置１０４は、操作者が各種の操作を入力するキーボード、マウスなどの入力デバイスにより構成されており、操作者の操作に基づいて入力信号を作成し、入出力インタフェース１０９及びバス１１０を介して中央処理制御装置１０１に送信される。表示装置１０５は、ＣＲＴ（Cathode Ray Tube）ディスプレイや液晶ディスプレイなどであり、中央処理制御装置１０１からバス１１０及び入出力インタフェース１０９を介して表示装置１０５において表示させる出力信号を受信し、例えば中央処理制御装置１０１の処理結果などを表示する装置である。通信制御装置１０６は、ＬＡＮカードやモデムなどの装置であり、コンテンツ検索装置１をインターネットやＬＡＮなどの通信ネットワークに接続する装置である。通信制御装置１０６を介して通信ネットワークと送受信したデータは入力信号又は出力信号として、入出力インタフェース１０９及びバス１１０を介して中央処理制御装置１０１に送受信される。

記憶装置１０７は半導体記憶装置や磁気ディスク装置であって、中央処理制御装置１０１で実行されるプログラムやデータが記憶されている。リムーバブルディスク１０８は、光ディスクやフレキシブルディスクのことであり、ディスクドライブによって読み書きされた信号は、入出力インタフェース１０９及びバス１１０を介して中央処理制御装置１０１に送受信される。

本発明の実施の形態に係るコンテンツ検索装置１の記憶装置１０７には、コンテンツ検索プログラムが記憶されるとともに、図１に示すように、記憶装置１０７は、コンテンツデータ記憶部３０、特徴量データ記憶部３４および距離データ記憶部３５を備える。また、コンテンツ検索プログラムがコンテンツ検索装置１の中央処理制御装置１０１に読み込まれ実行されることによって、特徴量算出手段１０、未知特徴量算出手段１４、距離算出手段１５および表示手段１６が、コンテンツ検索装置１に実装される。

次に図１を参照して、本発明の実施の形態に係るコンテンツ検索装置１を説明する。
記憶装置１０７は、コンテンツデータ記憶部３０、特徴量データ記憶部３４および距離データ記憶部３５を備える。

コンテンツデータ記憶部３０は、コンテンツデータが記憶された記憶領域である。コンテンツデータは、画像特徴、音響特徴および意味特徴のうちいずれか一つ以上を有している。コンテンツデータ記憶部３０において、各コンテンツデータは、コンテンツ識別子に対応づけられて記憶されている。コンテンツデータ記憶部３０は、画像データ記憶部３１、動画データ記憶部３２および記憶された音楽データ記憶部３３を備える。画像データ記憶部３１には、画像データ３１ａがコンテンツ識別子と関連づけられて記憶されている。画像データ記憶部３１に、複数の画像データが記憶されていても良い。動画データ記憶部３２には、動画データ３２ａがコンテンツ識別子と関連づけられて記憶されている。動画データ記憶部３２に、複数の動画データが記憶されていても良い。音楽データ記憶部３３には、音楽データ３３ａがコンテンツ識別子と関連づけられて記憶されている。音楽データ記憶部３３に、複数の音楽データが記憶されていても良い。

特徴量データ記憶部３４には、特徴量データ３４ａが記憶されている。特徴量データは、各コンテンツデータの画像特徴量、音響特徴量および意味特徴量を関連づけたデータである。特徴量データ３４ａは、各コンテンツ識別子と、画像特徴量、音響特徴量および意味特徴量を関連づけたデータである。各特徴量は、後述する特徴量算出手段１０によって算出された特徴量、または未知特徴量算出手段１４によって算出された特徴量である。

図５を参照して、本発明の実施の形態に係る特徴量データ３４ａを説明する。図５（ａ）に示す特徴量データ３４ａは、コンテンツ識別子、コンテンツ種別、画像特徴量、音響特徴量および意味特徴量の各項目を有する。コンテンツ識別子は、各コンテンツデータ記憶部３０に記憶されたコンテンツデータに関連づけられた識別子である。コンテンツ種別は、コンテンツデータ記憶部３０に記憶されたコンテンツの種別であり、図５に示す例では、画像、音楽および動画のいずれかの種別を有する。画像特徴量、音響特徴量および意味特徴量の各項目には、コンテンツデータの各特徴の特徴量が関連づけられている。

特徴量算出手段１０によって各コンテンツデータの特徴量が算出されると、図５（ａ）に示すように、特徴量算出手段１０によって算出された特徴量が特徴量データ３４ａに登録される。図５（ａ）に示すように、コンテンツ種別が「画像」の場合、画像特徴量が、関連づけられる。コンテンツ種別が「音楽」の場合、音響特徴量が関連づけられる。コンテンツ種別が「動画」の場合、画像特徴量および音響特徴量がそれぞれ関連づけられる。メタデータ、音声データまたはキャプチャデータ等からテキストデータを取得できる場合、各コンテンツ識別子に、意味特徴量が関連づけられる場合もある。

さらに未知特徴量算出手段１４によって各コンテンツデータの未知の特徴量が算出されると、図５（ｂ）に示すように、特徴量算出手段１０によって算出された特徴量が特徴量データ３４ａに登録され、各コンテンツデータについて、画像特徴量、音響特徴量および意味特徴量が関連づけられる。図５（ｂ）に示すように、コンテンツ種別が「画像」の場合、音響特徴量が、コンテンツ種別が「音楽」の場合、画像特徴量が、それぞれ新たに関連づけられる。各コンテンツデータについて特徴量算出手段１０によって意味特徴量が関連づけられていない場合、未知特徴量算出手段１４によって算出される意味特徴量が関連づけられる。

距離データ記憶部３５には、距離データ３５ａが記憶されている。距離データ３５ａは、コンテンツデータ記憶部３０に記憶される各コンテンツデータの任意の２つのコンテンツデータのコンテンツ識別子と、画像特徴量、意味特徴量および音響特徴量のそれぞれの類似度を示す距離を関連づけたデータである。後述する特徴量算出手段１０および未知特徴量算出手段１４によって、コンテンツデータ記憶部３０に記憶される全てのコンテンツデータについて、画像特徴量、意味特徴量および音響特徴量が算出され、コンテンツ識別子に対応付けられた特徴量データ３４ａが生成される。さらに距離算出手段１５は、特徴量データ３４ａから任意の２つのコンテンツデータの画像特徴量、意味特徴量および音響特徴量を抽出し、画像特徴、意味特徴および音響特徴のそれぞれについて、この２つのコンテンツデータの類似度となる距離を算出する。距離算出手段１５は、この２つのコンテンツデータの識別子と、画像特徴の距離、意味特徴の距離および音響特徴の距離を関連づけて、距離データ３５ａを生成する。

中央処理制御装置１０１には、コンテンツ検索プログラムがインストールされることにより、特徴量算出手段１０、未知特徴量算出手段１４、距離算出手段１５および表示手段１６が実装される。

特徴量算出手段１０は、コンテンツデータ記憶部３０に記憶された各コンテンツデータについて、各コンテンツデータが有する画像特徴、音響特徴および意味特徴のうちいずれか一つ以上の特徴量を算出し、コンテンツ識別子と、画像特徴、音響特徴および意味特徴の特徴種別と、その特徴量とを関連づけた特徴量データ３４ａを、記憶装置１０７の特徴量データ記憶部３４に記憶する。特徴量算出手段１０は、画像特徴量算出手段１１、意味特徴量算出手段１２および音響特徴量算出手段１３を備える。

画像特徴量算出手段１１は、画像データ記憶部３１に記憶された画像データ３１ａについて、画像特徴量として、色ヒストグラムを算出する。さらに画像特徴量算出手段１１は、動画データ記憶部３２に記憶された動画データ３２ａのうち映像データについて、全フレームからそれぞれ色ヒストグラムを算出し、そのベクトルメジアンを画像特徴量とする。

図６（ａ）を参照して、本発明の実施の形態に係る画像特徴量算出手段１１が、画像データ３１ａについて画像特徴量を算出する処理を説明する。各画像データについて、ステップＳ１０１ないしステップＳ１０３の処理が繰り返される。

具体的には、ステップＳ１０１において画像特徴量算出手段１１は、一つのコンテンツ識別子に対応する画像データについて、ＲＧＢ表示系における色ヒストグラムを算出する。このときのＲＧＢの各ビン数は、例えば４、４および４とする。次にステップＳ１０２において画像特徴量算出手段１１は、ステップＳ１０１で得られたベクトルを、当該画像データの画像特徴量として出力する。ステップＳ１０１においてＲＧＢのビン数を４、４および４にした場合、このベクトルは６４次元である。ステップＳ１０３において画像特徴量算出手段１１は、ステップＳ１０２で出力した画像特徴量を、当該画像データのコンテンツ識別子に対応する画像特徴量として、特徴量データ３４ａに記録する。

図６（ｂ）を参照して、本発明の実施の形態に係る画像特徴量算出手段１１が、動画データ３２ａについて画像特徴量を算出する処理を説明する。各動画データの映像データについて、ステップＳ１５１ないしステップＳ１５５の処理が繰り返される。

具体的には、ステップＳ１５１において画像特徴量算出手段１１は、一つのコンテンツ識別子に対応する動画データの映像データ部分を抽出し、各フレームについて、６４次元ベクトルを算出する。まずステップＳ１５１において画像特徴量算出手段１１は、一つのフレームの画像データについて、ＲＧＢ表示系における色ヒストグラムを算出する。このときのＲＧＢの各ビン数は、例えば４、４および４とする。次にステップＳ１５２において画像特徴量算出手段１１は、ステップＳ１５１で得られたベクトルを、当該フレームの特徴量として出力する。ステップＳ１５１においてＲＧＢのビン数を４、４および４にした場合、ステップＳ１５２で取得されるベクトルは６４次元である。

一つの動画データの映像データ部分の各フレームについて６４次元ベクトルが取得されると、ステップＳ１５３において、各フレームの６４次元ベクトルからベクトルメジアンを算出し、ステップＳ１５４として当該映像データの画像特徴量として出力する。ステップＳ１５５において画像特徴量算出手段１１は、ステップＳ１５４で出力した画像特徴量を、当該動画データのコンテンツ識別子に対応する画像特徴量として、特徴量データ３４ａに記録する。

意味特徴量算出手段１２は、意味特徴量を算出する。画像データ３１ａ、動画データ３２ａおよび音楽データ３３ａにテキスト形式のメタデータが付与されている場合、意味特徴量算出手段１２は、これらのメタデータから意味特徴量を算出する。意味特徴量算出手段１２は、さらに、動画データ３２ａに人の声やキャプチャのデータが含まれている場合、これらのデータをテキスト形式に変換して意味特徴量を算出しても良い。また意味特徴量算出手段１２は、音楽データ３３ａに歌声が含まれている場合、この歌声のデータをテキスト形式に変換して歌詞データを取得し、意味特徴量を算出しても良い。

図７を参照して、本発明の実施の形態に係る意味特徴量算出手段１２が、各コンテンツデータについて意味特徴量を算出する処理を説明する。各コンテンツデータのテキストデータについて、ステップＳ２０１ないしステップＳ２０８の処理が繰り返される。

まず意味特徴量算出手段１２は、各コンテンツデータのテキストデータに含まれる各単語について、ステップＳ２０１ないしステップＳ２０５の処理を繰り返し、ＴＦＩＤＦを取得する。ＴＦＩＤＦは、テキスト中の特徴的な単語について、ＴＦ（Term Frequency：出現頻度）およびＩＤＦ（Inverse Document Frequency：逆出現頻度）の二つの指標に基づいて算出される。

ステップＳ２０１において意味特徴量算出手段１２は、各単語がコンテンツ中に出現する回数ＴＦを算出する。次にステップＳ２０２において意味特徴量算出手段１２は、各単語が出現するコンテンツ数ＤＦを算出し、ステップＳ２０３において、ステップＳ２０２で算出されたＤＦを用いてＩＤＦを算出する。ステップＳ２０４において意味特徴量算出手段１２は、ステップＳ２０１で算出されたＴＦと、ステップＳ２０３で算出されたＩＤＦとを用いて、各単語のＴＦＩＤＦを算出する。ステップＳ２０５において意味特徴量算出手段１２は、ステップＳ２０４で算出したＴＦＩＤＦを正規化する。

所定のコンテンツに含まれる各単語について、ＴＦＩＤＦが正規化されると、ステップＳ２０６において意味特徴量算出手段１２は、特徴ベクトルとして算出する。特徴ベクトルは、全コンテンツに含まれる単語数を次元数とするベクトルである。ステップＳ２０７において意味特徴量算出手段１２は、ステップＳ２０６において算出された特徴ベクトルを、当該コンテンツデータのコンテンツ識別子に対応する意味特徴量として、特徴量データ３４ａに記録する。

音響特徴量算出手段１３は、音楽データ記憶部３３に記憶された音楽データ３３ａについて、音響特徴量を算出する。さらに音響特徴量算出手段１３は、動画データ記憶部３２に記憶された動画データ３２ａのうち音響データについて、音響特徴量を算出する。

図８を参照して、本発明の実施の形態に係る音響特徴量算出手段１３が、音楽データ３３ａと動画データ３２ａのうちの音響データについて画像特徴量を算出する処理を説明する。各音楽データまたは音響データの音響信号について、ステップＳ３０１ないしステップＳ３０６の処理が繰り返される。

ステップＳ３０１ないしステップＳ３０４において音響特徴量算出手段１３は、各時刻の音響信号についてクロマベクトルを算出する。具体的には音響特徴量算出手段１３は、ステップＳ３０１において、所定時刻の音響信号について帯域通過フィルタを施し、ステップＳ３０２において、各音階に対するパワーを抽出する。これにより、各時刻における音階のパワーの分布を得ることができる。ステップＳ３０３において音響特徴量算出手段１３は、ステップＳ３０２で抽出した各音階に対応する周波数のパワーを、オクターブ毎に換算し、ステップＳ３０４において各周波数パワーを要素とするクロマベクトルを算出する。

所定の音楽データまたは音響データの各時刻の音響信号についてクロマベクトルが算出されると、ステップＳ３０５において音響特徴量算出手段１３は、各時刻のクロマベクトルから、その時間変化を表す音階の遷移行列を算出する。このとき音響特徴量算出手段１３は、所定時刻の１単位時間前のクロマベクトルから、所定時刻のクロマベクトルを推定した際の平均二乗誤差が最小となるように、遷移行列を算出する。ステップＳ３０６において音響特徴量算出手段１３は、ステップＳ３０５において算出された音階の遷移行列の各要素を、当該コンテンツデータのコンテンツ識別子に対応する音響特徴量として、特徴量データ３４ａに記録する。

未知特徴量算出手段１４は、特徴量データ３４ａにおいて、コンテンツ識別子に対応づけられた特徴種別の特徴量から、コンテンツ識別子に対応づけられていない特徴種別の未知の特徴量を算出し、特徴推定値として特徴量データ３４ａに記憶する。
例えば、図２に示すように、画像データ３１ａについて、画像特徴量算出手段１１によって画像特徴量が算出される。しかし画像データ３１ａは音響信号を有していないので、音響特徴量は算出されない。また、画像データ３１ａにメタデータが付与されていない場合、意味特徴量は算出されない。そこで、未知特徴量算出手段１４は、画像データ３１ａについて、図３に示すように音響特徴量および意味特徴量を算出する。
動画データ３２ａについて、画像特徴量算出手段１１によって画像特徴量が算出されるとともに、音響特徴量算出手段１３によって音響特徴量が算出される。動画データ３２ａにメタデータが付与されていない場合や、人の声やキャプションなどが含まれていない場合、意味特徴量は算出されない。そこで、未知特徴量算出手段１４は、動画データ３２ａについて、図３に示すように意味特徴量を算出する。
音楽データ３３ａについて、音響特徴量算出手段１３によって音響特徴量が算出される。しかし音楽データ３３ａは画像信号を有していないので、画像特徴量は算出されない。また、音楽データ３３ａにメタデータが付与されていない場合、意味特徴量は算出されない。そこで、未知特徴量算出手段１４は、音楽データ３３ａについて、図３に示すように画像特徴量および意味特徴量を算出する。

未知の特徴量を算出するためには、異なる特徴間の相関が求める必要がある。未知の特徴量を算出する方法としては、主成分分析による方法、正準相関分析による方法などが考えられる。
正準相関分析が異なる特徴間の相関求めるのに最適な方法であるのに対して、主成分分析による方法では、同一特徴間での相関も求める。その一方、主成分分析では、全ての特徴間で相関が求まっていることから、どの特徴が既知である、未知であることの拘束は存在しない。従って、主成分分析では、計算量を削減することができる。
これに対し正準相関分析による方法では、既知のデータ、未知のデータがはっきりとしている場合に、最適な相関を算出することが可能である。
未知特徴量算出手段１４は、データの状況や、要求される処理能力等に応じて、いずれかの計算手法を選択することが好ましい。

図９を参照して、未知特徴量算出手段１４の主成分分析による未知特徴量算出処理を説明する。未知特徴量算出手段１４は、特徴量算出手段１０によって得られた各特徴量に対して主成分分析を施し、その固有空間を得る。このように算出される固有空間を用いて、未知特徴量算出手段１４は、各コンテンツデータにおける未知の特徴量を算出することができる。

まずステップＳ４０１におよびステップＳ４０２において未知特徴量算出手段１４は、各コンテンツデータについて、その特徴値のベクトルｘを算出する。具体的にはステップＳ４０１において未知特徴量算出手段１４は、特徴量データ３４ａから、所定のコンテンツデータについて、画像特徴ベクトル（画像特徴量）、音響特徴ベクトル（音響特徴量）および意味特徴ベクトル（意味特徴量）を抽出する。ステップＳ４０２において未知特徴量算出手段１４は、ステップＳ４０１で抽出した各ベクトルを並べて、ベクトルｘを求める。このとき、画像データの音響特徴量などの未知の特徴量については、デフォルト値を設定する。

全てのコンテンツデータについてベクトルｘが算出されると、ステップＳ４０３において未知特徴量算出手段１４は、各コンテンツのベクトルｘについて主成分分析を施し、固有ベクトルを並べた行列Ｕを取得する。

ステップＳ４０４ないしステップＳ４０９において未知特徴量算出手段１４は、各コンテンツデータについて特徴値が関連づけられていない特徴種別について、特徴値を算出する。具体的には、ステップＳ４０４において未知特徴量算出手段１４は、所定のコンテンツデータのベクトルｘについて、全ての特徴量が関連づけられているか判定する。例えば、コンテンツデータが動画データの場合で、かつ、動画データにメタデータが関連づけられている場合や、動画データ中に人の声やキャプションが含まれている場合である。全ての特徴量が関連づけられている場合、未知特徴量算出手段１４は、次のコンテンツデータについて、ステップＳ４０４を処理する。

一方、いずれかの特徴量が関連づけられていない場合、ステップＳ４０５において未知特徴量算出手段１４は、コンテンツ種別に応じて処理をふりわける。コンテンツデータが画像データの場合、ステップＳ４０６において未知特徴量算出手段１４は、ステップＳ４０３で取得した行列Ｕを利用して、当該コンテンツデータの音響特徴を推定したベクトルを算出する。当該コンテンツデータに意味特徴量が関連づけられていない場合、未知特徴量算出手段１４はさらに、当該コンテンツデータの意味特徴を推定したベクトルを算出する。

コンテンツデータが音楽データの場合、ステップＳ４０７において未知特徴量算出手段１４は、ステップＳ４０３で取得した行列Ｕを利用して、当該コンテンツデータの画像特徴を推定したベクトルを算出する。当該コンテンツデータに意味特徴量が関連づけられていない場合、未知特徴量算出手段１４はさらに、当該コンテンツデータの意味特徴を推定したベクトルを算出する。

コンテンツデータが動画データの場合、ステップＳ４０８において未知特徴量算出手段１４は、ステップＳ４０３で取得した行列Ｕを利用して、当該コンテンツデータの意味特徴を推定したベクトルを算出する。

ステップＳ４０６ないしステップＳ４０８で、行列Ｕを利用して未知の特徴量が算出されると、ステップＳ４０９において、算出された特徴量を、当該コンテンツデータの識別子に関連づけて特徴量データ３４ａに登録する。
全てのコンテンツデータについてステップＳ４０４ないしステップＳ４０９が実行されると、未知特徴量算出処理は終了する。

図１０を参照して、未知特徴量算出手段１４の正準相関分析による未知特徴量算出処理を説明する。未知特徴量算出手段１４は、特徴量算出手段１０によって得られた各特徴量に対して正準相関分析を施し、その特徴の相関が最大となる正準相関係数およびその相関を得る。

まずステップＳ５０１において未知特徴量算出手段１４は、特徴量データ３４ａを読み出し、各コンテンツデータの特徴量を抽出する。ステップＳ５０２において未知特徴量算出手段１４は、ステップＳ５０１で抽出した特徴量に対して、正準相関分析を施す。ステップＳ５０３において未知特徴量算出手段１４は、特徴量間の相関が最大となる正準相関係数およびその相関を算出する。

ステップＳ５０４ないしステップＳ５０６において未知特徴量算出手段１４は、各コンテンツデータについて特徴値が関連づけられていない特徴種別について、特徴値を算出する。具体的には、ステップＳ６０４において未知特徴量算出手段１４は、所定のコンテンツデータのベクトルｘについて、全ての特徴量が関連づけられているか判定する。例えば、コンテンツデータが動画データの場合で、かつ、動画データにメタデータが関連づけられている場合や、動画データ中に人の声やキャプションが含まれている場合である。全ての特徴量が関連づけられている場合、未知特徴量算出手段１４は、次のコンテンツデータについて、ステップＳ５０４を処理する。

一方、いずれかの特徴量が関連づけられていない場合、ステップＳ５０５において未知特徴量算出手段１４は、ステップＳ５０３で算出した正準相関係数およびその相関を用いて、未知の特徴量を算出する。ステップＳ５０６において未知特徴量算出手段１４は、ステップＳ５０５で算出した各特徴量を、当該コンテンツデータの識別子に関連づけて特徴量データ３４ａに登録する。
全てのコンテンツデータについてステップＳ５０４ないしステップＳ５０６が実行されると、未知特徴量算出処理は終了する。

距離算出手段１５は、特徴量データ３４ａに記憶されている特徴量および特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出する。各コンテンツデータが類似するほど距離は小さくなり、類似しないほど距離は大きくなる。算出された距離は、特徴量データ記憶部３４に記憶される。

本発明の実施の形態においてコンテンツ検索装置１は、全てのコンテンツデータについて、コンテンツ種別を問うことなく、画像特徴量、意味特徴量および音響特徴量が関連づけることができる。従って、画像データと音楽データの類似性、動画データと音楽データの類似性など、異なるコンテンツ間の類似度を算出することができる。
従って、ユーザは特定のコンテンツの種類を指定することなく、異なるコンテンツ種別のコンテンツについて、類似するコンテンツを検索することができる。
類似性の高いコンテンツを関連づけることにより、例えば「画像に合う音楽」や「動画に合う音楽」などを抽出することができる。従って、従来は知っているコンテンツでなければ関連づけができなかったところ、本発明の実施の形態によれば、操作者にとって未知のコンテンツを結びつけて新たなコンテンツを制作したり、コンテンツ制作の発想を支援することができる。

また、本発明の実施の形態においては、画像特徴、意味特徴および音響特徴のそれぞれについて距離を算出する。従って距離算出手段１５は、「動画データの映像データ（画像特徴）に類似する音楽データ」や、「動画データの意味特徴に類似する画像データ」など、一つの特徴に着目して類似するコンテンツを検索することもできる。

本発明の最良の実施の形態において距離算出手段１５は、各特徴について、重みなしの距離、および重み付き距離のいずれかを算出する。図１１および図１２を参照して、距離算出手段１５による距離算出処理を説明する。

図１１を参照して、重みなしの距離を算出する処理を説明する。図１１では、コンテンツデータ記憶部３１に記憶された所定のクエリコンテンツデータと、それ以外の検索対象のコンテンツデータとの距離を算出する場合について説明する。図１１に示す例では、特徴量のＬ２距離を、コンテンツ間の距離として出力する。

距離算出手段１５は、特徴量データ３４から、ステップＳ６０１においてクエリコンテンツデータのコンテンツ識別子に関連づけられた特徴量を抽出するとともに、ステップＳ６０２において検索対象コンテンツデータのコンテンツ識別子に関連づけられた特徴量を抽出する。ステップＳ６０１およびステップＳ６０２で抽出される特徴量は、特徴量算出手段１０および未知特徴量算出手段１４によって算出された画像特徴量、意味特徴量および音響特徴量である。

ステップＳ６０３において距離算出手段１５は、クエリコンテンツと検索対象コンテンツ間の距離として、ステップＳ６０１およびステップＳ６０２で抽出した各特徴量のベクトルのＬ２距離を算出する。距離算出手段１５は、画像特徴の重みなし距離、意味特徴の重みなし距離、および音響特徴の重みなし距離をそれぞれ算出する。ステップＳ６０４において、ステップＳ６０３で算出した各特徴のＬ２距離を、コンテンツ間の距離として出力する。

さらに、距離算出手段１５は、他の検索対象コンテンツについてもステップＳ６０１ないしステップＳ６０４の処理を繰り返し、クエリコンテンツと、各々の検索対象コンテンツについて、画像特徴、意味特徴および音響特徴のそれぞれの距離を出力する。

図１２を参照して、重み付き距離を算出する処理を説明する。図１２に示す例では、共分散行列を用いて算出されるマハラノビス汎距離を、コンテンツ間の距離として出力する。

まずステップＳ６５１において距離算出手段１５は、各コンテンツデータについて、画像特徴、意味特徴および音響特徴の共分散行列を求める。ステップＳ６５２において距離算出手段１５は、ステップＳ６５１で算出した各特徴の共分散行列から、マハラノビス汎距離に基づいた各特徴の重み付き距離を算出する。

距離算出手段１５によって算出されたコンテンツ間の距離は、表示手段１６によって各コンテンツが表示される位置の算出に用いられる。

表示手段１６は、クエリコンテンツが与えられた場合に、そのクエリコンテンツに類似するコンテンツの検索や、その結果を表示する。表示手段１６は、距離算出手段１５によって算出された距離に基づいて、各コンテンツデータに対応するサムネイルの表示位置を決定して、表示装置１０５に表示する。表示手段１６は例えば、クエリコンテンツを画面の中央に表示する。さらに表示手段１６は、距離が小さく類似するコンテンツをクエリコンテンツの近くに表示するとともに、距離が大きく類似しないコンテンツをクエリコンテンツの遠くに表示する。

表示手段１６は、例えば、多次元尺度構成法（ＭＤＳ：MultiDimensional Scaling）を用いて、コンテンツ間の距離に基づく表示位置を決定し、表示装置１０５に表示する。「多次元尺度構成法」は、多変量解析の一手法である。「多次元尺度構成法」は、分類対象物の関係を低次元空間における点の位置関係によって表現する。本発明の実施の形態においては、各コンテンツにおいて算出された特徴ベクトル間の距離に対して適用することで、コンテンツ間の類似関係を保持した検索結果を可視化する。

表示手段１６は、さらに、画像データ、映像データおよび音楽データの各種コンテンツを再生するユーザインタフェースである。表示手段１６は、映像データの再生、画像データの再生、音楽データの再生などを実現する。

表示手段１６による画像データの再生を説明する。表示手段１６は、画像データ記憶部３１の画像データ３１ａのサムネイルを、表示装置１０５の表示画面の任意の位置に配置するとともに、画像データ３１ａを再生する。このとき、表示手段１６は、画像データ３１ａに含まれる色に光る装飾を画像データ３１ａの縦横のサイズに合わせて生成する。表示手段１６は、画像データ３１ａの周囲にこの装飾を配置して表示する。このように、画像データ３１ａの周囲に装飾を行うことにより、動画データ３２ａと同時に画面に表示する場合、その動画データ３２ａとのコンテンツ種別の差異を明確にする視覚効果が得られる。

表示手段１６による映像データの再生を説明する。表示手段１６は、動画データ記憶部３２の動画データ３２ａのサムネイルを、表示装置１０５の表示画面の任意の位置に配置するとともに、動画データ３２ａを再生する。このとき表示手段１６は、再生中の動画データ３２ａの現在のフレームを表示するとともに、現在再生中のフレームより後方のフレームの画像を、３次元空間上で再生中のフレームの後方に配置して表示する。表示手段１６は、動画データ３２ａの再生に伴って、現在再生しているフレームの画像と、その後に表示されるフレームの画像を常に更新する。これにより、動画データ３２ａの再生中に、画像が奥から手前に向かって流れているような視覚効果が得られる。

表示手段１６による音楽データの再生を説明する。表示手段１６は、音楽データ記憶部３３の音楽データ３３ａのサムネイルを、表示装置１０５の表示画面の任意の位置に配置するとともに、音楽データ３３ａを再生する。このとき表示手段１６は、音楽データ３３ａのサムネイルの配置された位置で、サムネイルを回転させるなどのアニメーションを行うことにより、音楽データ３３ａが再生中であることを表す視覚効果が得られる。表示手段１６は、音楽データ３３ａの信号長や、音楽データ３３ａをフーリエ変換し、この結果に基づいて、アニメーションデータを生成し、表示装置１０５に表示する。

クエリコンテンツが与えられた場合に、表示手段１６が、そのクエリコンテンツに類似するコンテンツの検索結果を表示する場合を説明する。本発明の実施の形態においては、動画データ等のコンテンツデータの再生中に、ユーザによって検索指示が入力されると、コンテンツ検索装置１の表示手段１６は、再生中のコンテンツデータを、クエリコンテンツデータとして、コンテンツデータ記憶部３０から類似するコンテンツを検索し、表示装置１０５に検索結果を表示する。

コンテンツの検索においては、距離算出手段１５によって算出されたコンテンツ間の距離に基づいて、コンテンツデータ記憶部３０に記憶された各種コンテンツデータから、クエリコンテンツデータとの距離の小さいコンテンツデータが抽出される。具体的には、表示手段１６は、距離データ３５ａから、クエリコンテンツデータと距離の小さいコンテンツ識別子を抽出し、抽出されたコンテンツ識別子に対応するコンテンツデータを、類似するコンテンツデータとして出力する。ここで、距離データ３５ａは画像特徴、意味特徴および音響特徴のそれぞれについて距離が算出されているので、画像特徴、意味特徴および音響特徴の各パラメータに重みを設定して類似するコンテンツデータを出力してもよい。これによれば、表示手段１６は、画像特徴のみに着目して類似するコンテンツデータを検索することができる。また表示手段１６は、音響特徴を３、意味特徴を７とする重みを設定して、類似するコンテンツデータを検索することができる。

表示手段１６は、類似するコンテンツデータを検索すると、多次元尺度構成法によって算出された位置関係に基づいて、そのコンテンツデータのサムネイルを表示装置１０５に表示する。表示装置１０５の表示画面において、クエリコンテンツデータのサムネイルの表示位置を原点とした２次元空間で表示される。表示手段１６は、多次元尺度構成法を用い算出された座標をそれぞれの検索結果に与え、各検索結果の表示位置および大きさを決定する。さらにユーザによってそのコンテンツデータのサムネイルが選択されると、表示手段１６は、選択されたサムネイルのコンテンツデータをクエリコンテンツデータとした類似コンテンツを検索することができる。

表示手段１６が、クエリコンテンツデータと、クエリコンテンツデータに類似するコンテンツデータを表示する際、例えば、図１３、図１６および図１８に示すような表示パターンが考えられる。図１３、図１６および図１８の表示パターンで表示した具体例を、それぞれ図１４、図１５、図１７および図１９ないし図２１に示す。図１５、図１７および図１９ないし図２１において、二重枠で囲まれている画像のサムネイルは、画像データのサムネイルである。また一重枠で囲まれている画像のサムネイルは、動画データのサムネイルである。この動画データのサムネイルでは、動画データが再生されていても良い。また、音譜の画像のサムネイルは、音楽データのサムネイルである。この音楽データが再生されている間、その音楽データのサムネイルは、回転するなどして再生中であることを示すアニメーションが実行される。

図１３に示す例では、画面中央にクエリコンテンツデータのサムネイルを表示し、その周囲に検索結果のコンテンツデータのサムネイルを表示している。クエリコンテンツデータのサムネイルに近いほど、類似するコンテンツデータである。図１３に示す例では、画像データ、動画データ、音楽データ等のコンテンツの種別に関係なく、検索結果のコンテンツデータのサムネイルが表示される。
この場合、動画データ３２ａ等のコンテンツデータの再生中に、ユーザによって検索指示が入力された場合、クエリコンテンツデータのサムネイルを中心として、多次元尺度構成法を用いて算出された２次元空間の座標に基づいて、検索結果のコンテンツデータのサムネイルの座標を再計算し、表示装置１０５の表示画面に配置する。図１３に示す例において、表示されている複数のコンテンツの位置関係によって、ユーザは、クエリコンテンツデータと検索されたコンテンツデータの類似する度合い、および検索されたコンテンツデータ同士が類似する度合いを、視覚的に把握することができる。

図１４および図１５を参照して、図１３に示す例に従ってサムネイルを表示した画面例を説明する。まず図１４において、本発明の実施の形態に係るコンテンツ検索装置１が、最初に表示する画面である。図１４の中央に、クエリコンテンツデータを指定する枠が設けられている。ユーザによって、この枠にクエリコンテンツデータが設定されると、本発明の実施の形態に係るコンテンツ検索装置１は、コンテンツデータ記憶部３０に記憶された各種コンテンツデータのうち、クエリコンテンツデータに類似するコンテンツデータを検索し、図１５に示す画面の様に、その結果を表示する。図１５においては、中心にクエリコンテンツデータのサムネイルが表示される。またクエリコンテンツデータのサムネイルの周辺には、類似するコンテンツデータのサムネイルが表示され、類似するほど近くに表示される。

図１６に示す例では、画面中央にクエリコンテンツデータのサムネイルを表示し、その周囲に検索結果のコンテンツデータのサムネイルを表示する点で図１３に示す例と類似する。図１３に示す例では、検索結果のコンテンツデータのサムネイルを表示する際、コンテンツ種別に関係なく表示していたが、図１６に示す例では、コンテンツデータの種別毎に表示エリアを分けている点が異なる。図１６に示す例では、検索結果のコンテンツデータのサムネイルのうち、画面左に画像データのサムネイルを、画面右上に音楽データのサムネイルを、画面右下に動画データのサムネイルを表示している。
この場合、動画データ３２ａ等のコンテンツ再生中に、ユーザによって検索指示が入力された場合、表示手段１６は、クエリコンテンツデータのサムネイルを中心として、多次元尺度構成法を用いて２次元空間の座標を算出する。さらに表示手段１６は、算出された２次元空間の座標に基づいて、検索結果のコンテンツデータのコンテンツ種別ごとに、そのサムネイルの座標を再計算し、表示装置１０５の表示画面に配置する。図１６に示す例において、表示されている複数のコンテンツのエリアおよび位置関係によって、ユーザは、検索されたコンテンツの種別、クエリコンテンツデータと検索されたコンテンツデータの類似する度合い、および検索されたコンテンツデータ同士が類似する度合いを、視覚的に把握することができる。

図１７を参照して、図１６に示す例に従ってサムネイルを表示した画面例を説明する。図１７に示す例では、中央にクエリコンテンツデータのサムネイルが表示されている。また、クエリコンテンツデータのサムネイルの左側には画像データのサムネイルが、右上には音楽データのサムネイルが、右下には動画データのサムネイルが、それぞれ表示されている。

図１８に示す例では、画面左上にクエリコンテンツデータのサムネイルを表示し、クエリコンテンツデータのサムネイルから放射状に検索結果のコンテンツデータのサムネイルを表示する。図１８に示す例では、画像データ、動画データ、音楽データ等の、クエリコンテンツデータと同じ種類のコンテンツデータについて、検索結果のコンテンツデータのサムネイルが表示される。

この場合、動画データ３２ａ等のコンテンツ再生中に、ユーザによって検索指示が入力された場合、表示手段１６は、クエリを画面端に配置し、クエリコンテンツデータのサムネイルを中心として多次元尺度構成法を用いて算出された２次元空間の座標に基づいて、検索結果のコンテンツデータのサムネイルの座標を、メディア別に再計算し表示装置１０５の表示画面に配置する。
一つのメディアにフォーカスを当てた配置で表示される検索結果は、表示されているコンテンツの位置関係によって、クエリコンテンツデータと検索結果が類似する度合いを視覚的に把握することができる。図１８に示す例では、画像データ、動画データおよび音楽データのいずれか一つのメディアにのみフォーカスを当てて、検索結果を表示する。この場合、フォーカスが当てられていないコンテンツ種別のサムネイルについては、座標を再計算する必要はない。

図１９ないし図２１を参照して、図１８に示す例に従ってサムネイルを表示した画面例を説明する。図１９ないし図２１に示す画面例は、例えば図１５または図１７において示されたサムネイルのいずれか一つが選択された場合に、その選択されたサムネイルのコンテンツ種別にフォーカスをあてて検索結果を表示した画面例である。ここで、「フォーカスをあてる」とは、「動画像」、「音響」または「画像」のいずれかのコンテンツ種別を特定して検索および表示することを言う。フォーカスを当てない場合は、「動画像」、「音響」および「画像」の全てのコンテンツ種別について検索および表示することを言う。

図１９では、動画データにフォーカスをあてて、クエリの動画データに類似する動画データのサムネイルが表示されている。各サムネイルでは、動画が再生されている。また、画面の中央から各サムネイルに向かって、これから再生されるフレームの複数の画像が３次元的に表示されている。図２０では、音楽データにフォーカスをあてて、クエリコンテンツデータに類似する音楽データのサムネイルが表示されている。図２１では、画像データにフォーカスをあてて、動画データに類似する画像データのサムネイルが表示されている。

（効果）
このように本発明の実施の形態に係るコンテンツ検索装置１によれば、各種コンテンツについて、画像特徴量、意味特徴量および音響特徴量を算出する。従って、コンテンツ検索装置１は、画像データと音楽データ、動画データと画像データ、動画データと音楽データなど、コンテンツ種別にかかわらず、類似するコンテンツデータを検索することができる。

さらに、検索されたコンテンツデータについて、表示手段１６は、コンテンツ種別ごとに表示することもできる。また、所定のコンテンツに着目して、そのコンテンツをクエリコンテンツデータとして、そのコンテンツに類似するコンテンツを検索することもできる。

なお、コンテンツデータとして、文字や音声のみからなるテキストデータを用いても良い。テキストデータから、特徴量算出手段１０の意味特徴量算出手段１２が意味特徴量を算出することができる。さらに、未知特徴量算出手段１４が画像特徴量および音響特徴量を算出することができる。これによりテキストデータについても、画像特徴量、意味特徴量および音響特徴量を算出することができるので、距離算出手段１５は、テキストデータと音楽データ、テキストデータと画像データ、テキストデータと動画データのそれぞれについても距離を算出できる。従って、テキストデータについても、コンテンツ種別にかかわらず類似するコンテンツデータを検索することができる。

以下で、各処理手段の詳細なアルゴリズムについて説明する。

（特徴量算出処理のアルゴリズム）
以下で、特徴量算出手段１０による特徴量算出処理のアルゴリズムを説明する。本発明の実施の形態においては、画像データ３１ａと、動画データ３２ａの映像データの画像特徴量として、色ヒストグラムが用いられる。画像データ３１ａ、動画データ３２ａおよび音楽データ３３ａの意味特徴量として、ＴＦＩＤＦが用いられる。動画データ３２ａの音響データと、音楽データ３３ａの音響特徴量として、音階の遷移に基づく特徴量が用いられる。

まず、画像特徴量算出手段１１による画像特徴量算出のアルゴリズムを説明する。本発明の実施の形態において画像特徴量算出手段１１は、静止画像ｆ^{ｓｔｉｌｌ} からＨＳＶ色ヒストグラムを求め、その要素を順に並べたベクトルｖ^{ｓｔｉｌｌ}を静止画像ｆ^{ｓｔｉｌｌ}の特徴ベクトルとして用いる。このとき、得られる特徴ベクトルはｐ次元である。またその値は、色相、彩度、明度のヒストグラムのビン数の積となる。また、画像特徴量算出手段１１は、動画像信号ｆ^{ｖｉｄｅｏ}の各フレームについて、ＨＳＶ色ヒストグラムを求め、その要素を順に並べたベクトルを算出する。さらに、画像特徴量算出手段１１は、全フレームの特徴ベクトルの全体からベクトルメジアンを求め、それを画像特徴ベクトルｖ^{ｆｉｄｅｏ}とする。

つぎに、意味特徴量算出手段１２による意味特徴量算出のアルゴリズムを説明する。本発明の実施の形態において意味特徴量算出手段１２は、動画像信号ｆ^{ｆｉｄｅｏ}のコンテンツに含まれるテキストに対して、以下の処理によりＴＦ−ＩＤＦを算出する。ＴＦ−ＩＤＦ法は、あるコンテンツ中に出現するそれぞれの単語に対して、そのコンテンツを特徴づける度合いを算出する手法である。ＴＦ−ＩＤＦ法では、単語が特徴的である度合を以下の式により算出する。

上式により算出されるＴＦＩＤＦ（ｔ_ｉ，Ｃ_ｊ）の値は、ＴＦ（ｔ_ｉ，Ｃ_ｊ）が大きくＤＦ（ｔ_ｉ）が小さいほど大きくなる。つまり、単語ｔ_ｉがコンテンツＣ_ｊ中に多く出現し、他のコンテンツ中にあまり出現しなければ、ＴＦＩＤＦ（ｔ_ｉ，Ｃ_ｊ）の値は大きくなる。ここで、コンテンツ中の単語の総数が多い場合にＴＦＩＤＦが大きくなりやすいため、コンテンツ間でＴＦＩＤＦの値を比較する際、正規化した値を用いることが望ましい。そこで、意味特徴量算出手段１２は、ＴＦＩＤＦの値を以下の式により正規化する。

本発明の最良の実施の形態において、意味特徴量算出手段１２は、ＴＦ−ＩＤＦ法を動画像信号ｆ^{ｆｉｄｅｏ}に適用することで、コンテンツＣ_ｊにおけるテキストの特徴ベクトル
を得る。なお、ＴＦ−ＩＤＦ法以外の特徴量として、各コンテンツＣ_ｊがテキストｔ_ｉを持つ場合に
そうでない場合を
とし、
とする特徴量も利用できる。

さらに、音響特徴量算出手段１３による音響特徴量算出のアルゴリズムを説明する。本発明の実施の形態において音響特徴量算出手段１３は、楽曲中の音階の遷移に着眼したメロディーを表す指標を算出する。本発明の実施の形態においては、音響信号ｆ^{ｍｕｓｉｃ}および動画像信号ｆ^{ｆｉｄｅｏ}に含まれる音響信号から、音階の遷移に基づく特徴量を算出する。前処理としてハニング窓である窓関数ｈ（ｔ）を用いた短時間フーリエ変換（ＳＴＦＴ）を、高速フーリエ変換（ＦＦＴ）によって計算する。ＦＦＴのフレームは時間軸方向にシフトすることで、楽曲全体に処理が施される。本発明の実施の形態において音響特徴量算出手段１３は、全ての処理対象区間からクロマベクトルを算出する。さらに、音響特徴量算出手段１３は、得られるクロマベクトルを用いて、音階の遷移行列を、メロディーを表す指標として算出する。
以下で、クロマベクトルの算出および音階の遷移行列の算出について説明する。

まず、クロマベクトルの算出について説明する。一般に楽音が１２音階によって進行していることから、本発明の実施の形態ではクロマベクトルを１２次元で表現し、ベクトルの各次元が平均律の異なる音階のパワーを表すものとする。図２２に、クロマベクトル算出の概要を示す。音響特徴量算出手段１３は、時刻ｔの入力楽曲信号に対するＳＴＦＴを計算した後に、周波数軸を対数スケールの周波数ｇに変換して、パワースペクトルΨ_ｐ（ｇ，ｔ）を求める。対数スケールの周波数はｃｅｎｔ単位で表し、Ｈｚで表された周波数ｇ_Ｈｚを、次のようにｃｅｎｔで表された周波数ｇ_ｃｅｎｔに変換する。
平均律の半音は１００ｃｅｎｔに、１オクターブは１２００ｃｅｎｔに相当するため、音名ｃ（ｃは１≦ｃ≦１２の整数で音階Ｃ，Ｃ_ｉｓ，・・・，Ｂに対応）、オクターブ位置ｈの周波数
は
と表すことができる。

この対数スケール軸のパワースペクトルΨ_ｐ（ｇ，ｔ）から、音階c の位置のパワーをＯｃｔ_ＬからＯｃｔ_Ｈのオクターブ範囲で加算して、１２次元のベクトル
の各次元
を求める。ここで、ＢＰＧ_ｃ，ｇは、音階ｃ、オクターブ位置ｈのパワーを通過させるバンドパスフィルタで、
ハニング窓の形状で定義する。本発明の実施の形態では、算出されるベクトル
を以下の式により正規化を行うことで、クロマベクトルｘ（ｔ）を算出する。
本発明の実施の形態では、このようにクロマベクトルを算出することで、多重音を含む楽曲信号においても音階のパワーの分布を適切に得ることができる。

つぎに、音階の遷移行列の算出について説明する。本発明の最良の実施の形態において音響特徴量算出手段１３は、クロマベクトルｘ（ｔ）を用いて音階の遷移行列を算出する。本発明の実施の形態において、時刻ｔにおけるクロマベクトルの集合をＸｔ＝［ｘ（１），ｘ（２），・・・，ｘ（Ｔ−１）］としたとき、時刻ｔからｔ＋１への音階の遷移を遷移行列Ａを用いて次式によって表す。
このとき、遷移行列Ａは、次式のように得られる。

上式により得られる遷移行列Ａは１２×１２となり、その各要素は時刻ｔからｔ＋１へ音階が遷移する度合いを表す。例えば楽曲のメロディーがＣ→Ｄ→Ａ→Ｄと演奏される場合、図２３に示されるような遷移行列Ａの要素が高くなる。このとき、遷移行列Ａは、音階のパワーの分布であるクロマベクトルＸに基づいて算出されるために、多重音を含む楽曲信号においても主要な音階の遷移が行列Ａの要素に反映される。したがって、楽曲の特徴的な音階の遷移を、遷移行列Ａは表現可能であると考えられる。本発明の実施の形態では、
と表すと、音響信号ｆ^{ｍｕｓｉｃ}および動画像信号ｆ^{ｖｉｄｅｏ}に含まれる音響信号の特徴ベクトルとして、それぞれ
を用いる。

本発明の実施の形態では、式（１）により音階の遷移を表現する。従って、従来では推定困難とされる特定の楽器音の示す基本周波数を推定することなく、音階の遷移であるメロディーを遷移行列Ａとして得ることができる。これにより、行列Ａの要素を特徴量として用いることができる。

（未知特徴量算出処理のアルゴリズム）
以下で、未知特徴量算出手段１４による未知特徴量算出処理のアルゴリズムを説明する。未知特徴量算出手段１４は、主成分分析あるいは正準相関分析に基づいて、未知の特徴量を分析する。

まず主成分分析による未知特徴量算出処理を説明する。主成分分析は、多変量解析の分野において多変数データからの説明変数を抽出する手法として用いられる。以下では、主成分分析に基づく特徴量推定の方法について具体的に説明を行う。

本発明の実施の形態において未知特徴量算出手段１４は、データベース中に存在する全てのコンテンツＣｊ（ｊ＝１，２，・・・，Ｎ）に対してその画像特徴ベクトルｖ_ｊ、音響特徴ベクトルａ_ｊ、および意味に基づく特徴ベクトルｗ_ｊを求める。未知特徴量算出手段１４は、それらを順に並べたベクトル
を求める。尚、ｖ_ｊ、ａ_ｊ、ｗ_ｊのいずれかが未知の場合、未知特徴量算出手段１４は、そのベクトルの要素は全て同じ値とする。さらに未知特徴量算出手段１４は、得られるベクトルｘ_１、ｘ_２、・・・、ｘ_Ｎに対して主成分分析を施し、その固有ベクトルｕ_１、ｕ_２、・・・、ｕ_Ｄ（Ｄ次元）を順に並べた行列
を得る。この行列を用いることで、本発明の実施の形態においては、新しいコンテンツに対して未知の特徴量を以下のように推定する。

まず画像データについて説明する。
未知特徴量算出手段１４は、画像特徴ｖ、音響特徴ａ、意味特徴ｗのうち、音響特徴および意味特徴が未知である場合、ベクトルｘを
とする。未知特徴量算出手段１４は、その音響特徴および意味特徴を推定したベクトル
を
として求める。ただし、
は、ｘ_ｊ（ｊ＝１，２，・・・，Ｎ）の平均ベクトルである。

次に音楽データについて説明する。
未知特徴量算出手段１４は、画像特徴ｖ、音響特徴ａ、意味特徴ｗのうち、画像特徴および意味特徴が未知である場合、ベクトルｘを、
とする。未知特徴量算出手段１４は、その画像特徴および意味特徴を推定したベクトルｘ^ｐｃａを式（２）で得る。

さらに動画データについて説明する。
未知特徴量算出手段１４は、画像特徴ｖ、音響特徴ａ、意味特徴ｗのうち、意味特徴が未知である場合、ベクトルｘを
とする。未知特徴量算出手段１４は、その意味特徴を推定したベクトルｘ^ｐｃａを式（２）で得る。

本発明の実施の形態において特徴量算出手段１０は、あらかじめ対象の内容を表すテキストが付与された画像データ、音楽データ、および動画データの各コンテンツデータから画像、音響、および意味の各々について特徴量を算出する。その後、未知特徴量算出手段１４は、得られた各特徴量に対して主成分分析を施し、その固有空間を得る。このように算出される固有空間を用いて、本発明の実施の形態に係るコンテンツ検索装置１は、各データにおける未知の特徴量の推定を可能とする。ただし、主成分分析を施す画像データ、音楽データ、および動画データの各コンテンツデータから得られる各特徴量は対象データの特性を十分に反映するように広く選択されていることが好ましい。

つぎに正準相関分析による未知特徴量算出処理を説明する。まず、Ｒ組の変数群
が与えられ、これらＲ組の変数群に関するｎ個のデータ
をＲ個の行列
によって表現する。

未知特徴量算出手段１４は、正準相関分析では線形変換
で得られる重みベクトルｗ_ｉを求める。ただし、未知特徴量算出手段１４は、
に含まれる各成分の平均は０とする。

ここで、未知数からなるｎ次元のベクトルｙを導入し、未知特徴量算出手段１４は、ｙとＸ_ｉｗ_ｉの各成分について次式のように、差の平方和を最小とするｗ_ｉを推定する。
未知特徴量算出手段１４は、まず、ｙを既知として、上式をベクトルｗ_ｉの各成分について最小とすると、最小二乗法の性質より
となる。なお、等号は
のときに成立する。

次にｙ′ｙ＝１の条件でＱ（ｙ）を最小にするためには、同一の条件下でＱ（ｙ）の第２項の符号を変えた部分をｙについて最大にすればよい。したがってｙは
の固有値問題の解として求まる。また、未知特徴量算出手段１４は、上式を満たす
個の正の固有値λ_ｋ（ｋ＝１，２，・・・，Ｎ_ｅ）を得る。これらに対応する固有ベクトルｙ_ｋ（ｋ＝１，２，・・・，Ｎ_ｅ）から得られる重みベクトルを順に並べた行列を
とおくと、次式が成立する。
ここで、Λ_ijは正準相関係数μ_k（ｋ＝１，２，・・・，Ｎ_ｅ）を対角要素とする相関行列である。

以上に示す正準相関分析を用いることにより未知特徴量算出手段１４は、異なるＲ組の変数群間の相関が最大となる線形変換を求めることができる。本発明の実施の形態に係る未知特徴量算出手段１４は、図２４に示すように、メディア数をＲ＝３、コンテンツ数をｎ個として正準相関分析を行い、相関行列を得る。これらの行列を用いることで本発明の実施の形態において未知特徴量算出手段１４は、新しいコンテンツに対して既知の特徴から未知の特徴量を以下のいずれかの式により推定する。

未知特徴量算出手段１４は、新しいコンテンツに対して既知の特徴から、未知の画像特徴量を以下のいずれかの式により推定する。

未知特徴量算出手段１４は、新しいコンテンツに対して既知の特徴から、未知の音響特徴量を以下のいずれかの式により推定する。

未知特徴量算出手段１４は、新しいコンテンツに対して既知の特徴から、未知の意味特徴量を以下のいずれかの式により推定する。

また未知特徴量算出手段１４は、未知の特徴が推定されたベクトル
を得る。

本発明の実施の形態において特徴量算出手段１０は、あらかじめ対象の内容を表すテキストが付与された画像データ、音楽データ、および動画データの各コンテンツデータから画像、音響、および意味の各々について特徴量を算出する。その後、未知特徴量算出手段１４は、得られた各特徴量に対して正準相関分析を施し、各特徴の相関が最大となる正準相関係数およびその相関を得る。これにより本発明の実施の形態において、そのままでは比較できなかった各特徴量を比較することが可能となる。ただし、正準相関分析を施す画像データ、音楽データ、および動画データの各コンテンツデータから得られる各特徴量は対象データの特性を十分に反映するように広く選択されていることが好ましい。

（距離算出処理のアルゴリズム）
以下で、距離算出手段１５による距離算出処理のアルゴリズムを説明する。距離算出手段１５は、重みなし距離または重み付き距離を算出する。

まず重みなし距離を算出する場合の距離算出処理を説明する。
今、クエリコンテンツがＣ^ｑ、対象コンテンツがＣ^ｆであるとする。このとき距離算出手段１５は、それらコンテンツ間における画像特徴の重みなし距離
、音響特徴の重みなし距離
、および意味特徴の重みなし距離
をそれぞれ以下の式で算出する。
ただし、ベクトル
はそれぞれ、未知特徴量算出手段１４による未知特徴量算出処理で得られるＣ^ｑおよびＣ^ｆのベクトルｘにおける画像特徴のベクトルである。同様に
は、音響特徴および意味特徴のベクトルである。

つぎに重み付き距離を算出する場合の距離算出処理を説明する。距離算出手段１５は、マハラノビス汎距離に基づいたそれらコンテンツ間における画像特徴の重み付き距離
、音響特徴の重み付き距離
、および意味特徴の重み付き距離
をそれぞれ以下の式で算出する。

ここで、行列Ｗ^ｖ、Ｗ^ａ、Ｗ^ｗはそれぞれ、検索・分類対象の全コンテンツにおける画像、音響、意味特徴の共分散行列であり、次式により求められる。

ただし、
であり、Ｎは全コンテンツ数である。

（表示処理のアルゴリズム）
以下で、表示手段１６による表示処理のアルゴリズムを説明する。表示手段１６は、距離算出手段１５によって出力された距離データ３５に基づいて、検索結果を表示装置１０５の表示画面に表示する。所定のコンテンツとクエリコンテンツの距離が小さいほど、具体的にはコンテンツが類似するほど、そのコンテンツのサムネイルをクエリコンテンツのサムネイル近くに表示する。一方、所定のコンテンツとクエリコンテンツの距離が大きいほど、具体的にはコンテンツが類似しないほど、そのコンテンツのサムネイルをクエリコンテンツのサムネイル遠くに表示する。
本発明の実施の形態において、多次元尺度構成法（ＭＤＳ）を、各コンテンツにおいて算出された特徴ベクトル間の距離に対し適用することで、コンテンツ間の類似関係を保持した検索結果が可視化される。

ｎ個のコンテンツにおいて算出された特徴ベクトルをｘ_１,...,ｘ_ｎとし、ｘ_ｉ,ｘ_ｊ間の距離を２乗した値を要素とするｎ×ｎの行列をＤとする。また、単位行列から、全要素が１／ｎの行列を引いた結果、得られるｎ×ｎ行列をＪとする。さらに、
とし、ｉ番目のコンテンツに対するｋ次元空間の推定位置を
、それをｎ行集めたｎ×ｋ行列を求めるＸとすると、
は次式を最小化する。

Ｐの固有値のうち、最大のｋ個の固有値を対角要素とする行列をΛ_ｋ、対応する固有ベクトルの行列をＱ_ｋとすると、多次元尺度構成法によるコンテンツの配置
は以下の式により算出される。
ただし、Ｐは最小でもｋ個の正の固有値が存在するものとする。式（３）により得られるコンテンツの配置
は、式（３）を最小化し、コンテンツ間の距離を最小二乗の基準によりｋ次元で近似する解となる。

このように本発明の実施の形態に係るコンテンツ検索装置１は、画像、動画または音楽のいずれかのコンテンツデータから、画像、意味、音響のいずれか一つ以上の特徴量を算出する。さらにコンテンツ検索装置１は、それぞれのコンテンツデータについて算出された特徴量から、コンテンツデータに未知な特徴量を算出し、各コンテンツデータに、画像、意味および音響の全ての特徴量を関連づけることができる。

このようなコンテンツ検索装置１によれば、画像データに類似する音楽データ、動画データに類似する画像データなど、コンテンツの種別に関わらず、横断的に検索することができる。従って、ユーザは、コンテンツ検索装置１を使用してクエリコンテンツデータから類似するコンテンツデータを次々と検索することができる。ユーザは大量のコンテンツデータから所望のコンテンツデータを検索することができる。また、横断的に検索結果を出力することにより、画像データに似合う音楽データが検索されるなど、感覚的な検索結果を取得することができる。

（第１の変形例）
本発明の第１の変形例として、音響信号の繰り返し部分に着目した特徴量を算出する場合について説明する。ここで、繰り返し部分とは、例えば曲の「サビ」の部分である。
本発明の実施の形態においては、楽曲全体から特徴量を算出している。従って、算出される特徴量はその時間長により平滑化されてしまい、抽出精度が劣化する可能性がある。そこで、第１の変形例においては、楽曲の繰り返し区間を検出する手法を導入することで、楽曲中に最も多く現れる区間を検出し、その区間より得られる遷移行列を用いて楽曲間の類似度を算出する。このように、楽曲の繰り返し区間から算出される類似度を用いることで、第１の変形例においては、高精度な類似楽曲を抽出することができる。

本発明の第１の変形例に係るコンテンツ検索装置１ａは、図１を参照して説明した本発明の実施の形態に係るコンテンツ検索装置１と比べて、音響特徴量算出手段１３の処理が異なる。
音響特徴量算出手段１３は、音響信号のうち繰り返し現れるメロディーを特定し、その繰り返しメロディーの特徴量を、音響特徴の特徴量とする。従って特徴量データ記憶部３４に記憶される音響特徴は、音響信号の繰り返し区間についての特徴量であって、その楽曲の特徴にフォーカスをあてた特徴量であると考えられる。本発明の第１の変形例に異なるコンテンツ検索装置１ａにおいて、音響特徴量算出手段１３が処理する楽曲は、コンテンツデータ記憶部３０の動画データ記憶部３２に記憶された動画データのうち音響データ部分と、音楽データ記憶部３３に記憶された音楽データである。

つぎに、本発明の第１の変形例に係る音響特徴量算出手段１３の処理を説明する。音響特徴量算出手段１３は、前処理として楽曲信号を固定長のフレームに分割し、時刻ｔにおけるフレームから特徴量としてクロマベクトルＸ_ｔを算出する。さらに音響特徴量算出手段１３は、全てのフレームの組み合わせに対して算出される類似度を用いることで、繰り返し区間を検出する。

具体的に音響特徴量算出手段１３は、Ｘ_ｔとＸ_ｔ−ｌ（０≦ｌ≦ｔ）間の相関係数を類似度ｒ（ｔ，ｌ）（−１≦ｒ（ｔ、ｌ）≦１）として求める。類似度ｒ（ｔ，ｌ）を、横軸がｔ、縦軸がｌのｔ−ｌ平面に描画した場合、楽曲中の繰り返し区間に対応して、類似度が連続して高くなる領域が時間軸に並行な線分として現れる。したがって、このような線分を検出することで、音響特徴量算出手段１３は、楽曲中の繰り返し区間を得ることができる。
ただし、各要素がほぼ等しいクロマベクトルは、他のクロマベクトルとの類似度が高くなってしまう傾向があり、ｔ−ｌ平面中に類似度の高い直線として現れる場合がある。このような直線を除去するために、本発明の第１の変形例に係る音響特徴量算出手段１３は、移動平均フィルタを用いて時間軸に並行な線分を強調することで、高精度に繰り返し区間を検出する。

本発明の第１の変形例では、このように得られる楽曲の繰り返し区間の中から、最も多く繰り返されるメロディーを含む区間に注目する。一般に、楽曲中で最も代表的な主題が提示される部分は繰り返されることが多いことから、音響特徴量算出手段１３は、このような区間から抽出される特徴量を用いることで、楽曲間の適切な類似度を算出する。

次に、音響特徴量算出手段１３が、繰り返し区間から、楽曲の音階の遷移を表す特徴量を算出する処理を説明する。本発明の第１の変形例では、クロマベクトルＸ_ｔからＸ_ｔ＋１への時間変化が、遷移行列Ａを用いて次式によって表される。
このとき、繰り返し区間中のｔに関する
の平均を最小とする行列Ａは、次式のように得られる。
ただし、Ｘ_ｔ、Ｘ_ｔ＋１は、それぞれ、
で表される。ここで、Ｔは、繰り返し区間から算出されるクロマベクトルの総数を表す。このように得られる遷移行列のサイズは、Ｌ×Ｌ（Ｌ＝１２）である。

本発明の第１の変形例においては、式（４）により遷移行列Ａを算出することにより、従来では困難であった、音階の遷移を表す特徴量を得ることができる。

次に、音響特徴量算出手段１３は、音階の遷移を表す特徴量を用いて、その遷移行列の相関係数を、楽曲間の類似度として算出する。
ここで、クエリ楽曲の繰り返し区間ｎ（ｎ＝１，２，・・・Ｎ；Ｎは繰り返し区間の総数）より算出される音階の遷移行列を
、コンテンツデータ記憶部３０に記憶された楽曲の繰り返し区間ｍ（ｍ＝１，２，・・・Ｍ；Ｍは繰り返し区間の総数）より算出される音階の遷移行列を
とする。

このとき音響特徴量算出手段１３は、クエリ楽曲の繰り返し区間ｎとコンテンツデータ記憶部３０に記憶された楽曲の繰り返し区間ｍの相関係数を、次式により算出する。
ただし、
は、次式により得られる。

（第２の変形例）
図２５を参照して、本発明の第２の変形例に係るコンテンツ検索装置１ｂを説明する。図２５に示すコンテンツ検索装置１ｂは、図１に示す本発明の実施の形態に係るコンテンツ検索装置１と比較して、記憶装置１０７がユーザ嗜好データ記憶部３６および重要ユーザデータ記憶部３７を備えている点と、中央処理制御装置１０１が、重要ユーザ決定手段１７を備えている点が異なる。また、図２５において距離算出手段１５ａおよび表示手段１６ａの処理は、図１に示した距離算出手段１５および表示手段１６のそれぞれの処理と一部の処理が異なる。

ユーザ嗜好データ記憶部３６は、ユーザ嗜好データ３６ａが記憶された記憶領域である。ユーザ嗜好データ３６ａは、ユーザ識別子と、当該ユーザの嗜好に合うコンテンツ識別子とが関連づけられたデータである。
ユーザ嗜好データ３６ａは例えば、ユーザによって使用されるユーザ端末で保存されているプレイリストから生成されても良い。コンテンツ検索装置１ｂは、ユーザ端末から、ユーザの識別子とプレイリストで記録されているコンテンツの識別子とを受信して、ユーザ嗜好データ３６ａを生成しても良い。
また、ユーザ嗜好データ３６ａは、例えば、ユーザ端末に嗜好にあうコンテンツを入力する画面を表示し、ユーザによって個別に特定されたコンテンツをコンテンツ検索装置１ｂが受信して、ユーザの識別子とその受信したコンテンツ識別子とを関連づけることにより、ユーザ嗜好データ３６ａを生成しても良い。

重要ユーザデータ記憶部３７には、重要ユーザデータ３７ａが記憶されている。重要ユーザデータ３７ａは、そのコンテンツを好むユーザの集合のうち、その集合を代表する重要ユーザの識別子が記憶されたデータである。従って、重要ユーザデータ３７ａは、コンテンツの識別子と、そのコンテンツの重要ユーザの識別子が対応づけられたデータである。
後述する重要ユーザ決定手段１７が、重要ユーザを決定するとともに、重要ユーザデータ３７ａを生成して、重要ユーザデータ記憶部３７に記憶する。
重要ユーザは、一つのコンテンツについて一人だけ選ばれても良い。また、重要ユーザは、下記の式（６）で算出されるスコアが一定値以上のユーザであって、各コンテンツについて、複数のユーザが選ばれても良い。

重要ユーザ決定手段１７は、各コンテンツ識別子について、ユーザ嗜好データ３６ａにおいて当該コンテンツに関連づけられたユーザ識別子の集合を作成するとともに、各集合において、ユーザ間に有向辺を作成し、各集合を代表する重要ユーザを決定する。重要ユーザは、例えば、その重要ユーザに関連づけられたコンテンツ識別子によって、他の多数のユーザの特徴を表現できるユーザである。重要ユーザは、入力されたキーワードに関して適格な情報を持つとされるユーザである。理想的には、重要ユーザには、比較的少ない数のコンテンツ識別子が関連づけられており、それらコンテンツ識別子が、他のユーザにも関連づけられていることが好ましい。

重要ユーザ決定手段１７は、ユーザの嗜好に基づいてユーザ間に有向辺を作成し、ユーザのネットワークを形成する。ユーザが共通のコンテンツを有している場合に、有向辺（リンク）が設けられ、共通のコンテンツを有していない場合は、有向辺が設けられない。この有向辺は、所持しているコンテンツが多いユーザがリンク元となり、少ないユーザがリンク先となる。
重要ユーザ決定手段１７は、このネットワークに対し、ＨＩＴＳ（Hypertext Induced. Topic Selection）アルゴリズムを適用し、オーソリティを決定する。本発明の第２の変形例において重要ユーザ決定手段１７は、このオーソリティとなるユーザを重要ユーザとして出力する。

図２６を参照して、本発明の第２の変形例に係る重要ユーザ決定手段１７による重要ユーザ決定処理を説明する。

まずステップＳ７０１において重要ユーザ決定手段１７は、ユーザ嗜好データ３６ａを読み出し、ステップＳ７０２において、同一コンテンツを好むユーザの集合を作成する。このユーザの集合は、コンテンツ識別子１つに対して、１つ作成される。さらに、ステップＳ７０３において重要ユーザ決定手段１７は、それぞれの集合において、ユーザの好むコンテンツに基づき、各ユーザ間に有向辺を作成する。

ステップＳ７０４において重要ユーザ決定手段１７は、ステップＳ７０３において作成されたユーザ間が有向辺で関連づけられたコンテンツごとの集合を、ユーザのネットワークと定義する。ステップＳ７０５において重要ユーザ決定手段１７は、ステップＳ７０４で定義されたネットワークに対し、ＨＩＴＳアルゴリズムを適用する。ステップＳ７０６において重要ユーザ決定手段１７は、オーソリティを重要ユーザとして決定し、出力する。

距離算出手段１５ａは、ユーザ嗜好データ３６ａにおいて重要ユーザのユーザ識別子に関連づけられたコンテンツ識別子を抽出する。さらに距離算出手段１５ａは、特徴量データ３４ａから、抽出したコンテンツ識別子に対応する特徴量および特徴推定値を抽出し、その特徴量および特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出する。
特徴量データ３４ａに記憶されている特徴量および特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出する際、距離算出手段１５ａは、ユーザ嗜好データ３６ａにおいて重要ユーザのユーザ識別子に関連づけられたコンテンツ識別子を考慮して、各コンテンツデータの類似度を示す距離を算出する。

クエリコンテンツを好みとするユーザのネットワーク内における重要ユーザは、ネットワーク内の全てのユーザが好みとするコンテンツを適切に表現していると考えられる。従って、距離算出手段１５ａは、ユーザ嗜好データ３６ａにおいて重要ユーザの識別子に関連づけられたコンテンツ識別子の集合に対して、重要ユーザでないユーザの嗜好データを考慮することなく、主成分分析や正準相関分析を施しても良い。さらに距離算出手段１５ａは、主成分分析や正準相関分析した後、市街地距離やマハラノビス距離に基づいて距離を算出し、コンテンツ間の類似度を算出しても良い。特定の重要ユーザに関連づけられたコンテンツのみを用いて類似度を算出することにより、少ない計算量で、精度の高い類似度を算出することができる。

表示手段１６ａは、距離算出手段１９によって算出された距離に基づいて、コンテンツデータに対応するサムネイルの表示位置を決定して、例えば図２７に示すような画面を、表示装置１０５に表示する。さらに表示手段１６ａは、ユーザ嗜好データ３６ａにおいて、所定のコンテンツに関連づけられた複数のユーザの識別子を抽出し、複数のユーザの識別子のそれぞれをノードと、ユーザ間の有向辺を考慮したノード間のリンクを含むユーザネットワークを表示して、表示装置１０５に表示する。

このユーザネットワークが表示装置１０５に表示されると、ノードが選択されると、表示手段１６ａは、ユーザ嗜好データ３６ａにおいて、そのノードに対応するユーザの識別子に対応づけられたコンテンツの識別子を抽出し、そのコンテンツの識別子の一覧を表示手段１６ａに表示しても良い。例えば、ユーザは、自分の類似度の高いユーザ、すなわちユーザネットワークで近くに表示され、太いリンクで接続されたユーザのノードを選択して、そのユーザが興味を示しているコンテンツの一覧を参照することができる。これによりユーザは、自身と嗜好の近いユーザのコンテンツリストの中から、自分の嗜好に合ったコンテンツを把握することができる。

ここで、ユーザネットワークのリンクの距離は、特徴量の類似度によって決定される。また、ユーザネットワークのリンクの太さは、ユーザ嗜好データ３６ａにおいて、これらのユーザの識別子に関連づけられたコンテンツの識別子のうち、共通するコンテンツの識別子の数に対応する。例えば、ユーザの嗜好コンテンツの特徴量の類似度が高く、また共通するコンテンツを多く所有している場合、ノード間のリンクの長さは短くなり、そのリンクは太くなる。

このような本発明の第２の変形例に係るコンテンツ検索装置１ｂは、同一のコンテンツを好むユーザの集合を、コンテンツ毎に作成する。そして、各ユーザが好むコンテンツの包含関係に基づき、各ユーザ間に有向辺を作成する。これにより得られる有向グラフに対してリンク解析等を適用することで、それぞれのネットワークにおける重要ユーザを抽出することができる。
さらに、その重要ユーザの嗜好にあったコンテンツリストに基づいて、コンテンツの類似度を算出することにより、類似度の精度を維持しつつ、計算量を削減することができる。
また、このユーザネットワークを表示し、そのユーザの嗜好にあったコンテンツリストを取得することで、ユーザは、新たなコンテンツを知ることができる。

（詳細なアルゴリズム）
まず、重要ユーザ決定手段１７による、ＨＩＴＳを用いたユーザの好みに基づくネットワークの作成処理を説明する。

本発明の第２の変形例において、各ユーザが同一のコンテンツを好む場合に、各々のユーザは同一のネットワークに属するものとする。また、各々のコンテンツに対応するネットワークは、各ユーザ間のリンク関係を要素とする次式で表される行列Ｌ_ｋ（ｋ∈｛１，２，・・・，Ｎ；Ｎはコンテンツの総数｝）を用いて定義される。ここで、行列Ｌ_ｋのｉ行ｊ列の要素はＬ_ｋ（ｉ，ｊ）で表される。ユーザｉの好むコンテンツ総数は、Ｆ_ｉで表される。ユーザｉとユーザｊが好む共通のコンテンツ数は、Ｃ_ｉ，ｊで表される。

以上により、本発明の第２の変形例は、得られる行列Ｌ_ｋに対してリンク解析等の処理を施すことにより、ユーザが好みとするコンテンツを考慮したネットワーク内における重要ユーザ（以降、オーソリティ（authority）とも呼ぶ）を抽出することができる。したがって、抽出されるオーソリティが好みとするコンテンツに注目し検索することにより、個々のユーザの嗜好を考慮した類似コンテンツを提示することができる。
以降では、ユーザの嗜好を考慮した類似コンテンツの検索を実現するため、オーソリティを抽出する具体的な方法の一例としてＨＩＴＳアルゴリズムを用いた方法について説明する。

ＨＩＴＳは、入力されたキーワードに関して的確な情報をもつとされるユーザ（オーソリティ）と、これらのオーソリティに複数のリンクをもつユーザ（ハブ）を、リンク解析により求める手法である。このようなオーソリティとハブは、「良いオーソリティは複数のハブからリンクを張られ、また良いハブは複数のオーソリティへリンクを張る」と再帰的に定義される。この定義に基づいてリンク解析によりスコア付けを行うことでオーソリティおよびハブが求められる。
ここで、本発明においてリンクは、ユーザ嗜好データにおいて各ユーザに関連づけられた好みのコンテンツの特徴量によって算出される。例えば、画像データについてユーザが青の画像が多い場合、同じく青の画像が多いユーザと、太いリンクで結ばれることになる。
以下において、ＨＩＴＳの処理手順が示される。

手順（１）
全てのユーザをベース集合とし、ベース集合に属するユーザのリンクパターンを全て調べ、隣接行列Ｌ＝［ｌ_ｉｊ］が作成される。ここで隣接行列は、ユーザｉからユーザｊへのリンクが存在する場合にはｌ_ｉｊ＝１とし、それ以外は０とした行列である。ただし、ＨＩＴＳでは、同一ホストｌに属するユーザ間のリンクの存在は無視して、隣接行列が作成される。

手順（２）
ユーザｉに対し、オーソリティスコアａ_ｉと、ハブスコアｈ_ｉの２種類のスコアが、式（６）および式（７）のようにそれぞれ定義される。さらに、式（６）、式（７）により両スコアが算出される。
ここで、ｎは、ベース集合に属するユーザの総数を表す。αおよびβは、正規化定数を表す。「式（６）で得られるａ_ｉを、式（７）のａ_ｊに代入」する処理と、「式（７）で得られるｈ_ｉを式（６）のｈ_ｊに代入」する処理とが、ａ_ｉとｈ_ｉが変化しなくなるまで繰り返されて更新される。この更新処理が、ベース集合に含まれる全てのユーザに対して行われる。

手順（３）
オーソリティスコアが大きいユーザ、ハブスコアが大きいユーザをそれぞれオーソリティ、ハブとする。この手順（３）を、各ユーザのオーソリティスコアとハブスコアが収束するまで反復する。

式（６）では、ユーザｉにリンクを張るユーザのハブスコアの総和から、ユーザｉのオーソリティスコアを算出する。また式（７）では、ユーザｉからリンクを張られているユーザのオーソリティスコアの総和からユーザｉのハブスコアを算出している。この算出処理を収束するまで繰り返すことにより、重要ユーザ決定手段１７は、上で述べた再帰的な定義に適合するオーソリティとハブを得る。

次に、重要ユーザ決定手段１７によるオーソリティに基づいた、距離算出手段１５ａの距離算出処理を説明する。

本発明の第２の変形例では、本発明の実施の形態で説明した距離算出法を用いることで、上述したＨＩＴＳにより決定されるオーソリティが好みとするコンテンツの特徴を考慮して、距離を算出する。距離の算出方法について以下で、市街地距離に基づく距離算出と、マハラノビス汎距離に基づく距離算出とについて説明する。

まず、市街地距離に基づく距離算出処理を説明する。
距離算出手段１５ａは、ＨＩＴＳにより決定されるオーソリティが好みとするコンテンツの集合に対して、本発明の実施の形態の距離算出手段１５で説明した主成分分析あるいは正準相関分析を施す。これにより距離算出手段１５ａは、行列ＵおよびＷ_ｖ、Ｗ_ａ、Ｗ_ｗ、Λ_ｖａ＝Λ_（ａｖ）、Λ_ａｗ＝Λ_（ｗａ）、Λ_ｖｗ＝Λ_（ｗｖ）を求め、ベクトルｘ^ｐｃａおよびベクトルｘ^ｃｃａを得る。さらに距離算出手段１５ａは、本発明の実施の形態の距離算出手段１５で説明した算出方法に従い、ベクトルｘ^ｐｃａおよびベクトルｘ^ｃｃａを用いて距離を算出する。

次に、マハラノビス汎距離に基づく距離算出処理を説明する。
距離算出手段１５ａは、ＨＩＴＳにより決定されるクエリコンテンツｑに対するオーソリティが好みとする全コンテンツを用いて、重み行列を算出する。ここで、オーソリティが好みとする全コンテンツとは、ユーザ嗜好データ３６ａにおいて、オーソリティであるユーザの識別子に関連づけられたコンテンツ識別子に対応するコンテンツである。重み行列は、下記の式によって算出される。

距離算出手段１５ａは、以上の重み行列を用いて、本発明の実施の形態の距離算出手段１５で説明した算出方法に従い、距離を算出する。

ここで、クエリコンテンツを好みとするユーザのネットワーク内におけるオーソリティはネットワーク内の全てのユーザが好みとするコンテンツを適切に表現している。したがって、距離算出手段１５ａは、以上のように距離を算出することで、オーソリティが好みとするコンテンツを考慮した距離に対する重み付けが可能となる。これにより、コンテンツ検索装置１ｂは、ユーザの嗜好を反映した類似コンテンツの検索または分類を実現することができる。

次に、表示手段１６ａが表示するユーザネットワークについて詳述する。
本発明の第２の変形例において、動画像信号等のコンテンツの再生中にユーザネットワーク表示が、ユーザによって操作されることにより、再生中のコンテンツを好みとするユーザのネットワークが構築され、表示手段１６ａは、その構築結果を表示装置１０５に表示する。ユーザネットワークは、多次元尺度構成法によって算出された３次元空間の座標位置関係に基づいて表示される。ユーザネットワークにおいて、ネットワーク内に存在する各ユーザはノードして表示される。ネットワーク内の任意のユーザが選択されると、表示手段１６ａは、そのユーザが好みとするコンテンツの一覧を表示する。

ここで表示手段１６ａは、選択されたユーザと、ネットワーク内におけるオーソリティとなるユーザと、ハブとなるユーザを、それぞれ異なる色や模様で表示する。また、ネットワークにおけるユーザ同士のリンク関係を、線の太さとボールの流れで表現する。本発明の第２の変形例では、リンク元からリンク先にボールが流れるように表示をすることにより、リンクの方向を表示する。このとき、式（５）で算出されるネットワークを表現する行列の要素の値に従って、その値が大きいほど線を太く、そのリンク方向をボールの流れで表現する。
以上により可視化されるユーザネットワークは、各ユーザの嗜好を反映したユーザ同士のリンク関係やその度合いを視覚的に表現することができる。さらに、ユーザが好みとするコンテンツをクエリとして検索操作が入力されると、表示手段１６ａは、表示される検索結果をクエリを中心として多次元尺度構成法を用いて算出された２次元空間の座標に基づいて、座標を再計算し配置して表示する。これにより、ネットワーク内のユーザの嗜好を反映した検索結果が表示され、表示されている複数のコンテンツの位置関係によって、ユーザに、コンテンツ同士が類似する度合いを視覚的に把握させることができる。
（その他の実施の形態）
上記のように、本発明の実施の形態、第１の変形例および第２の変形例によって記載したが、この開示の一部をなす論述及び図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例及び運用技術が明らかとなる。
例えば、本発明の実施の形態に記載したコンテンツ検索装置は、図１に示すように一つのハードウェア上に構成されても良いし、その機能や処理数に応じて複数のハードウェア上に構成されても良い。又、既存の情報システム上に実現されても良い。

本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。従って、本発明の技術的範囲は上記の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。

Claims

異なる種別のコンテンツデータについて、類似するコンテンツデータを検索するコンテンツ検索装置であって、
画像特徴、音響特徴および意味特徴のうちいずれか一つ以上を有する複数のコンテンツデータが、コンテンツ識別子に対応づけて記憶装置に記憶されたコンテンツデータ記憶部と、
前記コンテンツデータ記憶部に記憶された各コンテンツデータについて、各コンテンツデータが有する画像特徴、音響特徴および意味特徴のうちいずれか一つ以上の特徴量を算出し、前記コンテンツ識別子と、画像特徴、音響特徴および意味特徴の特徴種別と、その特徴量とを関連づけた特徴量データを、前記記憶装置に記憶する特徴量算出手段と、
前記特徴量データにおいて、前記コンテンツ識別子に対応づけられた特徴種別の特徴量から、前記コンテンツ識別子に対応づけられていない特徴種別の未知の特徴量を算出し、特徴推定値として前記特徴量データに記憶する未知特徴量算出手段と、
前記特徴量データに記憶されている前記特徴量および前記特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出する距離算出手段と、
前記距離算出手段によって算出された距離に基づいて、前記コンテンツデータに対応するサムネイルの表示位置を決定して、表示装置に表示する表示手段
とを備えることを特徴とするコンテンツ検索装置。
前記未知特徴量算出手段は、前記特徴量データにおいて、前記コンテンツ識別子に対応づけられた特徴種別の特徴量から、主成分分析を用いて前記特徴推定値を算出する
ことを特徴とする請求項１に記載のコンテンツ検索装置。
前記未知特徴量算出手段は、前記特徴量データにおいて、前記コンテンツ識別子に対応づけられた特徴種別の特徴量から、正準相関分析を用いて前記特徴推定値を算出する
ことを特徴とする請求項１に記載のコンテンツ検索装置。
前記特徴量算出手段は、音響特徴の特徴量を算出する際、音響信号のうち繰り返し現れるメロディーを特定し、その繰り返しメロディーの特徴量を、前記音響特徴の特徴量とする
ことを特徴とする請求項１に記載のコンテンツ検索装置。
ユーザ識別子と、当該ユーザの嗜好に合うコンテンツ識別子とが関連づけられたユーザ嗜好データが、前記記憶装置に記憶されたユーザ嗜好データ記憶部と、
各前記コンテンツ識別子について、前記ユーザ嗜好データにおいて当該コンテンツに関連づけられたユーザ識別子の集合を作成するとともに、各集合において、ユーザ間に有向辺を作成し、各集合を代表する重要ユーザを決定する重要ユーザ決定手段と、をさらに備え、
前記距離算出手段は、前記ユーザ嗜好データにおいて前記重要ユーザのユーザ識別子に関連づけられた前記コンテンツ識別子を抽出し、抽出した前記コンテンツ識別子に対応する前記特徴量および前記特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出する
ことを特徴とする請求項１に記載のコンテンツ検索装置。
前記表示手段はさらに、前記ユーザ嗜好データにおいて、所定のコンテンツに関連づけられた複数のユーザの識別子を抽出し、前記複数のユーザの識別子のそれぞれをノードと、前記ユーザ間の有向辺を考慮した前記ノード間のリンクを含むユーザネットワークを表示して、表示装置に表示する
ことを特徴とする請求項５に記載のコンテンツ検索装置。
異なる種別のコンテンツデータについて、類似するコンテンツデータを検索するコンテンツ検索プログラムであって、
コンピュータに、
画像特徴、音響特徴および意味特徴のうちいずれか一つ以上を有する複数のコンテンツデータが、コンテンツ識別子に対応づけて記憶装置に記憶された各コンテンツデータについて、各コンテンツデータが有する画像特徴、音響特徴および意味特徴のうちいずれか一つ以上の特徴量を算出し、前記コンテンツ識別子と、画像特徴、音響特徴および意味特徴の特徴種別と、その特徴量とを関連づけた特徴量データを、前記記憶装置に記憶する特徴量算出手段と、
前記特徴量データにおいて、前記コンテンツ識別子に対応づけられた特徴種別の特徴量から、前記コンテンツ識別子に対応づけられていない特徴種別の未知の特徴量を算出し、特徴推定値として前記特徴量データに記憶する未知特徴量算出手段と、
前記特徴量データに記憶されている前記特徴量および前記特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出する距離算出手段と、
前記距離算出手段によって算出された距離に基づいて、前記コンテンツデータに対応するサムネイルの表示位置を決定して、表示装置に表示する表示手段
とを備えることを特徴とするコンテンツ検索プログラム。
前記未知特徴量算出手段は、前記特徴量データにおいて、前記コンテンツ識別子に対応づけられた特徴種別の特徴量から、主成分分析を用いて前記特徴推定値を算出する
ことを特徴とする請求項７に記載のコンテンツ検索プログラム。
前記未知特徴量算出手段は、前記特徴量データにおいて、前記コンテンツ識別子に対応づけられた特徴種別の特徴量から、正準相関分析を用いて前記特徴推定値を算出する
ことを特徴とする請求項７に記載のコンテンツ検索プログラム。
前記特徴量算出手段は、音響特徴の特徴量を算出する際、音響信号のうち繰り返し現れるメロディーを特定し、その繰り返しメロディーの特徴量を、前記音響特徴の特徴量とする
ことを特徴とする請求項７に記載のコンテンツ検索プログラム。
ユーザ識別子と、当該ユーザの嗜好に合うコンテンツ識別子とが関連づけられたユーザ嗜好データが、前記記憶装置に記憶されたユーザ嗜好データにおいて当該コンテンツに関連づけられたユーザ識別子の集合を、各前記コンテンツ識別子について作成するとともに、各集合において、ユーザ間に有向辺を作成し、各集合を代表する重要ユーザを決定する重要ユーザ決定手段と、をさらに前記コンピュータに実行させ、
前記距離算出手段は、前記ユーザ嗜好データにおいて前記重要ユーザのユーザ識別子に関連づけられた前記コンテンツ識別子を抽出し、抽出した前記コンテンツ識別子に対応する前記特徴量および前記特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出する
ことを特徴とする請求項７に記載のコンテンツ検索プログラム。
前記表示手段はさらに、前記ユーザ嗜好データにおいて、所定のコンテンツに関連づけられた複数のユーザの識別子を抽出し、前記複数のユーザの識別子のそれぞれをノードと、前記ユーザ間の有向辺を考慮した前記ノード間のリンクを含むユーザネットワークを表示して、表示装置に表示する
ことを特徴とする請求項１１に記載のコンテンツ検索プログラム。