<ハイライトシーン用情報処理装置>
まず、ユーザの興味があるシーンを、ハイライトシーンとして集めたダイジェストを、容易に得ることができるようにするハイライトシーン用情報処理装置について説明する。
例えば、映画やテレビジョン放送の番組等のコンテンツから、ハイライトシーンを検出するハイライトシーン検出技術としては、エキスパート(設計者)の経験や知識を利用する技術や、学習サンプルを用いた統計学習を利用する技術等がある。
エキスパートの経験や知識を利用する技術では、ハイライトシーンで生じるイベントを検出する検出器や、そのイベントから定義されるシーン(イベントが生じるシーン)を検出する検出器が、エキスパートの経験や知識に基づいて設計される。そして、それらの検出器を用いて、ハイライトシーンが検出される。
学習サンプルを用いた統計学習を利用する技術では、学習サンプルを用いて、ハイライトシーンを検出する検出器(ハイライト検出器)や、ハイライトシーンで生じるイベントを検出する検出器(イベント検出器)が求められる。そして、それらの検出器を用いて、ハイライトシーンが検出される。
また、ハイライトシーン検出技術では、コンテンツの画像や音声の特徴量を抽出し、その特徴量を用いて、ハイライトシーンが検出される。この、ハイライトシーンの検出のための特徴量としては、一般に、ハイライトシーンを検出する対象のコンテンツのジャンルに特化した特徴量が用いられる。
例えば、Wangら、及びDuanらのハイライトシーン検出技術では、サッカーの試合のビデオから、サッカーフィールドのライン、サッカーボールの軌跡、画面全体の動き、音声のMFCC(Mel-Frequency Cepstrum Coefficient)を利用した、イベント「ホイッスル」や「喝采」等を検出するための高次の特徴量を抽出し、それらを組み合わせた特徴量を用いて、「攻撃」や「ファウル」等の、サッカーのプレーシーンの検出を行っている。
また、例えば、Wangらは、サッカーの試合のビデオから、カラーヒストグラム特徴量を用いたビュータイプ分類器、ライン検出器を用いたプレーロケーション同定器、リプレイロゴ検出器、司会興奮度検出器、ホイッスル検出器等を設計し、それらの時間的な関係をベイジアンネットワークによりモデル化し、サッカーハイライト検出器を構成するハイライトシーン検出技術を提案している。
ハイライトシーン検出技術としては、その他、例えば、特開2008-185626号公報(以下、文献1ともいう)において、音の盛り上がり(歓声)を特徴付ける特徴量を用いて、コンテンツのハイライトシーンを検出する技術が提案されている。
以上のハイライトシーン検出技術は、特定のジャンルのコンテンツについては、ハイライトシーン(又は、イベント)を検出することができるが、他のジャンルのコンテンツについては、ハイライトシーンとして適切なシーンを検出することが困難となる。
すなわち、例えば、文献1に記載のハイライトシーン検出技術では、歓声があるシーンが、ハイライトシーンであるというルールの下で、ハイライトシーンが検出されるが、歓声があるシーンが、ハイライトシーンとなるコンテンツのジャンルは、限られている。そして、文献1に記載のハイライトシーン検出技術では、歓声がないシーンをハイライトシーンとするジャンルのコンテンツを対象として、ハイライトシーンを検出することは、困難である。
したがって、文献1に記載のハイライトシーン検出技術等によって、特定のジャンル以外のジャンルのコンテンツを対象として、ハイライトシーンの検出を行うには、そのジャンルに適した特徴量を設計する必要がある。さらに、その特徴量を用いたハイライトシーンの検出(又は、イベントの定義)のためのルールデザインを、エキスパートへのインタビュー等に基づいて行う必要がある。
そこで、例えば、特開2000-299829号公報(以下、文献2ともいう)では、一般的にハイライトシーンとされるシーンの検出に用いることができる特徴量と閾値を設計し、その特徴量と閾値とを用いた閾値処理によりハイライトシーンを検出する方法が提案されている。
しかしながら、近年においては、コンテンツが多様化しており、すべてのコンテンツについて、ハイライトシーンとして適切なシーンを検出するための、例えば、特徴量や、閾値処理のルール等の一般的なルールを求めることは、極めて困難となっている。
したがって、ハイライトシーンとして適切なシーンを検出するには、例えば、ジャンル等ごとに、そのジャンルに適した、ハイライトシーンを検出するための特徴量やルールを設計(デザイン)する必要がある。但し、そのようなルールを設計した場合でも、そのルールからはずれるような、いわば例外的なハイライトシーンを検出することは困難となる。
例えば、サッカーの試合のゴールシーン等の、スポーツの試合等のコンテンツについて、一般的にハイライトシーンと呼ばれているシーンについては、そのシーンを検出するルールを、エキスパートの知識を用いて精密高精度に設計することが可能である。
しかしながら、ユーザの嗜好は、ユーザごとに、多種多様である。すなわち、例えば、「ベンチの監督が映っているシーン」や、「野球の1塁走者への牽制のシーン」、「クイズ番組の問題と答えのシーン」等のそれぞれを好む別々のユーザが存在する。この場合に、それらのユーザすべての嗜好それぞれに適したルールを、個別に設計し、ハイライトシーンを検出するAV(Audio Visual)機器等の検出システムに組み込むことは、現実的ではない。
一方、ユーザが、検出システムに組み込まれた固定のルールに従って検出されるハイライトシーンを集めたダイジェストを視聴するのではなく、検出システムが、個々のユーザの嗜好を学習し、その嗜好にあったシーン(ユーザの興味があるシーン)を、ハイライトシーンとして検出して、そのようなハイライトシーンを集めたダイジェストを提供することで、コンテンツの視聴の、いわば「個人化」が実現され、コンテンツの楽しみ方が広がっていく。
ハイライトシーン用情報処理装置は、このような状況に鑑みてなされたものであり、ユーザの興味があるシーンを、ハイライトシーンとして集めたダイジェストを、容易に得ることができるようにするものである。
第1に、ハイライトシーン用情報処理装置は、
ユーザの興味があるシーンを、ハイライトシーンとして検出するためのモデルであるハイライト検出器の学習に用いるコンテンツである注目検出器学習用コンテンツの画像の各フレームの特徴量を抽出する特徴量抽出手段と、
状態が遷移する状態遷移確率と、前記状態から、所定の観測値が観測される観測確率とで規定される状態遷移確率モデルの学習に用いるコンテンツである学習用コンテンツの画像の各フレームの特徴量を抽出し、
前記学習用コンテンツの前記特徴量を用いて、前記状態遷移確率モデルの学習を行う
ことにより得られる、前記学習後の状態遷移確率モデルであるコンテンツモデルにおいて、前記注目検出器学習用コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定する最尤状態系列推定手段と、
ユーザの操作に従い、前記ハイライトシーンであるか否かを表すハイライトラベルを、前記注目検出器学習用コンテンツの各フレームにラベリングすることにより、前記注目検出器学習用コンテンツについて、ハイライトラベル系列を生成するハイライトラベル生成手段と、
前記注目検出器学習用コンテンツから得られる前記最尤状態系列と、前記ハイライトラベル系列とのペアである学習用ラベル系列を用いて、状態遷移確率モデルである前記ハイライト検出器の学習を行うハイライト検出器の学習手段と
を備える情報処理装置である。
第2に、ハイライトシーン用情報処理装置は、
ハイライトシーンを検出する対象のコンテンツである注目ハイライト検出用コンテンツの画像の各フレームの特徴量を抽出し、
前記コンテンツモデルにおいて、前記注目ハイライト検出用コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定し、
前記ハイライト検出器において、前記注目ハイライト検出用コンテンツから得られる前記最尤状態系列と、ハイライトシーンであること又はハイライトシーンでないことを表すハイライトラベルのハイライトラベル系列とのペアである検出用ラベル系列が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定し、
前記検出用ラベル系列から得られる前記最尤状態系列であるハイライト関係状態系列の各状態の前記ハイライトラベルの観測確率に基づいて、前記注目ハイライト検出用コンテンツから、ハイライトシーンのフレームを検出し、
前記ハイライトシーンのフレームを用いて、前記注目ハイライト検出用コンテンツのダイジェストであるダイジェストコンテンツを生成する
ハイライト検出手段
を、さらに備える
第1のハイライトシーン用情報処理装置である。
第3に、ハイライトシーン用情報処理装置は、
前記ハイライト検出手段は、前記ハイライト関係状態系列の所定の時刻の状態における、ハイライトシーンであることを表すハイライトラベルの観測確率と、ハイライトシーンでないことを表すハイライトラベルの観測確率との差分が、所定の閾値より大である場合、前記所定の時刻の状態に対応する、前記注目ハイライト検出用コンテンツのフレームを、ハイライトシーンのフレームとして検出する
第2のハイライトシーン用情報処理装置である。
第4に、ハイライトシーン用情報処理装置は、
コンテンツの画像の各フレームの特徴量を抽出し、
前記コンテンツモデルにおいて、前記コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定し、
前記最尤状態系列の状態のうちの、ユーザによって指示された状態と一致する状態に対応するフレームを、前記コンテンツから抽出し、
前記ハイライトシーンを登録するスクラップブックに、前記コンテンツから抽出されたフレームを登録する
スクラップブック生成手段
を、さらに備える
第1のハイライトシーン用情報処理装置である。
第5に、ハイライトシーン用情報処理装置は、
前記コンテンツモデルの1つの状態から他の1つの状態への状態間距離を、前記1つの状態から前記他の1つの状態への状態遷移確率に基づいて求める状態間距離算出手段と、
前記コンテンツモデルの状態が配置される2次元又は3次元のマップであるモデルマップ上の、前記1つの状態から前記他の1つの状態へのユークリッド距離と、前記状態間距離との誤差が小さくなるように、前記モデルマップ上の前記状態の位置の座標である状態座標を求める座標算出手段と、
前記状態座標の位置に、対応する前記状態を配置した前記モデルマップを表示する表示制御を行う表示制御手段と
を、さらに備える
第1のハイライトシーン用情報処理装置である。
第6に、ハイライトシーン用情報処理装置は、
前記座標算出手段は、
前記ユークリッド距離と、前記状態間距離との統計的な誤差に比例するSammon Mapのエラー関数を最小にするように、前記状態座標を求め、
前記1つの状態から前記他の1つの状態へのユークリッド距離が、所定の閾値より大である場合、前記1つの状態から前記他の1つの状態へのユークリッド距離を、前記1つの状態から前記他の1つの状態への前記状態間距離に等しい距離にして、前記エラー関数の計算を行う
第5のハイライトシーン用情報処理装置である。
第7に、ハイライトシーン用情報処理装置は、
コンテンツの画像の各フレームの特徴量を抽出し、
前記コンテンツモデルにおいて、前記コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定し、
前記最尤状態系列の状態のうちの、ユーザによって指示された、前記モデルマップ上の状態と一致する状態に対応するフレームを、前記コンテンツから抽出し、
前記ハイライトシーンを登録するスクラップブックに、前記コンテンツから抽出されたフレームを登録する
スクラップブック生成手段
を、さらに備える
第5のハイライトシーン用情報処理装置である。
第8に、ハイライトシーン用情報処理装置は、
前記フレームの特徴量は、
前記フレームを、複数の小領域であるサブ領域に分割し、
前記複数のサブ領域のそれぞれの特徴量を抽出し、
前記複数のサブ領域それぞれの特徴量を結合する
ことにより求められる
第1のハイライトシーン用情報処理装置である。
第9に、ハイライトシーン用情報処理装置は、
前記フレームの特徴量は、
前記フレームに対応する所定の時間内における音声のエネルギー、ゼロ交差レート、またはスペクトル重心における平均値、および分散を結合する
ことにより求められる
第1のハイライトシーン用情報処理装置である。
第10に、ハイライトシーン用情報処理装置は、
前記フレームの特徴量は、
前記フレーム内の対象物の表示領域を検出し、
前記フレームを、複数の小領域であるサブ領域に分割し、
前記複数のサブ領域のそれぞれのピクセル数に対する、前記サブ領域における前記対象物の表示領域のピクセル数の割合を特徴量として抽出し、
前記複数のサブ領域それぞれの特徴量を結合する
ことにより求められる
第1のハイライトシーン用情報処理装置である。
第11に、ハイライトシーン用情報処理装置は、
前記学習用コンテンツの前記特徴量を用いて、前記状態遷移確率モデルの学習を行うことにより、前記コンテンツモデルを生成するコンテンツモデル学習手段
を、さらに備える
第1のハイライトシーン用情報処理装置である。
第12に、ハイライトシーン用情報処理装置の情報処理方法は、
情報処理装置が、
ユーザの興味があるシーンを、ハイライトシーンとして検出するためのモデルであるハイライト検出器の学習に用いるコンテンツである注目検出器学習用コンテンツの画像の各フレームの特徴量を抽出する特徴量抽出ステップと、
状態が遷移する状態遷移確率と、前記状態から、所定の観測値が観測される観測確率とで規定される状態遷移確率モデルの学習に用いるコンテンツである学習用コンテンツの画像の各フレームの特徴量を抽出し、
前記学習用コンテンツの前記特徴量を用いて、前記状態遷移確率モデルの学習を行う
ことにより得られる、前記学習後の状態遷移確率モデルであるコンテンツモデルにおいて、前記注目検出器学習用コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定する最尤状態系列推定ステップと、
ユーザの操作に従い、前記ハイライトシーンであるか否かを表すハイライトラベルを、前記注目検出器学習用コンテンツの各フレームにラベリングすることにより、前記注目検出器学習用コンテンツについて、ハイライトラベル系列を生成するハイライトラベル生成ステップと、
前記注目検出器学習用コンテンツから得られる前記最尤状態系列と、前記ハイライトラベル系列とのペアである学習用ラベル系列を用いて、状態遷移確率モデルである前記ハイライト検出器の学習を行うハイライト検出器の学習ステップと
を含む情報処理方法である。
第13に、コンピュータを、ハイライトシーン用情報処理装置として機能させるためのプログラムは、
ユーザの興味があるシーンを、ハイライトシーンとして検出するためのモデルであるハイライト検出器の学習に用いるコンテンツである注目検出器学習用コンテンツの画像の各フレームの特徴量を抽出する特徴量抽出手段と、
状態が遷移する状態遷移確率と、前記状態から、所定の観測値が観測される観測確率とで規定される状態遷移確率モデルの学習に用いるコンテンツである学習用コンテンツの画像の各フレームの特徴量を抽出し、
前記学習用コンテンツの前記特徴量を用いて、前記状態遷移確率モデルの学習を行う
ことにより得られる、前記学習後の状態遷移確率モデルであるコンテンツモデルにおいて、前記注目検出器学習用コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定する最尤状態系列推定手段と、
ユーザの操作に従い、前記ハイライトシーンであるか否かを表すハイライトラベルを、前記注目検出器学習用コンテンツの各フレームにラベリングすることにより、前記注目検出器学習用コンテンツについて、ハイライトラベル系列を生成するハイライトラベル生成手段と、
前記注目検出器学習用コンテンツから得られる前記最尤状態系列と、前記ハイライトラベル系列とのペアである学習用ラベル系列を用いて、状態遷移確率モデルである前記ハイライト検出器の学習を行うハイライト検出器の学習手段と
して、コンピュータを機能させるためのプログラムである。
第14に、ハイライトシーン用情報処理装置は、
ユーザの興味があるシーンを、ハイライトシーンとして検出するためのモデルであるハイライト検出器の学習に用いるコンテンツである注目検出器学習用コンテンツの画像の各フレームの特徴量を抽出し、
状態が遷移する状態遷移確率と、前記状態から、所定の観測値が観測される観測確率とで規定される状態遷移確率モデルの学習に用いるコンテンツである学習用コンテンツの画像の各フレームの特徴量を抽出し、
前記学習用コンテンツの前記特徴量を用いて、前記状態遷移確率モデルの学習を行う
ことにより得られる、前記学習後の状態遷移確率モデルであるコンテンツモデルにおいて、前記注目検出器学習用コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定し、
ユーザの操作に従い、前記ハイライトシーンであるか否かを表すハイライトラベルを、前記注目検出器学習用コンテンツの各フレームにラベリングすることにより、前記注目検出器学習用コンテンツについて、ハイライトラベル系列を生成し、
前記注目検出器学習用コンテンツから得られる前記最尤状態系列と、前記ハイライトラベル系列とのペアである学習用ラベル系列を用いて、状態遷移確率モデルである前記ハイライト検出器の学習を行う
ことにより得られる前記ハイライト検出器を取得する取得手段と、
ハイライトシーンを検出する対象のコンテンツである注目ハイライト検出用コンテンツの画像の各フレームの特徴量を抽出する特徴量抽出手段と、
前記コンテンツモデルにおいて、前記注目ハイライト検出用コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定する第1の最尤状態系列推定手段と、
前記ハイライト検出器において、前記注目ハイライト検出用コンテンツから得られる前記最尤状態系列と、ハイライトシーンであること又はハイライトシーンでないことを表すハイライトラベルのハイライトラベル系列とのペアである検出用ラベル系列が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定する第2の最尤状態系列推定手段と、
前記検出用ラベル系列から得られる前記最尤状態系列であるハイライト関係状態系列の各状態の前記ハイライトラベルの観測確率に基づいて、前記注目ハイライト検出用コンテンツから、ハイライトシーンのフレームを検出するハイライトシーン検出手段と、
前記ハイライトシーンのフレームを用いて、前記注目ハイライト検出用コンテンツのダイジェストであるダイジェストコンテンツを生成するダイジェストコンテンツ生成手段と
を備える情報処理装置である。
第15に、ハイライトシーン用情報処理装置は、
前記ハイライトシーン検出手段は、前記ハイライト関係状態系列の所定の時刻の状態における、ハイライトシーンであることを表すハイライトラベルの観測確率と、ハイライトシーンでないことを表すハイライトラベルの観測確率との差分が、所定の閾値より大である場合、前記所定の時刻の状態に対応する、前記注目ハイライト検出用コンテンツのフレームを、ハイライトシーンのフレームとして検出する
第14のハイライトシーン用情報処理装置である。
第16に、ハイライトシーン用情報処理装置は、
コンテンツの画像の各フレームの特徴量を抽出し、
前記コンテンツモデルにおいて、前記コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定し、
前記最尤状態系列の状態のうちの、ユーザによって指示された状態と一致する状態に対応するフレームを、前記コンテンツから抽出し、
前記ハイライトシーンを登録するスクラップブックに、前記コンテンツから抽出されたフレームを登録する
スクラップブック生成手段
を、さらに備える
第14のハイライトシーン用情報処理装置である。
第17に、ハイライトシーン用情報処理装置は、
前記コンテンツモデルの1つの状態から他の1つの状態への状態間距離を、前記1つの状態から前記他の1つの状態への状態遷移確率に基づいて求める状態間距離算出手段と、
前記コンテンツモデルの状態が配置される2次元又は3次元のマップであるモデルマップ上の、前記1つの状態から前記他の1つの状態へのユークリッド距離と、前記状態間距離との誤差が小さくなるように、前記モデルマップ上の前記状態の位置の座標である状態座標を求める座標算出手段と、
前記状態座標の位置に、対応する前記状態を配置した前記モデルマップを表示する表示制御を行う表示制御手段と
を、さらに備える
第14のハイライトシーン用情報処理装置である。
第18に、ハイライトシーン用情報処理装置は、
前記座標算出手段は、
前記ユークリッド距離と、前記状態間距離との統計的な誤差に比例するSammon Mapのエラー関数を最小にするように、前記状態座標を求め、
前記1つの状態から前記他の1つの状態へのユークリッド距離が、所定の閾値より大である場合、前記1つの状態から前記他の1つの状態へのユークリッド距離を、前記1つの状態から前記他の1つの状態への前記状態間距離に等しい距離にして、前記エラー関数の計算を行う
第17のハイライトシーン用情報処理装置である。
第19に、ハイライトシーン用情報処理装置は、
コンテンツの画像の各フレームの特徴量を抽出し、
前記コンテンツモデルにおいて、前記コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定し、
前記最尤状態系列の状態のうちの、ユーザによって指示された、前記モデルマップ上の状態と一致する状態に対応するフレームを、前記コンテンツから抽出し、
前記ハイライトシーンを登録するスクラップブックに、前記コンテンツから抽出されたフレームを登録する
スクラップブック生成手段
を、さらに備える
第17のハイライトシーン用情報処理装置である。
第20に、ハイライトシーン用情報処理装置は、
前記フレームの特徴量は、
前記フレームを、複数の小領域であるサブ領域に分割し、
前記複数のサブ領域のそれぞれの特徴量を抽出し、
前記複数のサブ領域それぞれの特徴量を結合する
ことにより求められる
第14のハイライトシーン用情報処理装置である。
第21に、ハイライトシーン用情報処理装置は、
前記フレームの特徴量は、
前記フレームに対応する所定の時間内における音声のエネルギー、ゼロ交差レート、またはスペクトル重心における平均値、および分散を結合する
ことにより求められる
第14のハイライトシーン用情報処理装置である。
第22に、ハイライトシーン用情報処理装置は、
前記フレームの特徴量は、
前記フレーム内の対象物の表示領域を検出し、
前記フレームを、複数の小領域であるサブ領域に分割し、
前記複数のサブ領域のそれぞれのピクセル数に対する、前記サブ領域における前記対象物の表示領域のピクセル数の割合を特徴量として抽出し、
前記複数のサブ領域それぞれの特徴量を結合する
ことにより求められる
第14のハイライトシーン用情報処理装置である。
第23に、ハイライトシーン用情報処理装置の情報処理方法は、
情報処理装量が、
ユーザの興味があるシーンを、ハイライトシーンとして検出するためのモデルであるハイライト検出器の学習に用いるコンテンツである注目検出器学習用コンテンツの画像の各フレームの特徴量を抽出し、
状態が遷移する状態遷移確率と、前記状態から、所定の観測値が観測される観測確率とで規定される状態遷移確率モデルの学習に用いるコンテンツである学習用コンテンツの画像の各フレームの特徴量を抽出し、
前記学習用コンテンツの前記特徴量を用いて、前記状態遷移確率モデルの学習を行う
ことにより得られる、前記学習後の状態遷移確率モデルであるコンテンツモデルにおいて、前記注目検出器学習用コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定し、
ユーザの操作に従い、前記ハイライトシーンであるか否かを表すハイライトラベルを、前記注目検出器学習用コンテンツの各フレームにラベリングすることにより、前記注目検出器学習用コンテンツについて、ハイライトラベル系列を生成し、
前記注目検出器学習用コンテンツから得られる前記最尤状態系列と、前記ハイライトラベル系列とのペアである学習用ラベル系列を用いて、状態遷移確率モデルである前記ハイライト検出器の学習を行う
ことにより得られる前記ハイライト検出器を取得する取得ステップと、
ハイライトシーンを検出する対象のコンテンツである注目ハイライト検出用コンテンツの画像の各フレームの特徴量を抽出する特徴量抽出ステップと、
前記コンテンツモデルにおいて、前記注目ハイライト検出用コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定する第1の最尤状態系列推定ステップと、
前記ハイライト検出器において、前記注目ハイライト検出用コンテンツから得られる前記最尤状態系列と、ハイライトシーンであること又はハイライトシーンでないことを表すハイライトラベルのハイライトラベル系列とのペアである検出用ラベル系列が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定する第2の最尤状態系列推定ステップと、
前記検出用ラベル系列から得られる前記最尤状態系列であるハイライト関係状態系列の各状態の前記ハイライトラベルの観測確率に基づいて、前記注目ハイライト検出用コンテンツから、ハイライトシーンのフレームを検出するハイライトシーン検出ステップと、
前記ハイライトシーンのフレームを用いて、前記注目ハイライト検出用コンテンツのダイジェストであるダイジェストコンテンツを生成するダイジェストコンテンツ生成ステップと
を含む情報処理方法である。
第24に、コンピュータを、ハイライトシーン用情報処理装置として機能させるためのプログラムは、
ユーザの興味があるシーンを、ハイライトシーンとして検出するためのモデルであるハイライト検出器の学習に用いるコンテンツである注目検出器学習用コンテンツの画像の各フレームの特徴量を抽出し、
状態が遷移する状態遷移確率と、前記状態から、所定の観測値が観測される観測確率とで規定される状態遷移確率モデルの学習に用いるコンテンツである学習用コンテンツの画像の各フレームの特徴量を抽出し、
前記学習用コンテンツの前記特徴量を用いて、前記状態遷移確率モデルの学習を行う
ことにより得られる、前記学習後の状態遷移確率モデルであるコンテンツモデルにおいて、前記注目検出器学習用コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定し、
ユーザの操作に従い、前記ハイライトシーンであるか否かを表すハイライトラベルを、前記注目検出器学習用コンテンツの各フレームにラベリングすることにより、前記注目検出器学習用コンテンツについて、ハイライトラベル系列を生成し、
前記注目検出器学習用コンテンツから得られる前記最尤状態系列と、前記ハイライトラベル系列とのペアである学習用ラベル系列を用いて、状態遷移確率モデルである前記ハイライト検出器の学習を行う
ことにより得られる前記ハイライト検出器を取得する取得手段と、
ハイライトシーンを検出する対象のコンテンツである注目ハイライト検出用コンテンツの画像の各フレームの特徴量を抽出する特徴量抽出手段と、
前記コンテンツモデルにおいて、前記注目ハイライト検出用コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定する第1の最尤状態系列推定手段と、
前記ハイライト検出器において、前記注目ハイライト検出用コンテンツから得られる前記最尤状態系列と、ハイライトシーンであること又はハイライトシーンでないことを表すハイライトラベルのハイライトラベル系列とのペアである検出用ラベル系列が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定する第2の最尤状態系列推定手段と、
前記検出用ラベル系列から得られる前記最尤状態系列であるハイライト関係状態系列の各状態の前記ハイライトラベルの観測確率に基づいて、前記注目ハイライト検出用コンテンツから、ハイライトシーンのフレームを検出するハイライトシーン検出手段と、
前記ハイライトシーンのフレームを用いて、前記注目ハイライト検出用コンテンツのダイジェストであるダイジェストコンテンツを生成するダイジェストコンテンツ生成手段と
して、コンピュータを機能させるためのプログラムである。
[本発明の情報処理装置を適用したレコーダの一実施の形態]
図1は、本発明の情報処理装置を適用したレコーダの一実施の形態の構成例を示すブロック図である。
図1のレコーダは、例えば、HD(Hard Disk)レコーダ等であり、テレビジョン放送の番組や、インターネット等のネットワークを介して提供されるコンテンツ、ビデオカメラ等で撮影したコンテンツ等の各種のコンテンツを録画(記録)(記憶)することができる。
すなわち、図1において、レコーダは、コンテンツ記憶部11、コンテンツモデル学習部12、モデル記憶部13、コンテンツ構造提示部14、ダイジェスト生成部15、及び、スクラップブック生成部15から構成される。
コンテンツ記憶部11は、例えば、テレビジョン放送の番組等のコンテンツを記憶(記録)する。コンテンツ記憶部11へのコンテンツの記憶が、そのコンテンツの録画となり、その録画がされたコンテンツ(コンテンツ記憶部11に記憶されたコンテンツ)は、例えば、ユーザの操作に応じて再生される。
コンテンツモデル学習部12は、コンテンツ記憶部11に記憶されたコンテンツを、所定の特徴量空間において自己組織的に構造化し、コンテンツの構造(時空間構造)を表すモデル(以下、コンテンツモデルともいう)を求める学習(統計学習)を行う。コンテンツモデル学習部12は、学習の結果得られるコンテンツモデルを、モデル記憶部13に供給する。
モデル記憶部13は、コンテンツモデル学習部12から供給されるコンテンツモデルを記憶する。
コンテンツ構造提示部14は、コンテンツ記憶部11に記憶されたコンテンツと、モデル記憶部13に記憶されたコンテンツモデルとを用いて、コンテンツの構造を表す、後述するモデルマップを作成して提示する。
ダイジェスト生成部15は、モデル記憶部13に記憶されたコンテンツモデルを利用いて、コンテンツ記憶部11に記憶されたコンテンツから、ユーザの興味があるシーンを、ハイライトシーンとして検出する。そして、ダイジェスト生成部15は、ハイライトシーンを集めたダイジェストを生成する。
スクラップブック生成部16は、モデル記憶部13に記憶されたコンテンツモデルを利用いて、ユーザが興味のあるシーンを検出し、そのシーンを集めたスクラップブックを生成する。
なお、ダイジェスト生成部15によるダイジェストの生成と、スクラップブック生成部16によるスクラップブックの生成とでは、結果として、ユーザの興味があるシーンが検出される点では共通するが、その検出の方法(アルゴリズム)が異なる。
また、図1のレコーダは、コンテンツ構造提示部14やスクラップブック生成部16等を設けずに構成することができる。
すなわち、例えば、モデル記憶部13に、学習済みのコンテンツモデルが、既に記憶されている場合には、コンテンツモデル学習部12を設けずに、レコーダを構成することができる。
また、例えば、コンテンツ構造提示部14、ダイジェスト生成部15、及び、スクラップブック生成部16については、それらのうちの1つ、又は、2つのブロックだけを設けて、レコーダを構成することができる。
ここで、コンテンツ記憶部11に記憶されるコンテンツのデータは、画像、音声、及び、必要なテキスト(字幕)のデータ(ストリーム)を含むこととする。
また、ここでは、コンテンツのデータのうちの、画像のデータだけを、コンテンツモデルの学習の処理や、コンテンツモデルを用いた処理に用いることとする。
但し、コンテンツモデルの学習の処理や、コンテンツモデルを用いた処理には、画像のデータの他、音声やテキストのデータをも用いることが可能であり、この場合、処理の精度を向上させることができる。
また、コンテンツモデルの学習の処理や、コンテンツモデルを用いた処理には、画像ではなく、音声のデータだけを用いることが可能である。
[コンテンツモデル学習部12の構成例]
図2は、図1のコンテンツモデル学習部12の構成例を示すブロック図である。
コンテンツモデル学習部12は、状態が遷移する状態遷移確率と、状態から、所定の観測値が観測される観測確率とで規定される状態遷移確率モデルの学習に用いるコンテンツである学習用コンテンツの画像の各フレームの特徴量を抽出する。さらに、コンテンツモデル学習部12は、学習用コンテンツの特徴量を用いて、状態遷移確率モデルの学習を行う。
すなわち、コンテンツモデル学習部12は、学習用コンテンツ選択部21、特徴量抽出部22、特徴量記憶部26、及び、学習部27から構成される。
学習用コンテンツ選択部21は、コンテンツ記憶部11に記憶されたコンテンツの中から、状態遷移確率モデルの学習に用いるコンテンツを、学習用コンテンツとして選択し、特徴量抽出部22に供給する。
ここで、学習用コンテンツ選択部21は、コンテンツ記憶部11に記憶されたコンテンツの中から、例えば、所定のカテゴリに属する1以上のコンテンツを、学習用コンテンツとして選択する。
所定のカテゴリに属するコンテンツとは、例えば、ジャンルが同一の番組や、連続番組、毎週又は毎日その他周期的に放送される番組(タイトルが同一の番組)等の、コンテンツに潜む、コンテンツの構造が共通するコンテンツを意味する。
ジャンルとしては、例えば、スポーツ番組やニュース番組等といった、いわば大まかな分類を採用することもできるが、例えば、サッカーの試合の番組や野球の試合の番組等といった、いわば細かい分類であることが望ましい。
また、例えば、サッカーの試合の番組であれば、チャンネル(放送局)が異なるごとに、異なるカテゴリに属するコンテンツに分類することもできる。
なお、コンテンツのカテゴリとして、どのようなカテゴリを採用するかは、例えば、図1のレコーダに、あらかじめ設定されていることとする。
また、コンテンツ記憶部11に記憶されたコンテンツのカテゴリは、例えば、テレビジョン放送で番組とともに送信されてくる、番組のタイトルやジャンル等のメタデータや、インターネット上のサイトが提供する番組の情報等から認識することができる。
特徴量抽出部22は、学習用コンテンツ選択部21からの学習用コンテンツを、画像と音声のデータに逆多重化し、画像の各フレームの特徴量を抽出して、特徴量記憶部26に供給する。
すなわち、特徴量抽出部22は、フレーム分割部23、サブ領域特徴量抽出部24、及び、結合部25から構成される。
フレーム分割部23には、学習用コンテンツ選択部21からの学習用コンテンツの画像の各フレームが、時系列に供給される。
フレーム分割部23は、学習用コンテンツ選択部21から時系列に供給される学習用コンテンツのフレームを、順次、注目フレームとする。そして、フレーム分割部23は、注目フレームを、複数の小領域であるサブ領域に分割し、サブ領域特徴量抽出部24に供給する。
サブ領域特徴量抽出部24は、フレーム分割部23からの注目フレームの各サブ領域から、そのサブ領域の特徴量(以下、サブ領域特徴量ともいう)を抽出し、結合部25に供給する。
結合部25は、サブ領域特徴量抽出部24からの注目フレームのサブ領域のサブ領域特徴量を結合し、その結合結果を、注目フレームの特徴量として、特徴量記憶部26に供給する。
特徴量記憶部26は、特徴量抽出部22(の結合部25)から供給される学習用コンテンツの各フレームの特徴量を時系列に記憶する。
学習部27は、特徴量記憶部26に記憶された学習用コンテンツの各フレームの特徴量を用いて、状態遷移確率モデルの学習を行う。さらに、学習部27は、学習後の状態遷移確率モデルを、コンテンツモデルとし、学習用コンテンツのカテゴリと対応付けて、モデル記憶部13に供給する。
[状態遷移確率モデル]
図3ないし図6を参照して、図2の学習部27が学習を行う状態遷移確率モデルについて説明する。
状態遷移確率モデルとしては、例えば、HMM(Hidden Marcov Model)を採用することができる。状態遷移確率モデルとして、HMMを採用する場合、HMMの学習は、例えば、Baum-Welchの再推定法によって行われる。
図3は、left-to-right型のHMMの例を示す図である。
left-to-right型のHMMは、状態が、左から右方向に、一直線上に並んだHMMであり、自己遷移(ある状態から、その状態への遷移)と、ある状態から、その状態よりも右側にある状態への遷移とを行うことができる。left-to-right型のHMMは、例えば、音声認識等で用いられる。
図3のHMMは、3つの状態s1,s2,s3から構成され、状態遷移として、自己遷移と、ある状態から、その右隣の状態への遷移とが許されている。
なお、HMMは、状態siの初期確率πi、状態遷移確率aij、及び、状態siから、所定の観測値oが観測される観測確率bi(o)で規定される。
ここで、初期確率πiは、状態siが、初期の状態(最初の状態)である確率であり、left-to-right型のHMMでは、最も左側の状態s1の初期確率π1は、1.0とされ、他の状態siの初期確率πiは、0.0とされる。
状態遷移確率aijは、状態siから状態sjに遷移する確率である。
観測確率bi(o)は、状態siへの状態遷移時に、状態siから観測値oが観測される確率である。観測確率bi(o)としては、観測値oが離散値である場合には、確率となる値(離散値)が用いられるが、観測値oが連続値である場合には、確率分布関数が用いられる。確率分布関数としては、例えば、平均値(平均ベクトル)と分散(共分散行列)とで定義されるガウス分布等を採用することができる。
図4は、エルゴディック(Ergodic)型のHMMの例を示す図である。
エルゴディック型のHMMは、状態遷移に制約がないHMM、すなわち、任意の状態siから任意の状態sjへの状態遷移が可能なHMMである。
図4のHMMは、3つの状態s1,s2,s3から構成され、任意の状態遷移が許されている。
エルゴディック型のHMMは、状態遷移の自由度が最も高いHMMであるが、状態数が多くなると、HMMのパラメータ(初期確率πi、状態遷移確率aij、及び、観測確率bi(o))の初期値によっては、ローカルミニマムに収束し、適切なパラメータを得られないことがある。
そこで、「自然界の現象の殆どや、ビデオコンテンツを生み出すカメラワークや番組構成は、スモールワールドネットワークのようなスパースな結合によって表現可能である」という仮説を採用し、学習部27での学習には、状態遷移を、スパース(Sparse)な構造に制約したHMMを採用することとする。
ここで、スパースな構造とは、ある状態から任意の状態への状態遷移が可能なエルゴディック型のHMMのような密な状態遷移ではなく、ある状態から状態遷移することができる状態が非常に限定されている構造(状態遷移が疎らな構造)である。
なお、ここでは、スパースな構造であっても、他の状態への状態遷移は、少なくとも1つ存在し、また、自己遷移は存在することとする。
図5は、スパースな構造のHMMである2次元近傍拘束HMMの例を示す図である。
図5のA及び図5のBのHMMには、スパースな構造であることの他、HMMを構成する状態を、2次元平面上に、格子状に配置する制約が課されている。
ここで、図5のAのHMMでは、他の状態への状態遷移が、横に隣接する状態と、縦に隣接する状態とに制限されている。図5のBのHMMでは、他の状態への状態遷移が、横に隣接する状態、縦に隣接する状態、及び、斜めに隣接する状態に制限されている。
図6は、スパースな構造のHMMの、2次元近傍拘束HMM以外の例を示す図である。
すなわち、図6のAは、3次元グリッド制約によるHMMの例を示している。図6のBは、2次元ランダム配置制約によるHMMの例を示している。図6のCは、スモールワールドネットワークによるHMMの例を示している。
図2の学習部27では、状態が、例えば、100ないし数百個程度の、図5や図6に示したスパースな構造のHMMの学習が、特徴量記憶部26に記憶された画像の(フレームから抽出された)特徴量を用い、Baum-Welchの再推定法によって行われる。
学習部27での学習の結果得られるコンテンツモデルであるHMMは、コンテンツの画像(Visual)の特徴量のみを用いた学習によって得られるので、Visual HMMと呼ぶことができる。
ここで、HMMの学習に用いられる、特徴量記憶部26に記憶される特徴量は、連続値であるベクトルであり、HMMの観測確率bi(o)としては、確率分布関数が用いられる。
なお、HMMについては、例えば、Laurence Rabiner, Biing-Hwang Juang 共著、「音声認識の基礎(上・下)、NTTアドバンステクノロジ株式会社」や、本件出願人が先に提案した特願2008-064993号に記載されている。また、エルゴティック型のHMMや、スパースな構造のHMMの利用については、例えば、本件出願人が先に提案した特願2008-064994号に記載されている。
[特徴量の抽出]
図7は、図2の特徴量抽出部22による特徴量の抽出の処理を説明する図である。
特徴量抽出部22において、フレーム分割部23には、学習用コンテンツ選択部21からの学習用コンテンツの画像の各フレームが、時系列に供給される。
フレーム分割部23は、学習用コンテンツ選択部21から時系列に供給される学習用コンテンツのフレームを、順次、注目フレームとし、注目フレームを、複数のサブ領域Rkに分割して、サブ領域特徴量抽出部24に供給する。
ここで、図7では、注目フレームが、横×縦が4×4個の16個のサブ領域R1,R2,・・・,R16に等分されている。
なお、1フレームをサブ領域Rkに分割するときの、サブ領域Rkの数は、4×4個の16個に限定されるものではない。すなわち、1フレームは、例えば、5×4個の20個のサブ領域Rkや、5×5個の25個のサブ領域Rk等に分割することができる。
また、図7では、1フレームが、同一のサイズのサブ領域Rkに分割(等分)されているが、サブ領域のサイズは、同一でなくても良い。すなわち、例えば、フレームの中央部分は、小さなサイズのサブ領域に分割し、フレームの周辺部分(画枠に隣接する部分等)は、大きなサイズのサブ領域に分割することができる。
サブ領域特徴量抽出部24(図2)は、フレーム分割部23からの注目フレームの各サブ領域Rkのサブ領域特徴量fk=FeatExt(Rk)を抽出し、結合部25に供給する。
すなわち、サブ領域特徴量抽出部24は、サブ領域Rkの画素値(例えば、RGB成分や、YUV成分等)を用い、サブ領域Rkの大域的な特徴量を、サブ領域特徴量fkとして求める。
ここで、サブ領域Rkの大域的な特徴量とは、サブ領域Rkを構成する画素の位置の情報を用いずに、画素値だけを用いて、加法的に計算される、例えば、ヒストグラムのような特徴量をいう。
大域的な特徴量としては、例えば、GISTと呼ばれる特徴量を採用することができる。GISTについては、例えば、A. Torralba, K. Murphy, W. Freeman, M. Rubin, "Context-based vision system for place and object recognition", IEEE Int. Conf. Computer Vision, vol. 1, no. 1, pp. 273-280, 2003.に、詳細が記載されている。
なお、大域的な特徴量は、GISTに限定されるものではない。すなわち、大域的な特徴量は、局所的な位置、明度、視点等の見えの変化に対して頑強な(変化を吸収するような)(Robustな)特徴量であれば良い。そのような特徴量としては、例えば、HLCA(局所高次相関)や、LBP(Local Binary Patterns)、カラーヒストグラム等がある。
HLCAについては、例えば、N. Otsu, T. Kurita, "A new scheme for practical flexible and intelligent vision systems", Proc. IAPR Workshop on Computer Vision, pp.431-435, 1988に、詳細が記載されている。LBPについては、例えば、Ojala T, Pietikainen M & Maenpaa T, "Multiresolution gray-scale and rotation invariant texture classification with Local Binary Patterns", IEEE Transactions on Pattern Analysis and Machine Intelligence 24(7):971-987に、詳細が記載されている(Pietikainen、及び、Maenpaaの"a"は、正確には、"a"の上部に、"・・"を付加した文字)。
ここで、上述のGISTや、LBP,HLCA、カラーヒストグラム等の大域的な特徴量は、次元数が大となる傾向があるが、次元間の相関が高い傾向もある。
そこで、サブ領域特徴量抽出部24(図2)では、サブ領域Rkから、GIST等を抽出した後、そのGIST等の主成分分析(PCA(principal component analysis))を行うことができる。そして、サブ領域特徴量抽出部24では、PCAの結果に基づき、累積寄与率が、ある程度高い値(例えば、95%等以上の値)となるように、GIST等の次元数を圧縮(制限)し、その圧縮結果を、サブ領域特徴量とすることができる。
この場合、GIST等を、次元数を圧縮したPCA空間に射影した射影ベクトルが、GIST等の次元数を圧縮した圧縮結果となる。
結合部25(図2)は、サブ領域特徴量抽出部24からの注目フレームのサブ領域R1ないしR16のサブ領域特徴量f1ないしf16を結合し、その結合結果を、注目フレームの特徴量として、特徴量記憶部26に供給する。
すなわち、結合部25は、サブ領域特徴量抽出部24からのサブ領域特徴量f1ないしf16を結合することにより、そのサブ領域特徴量f1ないしf16をコンポーネントとするベクトルを生成し、そのベクトルを、注目フレームの特徴量Ftとして、特徴量記憶部26に供給する。
ここで、図7では、時刻tのフレーム(フレームt)が、注目フレームとなっている。時刻tとは、例えば、コンテンツの先頭を基準とする時刻であり、本実施の形態において、時刻tのフレームとは、コンテンツの先頭からt番目のフレームを意味する。
図2の特徴量抽出部22では、学習用コンテンツの各フレームが、先頭から順次、注目フレームとされ、上述したようにして、特徴量Ftが求められる。そして、学習用コンテンツの各フレームの特徴量Ftは、時系列に(時間的な前後関係を維持した状態で)、特徴量抽出部22から特徴量記憶部26に供給されて記憶される。
以上のように、特徴量抽出部22では、サブ領域特徴量fkとして、サブ領域Rkの大域的な特徴量が求められ、そのサブ領域特徴量fkをコンポーネントとするベクトルが、フレームの特徴量Ftとして求められる。
したがって、フレームの特徴量Ftは、局所的な変化(サブ領域内で起こる変化)に対しては頑強であるが、フレーム全体としてのパターンの配置の変化に対してはディスクリミネイティブ(鋭敏に違いを見分ける性質)であるような特徴量となる。
このような特徴量Ftによれば、フレーム間のシーン(内容)の類似性を、適切に判定することができる。例えば、「浜辺」のシーンは、フレームの上方に「空」があり、中央に「海」があり、画面下方に「砂浜」があればよく、「砂浜」のどこに人がいるかや、「空」のどこに雲があるか等は、シーンが「浜辺」のシーンであるかどうかに関係がない。特徴量Ftは、このような観点からシーンの類似性を判定する(シーンを分類する)のに適している。
[コンテンツモデル学習処理]
図8は、図2のコンテンツモデル学習部12が行う処理(コンテンツモデル学習処理)を説明するフローチャートである。
ステップS11において、学習用コンテンツ選択部21は、コンテンツ記憶部11に記憶されたコンテンツの中から、所定のカテゴリに属する1以上のコンテンツを、学習用コンテンツとして選択する。
すなわち、例えば、学習用コンテンツ選択部21は、コンテンツ記憶部11に記憶されたコンテンツの中から、まだ、学習用コンテンツとしていない任意の1つのコンテンツを、学習用コンテンツとして選択する。
さらに、学習用コンテンツ選択部21は、学習用コンテンツとして選択した1つのコンテンツのカテゴリを認識し、そのカテゴリに属する他のコンテンツが、コンテンツ記憶部11に記憶されている場合には、そのコンテンツ(他のコンテンツ)を、さらに、学習用コンテンツとして選択する。
学習用コンテンツ選択部21は、学習用コンテンツを、特徴量抽出部22に供給し、処理は、ステップS11からステップS12に進む。
ステップS12では、特徴量抽出部22のフレーム分割部23が、学習用コンテンツ選択部21からの学習用コンテンツの中の、まだ、注目学習用コンテンツ(以下、注目コンテンツともいう)に選択していない学習用コンテンツの1つを、注目コンテンツに選択する。
そして、処理は、ステップS12からステップS13に進み、フレーム分割部23は、注目コンテンツのフレームのうちの、まだ、注目フレームとしていない、時間的に最も先行するフレームを、注目フレームに選択し、処理は、ステップS14に進む。
ステップS14では、フレーム分割部23は、注目フレームを、複数のサブ領域に分割し、サブ領域特徴量抽出部24に供給して、処理は、ステップS15に進む。
ステップS15では、サブ領域特徴量抽出部24は、フレーム分割部23からの複数のサブ領域それぞれのサブ領域特徴量を抽出し、結合部25に供給して、処理は、ステップS16に進む。
ステップS16では、結合部25は、サブ領域特徴量抽出部24からの、注目フレームを構成する複数のサブ領域それぞれのサブ領域特徴量を結合することで、注目フレームの特徴量を生成し、処理は、ステップS17に進む。
ステップS17では、フレーム分割部23は、注目コンテンツのすべてのフレームを注目フレームとしたかどうかを判定する。
ステップS17において、注目コンテンツのフレームの中に、まだ、注目フレームとしていないフレームがあると判定された場合、処理は、ステップS13に戻り、以下、同様の処理が繰り返される。
また、ステップS17において、注目コンテンツのすべてのフレームを注目フレームとしたと判定された場合、処理は、ステップS18に進み、結合部25は、注目コンテンツについて求めた注目コンテンツの各フレームの特徴量(の時系列)を、特徴量記憶部26に供給して記憶させる。
そして、処理は、ステップS18からステップS19に進み、フレーム分割部23は、学習用コンテンツ選択部21からの学習用コンテンツのすべてを、注目コンテンツとしたかどうかを判定する。
ステップS19において、学習用コンテンツの中に、まだ、注目コンテンツとしていない学習用コンテンツがあると判定された場合、処理は、ステップS12に戻り、以下、同様の処理が繰り返される。
また、ステップS19において、学習用コンテンツのすべてを、注目コンテンツとしたと判定された場合、処理は、ステップS20に進み、学習部27は、特徴量記憶部26に記憶された、学習用コンテンツの特徴量(各フレームの特徴量の時系列)を用いて、HMMの学習を行う。
そして、学習部27は、学習後のHMMを、コンテンツモデルとして、学習用コンテンツのカテゴリと対応付けて、モデル記憶部13に出力(供給)し、コンテンツモデル学習処理を終了する。
なお、コンテンツモデル学習処理は、任意のタイミングで開始することができる。
以上のコンテンツモデル学習処理によれば、HMMにおいて、学習用コンテンツに潜む、コンテンツの構造(例えば、番組構成や、カメラワーク等が作り出す構造)が自己組織的に獲得される。
その結果、コンテンツモデル学習処理よって得られるコンテンツモデルとしてのHMMの各状態は、学習によって獲得されたコンテンツの構造の要素に対応し、状態遷移は、コンテンツの構造の要素どうしの間での、時間的な遷移を表現する。
そして、コンテンツモデルの状態は、特徴量空間(特徴量抽出部22(図2)で抽出される特徴量の空間)において、空間的な距離が近く、かつ、時間的な前後関係が似ているフレーム群(つまり「似たシーン」)をまとめて表現する。
ここで、例えば、コンテンツがクイズ番組である場合には、大雑把には、クイズの出題、ヒントの提示、出演者による解答、正解発表、という流れを、番組の基本的な流れとして、この基本的な流れの繰り返しによって、クイズ番組が進行していく。
上述の番組の基本的な流れが、コンテンツの構造に相当し、その流れ(構造)を構成する、クイズの出題、ヒントの提示、出演者による解答、正解発表のそれぞれが、コンテンツの構造の要素に相当する。
また、例えば、クイズの出題から、ヒントの提示への進行等が、コンテンツの構造の要素どうしの間での、時間的な遷移に相当する。
[コンテンツ構造提示部14の構成例]
図9は、図1のコンテンツ構造提示部14の構成例を示すブロック図である。
上述したように、コンテンツモデルは、学習用コンテンツに潜む、コンテンツの構造を獲得するが、コンテンツ構造提示部14は、そのコンテンツの構造を可視化して、ユーザに提示する。
すなわち、コンテンツ構造提示部14は、コンテンツ選択部31、モデル選択部32、特徴量抽出部33、最尤状態系列推定部34、状態対応画像情報生成部35、状態間距離算出部36、座標算出部37、マップ描画部38、及び、表示制御部39から構成される。
コンテンツ選択部31は、例えば、ユーザの操作等に応じて、コンテンツ記憶部11に記憶されたコンテンツの中から、構造を可視化するコンテンツを、注目提示用コンテンツ(以下、単に、注目コンテンツともいう)に選択する。
そして、コンテンツ選択部31は、注目コンテンツを、特徴量抽出部33と、状態対応画像情報生成部35とに供給する。また、コンテンツ選択部31は、注目コンテンツのカテゴリを認識し、モデル選択部32に供給する。
モデル選択部32は、モデル記憶部13に記憶されたコンテンツモデルの中から、コンテンツ選択部31からの、注目コンテンツのカテゴリと一致するカテゴリのコンテンツモデル(注目コンテンツのカテゴリに対応付けられたコンテンツモデル)を、注目モデルに選択する。
そして、モデル選択部32は、注目モデルを、最尤状態系列推定部34と、状態間距離算出部36とに供給する。
特徴量抽出部33は、コンテンツ選択部31から供給される注目コンテンツの(画像の)各フレームの特徴量を、図2の特徴抽出部22と同様にして抽出し、注目コンテンツの各フレームの特徴量(の時系列)を、最尤状態系列推定部34に供給する。
最尤状態系列推定部34は、例えば、Viterbiアルゴリズムに従い、モデル選択部32からの注目モデルにおいて、特徴量抽出部33からの注目コンテンツの特徴量(の時系列)が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列(いわゆるビタビパスを構成する状態の系列)を推定する。
そして、最尤状態系列推定部34は、注目モデルにおいて、注目コンテンツの特徴量が観測される場合の最尤状態系列(以下、注目コンテンツに対する注目モデルの最尤状態系列ともいう)を、状態対応画像情報生成部35に供給する。
ここで、注目コンテンツに対する注目モデルの最尤状態系列の先頭を基準とする時刻tの状態(最尤状態系列を構成する、先頭からt番目の状態)を、s(t)と表すとともに、注目コンテンツのフレーム数を、Tと表すこととする。
この場合、注目コンテンツに対する注目モデルの最尤状態系列は、T個の状態s(1),S(2),・・・,s(T)の系列であり、そのうちのt番目の状態(時刻tの状態)s(t)は、注目コンテンツの時刻tのフレーム(フレームt)に対応する。
また、注目モデルの状態の総数をNと表すこととすると、時刻tの状態s(t)は、N個の状態s1,s2,・・・,sNのうちのいずれかである。
さらに、N個の状態s1,s2,・・・,sNのそれぞれには、状態を特定するインデクスである状態ID(Identification)が付されている。
いま、注目コンテンツに対する注目モデルの最尤状態系列の時刻tの状態s(t)が、N個の状態s1ないしsNのうちのi番目の状態siであるとすると、時刻tのフレームは、状態siに対応する。
したがって、注目コンテンツの各フレームは、N個の状態s1ないしsNのうちのいずれかに対応する。
注目コンテンツに対する注目モデルの最尤状態系列の実体は、注目コンテンツの各時刻tのフレームが対応する、N個の状態s1ないしsNのうちのいずれかの状態の状態IDの系列である。
以上のような、注目コンテンツに対する注目モデルの最尤状態系列は、注目コンテンツが、注目モデル上において、どのような状態遷移を起こすかを表現する。
状態対応画像情報生成部35は、最尤状態系列推定部34からの最尤状態系列(状態IDの系列)を構成する状態の状態IDごとに、同一の状態に対応するフレームを、コンテンツ選択部31からの注目コンテンツの中から選択する。
すなわち、状態対応画像情報生成部35は、注目モデルのN個の状態s1ないしsNを、順次、注目状態に選択する。
いま、状態IDが#iの状態siが注目状態に選択されたこととすると、状態対応画像情報生成部35は、最尤状態系列の中から、注目状態に一致する状態(状態IDが#iの状態)を検索し、その状態に対応するフレームを、注目状態の状態IDと対応付けて記憶する。
そして、状態対応画像情報生成部35は、状態IDと対応付けられたフレームを加工し、その状態IDに対応する画像情報(以下、状態対応画像情報ともいう)を生成して、マップ描画部38に供給する。
ここで、状態対応画像情報としては、例えば、状態IDと対応付けられた1以上のフレームのサムネイルを時系列順に配置した静止画(画像列)や、状態IDと対応付けられた1以上のフレームを縮小して、時系列順に並べた動画(ムービー)等を採用することができる。
なお、状態対応画像情報生成部35は、注目モデルのN個の状態s1ないしsNの状態IDのうちの、最尤状態系列の中に登場しない状態の状態IDについては、状態対応画像情報を生成しない(生成することができない)。
状態間距離算出部36は、モデル選択部32からの注目モデルの1つの状態siから他の1つの状態sjへの状態間距離dij *を、1つの状態siから他の1つの状態sjへの状態遷移確率aijに基づいて求める。そして、状態間距離算出部36は、注目モデルのN個の状態の任意の状態siから任意の状態sjへの状態間距離dij *を求めると、その状態間距離dij *をコンポーネントとするN行N列の行列(状態間距離行列)を、座標算出部37に供給する。
ここで、状態間距離算出部36は、例えば、状態遷移確率aijが所定の閾値(例えば、(1/N)×10-2)より大である場合、状態間距離dij *を、例えば、0.1(小さい値)とし、状態遷移確率aijが所定の閾値以下である場合、状態間距離dij *を、例えば、1.0(大きい値)とする。
座標算出部37は、注目モデルのN個の状態s1ないしsNが配置される2次元又は3次元のマップであるモデルマップ上の、1つの状態siから他の1つの状態sjへのユークリッド距離dijと、状態間距離算出部36からの状態間距離行列の状態間距離dij *との誤差が小さくなるように、モデルマップ上の状態siの位置の座標である状態座標Yiを求める。
すなわち、座標算出部37は、ユークリッド距離dijと、状態間距離dij *との統計的な誤差に比例するSammon Mapのエラー関数Eを最小にするように、状態座標Yiを求める。
ここで、Sammon Mapは、多次元尺度法の1つであり、その詳細は、例えば、J. W. Sammon, JR., "A Nonlinear Mapping for Data Structure Analysis", IEEE Transactions on Computers, vol. C-18, No. 5, May 1969に記載されている。
Sammon Mapでは、例えば、式(1)のエラー関数Eを最小にするように、例えば、2次元のマップであるモデルマップ上の状態座標Yi=(xi,yi)が求められる。
ここで、式(1)において、Nは、注目モデルの状態の総数を表し、i及びjは、1ないしNの範囲の整数値をとる、状態のインデクスである(本実施の形態では、状態IDでもある)。
dij *は、状態間距離行列の第i行第j列の要素を表し、状態siから状態sjへの状態間距離を表す。dijは、モデルマップ上の、状態siの位置の座標(状態座標)Yiと、状態sjの位置の座標Yjとの間のユークリッド距離を表す。
座標算出部37は、式(1)のエラー関数Eが最小になるように、状態座標Yi(i=1,2,・・・,N)を、勾配法の反復適用により求め、マップ描画部38に供給する。
マップ描画部38は、座標算出部37からの状態座標Yiの位置に、対応する状態si(の画像)を配置したモデルマップ(のグラフィクス)を描画する。また、マップ描画部38は、モデルマップ上の状態どうしの間を、その状態どうしの間の状態遷移確率に応じて結ぶ線分を描画する。
さらに、マップ描画部38は、モデルマップ上の状態siに、状態対応画像情報生成部35からの状態対応画像情報のうちの、状態siの状態IDに対応する状態対応画像情報をリンク付けし、表示制御部39に供給する。
表示制御部39は、マップ描画部38からモデルマップを、図示せぬディスプレイに表示する表示制御を行う。
図10は、図9のコンテンツ構造提示部14が行う処理(コンテンツ構造提示処理)の概要を説明する図である。
図10のAは、コンテンツ選択部31において注目コンテンツ(注目提示用コンテンツ)として選択されたコンテンツのフレームの時系列を示している。
図10のBは、特徴量抽出部33において抽出された、図10のAのフレームの時系列の特徴量の時系列を示している。
図10のCは、最尤状態系列推定部34において推定された、注目モデルにおいて、図10のBの注目コンテンツの特徴量の時系列が観測される最尤状態系列(注目コンテンツに対する注目モデルの最尤状態系列)を示している。
ここで、注目コンテンツに対する注目モデルの最尤状態系列の実体は、上述したように、状態IDの系列である。そして、注目コンテンツに対する注目モデルの最尤状態系列の先頭からt番目の状態IDは、最尤状態系列において、注目コンテンツのt番目(時刻t)のフレームの特徴量が観測される状態の状態ID(フレームtに対応する状態の状態ID)である。
図10のDは、状態対応画像情報生成部35において生成される状態対応画像情報を示している。
図10のDでは、図10のCの最尤状態系列において、状態IDが"1"の状態に対応するフレームが選択され、その状態IDに対応する状態対応画像情報としてのムービーや画像列が生成されている。
図11は、図9のマップ描画部38で描画されるモデルマップの例を示す図である。
図11のモデルマップにおいて、楕円は、状態を表し、楕円どうしを結ぶ線分(点線)は、状態遷移を表す。また、楕円に付してある数字は、その楕円が表す状態の状態IDを表す。
モデルマップ描画部38は、上述したように、座標算出部37で求められる状態座標Yiの位置に、対応する状態si(の画像(図11では、楕円))を配置したモデルマップ(のグラフィクス)を描画する。
さらに、マップ描画部38は、モデルマップ上の状態どうしの間を、その状態どうしの間の状態遷移確率に応じて結ぶ線分を描画する。すなわち、マップ描画部38は、モデルマップ上の状態siから他の状態sjへの状態遷移確率が、所定の閾値より大である場合には、それらの状態siとsjとの間を結ぶ線分を描画する。
ここで、モデルマップにおいて、状態等は、強調して描画することができる。
すなわち、図11のモデルマップにおいて、状態siは、楕円(円を含む)等で描画されるが、この状態siを表す楕円等は、例えば、その状態siの観測確率bj(o)となる確率分布関数としてのガウス分布の分散に応じて、半径や色を変化させて描画することができる。
また、モデルマップ上の状態どうしの間を、その状態どうしの間の状態遷移確率に応じて結ぶ線分は、状態遷移確率の大きさに応じて、線分の幅や色を変化させて描画することができる。
なお、状態等を強調して描画する方法は、上述のような描画に限定されるものではない。さらに、状態等の強調は、必ずしも行う必要はない。
ところで、図9の座標算出部37において、式(1)のエラー関数Eを、そのまま採用し、エラー関数Eを最小にするように、モデルマップ上の状態座標Yiを求めた場合、状態(を表す楕円)は、図11に示したように、モデルマップ上に、円状に配置される。
そして、この場合、モデルマップの円周付近(外側)(外縁)に、状態が密集し、状態の配置が見にくくなって、いわば、可視性が損なわれることがある。
そこで、図9の座標算出部37では、式(1)のエラー関数Eを修正し、修正後のエラー関数Eを最小にするように、モデルマップ上の状態座標Yiを求めることができる。
すなわち、座標算出部37では、ユークリッド距離dijが、所定の閾値THd(例えば、THd=1.0等)より大であるかどうかを判定する。
そして、ユークリッド距離dijが、所定の閾値THdより大でない場合には、座標算出部37は、式(1)のエラー関数の演算において、ユークリッド距離dijとして、そのユークリッド距離dijを、そのまま用いる。
一方、ユークリッド距離dijが、所定の閾値THdより大である場合には、座標算出部37は、式(1)のエラー関数の演算において、ユークリッド距離dijとして、状態間距離dij *を用いる(dij=dij *とする)(ユークリッド距離dijを、状態間距離dij *に等しい距離とする)。
この場合、モデルマップにおいて、ユークリッド距離dijが、ある程度近い(閾値THdより大でない)2つの状態si及びsjに注目したときには、状態座標Yi及びYjは、ユークリッド距離dijと状態間距離dij *とが一致するように(ユークリッド距離dijが状態間距離dij *に近づくように)変更される。
一方、モデルマップにおいて、ユークリッド距離dijが、ある程度遠い(閾値THdより大の)2つの状態si及びsjに注目したときには、状態座標Yi及びYjは、変更されない。
その結果、ユークリッド距離dijが、ある程度遠い2つの状態si及びsjは、ユークリッド距離dijが遠いままとされるので、図11に示したように、モデルマップの円周(外縁)付近に、状態が密集することによって、可視性が損なわれることを防止することができる。
図12は、修正後のエラー関数Eを用いて得られるモデルマップの例を示す図である。
図12のモデルマップによれば、円周付近に、状態が密集していないことを確認することができる。
[コンテンツ構造提示処理]
図13は、図9のコンテンツ構造提示部14が行うコンテンツ構造提示処理を説明するフローチャートである。
ステップS41において、コンテンツ選択部31は、例えば、ユーザの操作等に応じて、コンテンツ記憶部11に記憶されたコンテンツの中から、注目コンテンツ(注目提示用コンテンツ)を選択する。
そして、コンテンツ選択部31は、注目コンテンツを、特徴量抽出部33と、状態対応画像情報生成部35とに供給する。また、コンテンツ選択部31は、注目コンテンツのカテゴリを認識し、モデル選択部32に供給して、処理は、ステップS41からステップS42に進む。
ステップS42では、モデル選択部32は、モデル記憶部13に記憶されたコンテンツモデルの中から、コンテンツ選択部31からの、注目コンテンツのカテゴリに対応付けられたコンテンツモデルを、注目モデルに選択する。
そして、モデル選択部32は、注目モデルを、最尤状態系列推定部34と、状態間距離算出部36とに供給し、処理は、ステップS42からステップS43に進む。
ステップS43では、特徴量抽出部33は、コンテンツ選択部31からの注目コンテンツの各フレームの特徴量を抽出し、注目コンテンツの各フレームの特徴量(の時系列)を、最尤状態系列推定部34に供給して、処理は、ステップS44に進む。
ステップS44では、最尤状態系列推定部34は、モデル選択部32からの注目モデルにおいて、特徴量抽出部33からの注目コンテンツの特徴量が観測される最尤状態系列(注目コンテンツに対する注目モデルの最尤状態系列)を推定する。
そして、最尤状態系列推定部34は、注目コンテンツに対する注目モデルの最尤状態系列を、状態対応画像情報生成部35に供給し、処理は、ステップS44からステップS45に進む。
ステップS45では、状態対応画像情報生成部35は、最尤状態系列推定部34からの最尤状態系列(状態IDの系列)を構成する状態の状態IDごとに、同一の状態に対応するフレームを、コンテンツ選択部31からの注目コンテンツの中から選択する。
さらに、状態対応画像情報生成部35は、状態IDと対応付けて、その状態IDの状態に対応するフレームを記憶する。また、状態対応画像情報生成部35は、状態IDと対応付けられたフレームを加工することで、状態対応画像情報を生成する。
そして、状態対応画像情報生成部35は、状態IDに対応する状態対応画像情報を、マップ描画部38に供給し、処理は、ステップS45からステップS46に進む。
ステップS46では、状態間距離算出部36は、モデル選択部32からの注目モデルの1つの状態siから他の1つの状態sjへの状態間距離dij *を、状態遷移確率aijに基づいて求める。そして、状態間距離算出部36は、注目モデルのN個の状態の任意の状態siから任意の状態sjへの状態間距離dij *を求めると、その状態間距離dij *をコンポーネントとする状態間距離行列を、座標算出部37に供給し、処理は、ステップS46からステップS47に進む。
ステップS47では、座標算出部37は、モデルマップ上の、1つの状態siから他の1つの状態sjへのユークリッド距離dijと、状態間距離算出部36からの状態間距離行列の状態間距離dij *との統計的な誤差である式(1)のエラー関数Eを最小にするように、状態座標Yi=(xi,yi)を求める。
そして、座標算出部37は、状態座標Yi=(xi,yi)を、マップ描画部38に供給して、処理は、ステップS47からステップS48に進む。
ステップS48では、マップ描画部38は、座標算出部37からの状態座標Yi=(xi,yi)の位置に、対応する状態si(の画像)を配置した、例えば、2次元のモデルマップ(のグラフィクス)を描画する。さらに、マップ描画部38は、モデルマップ上の、状態遷移確率が所定の閾値以上の状態どうしの間を結ぶ線分を描画し、処理は、ステップS48からステップS49に進む。
ステップS49では、マップ描画部38は、モデルマップ上の状態siに、状態対応画像情報生成部35からの状態対応画像情報のうちの、状態siの状態IDに対応する状態対応画像情報をリンク付けし、表示制御部39に供給して、処理は、ステップS50に進む。
ステップS50では、表示制御部39は、マップ描画部38からモデルマップを、図示せぬディスプレイに表示する表示制御を行う。
さらに、表示制御部39は、ユーザの操作による、モデルマップ上の状態の指定に対して、その状態の状態IDに対応する状態対応画像情報を表示する表示制御(再生する再生制御)を行う。
すなわち、ユーザが、モデルマップ上の状態を指定する操作を行うと、表示制御部39は、その状態にリンク付けされた状態対応画像情報を、例えば、モデルマップとは別に、図示せぬディスプレイに表示させる。
これにより、ユーザは、モデルマップ上の状態に対応するフレームの画像を確認することができる。
[ダイジェスト生成部15の構成例]
図14は、図1のダイジェスト生成部15の構成例を示すブロック図である。
ダイジェスト生成部15は、ハイライト検出器学習部51、検出器記憶部52、及び、ハイライト検出部53から構成される。
ハイライト検出器学習部51は、コンテンツ記憶部11に記憶されたコンテンツと、モデル記憶部13に記憶されたコンテンツモデルとを用いて、ユーザの興味があるシーンを、ハイライトシーンとして検出するためのモデルであるハイライト検出器の学習を行う。
ハイライト検出器学習部51は、学習後のハイライト検出器を、検出器記憶部52に供給する。
ここで、ハイライト検出器となるモデルとしては、コンテンツモデルと同様に、状態遷移確率モデルの1つである、例えば、HMMを用いることができる。
検出器記憶部52は、ハイライト検出器学習部51からのハイライト検出器を記憶する。
ハイライト検出部53は、検出器記憶部52に記憶されたハイライト検出器を用い、コンテンツ記憶部11に記憶されたコンテンツから、ハイライトシーンのフレームを検出する。さらに、ハイライト検出部53は、ハイライトシーンのフレームを用いて、コンテンツ記憶部11に記憶されたコンテンツのダイジェストであるダイジェストコンテンツを生成する。
[ハイライト検出器学習部51の構成例]
図15は、図14のハイライト検出器学習部51の構成例を示すブロック図である。
図15において、ハイライト検出器学習部51は、コンテンツ選択部61、モデル選択部62、特徴量抽出部63、最尤状態系列推定部64、ハイライトラベル生成部65、学習用ラベル生成部66、及び、学習部67から構成される。
コンテンツ選択部61は、例えば、ユーザの操作等に応じて、コンテンツ記憶部11に記憶されたコンテンツの中から、ハイライト検出器の学習に用いるコンテンツを、注目検出器学習用コンテンツ(以下、単に、注目コンテンツともいう)に選択する。
すなわち、コンテンツ選択部61は、例えば、コンテンツ記憶部11に記憶されたコンテンツである、例えば、録画済みの番組の中から、ユーザが、再生の対象として指定したコンテンツを、注目コンテンツに選択する。
そして、コンテンツ選択部61は、注目コンテンツを、特徴量抽出部63に供給するとともに、注目コンテンツのカテゴリを認識し、モデル選択部62に供給する。
モデル選択部62は、モデル記憶部13に記憶されたコンテンツモデルの中から、コンテンツ選択部61からの、注目コンテンツのカテゴリに対応付けられたコンテンツモデルを、注目モデルに選択し、最尤状態系列推定部64に供給する。
特徴量抽出部63は、コンテンツ選択部61から供給される注目コンテンツの各フレームの特徴量を、図2の特徴抽出部22と同様にして抽出し、注目コンテンツの各フレームの特徴量(の時系列)を、最尤状態系列推定部64に供給する。
最尤状態系列推定部64は、モデル選択部62からの注目モデルにおいて、特徴量抽出部63からの注目コンテンツの特徴量(の時系列)が観測される尤度が最も高い状態遷移が生じる最尤状態系列(注目コンテンツに対する注目モデルの最尤状態系列)を、図9の最尤状態系列推定部34と同様にして推定する。
そして、最尤状態系列推定部64は、注目コンテンツに対する注目モデルの最尤状態系列を、学習用ラベル生成部66に供給する。
ハイライトラベル生成部65は、ユーザの操作に従い、ハイライトシーンであるか否かを表すハイライトラベルを、コンテンツ選択部61で選択された注目コンテンツの各フレームにラベリングすることにより、注目コンテンツについて、ハイライトラベル系列を生成する。
すなわち、コンテンツ選択部61が選択する注目コンテンツは、上述したように、ユーザが、再生の対象として指定したコンテンツであり、注目コンテンツの画像は、図示せぬディスプレイに表示される(とともに、音声は、図示せぬスピーカから出力される)。
ユーザは、ディスプレイに、興味があるシーンが表示されたときに、図示せぬリモートコマンダ等を操作して、興味があるシーンである旨を入力することができ、ハイライトラベル生成部65は、そのようなユーザの操作に従って、ハイライトラベルを生成する。
具体的には、例えば、興味があるシーンである旨を入力するときの、ユーザの操作を、お気に入り操作ということとすると、ハイライトラベル生成部65は、お気に入り操作がされなかったフレームに対しては、ハイライトシーンでないことを表す、例えば、値が"0"のハイライトラベルを生成する。
また、ハイライトラベル生成部65は、お気に入り操作がされたフレームに対しては、ハイライトシーンであることを表す、例えば、値が"1"のハイライトラベルを生成する。
そして、ハイライトラベル生成部65は、注目コンテンツについて生成したハイライトラベルの時系列であるハイライトラベル系列を、学習用ラベル生成部66に供給する。
学習用ラベル生成部66は、最尤状態系列推定部64からの、注目コンテンツに対する注目モデルの最尤状態系列(注目コンテンツから得られる最尤状態系列)である状態IDの系列と、ハイライトラベル生成部65からのハイライトラベル系列とのペアである学習用ラベル系列を生成する。
すなわち、学習用ラベル生成部66は、最尤状態系列推定部64からの最尤状態系列である状態IDと、ハイライトラベル生成部65からのハイライトラベル系列とにおける、各時刻tの状態ID(フレームtに対応する状態の状態ID)と、ハイライトラベル(フレームtに対するハイライトラベル)とをペアにした、マルチストリームの学習用ラベル系列を生成する。
そして、学習用ラベル生成部66は、学習用ラベル系列を、学習部67に供給する。
学習部67は、学習用ラベル生成部66からの学習用ラベル系列を用いて、例えば、エルゴディック型の、マルチストリームHMMであるハイライト検出器の学習を、Baum-Welchの再推定法に従って行う。
そして、学習部67は、学習後のハイライト検出器を、コンテンツ選択部61で選択された注目コンテンツのカテゴリと対応付けて、検出器記憶部52に供給して記憶させる。
ここで、ハイライトラベル生成部65で得られるハイライトラベルは、値が"0"又は"1"の2値のラベル(シンボル)であり、離散値である。また、最尤状態系列推定部64において、注目コンテンツから得られる最尤状態系列は、状態IDの系列であり、やはり、離散値である。
したがって、学習用ラベル生成部66において、そのようなハイライトラベルと最尤状態系列とのペアとして生成される学習用ラベル系列も離散値(の時系列)である。このように、学習用ラベル系列が離散値であるため、学習部67で学習が行われるハイライト検出器としてのHMMの観測確率bj(o)は、確率となる値(離散値)そのものとなる。
なお、マルチストリームHMMでは、マルチストリームを構成する個々の系列(ストリーム)(以下、構成要素系列ともいう)に対して、その構成要素系列をマルチストリームHMMに影響させる度合いである重み(以下、系列重みともいう)を設定することができる。
マルチストリームHMMの学習時や、マルチストリームHMMを用いた認識時(最尤状態系列を求めるとき)に重要視する構成要素系列に対して、大きな系列重みを設定することで、マルチストリームHMMの学習結果が局所解に陥らないように事前知識を与えることができる。
なお、マルチストリームHMMの詳細は、例えば、田村 哲嗣, 岩野 公司, 古井 貞煕,「オプティカルフローを用いたマルチモーダル音声認識の検討」、日本音響学会 2001年秋季講演論文集, 1-1-14, pp.27-28 (2001-10)等に記載されている。
上述の文献では、audio-visual speech recognition の分野での、マルチストリームHMMの使用例が紹介されている。すなわち、音声のSN比(Signal to Noise ratio)が低いときは、音声の特徴量の系列の系列重みを低くし、音声よりも画像の影響がより大きくなるようにして、学習と認識を行うことが記載されている。
マルチストリームHMMが、マルチストリームでない単一の系列を用いるHMMと異なる点は、式(2)に示すように、マルチストリームを構成する各構成要素系列o[m]の観測確率b[m]j(o[m])に、事前に設定した系列重みWmを考慮して、マルチストリーム全体の観測確率bj(o[1],o[2],・・・,o[M])を計算する点である。
ここで、式(2)において、Mは、マルチストリームを構成する構成要素系列o[m]の数(ストリーム数)を表し、系列重みWmは、マルチストリームを構成するM個の構成要素系列のうちのm番目の構成要素系列o[m]の系列重みを表す。
図15の学習部67で学習に用いられるマルチストリームである学習用ラベル系列は、状態IDの系列o[V]とハイライトラベル系列o[HL]との2つの構成要素系列で構成される。
この場合、学習用ラベル系列の観測確率bj(o[V],o[HL])は、式(3)で表される。
ここで、式(3)において、b[V]j(o[V])は、状態IDの系列o[V]の観測確率(状態sjにおいて、観測値o[v]が観測される観測確率)を表し、b[HL]j(o[HL])は、ハイライトラベル系列o[HL]の観測確率を表す。また、Wは、状態IDの系列o[V]の系列重みを表し、1-Wは、ハイライトラベル系列o[HL]の系列重みを表す。
なお、ハイライト検出器としてのHMMの学習では、系列重みWとしては、例えば、0.5を採用することができる。
図16は、図15のハイライトラベル生成部65の処理を説明する図である。
ハイライトラベル生成部65は、ユーザによるお気に入り操作がされなかった注目コンテンツのフレーム(時刻)に対しては、ハイライトシーンでないことを表す、値が"0"のハイライトラベルを生成する。また、ハイライトラベル生成部65は、ユーザによるお気に入り操作がされた注目コンテンツのフレームに対しては、ハイライトシーンであることを表す、値が"1"のハイライトラベルを生成する。
[ハイライト検出器学習処理]
図17は、図15のハイライト検出器学習部51が行う処理(ハイライト検出器学習処理)を説明するフローチャートである。
ステップS71では、コンテンツ選択部61は、コンテンツ記憶部11に記憶されたコンテンツの中から、例えば、ユーザの操作によって再生が指定されたコンテンツを、注目コンテンツ(注目検出器学習用コンテンツ)に選択する。
そして、コンテンツ選択部61は、注目コンテンツを、特徴量抽出部63に供給するとともに、注目コンテンツのカテゴリを認識し、モデル選択部62に供給して、処理は、ステップS71からステップS72に進む。
ステップS72では、モデル選択部62は、モデル記憶部13に記憶されたコンテンツモデルの中から、コンテンツ選択部61からの、注目コンテンツのカテゴリに対応付けられたコンテンツモデルを、注目モデルに選択する。
そして、モデル選択部62は、注目モデルを、最尤状態系列推定部64に供給して、処理は、ステップS72からステップS73に進む。
ステップS73では、特徴量抽出部63は、コンテンツ選択部61から供給される注目コンテンツの各フレームの特徴量を抽出し、注目コンテンツの各フレームの特徴量(の時系列)を、最尤状態系列推定部64に供給して、処理は、ステップS74に進む。
ステップS74では、最尤状態系列推定部64は、モデル選択部62からの注目モデルにおいて、特徴量抽出部63からの注目コンテンツの特徴量(の時系列)が観測される尤度が最も高い状態遷移が生じる最尤状態系列(注目コンテンツに対する注目モデルの最尤状態系列)を推定する。
そして、最尤状態系列推定部64は、注目コンテンツに対する注目モデルの最尤状態系列を、学習用ラベル生成部66に供給して、処理は、ステップS74からステップS75に進む。
ステップS75では、ハイライトラベル生成部65は、ユーザの操作に従い、ハイライトラベルを、コンテンツ選択部61で選択された注目コンテンツの各フレームにラベリングすることにより、注目コンテンツについて、ハイライトラベル系列を生成する。
そして、ハイライトラベル生成部65は、注目コンテンツについて生成したハイライトラベル系列を、学習用ラベル生成部66に供給し、処理は、ステップS76に進む。
ステップS76では、学習用ラベル生成部66は、最尤状態系列推定部64からの、注目コンテンツに対する注目モデルの最尤状態系列である状態IDの系列と、ハイライトラベル生成部65からのハイライトラベル系列とのペアである学習用ラベル系列を生成する。
そして、学習用ラベル生成部66は、学習用ラベル系列を、学習部67に供給し、処理は、ステップS76からステップS77に進む。
ステップS77では、学習部67は、学習用ラベル生成部66からの学習用ラベル系列を用いて、HMMであるハイライト検出器の学習を行い、処理は、ステップS78に進む。
ステップS78では、学習部67は、学習後のハイライト検出器を、コンテンツ選択部61で選択された注目コンテンツのカテゴリと対応付けて、検出器記憶部52に供給して記憶させる。
以上のように、ハイライト検出器は、注目コンテンツに対する注目モデルの最尤状態系列である状態IDの系列と、ユーザの操作に応じて生成されるハイライトラベル系列とのペアである学習用ラベル系列を用いて、HMMの学習を行うことにより得られる。
したがって、ハイライト検出器の各状態の、ハイライトラベルo[HL]の観測確率b[HL]j(o[HL])を参照することにより、その状態で観測される(確率が高い)、コンテンツモデルの状態o[V]に対応するフレームが、ユーザの興味があるシーン(ハイライトシーン)であるかどうかを判定することができる。
[ハイライト検出部53の構成例]
図18は、図14のハイライト検出部53の構成例を示すブロック図である。
図18において、ハイライト検出部53は、コンテンツ選択部71、モデル選択部72、特徴量抽出部73、最尤状態系列推定部74、検出用ラベル生成部75、最尤状態系列推定部77、ハイライトシーン検出部78、ダイジェストコンテンツ生成部79、及び、再生制御部80から構成される。
コンテンツ選択部71は、例えば、ユーザの操作等に応じて、コンテンツ記憶部11に記憶されたコンテンツの中から、ハイライトシーンを検出する対象のコンテンツである注目ハイライト検出用コンテンツ(以下、単に、注目コンテンツともいう)を選択する。
すなわち、コンテンツ選択部71は、例えば、ダイジェストを生成するコンテンツとして、ユーザが指定したコンテンツを、注目コンテンツに選択する。あるいは、コンテンツ選択部71は、例えば、まだ、ダイジェストを生成していないコンテンツのうちの任意の1つのコンテンツを、注目コンテンツに選択する。
コンテンツ選択部71は、注目コンテンツを選択すると、その注目コンテンツを、特徴量抽出部73に供給するとともに、注目コンテンツのカテゴリを認識し、モデル選択部72と、検出器選択部76とに供給する。
モデル選択部72は、モデル記憶部13に記憶されたコンテンツモデルの中から、コンテンツ選択部71からの、注目コンテンツのカテゴリに対応付けられたコンテンツモデルを、注目モデルに選択し、最尤状態系列推定部74に供給する。
特徴量抽出部73は、コンテンツ選択部71から供給される注目コンテンツの各フレームの特徴量を、図2の特徴抽出部22と同様にして抽出し、注目コンテンツの各フレームの特徴量(の時系列)を、最尤状態系列推定部74に供給する。
最尤状態系列推定部74は、モデル選択部72からの注目モデルにおいて、特徴量抽出部73からの注目コンテンツの特徴量(の時系列)が観測される尤度が最も高い状態遷移が生じる最尤状態系列(注目コンテンツに対する注目モデルの最尤状態系列)を、図9の最尤状態系列推定部34と同様にして推定する。
そして、最尤状態系列推定部74は、注目コンテンツに対する注目モデルの最尤状態系列を、検出用ラベル生成部75に供給する。
検出用ラベル生成部75は、最尤状態系列推定部74からの、注目コンテンツに対する注目モデルの最尤状態系列(注目コンテンツから得られる最尤状態系列)である状態IDの系列と、ハイライトシーンでないこと(、又はハイライトシーンであること)を表すハイライトラベルのみのハイライトラベル系列とのペアである検出用ラベル系列を生成する。
すなわち、検出用ラベル生成部75は、ハイライトシーンでないことを表すハイライトラベルのみのハイライトラベル系列であって、最尤状態系列推定部74からの最尤状態系列と同一の長さ(系列長)のハイライトラベル系列を、ハイライト検出器に与える、いわばダミーの系列として生成する。
さらに、検出用ラベル生成部75は、最尤状態系列推定部74からの最尤状態系列である状態IDと、ダミーの系列としてのハイライトラベル系列における、各時刻tの状態ID(フレームtに対応する状態の状態ID)と、ハイライトラベル(フレームtに対するハイライトラベル(ここでは、ハイライトシーンでないことを表すハイライトラベル))とをペアにした、マルチストリームの検出用ラベル系列を生成する。
そして、検出用ラベル生成部75は、検出用ラベル系列を、最尤状態系列推定部77に供給する。
検出部選択部76は、検出器記憶部52に記憶されたハイライト検出器の中から、コンテンツ選択部71からの、注目コンテンツのカテゴリに対応付けられたハイライト検出器を、注目検出器に選択する。そして、検出器選択部76は、検出器記憶部52に記憶されたハイライト検出器の中から、注目検出器を取得し、最尤状態系列推定部77とハイライトシーン検出部78とに供給する。
最尤状態系列推定部77は、例えば、Viterbiアルゴリズムに従い、検出器選択部76からの注目検出器であるHMMにおいて、検出用ラベル生成部75からの検出用ラベル系列が観測される尤度が最も高い状態遷移が生じる最尤状態系列(以下、ハイライト関係状態系列ともいう)を推定する。
そして、最尤状態系列推定部77は、ハイライト関係状態系列を、ハイライトシーン検出部78に供給する。
なお、検出用ラベル系列は、注目コンテンツに対する注目モデルの最尤状態系列である状態IDの系列o[V]と、ダミーの系列としてのハイライトラベル系列o[HL]とを、構成要素系列とするマルチストリームであり、ハイライト関係状態系列の推定にあたり、検出用ラベル系列の観測確率bj(o[V],o[HL])は、学習用ラベル系列の場合と同様に、式(3)に従って求められる。
但し、検出用ラベル系列の観測確率bj(o[V],o[HL])を求める際の、状態IDの系列o[V]の系列重みWとしては、1.0を用いる。この場合、ハイライトラベル系列o[HL]の系列重み1-Wは、0.0となる。これにより、最尤状態系列推定部77では、ダミーの系列として入力されたハイライトラベル系列を考慮せずに、注目コンテンツに対する注目モデルの最尤状態系列のみを考慮して、ハイライト関係状態系列の推定が行われることになる。
ハイライトシーン検出部78は、最尤状態系列推定部77からの、検出用ラベル系列から得られる最尤状態系列(ハイライト関係状態系列)の各状態のハイライトラベルo[HL]の観測確率b[HL]j(o[HL])を、検出器選択部76からの注目検出器を参照することにより認識する。
さらに、ハイライトシーン検出部78は、ハイライトラベルo[HL]の観測確率b[HL]j(o[HL])に基づいて、注目コンテンツから、ハイライトシーンのフレームを検出する。
すなわち、ハイライトシーン検出部78は、ハイライト関係状態系列の時刻tの状態sjにおける、ハイライトシーンであることを表すハイライトラベルの観測確率b[HL]j(o[HL]="1")と、ハイライトシーンでないことを表すハイライトラベルの観測確率b[HL]j(o[HL]="0")との差分b[HL]j(o[HL]="1")−b[HL]j(o[HL]="0")が、所定の閾値THb(例えば、THb=0等)より大である場合、時刻tの状態sjに対応する、注目コンテンツのフレームtを、ハイライトシーンのフレームとして検出する。
そして、ハイライトシーン検出部78は、注目コンテンツの、ハイライトシーンのフレームについては、フレームがハイライトシーンのフレームであるかどうかを表す1ビットのハイライトフラグに、ハイライトシーンである旨を表す値である、例えば、"1"をセットする。また、ハイライトシーン検出部78は、注目コンテンツの、ハイライトシーンでないシーンのフレームについては、ハイライトフラグに、ハイライトシーンでない旨を表す値である、例えば、"0"をセットする。
そして、ハイライトシーン検出部78は、注目コンテンツの各フレームのハイライトフラグ(の時系列)を、ダイジェストコンテンツ生成部79に供給する。
ダイジェストコンテンツ生成部79は、コンテンツ選択部71からの注目コンテンツのフレームから、ハイライトシーン検出部78からのハイライトフラグによって特定されるハイライトシーンのフレームを抽出する。さらに、ダイジェストコンテンツ生成部79は、注目コンテンツのフレームから抽出したハイライトシーンのフレームを、少なくとも用いて、注目コンテンツのダイジェストであるダイジェストコンテンツを生成し、再生制御部80に供給する。
再生制御部80は、ダイジェストコンテンツ生成部79からのダイジェストコンテンツを再生する再生制御を行う。
図19は、図18のダイジェストコンテンツ生成部79が生成するダイジェストコンテンツの例を示している。
図19のAは、ダイジェストコンテンツの第1の例を示している。
図19のAでは、ダイジェストコンテンツ生成部79は、注目コンテンツから、ハイライトシーンのフレームの画像、及び、その画像に付随する音声のデータを抽出し、その画像及び音声のデータを、時間的な前後関係を維持して結合した動画のコンテンツを、ダイジェストコンテンツとして生成する。
この場合、再生制御部80(図18)では、ハイライトシーンのフレームの画像のみが、元のコンテンツ(注目コンテンツ)と同一のサイズ(以下、フルサイズともいう)で表示されるとともに、その画像に付随する音声が出力される。
なお、図19のAにおいて、注目コンテンツからのハイライトシーンのフレームの画像の抽出では、ハイライトシーンのフレームのすべてを抽出することもできるし、ハイライトシーンの2フレームに1フレームを抽出する等の、フレームを間引いた抽出を行うこともできる。
図19のBは、ダイジェストコンテンツの第2の例を示している。
図19のBでは、ダイジェストコンテンツ生成部79は、注目コンテンツのフレームのうちの、ハイライトシーンでないフレームの画像は、視聴時に早送りに見えるように、フレームの間引き処理(例えば20フレームにつき、1フレームを抽出する間引き処理)を行い、かつ、ハイライトシーンでないフレームの画像に付随する音声が無音となるように、注目コンテンツを加工することで、ダイジェストコンテンツを生成する。
この場合、再生制御部80(図18)では、ハイライトシーンについては、画像が、一倍速で表示されるとともに、その画像に付随する音声が出力されるが、ハイライトシーンでないシーン(非ハイライトシーン)については、画像が、早送り(例えば、20倍速)で表示されるとともに、その画像に付随する音声は、出力されない。
なお、図19のBでは、非ハイライトシーンの画像に付随する音声を、出力しないこととしたが、非ハイライトシーンの画像に付随する音声は、ハイライトシーンの画像に付随する音声と同様に出力することが可能である。この場合、非ハイライトシーンの画像に付随する音声は、小さな音量で、ハイライトシーンの画像に付随する音声は、大きな音量で、それぞれ、出力することができる。
また、図19のBでは、ハイライトシーンの画像と、非ハイライトシーンの画像とは、同一のサイズ(フルサイズ)で表示されるが、非ハイライトシーンの画像は、ハイライトシーンの画像よりも小さいサイズ(例えば、ハイライトシーンの画像の横及び縦のサイズを、それぞれ50%にしたサイズ等)で表示すること(、又は、ハイライトシーンの画像を、非ハイライトシーンの画像よりも大きいサイズで表示すること)が可能である。
さらに、図19において、フレームを間引く場合の、その間引きの割合は、例えば、ユーザが指定することができる。
[ハイライト検出処理]
図20は、図18のハイライト検出部53の処理(ハイライト検出処理)を説明するフローチャートである。
ステップS81において、コンテンツ選択部71は、コンテンツ記憶部11に記憶されたコンテンツの中から、ハイライトシーンを検出する対象のコンテンツである注目コンテンツ(注目ハイライト検出用コンテンツ)を選択する。
そして、コンテンツ選択部71は、注目コンテンツを、特徴量抽出部73に供給する。さらに、コンテンツ選択部71は、注目コンテンツのカテゴリを認識し、モデル選択部72と、検出器選択部76とに供給して、処理は、ステップS81からステップS82に進む。
ステップS82では、モデル選択部72は、モデル記憶部13に記憶されたコンテンツモデルの中から、コンテンツ選択部71からの、注目コンテンツのカテゴリに対応付けられたコンテンツモデルを、注目モデルに選択する。
そして、モデル選択部72は、注目モデルを、最尤状態系列推定部74に供給し、処理は、ステップS82からステップS83に進む。
ステップS83では、特徴量抽出部73は、コンテンツ選択部71から供給される注目コンテンツの各フレームの特徴量を抽出し、最尤状態系列推定部74に供給して、処理は、ステップS84に進む。
ステップS84では、最尤状態系列推定部74は、モデル選択部72からの注目モデルにおいて、特徴量抽出部73からの注目コンテンツの特徴量(の時系列)が観測される尤度が最も高い状態遷移が生じる最尤状態系列(注目コンテンツに対する注目モデルの最尤状態系列)を推定する。
そして、最尤状態系列推定部74は、注目コンテンツに対する注目モデルの最尤状態系列を、検出用ラベル生成部75に供給し、処理は、ステップS84からステップS85に進む。
ステップS85では、検出用ラベル生成部75は、ダミーのハイライトラベル系列として、例えば、ハイライトシーンでないことを表すハイライトラベル(値が"0"のハイライトラベル)のみのハイライトラベル系列を生成し、処理は、ステップS86に進む。
ステップS86では、検出用ラベル生成部75は、最尤状態系列推定部74からの、注目コンテンツに対する注目モデルの最尤状態系列である状態IDの系列と、ダミーのハイライトラベル系列とのペアである検出用ラベル系列を生成する。
そして、検出用ラベル生成部75は、検出用ラベル系列を、最尤状態系列推定部77に供給して、処理は、ステップS86からステップS87に進む。
ステップS87では、検出器選択部76は、検出器記憶部52に記憶されたハイライト検出器の中から、コンテンツ選択部71からの、注目コンテンツのカテゴリに対応付けられたハイライト検出器を、注目検出器に選択する。そして、検出器選択部76は、検出器記憶部52に記憶されたハイライト検出器の中から、注目検出器を取得し、最尤状態系列推定部77とハイライトシーン検出部78とに供給して、処理は、ステップS87からステップS88に進む。
ステップS88では、最尤状態系列推定部77は、検出器選択部76からの注目検出器において、検出用ラベル生成部75からの検出用ラベル系列が観測される尤度が最も高い状態遷移が生じる最尤状態系列(ハイライト関係状態系列)を推定する。
そして、最尤状態系列推定部74は、ハイライト関係状態系列を、ハイライトシーン検出部78に供給して、処理は、ステップS88からステップS89に進む。
ステップS89では、ハイライトシーン検出部78は、最尤状態系列推定部77からのハイライト関係状態系列に基づいて、注目コンテンツから、ハイライトシーンを検出し、ハイライトフラグを出力するハイライトシーン検出処理を行う。
そして、ハイライトシーン検出処理の終了後、処理は、ステップS89からステップS90に進み、ダイジェストコンテンツ生成部79は、コンテンツ選択部71からの注目コンテンツのフレームから、ハイライトシーン検出部78が出力するハイライトフラグによって特定されるハイライトシーンのフレームを抽出する。
さらに、ダイジェストコンテンツ生成部79は、注目コンテンツのフレームから抽出したハイライトシーンのフレームを用いて、注目コンテンツのダイジェストコンテンツを生成し、再生制御部80に供給して、処理は、ステップS90からステップS91に進む。
ステップS91では、再生制御部80は、ダイジェストコンテンツ生成部79からのダイジェストコンテンツを再生する再生制御を行う。
図21は、図20のステップS89で、ハイライトシーン検出部78(図18)が行うハイライトシーン検出処理を説明するフローチャートである。
ステップS101において、ハイライトシーン検出部78は、時刻(注目コンテンツのフレーム数)をカウントする変数tに、初期値としての1をセットして、処理は、ステップS102に進む。
ステップS102では、ハイライトシーン検出部78は、検出器選択部76(図18)からの注目検出器としてのHMMの状態s1ないしsN'(N'は、注目検出器としてのHMMの状態の総数を表す)の中から、最尤状態系列推定部77からのハイライト関係状態系列の時刻tの状態H(t)=sj(先頭からt番目の状態)を取得(認識)する。
その後、処理は、ステップS102からステップS103に進み、ハイライトシーン検出部78は、時刻tの状態H(t)=sjのハイライトラベルo[HL]の観測確率b[HL]H(t)j(o[HL])を、検出器選択部76からの注目検出器から取得し、処理は、ステップS104に進む。
ステップS104では、ハイライトシーン検出部78は、ハイライトラベルo[HL]の観測確率b[HL]H(t)j(o[HL])に基づいて、注目コンテンツの時刻tのフレームが、ハイライトシーンであるかどうかを判定する。
ステップS104において、注目コンテンツの時刻tのフレームが、ハイライトシーンであると判定された場合、すなわち、例えば、ハイライトラベルo[HL]の観測確率b[HL]H(t)j(o[HL])のうちの、ハイライトシーンであることを表すハイライトラベルの観測確率b[HL]H(t)(o[HL]="1")と、ハイライトシーンでないことを表すハイライトラベルの観測確率b[HL]H(t)(o[HL]="0")との差分b[HL]j(o[HL]="1")−b[HL]j(o[HL]="0")が、所定の閾値THbより大である場合、処理は、ステップS105に進み、ハイライトシーン検出部78は、注目コンテンツの時刻tのフレームのハイライトフラグF(t)に、ハイライトシーンである旨を表す値の"1"をセットする。
また、ステップS104において、注目コンテンツの時刻tのフレームが、ハイライトシーンでないと判定された場合、すなわち、例えば、ハイライトラベルo[HL]の観測確率b[HL]H(t)j(o[HL])のうちの、ハイライトシーンであることを表すハイライトラベルの観測確率b[HL]H(t)(o[HL]="1")と、ハイライトシーンでないことを表すハイライトラベルの観測確率b[HL]H(t)(o[HL]="0")との差分b[HL]j(o[HL]="1")−b[HL]j(o[HL]="0")が、所定の閾値THbより大でない場合、処理は、ステップS106に進み、ハイライトシーン検出部78は、注目コンテンツの時刻tのフレームのハイライトフラグF(t)に、ハイライトシーンでない旨を表す値の"0"をセットする。
ステップS105、及びS106の後、処理は、いずれも、ステップS107に進み、ハイライトシーン検出部78は、変数tが、注目コンテンツのフレームの総数NFに等しいかどうかを判定する。
ステップS107において、変数tが、フレームの総数NFに等しくないと判定された場合、処理は、ステップS108に進み、ハイライトシーン検出部78は、変数tを1だけインクリメントし、処理は、ステップS102に戻る。
また、ステップS107において、変数tが、フレームの総数NFに等しいと判定された場合、すなわち、注目コンテンツの、特徴量を求めたフレームごとに、ハイライトフラグF(t)が得られた場合、処理は、ステップS109に進み、ハイライトシーン検出部78は、注目コンテンツのフレームのハイライトフラグF(t)の系列を、ハイライトシーンの検出結果として、ダイジェストコンテンツ生成部79(図18)に出力し、処理は、リターンする。
以上のように、ハイライト検出部53(図18)は、ハイライト検出器において、注目コンテンツに対する注目モデルの最尤状態系列である状態IDの系列と、ダミーのハイライトラベル系列とのペアである検出用ラベル系列が観測される場合の最尤状態系列であるハイライト関係状態系列を推定し、そのハイライト関係状態系列の各状態のハイライトラベルの観測確率に基づいて、注目コンテンツから、ハイライトシーンのフレームを検出して、そのハイライトシーンのフレームを用いて、ダイジェストコンテンツを生成する。
また、ハイライト検出器は、コンテンツに対するコンテンツモデルの最尤状態系列である状態IDの系列と、ユーザの操作に応じて生成されるハイライトラベル系列とのペアである学習用ラベル系列を用いて、HMMの学習を行うことにより得られる。
したがって、ダイジェストコンテンツを生成する注目コンテンツが、コンテンツモデルや、ハイライト検出器の学習に用いられていない場合であっても、注目コンテンツと同一のカテゴリのコンテンツを用いての、コンテンツモデル、及び、ハイライト検出器の学習が行われていれば、そのコンテンツモデル、及び、ハイライト検出器を用いて、ユーザの興味があるシーンを、ハイライトシーンとして集めたダイジェスト(ダイジェストコンテンツ)を、容易に得ることができる。
[スクラップブック生成部16の構成例]
図22は、図1のスクラップブック生成部16の構成例を示すブロック図である。
スクラップブック生成部16は、初期スクラップブック生成部101、初期スクラップブック記憶部102、登録スクラップブック生成部103、登録スクラップブック記憶部104、及び、再生制御部105から構成される。
初期スクラップブック生成部101は、コンテンツ記憶部11に記憶されたコンテンツと、モデル記憶部13に記憶されたコンテンツモデルとを用いて、後述する初期スクラップブックを生成し、初期スクラップブック記憶部102に供給する。
初期スクラップブック記憶部102は、初期スクラップブック生成部101からの初期スクラップブックを記憶する。
登録スクラップブック生成部103は、コンテンツ記憶部11に記憶されたコンテンツ、モデル記憶部13に記憶されたコンテンツモデル、及び、初期スクラップブック記憶部102に記憶された初期スクラップブックを用いて、後述する登録スクラップブックを生成し、登録スクラップブック記憶部104に供給する。
登録スクラップブック記憶部104は、登録スクラップブック生成部103からの登録スクラップブックを記憶する。
再生制御部105は、登録スクラップブック記憶部104に記憶された登録スクラップブックを再生する再生制御を行う。
[初期スクラップブック生成部101の構成例]
図23は、図22の初期スクラップブック生成部101の構成例を示すブロック図である。
図23において、初期スクラップブック生成部101は、コンテンツ選択部111、モデル選択部112、特徴量抽出部113、最尤状態系列推定部114、状態対応画像情報生成部115、状態間距離算出部116、座標算出部117、マップ描画部118、表示制御部119、状態選択部121、及び、選択状態登録部122から構成される。
コンテンツ選択部111ないし表示制御部119は、コンテンツ構造提示部14(図9)のコンテンツ選択部31ないし表示制御部39と同様に構成され、図13で説明したコンテンツ構造提示処理を行う。
なお、マップ描画部118は、図9のマップ描画部38と同様に、モデルマップを、表示制御部119に供給する他、状態選択部121にも供給する。
状態選択部121は、コンテンツ構造提示処理によって表示されたモデルマップ(図11、図12)上の状態が、ユーザの操作によって指定された場合に、その指定された状態を、選択状態として選択する。さらに、状態選択部121は、マップ描画部118からのモデルマップを参照して、選択状態の状態IDを認識し、選択状態登録部122に供給する。
選択状態登録部122は、空のスクラップブックを生成し、その空のスクラップブックに、状態選択部121からの選択状態の状態IDを登録する。そして、選択状態登録部122は、状態IDを登録したスクラップブックを、初期スクラップブックとして、初期スクラップブック記憶部102に供給して記憶させる。
ここで、選択状態登録部122が生成するスクラップブックとは、静止画(写真)や、動画、音声(音楽)等のデータを保管(記憶)しておくことができる、電子的な保管庫である。
なお、空のスクラップブックとは、何も登録されていないスクラップブックであり、初期スクラップブックとは、状態IDが登録されているスクラップブックである。
以上のように構成される初期スクラップブック生成部101では、コンテンツ構造提示処理(図13)が行われることにより、モデルマップ(図11、図12)が、図示せぬディスプレイに表示される。そして、モデルマップ上の状態が、ユーザの操作によって指定された場合に、その指定された状態(選択状態)の状態IDが、(空の)スクラップブックに登録される。
図24は、ユーザがモデルマップ上の状態を指定するための、表示制御部119が表示制御を行うことによって表示されるユーザインターフェースの例を示す図である。
図24では、ウインドウ131に、マップ描画部118で生成されたモデルマップ132が表示されている。
ウインドウ131内のモデルマップ132上の状態は、ユーザが指定することにより、いわゆるフォーカスをあてることができる。ユーザによる状態の指定は、例えば、マウス等のポインティングデバイスでクリックすることや、ポインティングデバイスの操作に応じて移動するカーソルを、フォーカスをあてようとする状態の位置に移動すること等によって行うことができる。
また、モデルマップ132上の状態のうち、既に、選択状態になっている状態と、選択状態になっていない状態とは、異なる色等の、異なる表示形式で表示することができる。
ウインドウ131の下部には、状態ID入力欄133、スクラップブックID入力欄134、登録ボタン135、及び、終了ボタン136等が設けられている。
状態ID入力欄133には、モデルマップ132上の状態のうちの、フォーカスがあたっている状態の状態IDが表示される。
なお、状態ID入力欄133には、ユーザが、直接、状態IDを入力することもできる。
スクラップブックID入力欄134には、選択状態の状態IDを登録するスクラップブックを特定する情報であるスクラップブックIDが表示される。
なお、スクラップブックID入力欄134は、ユーザが操作すること(例えば、マウス等のポインティングデバイスでクリックすること等)ができ、スクラップブックID入力欄134に表示されるスクラップブックIDは、ユーザによるスクラップブックID入力欄134の操作に応じて変更される。したがって、ユーザは、スクラップブックID入力欄134を操作することにより、状態IDを登録するスクラップブックを変更することができる。
登録ボタン135は、フォーカスがあたっている状態(状態ID入力欄133に状態IDが表示されている状態)の状態IDを、スクラップブックに登録する場合に操作される。すなわち、登録ボタン135が操作された場合、フォーカスがあたっている状態が、選択状態として選択(確定)される。
終了ボタン136は、例えば、モデルマップ132の表示を終了するとき(ウインドウ131をクローズするとき)等に操作される。
ウインドウ130は、モデルマップ132上の状態のうちの、フォーカスがあたっている状態に、コンテンツ構造提示処理で生成された状態対応画像情報がリンク付けされている場合にオープンする。そして、ウインドウ130には、フォーカスがあたっている状態にリンク付けされている状態対応画像情報が表示される。
なお、ウインドウ130には(さらには、ウインドウ130以外の図示せぬウインドウに)、フォーカスがあたっている状態にリンク付けされた状態対応画像情報に代えて、モデルマップ132上の、フォーカスがあたっている状態と、その状態に近い位置の状態とのそれぞれにリンク付けされた状態対応画像情報や、モデルマップ132上のすべての状態のそれぞれにリンク付けされた状態対応画像情報を、時間的にシーケンシャルに、又は、空間的に並列的に表示することが可能である。
ユーザは、ウインドウ131に表示されたモデルマップ132上の任意の状態をクリックすること等によって指定することができる。
ユーザによって状態が指定されると、表示制御部119(図23)は、ユーザによって指定された状態にリンク付けされた状態対応画像情報を、ウインドウ130に表示する。
これにより、ユーザは、モデルマップ132上の状態に対応するフレームの画像を確認することができる。
ユーザは、ウインドウ130に表示された画像を見て、その画像に興味があり、スクラップブックに登録することを希望する場合、登録ボタン135を操作する。
登録ボタン135が操作されると、状態選択部121(図23)は、そのときにユーザによって指定されているモデルマップ132上の状態を、選択状態として選択する。
そして、その後、ユーザが、終了ボタン136を操作すると、状態選択部121は、それまでに選択した選択状態の状態IDを、選択状態登録部122(図23)に供給する。
選択状態登録部122は、状態選択部121からの選択状態の状態IDを、空のスクラップブックに登録し、状態IDを登録したスクラップブックを、初期スクラップブックとして、初期スクラップブック記憶部102して記憶させる。そして、表示制御部119(図23)は、ウインドウ131及び141をクローズする。
[初期スクラップブック生成処理]
図25は、図23の初期スクラップブック生成部101が行う処理(初期スクラップブック生成処理)を説明するフローチャートである。
ステップS121において、コンテンツ選択部111ないし表示制御部119は、コンテンツ構造提示部14(図9)のコンテンツ選択部31ないし表示制御部39と同様のコンテンツ構造提示処理(図13)を行う。これにより、モデルマップ132を含むウインドウ131(図24)が、図示せぬディスプレイに表示される。
その後、処理は、ステップS121からステップS122に進み、状態選択部121は、ユーザによって、状態の登録操作がされたかどうかを判定する。
ステップS122において、状態の登録操作がされたと判定された場合、すなわち、モデルマップ132上の状態が、ユーザによって指定され、(ウインドウ131の)登録ボタン135(図24)が操作された場合、処理は、ステップS123に進み、状態選択部121は、登録ボタン135が操作されたときにユーザによって指定されていたモデルマップ132上の状態を、選択状態として選択する。
さらに、状態選択部121は、選択状態の状態IDを、図示せぬメモリに記憶し、処理は、ステップS123からステップS124に進む。
また、ステップS122において、状態の登録操作がされていないと判定された場合、処理は、ステップS123をスキップして、ステップS124に進む。
ステップS124では、状態選択部121は、ユーザによって、終了操作がされたかどうかを判定する。
ステップS124において、終了操作がされていないと判定された場合、処理は、ステップS122に戻り、以下、同様の処理が繰り返される。
また、ステップS124において、終了操作がされたと判定された場合、すなわち、ユーザが、終了ボタン136(図24)を操作した場合、状態選択部121は、ステップS123で記憶した選択状態の状態IDすべてを、選択状態登録部122に供給して、処理は、ステップS125に進む。
ステップS125では、選択状態登録部122は、空のスクラップブックを生成し、その空のスクラップブックに、状態選択部121からの選択状態の状態IDを登録する。
さらに、選択状態登録部122は、状態IDを登録したスクラップブックを、初期スクラップブックとして、その初期スクラップブックに、ステップS121のコンテンツ構造提示処理(図13)で、注目コンテンツ(注目提示用コンテンツ)に選択されたコンテンツのカテゴリと対応付ける。
そして、選択状態登録部122は、注目コンテンツのカテゴリと対応付けた初期スクラップブックを、初期スクラップブック記憶部102に供給して記憶させる。
その後、ステップS121のコンテンツ構造提示処理で表示されたウインドウ131(図24)がクローズされ、初期スクラップブック生成処理は終了する。
[登録スクラップブック生成部103の構成例]
図26は、図22の登録スクラップブック生成部103の構成例を示すブロック図である。
図26において、登録スクラップブック生成部103は、スクラップブック選択部141、コンテンツ選択部142、モデル選択部143、特徴量抽出部144、最尤状態系列推定部145、フレーム抽出部146、及び、フレーム登録部147から構成される。
スクラップブック選択部141は、初期スクラップブック記憶部102に記憶された初期スクラップブックの1つを、注目スクラップブックに選択し、フレーム抽出部146、及び、フレーム登録部147に供給する。
また、スクラップブック選択部141は、注目スクラップブックに対応付けられたカテゴリを、コンテンツ選択部142、及び、モデル選択部143に供給する。
コンテンツ選択部142は、コンテンツ記憶部11に記憶されたコンテンツの中から、スクラップブック選択部141からのカテゴリのコンテンツの1つを、注目スクラップブック用コンテンツ(以下、単に、注目コンテンツともいう)に選択する。
そして、コンテンツ選択部142は、注目コンテンツを、特徴量抽出部144、及び、フレーム抽出部146に供給する。
モデル選択部143は、モデル記憶部13に記憶されたコンテンツモデルの中から、スクラップブック選択部141からのカテゴリに対応付けられたコンテンツモデルを、注目モデルに選択し、最尤状態系列推定部145に供給する。
特徴量抽出部144は、コンテンツ選択部142から供給される注目コンテンツの(画像の)各フレームの特徴量を、図2の特徴抽出部22と同様にして抽出し、注目コンテンツの各フレームの特徴量(の時系列)を、最尤状態系列推定部145に供給する。
最尤状態系列推定部145は、例えば、Viterbiアルゴリズムに従い、モデル選択部143からの注目モデルにおいて、特徴量抽出部144からの注目コンテンツの特徴量(の時系列)が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列(注目コンテンツに対する注目モデルの最尤状態系列)を推定する。
そして、最尤状態系列推定部145は、注目コンテンツに対する注目モデルの最尤状態系列を、フレーム抽出部146に供給する。
フレーム抽出部146は、最尤状態系列推定部145からの最尤状態系列の各状態について、状態IDが、スクラップブック選択部141からの注目スクラップブックに登録されている選択状態の状態ID(以下、登録状態IDともいう)に一致するかどうかを判定する。
さらに、フレーム抽出部146は、最尤状態系列推定部145からの最尤状態系列の状態のうちの、状態IDが、スクラップブック選択部141からの注目スクラップブックに登録されている登録状態IDに一致する状態に対応するフレームを、コンテンツ選択部142からの注目コンテンツから抽出し、フレーム登録部147に供給する。
フレーム登録部147は、スクラップブック選択部141からの注目スクラップブックに、フレーム抽出部146からのフレームを登録する。さらに、フレーム登録部147は、フレームの登録後の注目スクラップブックを、登録スクラップブックとして、登録スクラップブック記憶部104に供給して記憶させる。
[登録スクラップブック生成処理]
図27は、図26の登録スクラップブック生成部103が行う登録スクラップブック生成処理を説明するフローチャートである。
ステップS131において、スクラップブック選択部141は、初期スクラップブック記憶部102に記憶された初期スクラップブックのうちの、まだ、注目スクラップブックに選択されたことがない初期スクラップブックの1つを、注目スクラップブックに選択する。
そして、スクラップブック選択部141は、注目スクラップブックを、フレーム抽出部146、及び、フレーム登録部147に供給する。さらに、スクラップブック選択部141は、注目スクラップブックに対応付けられたカテゴリを、コンテンツ選択部142、及び、モデル選択部143に供給し、処理は、ステップS131からステップS132に進む。
ステップS132では、コンテンツ選択部142は、コンテンツ記憶部11に記憶されたコンテンツのうちの、スクラップブック選択部141からのカテゴリのコンテンツの中で、また、注目コンテンツ(注目スクラップブック用コンテンツ)に選択されていないコンテンツの1つを、注目コンテンツに選択する。
そして、コンテンツ選択部142は、注目コンテンツを、特徴量抽出部144、及び、フレーム抽出部146に供給して、処理は、ステップS132からステップS133に進む。
ステップS133では、モデル選択部143は、モデル記憶部13に記憶されたコンテンツモデルの中から、スクラップブック選択部141からのカテゴリに対応付けられたコンテンツモデルを、注目モデルに選択する。
そして、モデル選択部143は、注目モデルを、最尤状態系列推定部145に供給し、処理は、ステップS133からステップS134に進む。
ステップS134では、特徴量抽出部144は、コンテンツ選択部142から供給される注目コンテンツの各フレームの特徴量を抽出し、注目コンテンツの各フレームの特徴量(の時系列)を、最尤状態系列推定部145に供給する。
その後、処理は、ステップS134からステップS135に進み、最尤状態系列推定部145は、モデル選択部143からの注目モデルにおいて、特徴量抽出部144からの注目コンテンツの特徴量(の時系列)が観測される尤度が最も高い状態遷移が生じる最尤状態系列(注目コンテンツに対する注目モデルの最尤状態系列)を推定する。
そして、最尤状態系列推定部145は、注目コンテンツに対する注目モデルの最尤状態系列を、フレーム抽出部146に供給して、処理は、ステップS135からステップS136に進む。
ステップS136では、フレーム抽出部146は、時刻(注目コンテンツのフレーム数)をカウントする変数tに、初期値としての1をセットして、処理は、ステップS137に進む。
ステップS137では、フレーム抽出部146は、最尤状態系列推定部145からの最尤状態系列(注目コンテンツに対する注目モデルの最尤状態系列)の時刻tの状態(先頭からt番目の状態)の状態IDが、スクラップブック選択部141からの注目スクラップブックに登録されている選択状態の登録状態IDのいずれかに一致するかどうかを判定する。
ステップS137において、注目コンテンツに対する注目モデルの最尤状態系列の時刻tの状態の状態IDが、注目スクラップブックに登録されている選択状態の登録状態IDのいずれかに一致すると判定された場合、処理は、ステップS138に進み、フレーム抽出部146は、コンテンツ選択部142からの注目コンテンツから、時刻tのフレームを抽出し、フレーム登録部147に供給して、処理は、ステップS139に進む。
また、ステップS137において、注目コンテンツに対する注目モデルの最尤状態系列の時刻tの状態の状態IDが、注目スクラップブックに登録されている選択状態の登録状態IDのいずれかにも一致しないと判定された場合、処理は、ステップS138をスキップして、ステップS139に進む。
ステップS139では、フレーム抽出部146は、変数tが、注目コンテンツのフレームの総数NFに等しいかどうかを判定する。
ステップS139において、変数tが、注目コンテンツのフレームの総数NFに等しくないと判定された場合、処理は、ステップS140に進み、フレーム抽出部146は、変数tを1だけインクリメントする。その後、処理は、ステップS140からステップS137に戻り、以下、同様の処理が繰り返される。
また、ステップS139において、変数tが、注目コンテンツのフレームの総数NFに等しいと判定された場合、処理は、ステップS141に進み、フレーム登録部147は、フレーム抽出部146から供給されたフレーム、すなわち、注目コンテンツから抽出されたフレームすべてを、スクラップブック選択部141からの注目スクラップブックに登録する。
その後、処理は、ステップS141からステップS142に進み、コンテンツ選択部142は、コンテンツ記憶部11に記憶された、カテゴリが注目スクラップブックに対応付けられたカテゴリと同一のコンテンツの中で、まだ、注目コンテンツに選択されていないコンテンツがあるかどうかを判定する。
ステップS142において、コンテンツ記憶部11に記憶された、カテゴリが注目スクラップブックに対応付けられたカテゴリと同一のコンテンツの中で、まだ、注目コンテンツに選択されていないコンテンツがあると判定された場合、処理は、ステップS132に戻り、以下、同様の処理が繰り返される。
また、ステップS142において、コンテンツ記憶部11に記憶された、カテゴリが注目スクラップブックに対応付けられたカテゴリと同一のコンテンツの中で、注目コンテンツに選択されていないコンテンツがないと判定された場合、処理は、ステップS143に進み、フレーム登録部147は、注目スクラップブックを、登録スクラップブックとして、登録スクラップブック記憶部104に出力し、登録スクラップブック生成処理を終了する。
図28を参照して、登録スクラップブック生成部103(図26)が行う登録スクラップブック生成処理について、さらに説明する。
図28のAは、コンテンツ選択部142(図26)において注目コンテンツ(注目スクラップブック用コンテンツ)として選択されたコンテンツのフレームの時系列を示している。
図28のBは、特徴量抽出部144(図26)において抽出された、図28のAのフレームの時系列の特徴量の時系列を示している。
図28のCは、最尤状態系列推定部145(図26)において推定された、注目モデルにおいて、図28のBの注目コンテンツの特徴量の時系列が観測される最尤状態系列(注目コンテンツに対する注目モデルの最尤状態系列)を示している。
ここで、注目コンテンツに対する注目モデルの最尤状態系列の実体は、上述したように、状態IDの系列である。そして、注目コンテンツに対する注目モデルの最尤状態系列の先頭からt番目の状態IDは、最尤状態系列において、注目コンテンツのt番目(時刻t)のフレームの特徴量が観測される状態の状態ID(フレームtに対応する状態の状態ID)である。
図28のDは、フレーム抽出部146(図26)において、注目コンテンツから抽出されたフレームを示している。
図28のDでは、注目スクラップブックの登録状態IDとして、"1"と"3"が登録されており、注目コンテンツからは、状態IDが"1"及び"3"のそれぞれのフレームが抽出されている。
図28のEは、注目コンテンツから抽出されたフレームが登録されたスクラップブック(登録スクラップブック)を示している。
スクラップブックには、注目コンテンツから抽出されたフレームが、その時間的な前後関係を維持する形で、例えば、動画として、登録される。
以上のように、登録スクラップブック生成部103では、注目コンテンツの画像の各フレームの特徴量を抽出し、注目モデルにおいて、注目コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる最尤状態系列を推定し、その最尤状態系列の状態のうちの、初期スクラップブック生成処理(図25)において、ユーザによって指示された、モデルマップ上の状態の状態ID(登録状態ID)と一致する状態に対応するフレームを、注目コンテンツから抽出し、スクラップブックに、注目コンテンツから抽出されたフレームを登録するので、ユーザは、モデルマップにおいて、興味があるフレーム(例えば、歌手が歌を歌っているシーンのうちの、顔のアップが写っているフレーム等)に対応する状態を指定するだけで、そのフレームと同様の内容のフレームを集めたスクラップブックを得ることができる。
なお、図27では、注目スクラップブックに対応付けられたカテゴリのコンテンツのすべてを注目コンテンツとして、登録スクラップブックの生成を行うこととしたが、登録スクラップブックの生成は、ユーザが指定した1つのコンテンツのみを注目コンテンツとして行うことが可能である。
また、図27の登録スクラップブック生成処理では、スクラップブック選択部141において、初期スクラップブック記憶部102に記憶された初期スクラップブックの中から、注目スクラップブックを選択し、その注目スクラップブックに、注目コンテンツから抽出したフレームを登録することとしたが、その他、注目スクラップブックは、登録スクラップブック記憶部104に記憶された登録スクラップブックの中から選択することが可能である。
すなわち、コンテンツ記憶部11に、新たなコンテンツが記憶された場合に、その新たなコンテンツのカテゴリに対応付けられた登録スクラップブックが、既に存在するときには、新たなコンテンツを注目コンテンツとするとともに、その注目コンテンツのカテゴリに対応付けられた登録スクラップブックを注目スクラップブックとして、登録スクラップブック生成処理(図27)を行うことが可能である。
また、登録スクラップブック生成部103(図26)では、フレーム抽出部146において、注目コンテンツからフレーム(画像)の他、そのフレームに付随する音声も抽出し、フレーム登録部147において、初期スクラップブックに登録することができる。
さらに、コンテンツ記憶部11に、新たなコンテンツが記憶された場合に、その新たなコンテンツのカテゴリに対応付けられた登録スクラップブックが、既に存在するときには、新たなコンテンツを注目コンテンツとして、コンテンツ構造提示処理(図13)を含む初期スクラップブック生成処理(図25)を行い、新たな状態IDを、登録スクラップブックに追加登録することができる。
そして、初期スクラップブック生成処理によって、登録スクラップブックに、新たな状態IDが追加登録された場合には、その登録スクラップブックを、注目スクラップブックとして、登録スクラップブック生成処理(図27)を行い、コンテンツ記憶部11に記憶されたコンテンツから、状態IDが、登録スクラップブックに追加登録された新たな状態IDと一致するフレームを抽出して、登録スクラップブックに追加登録することができる。
この場合、登録スクラップブックに既に登録されているフレームfが抽出されたコンテンツcから、状態IDが、登録スクラップブックに追加登録された新たな状態IDと一致する別のフレームf'が新たに抽出され、登録スクラップブックに追加登録されることがある。
この、登録スクラップブックへのフレームf'の追加登録は、そのフレームf'が抽出されたコンテンツcから抽出されたフレームfとの時間的な前後関係を維持するように行われる。
なお、この場合、登録スクラップブックに登録されているフレームfが抽出されたコンテンツcを特定する必要があるので、登録スクラップブックには、フレームfとともに、そのフレームfが抽出されたコンテンツcを特定する情報としてのコンテンツIDを登録しておく必要がある。
ここで、特開2005-189832号公報に記載のハイライトシーン検出技術では、前段の処理において、コンテンツの画像から抽出した動きベクトルの大きさの平均値と分散のそれぞれを、4個や5個のラベルに量子化するとともに、コンテンツの音声から抽出した特徴量を、「拍手」、「打球」、「女声」、「男声」、「音楽」、「音楽+声」、「雑音」のラベルに、ニューラルネット分類器により分類することで、画像のラベル時系列と、音声のラベル時系列とが求められる。
さらに、特開2005-189832号公報に記載のハイライトシーン検出技術では、後段の処理において、ハイライトシーンを検出する検出器が、ラベル時系列を用いた学習により獲得される。
すなわち、コンテンツのデータのうちの、ハイライトシーンとする区間のデータを、検出器とするHMMの学習に用いる学習用データとして、学習用データから得た画像と音声それぞれのラベル時系列をHMMに与えて、離散HMM(観測値が離散値のHMM)の学習が行われる。
その後、ハイライトシーンを検出する対象の検出対象コンテンツから、所定の長さ(ウインドウ長)の画像と音声それぞれのラベル時系列を、スライディングウインドウ処理によって抽出し、学習後のHMMに与えて、そのHMMにおいて、ラベル時系列が観測される尤度が求められる。
そして、尤度が所定の閾値より大となった場合に、その尤度が求められたラベル系列の区間が、ハイライトシーンの区間として検出される。
特開2005-189832号公報に記載のハイライトシーン検出技術によれば、コンテンツのデータのうちの、ハイライトシーンとする区間のデータを、学習用データとして、HMMに与えるだけで、どのような特徴量やイベント等のシーンがハイライトシーンとなるかというエキスパートからの事前知識を設計せずとも、学習により、ハイライトシーンを検出する検出器としてのHMMを求めることができる。
その結果、例えば、ユーザが興味があるシーンのデータを、学習用データとして、HMMに与えることで、そのユーザが興味があるシーンを、ハイライトシーンとして検出することが可能となる。
しかしながら、特開2005-189832号公報に記載のハイライトシーン検出技術では、特定のジャンルのコンテンツを、検出対象コンテンツとして、そのような特定のジャンルのコンテンツから、例えば、「拍手」、「打球」、「女声」、「男声」、「音楽」、「音楽+声」、「雑音」のラベリングに適した(音声の)特徴量が抽出される。
したがって、特開2005-189832号公報に記載のハイライトシーン検出技術では、検出対象コンテンツが、特定のジャンルのコンテンツに制限され、そのような制限をなしにするには、検出対象コンテンツのジャンルが異なるごとに、そのジャンルに適した特徴量を設計して(決定しておいて)抽出する必要がある。また、ハイライトシーンの区間の検出に用いられる尤度の閾値を、コンテンツのジャンルごとに決定する必要があるが、そのような閾値の決定は困難である。
これに対して、図1のレコーダでは、コンテンツから抽出した特徴量に対して、「拍手」等の、いわば、コンテンツの内容を表すラベリングをせずに、特徴量をそのまま用いて、コンテンツモデル(HMM)の学習を行い、コンテンツモデルにおいて、コンテンツの構造を自己組織的に獲得するので、コンテンツから抽出する特徴量としては、特定のジャンルに適した特徴量ではなく、シーンの分類(識別)等に一般に用いられている、いわば、汎用の特徴量を採用することができる。
したがって、図1のレコーダでは、様々なジャンルのコンテンツが検出対象コンテンツとなる場合であっても、ジャンルごとに、コンテンツモデルの学習を行う必要はあるが、ジャンルごとに、コンテンツから抽出する特徴量を変更する必要はない。
以上から、図1のレコーダによるハイライトシーン検出技術は、コンテンツのジャンルに依存しない、汎用性が極めて高い技術であるということができる。
また、図1のレコーダでは、ユーザに、興味があるシーン(フレーム)を指定してもらい、その指定に従い、ハイライトシーンであるか否かを表すハイライトラベルを、コンテンツの各フレームにラベリングしたハイライトラベル系列を生成し、そのハイライトラベル系列を構成要素系列とするマルチストリームによって、ハイライト検出器としてのHMMの学習を行うので、どのような特徴量やイベント等のシーンがハイライトシーンとなるかというエキスパートからの事前知識を設計せずとも、ハイライト検出器としてのHMMを、容易に得ることができる。
このように、図1のレコーダによるハイライト検出技術は、エキスパートからの事前知識を必要としない点でも、汎用性が高い。
そして、図1のレコーダは、ユーザの嗜好を学習し、その嗜好にあったシーン(ユーザの興味があるシーン)を、ハイライトシーンとして検出して、そのようなハイライトシーンを集めたダイジェストを提供する。したがって、コンテンツの視聴の、いわば「個人化」が実現され、コンテンツの楽しみ方を広げていくことができる。
[サーバクライアントシステムへの適用]
図1のレコーダは、全体を、単体の装置として構成することも可能であるが、サーバクライアントシステムとして、サーバとクライアントとに分けて構成することも可能である。
ここで、コンテンツモデル、ひいては、コンテンツモデルの学習に用いるコンテンツとしては、すべてのユーザに共通のコンテンツ(コンテンツモデル)を採用することができる。
一方、ユーザの興味があるシーン、すなわち、ユーザにとってのハイライトシーンは、ユーザごとに異なる。
そこで、図1のレコーダを、サーバクライアントシステムとして構成する場合には、例えば、コンテンツモデルの学習に用いるコンテンツの管理(記憶)は、サーバに行わせることができる。
また、例えば、コンテンツの構造の学習、つまり、コンテンツモデルの学習は、コンテンツのジャンル等の、コンテンツのカテゴリごとに、サーバに行わせることができ、さらに、学習後のコンテンツモデルの管理(記憶)も、サーバに行わせることができる。
また、例えば、コンテンツモデルにおいて、コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる最尤状態系列の推定、さらには、その推定結果である最尤状態系列の管理(記憶)も、サーバに行わせることができる。
サーバクライアントシステムでは、クライアントは、処理に必要な情報をサーバに要求し、サーバは、クライアントから要求があった情報を、クライアントに提供(送信)する。そして、クライアントは、サーバから提供を受けた情報を用いて、必要な処理を行う。
図29は、図1のレコーダを、サーバクライアントシステムで構成する場合の、そのサーバクライアントシステムの構成例(第1の構成例)を示すブロック図である。
図29では、サーバは、コンテンツ記憶部11、コンテンツモデル学習部12、及び、モデル記憶部13から構成され、クライアントは、コンテンツ構造提示部14、ダイジェスト生成部15、及び、スクラップブック生成部16から構成される。
なお、図29において、クライアントに対しては、コンテンツを、コンテンツ記憶部11から提供することもできるし、その他の図示せぬブロック(例えば、チューナ等)から与えることもできる。
図29では、コンテンツ構造提示部14全体が、クライアント側に設けられているが、コンテンツ構造提示部14は、その一部分を、サーバとして構成し、残りの部分を、クライアントとして構成することができる。
図30は、そのようなサーバクライアントシステムの構成例(第2の構成例)を示すブロック図である。
図30では、コンテンツ構造提示部14(図9)の一部分としてのコンテンツ選択部31ないし座標算出部37が、サーバに設けられ、コンテンツ構造提示部14の残りの部分としてのマップ描画部38、及び表示制御部39が、クライアントに設けられている。
図30においては、クライアントは、モデルマップの描画に用いるコンテンツを特定する情報としてのコンテンツIDを、サーバに送信する。
サーバでは、クライアントからのコンテンツIDによって特定されるコンテンツが、コンテンツ選択部31において注目コンテンツに選択され、モデルマップの生成(描画)に必要な状態座標が求められるとともに、状態対応画像情報が生成される。
さらに、サーバでは、状態座標と、状態対応画像情報とが、クライアントに送信され、クライアントでは、サーバからの状態座標を用いて、モデルマップが描画され、そのモデルマップに、サーバからの状態対応画像情報がリンク付けされる。そして、クライアントでは、モデルマップが表示される。
次に、上述の図29では、ハイライト検出器学習部51を含むダイジェスト生成部15(図14)全体が、クライアント側に設けられているが、ハイライト検出器学習部51(図15)は、その一部分を、サーバとして構成し、残りの部分を、クライアントとして構成することができる。
図31は、そのようなサーバクライアントシステムの構成例(第3の構成例)を示すブロック図である。
図31では、ハイライト検出器学習部51(図15)の一部分としてのコンテンツ選択部61ないし最尤状態系列推定部64が、サーバに設けられ、残りの部分としてのハイライトラベル生成部65ないし学習部67が、クライアントに設けられている。
図31において、クライアントは、ハイライト検出器の学習に用いるコンテンツのコンテンツIDを、サーバに送信する。
サーバでは、クライアントからのコンテンツIDによって特定されるコンテンツが、コンテンツ選択部61において注目コンテンツに選択され、その注目コンテンツに対する最尤状態系列が求められる。そして、サーバでは、注目コンテンツに対する最尤状態系列が、クライアントに提供される。
クライアントでは、サーバからの最尤状態系列を用いて、学習用ラベル系列が生成され、その学習用ラベル系列を用いて、ハイライト検出器の学習が行われる。そして、クライアントでは、学習後のハイライト検出器が、検出器記憶部52に記憶される。
次に、上述の図29では、ハイライト検出部53を含むダイジェスト生成部15(図14)全体が、クライアント側に設けられているが、ハイライト検出部53(図18)は、その一部分を、サーバとして構成し、残りの部分を、クライアントとして構成することができる。
図32は、そのようなサーバクライアントシステムの構成例(第4の構成例)を示すブロック図である。
図32では、ハイライト検出部53(図18)の一部分としてのコンテンツ選択部71ないし最尤状態系列推定部74が、サーバに設けられ、残りの部分としての検出用ラベル生成部75ないし再生制御部80が、クライアントに設けられている。
図32において、クライアントは、ハイライトシーンの検出の対象の検出対象コンテンツのコンテンツIDを、サーバに送信する。
サーバでは、クライアントからのコンテンツIDによって特定されるコンテンツが、コンテンツ選択部71において注目コンテンツに選択され、その注目コンテンツに対する最尤状態系列が求められる。そして、サーバでは、注目コンテンツに対する最尤状態系列が、クライアントに提供される。
クライアントでは、サーバからの最尤状態系列を用いて、検出用ラベル系列が生成され、その検出用ラベル系列と、検出器記憶部52に記憶されたハイライト検出器とを用いて、ハイライトシーンの検出と、そのハイライトシーンを用いたダイジェストコンテンツの生成とが行われる。
次に、上述の図29では、初期スクラップブック生成部101を含むスクラップブック生成部16(図22)全体が、クライアント側に設けられているが、初期スクラップブック生成部101(図23)は、その一部分を、サーバとして構成し、残りの部分を、クライアントとして構成することができる。
図33は、そのようなサーバクライアントシステムの構成例(第5の構成例)を示すブロック図である。
図33では、初期スクラップブック生成部101(図23)の一部分としてのコンテンツ選択部111ないし座標算出部117が、サーバに設けられ、残りの部分としてのマップ描画部118、及び、表示制御部119、並びに、状態選択部121、及び、選択状態登録部122が、クライアントに設けられている。
図33において、クライアントは、モデルマップの描画に用いるコンテンツを特定する情報としてのコンテンツIDを、サーバに送信する。
サーバでは、クライアントからのコンテンツIDによって特定されるコンテンツが、コンテンツ選択部111において注目コンテンツに選択され、モデルマップの生成(描画)に必要な状態座標が求められるとともに、状態対応画像情報が生成される。
さらに、サーバでは、状態座標と、状態対応画像情報とが、クライアントに送信され、クライアントでは、サーバからの状態座標を用いて、モデルマップが描画され、そのモデルマップに、サーバからの状態対応画像情報がリンク付けされる。そして、クライアントでは、モデルマップが表示される。
また、クライアントでは、ユーザの操作に応じて、モデルマップ上の状態が、選択状態に選択され、その選択状態の状態IDが認識される。そして、クライアントでは、選択状態の状態IDがスクラップブックに登録され、そのスクラップブックが、初期スクラップブックとして、初期スクラップブック記憶部102に記憶される。
次に、上述の図29では、登録スクラップブック生成部103を含むスクラップブック生成部16(図22)全体が、クライアント側に設けられているが、登録スクラップブック生成部103(図26)は、その一部分を、サーバとして構成し、残りの部分を、クライアントとして構成することができる。
図34は、そのようなサーバクライアントシステムの構成例(第6の構成例)を示すブロック図である。
図34では、登録スクラップブック生成部103(図26)の一部分としてのコンテンツ選択部142ないし最尤状態系列推定部145が、サーバに設けられ、残りの部分としてのスクラップブック選択部141、フレーム抽出部146、及び、フレーム登録部147が、クライアントに設けられている。
図34において、クライアントは、スクラップブック選択部141が選択した注目スクラップブックに対応付けられたカテゴリを、サーバに送信する。
サーバでは、クライアントからのカテゴリのコンテンツに対する、そのカテゴリに対応付けられたコンテンツモデルの最尤状態系列が推定され、クライアントからのカテゴリのコンテンツとともに、クライアントに提供される。
クライアントでは、サーバからの最尤状態系列の状態のうちの、状態IDが、スクラップブック選択部141で選択された注目スクラップブックに登録された状態ID(登録状態ID)に一致する状態に対応するフレームが、サーバからのコンテンツから抽出され、スクラップブックに登録される。
以上のように、図1のレコーダを、サーバとクライアントとに分けて構成することにより、ハードウェアの性能が高くないクライアントであっても、処理を迅速に行うことが可能となる。
なお、図1のレコーダが行う処理のうちの、ユーザの嗜好が反映される部分の処理をクライアントが行うようにする限り、図1のレコーダを、どのように、サーバとクライアントとに分けるかは、特に限定されるものではない。
[その他のレコーダの構成例]
以上においては、フレーム単位の画像より得られる特徴量を用いて、ビデオコンテンツを自己組織的に構造化することでコンテンツモデルを学習し、コンテンツ構造を提示したり、ダイジェストビデオやビデオスクラップを生成する例について説明してきた。しかしながら、コンテンツモデルを学習するにあたっては、特徴量としてフレーム単位の画像以外のものを用いるようにしてもよく、例えば、音声や画像内の対象物などを特徴量として用いるようにしてもよい。
図35は、フレーム単位の画像以外の特徴量を用いるようにした、本発明の情報処理装置を適用したレコーダの他の実施の形態の構成例を示すブロック図である。尚、図1のレコーダと同一の機能を備えた構成には、同一の符号を付しており、その説明は適宜省略するものとする。
すなわち、図35のレコーダにおいて、図1のレコーダと異なるのは、コンテンツモデル学習部12、モデル記憶部13、コンテンツ構造提示部14、ダイジェスト生成部15、及び、スクラップブック生成部16に代えて、コンテンツモデル学習部201、モデル記憶部202、コンテンツ構造提示部203、ダイジェスト生成部204、及び、スクラップブック生成部205を設けたことである。
コンテンツモデル学習部201、モデル記憶部202、コンテンツ構造提示部203、ダイジェスト生成部204、及び、スクラップブック生成部205は、いずれもその基本的な機能は、コンテンツモデル学習部12、モデル記憶部13、コンテンツ構造提示部14、ダイジェスト生成部15、及び、スクラップブック生成部16と同様である。しかしながら、それぞれで扱われる特徴量が、上述したフレーム単位の画像の特徴量(以下、画像特徴量とも称する)に加えて、さらに、音声特徴量、および対象物特徴量の合計3種類の特徴量に対応したものである点が異なる。尚、ここでは、3種類の特徴量を扱う例について説明を進めるものとするが、扱う特徴量の種類は3種類に限られるものではなく、それ以上の種類の特徴量を扱うようにしてもよいものである。
[コンテンツモデル学習部201の構成例]
図36は、図35のコンテンツモデル学習部201の構成例を示すブロック図である。尚、図36のコンテンツモデル学習部201の構成において、図2において説明したコンテンツモデル学習部12と同一の機能を備えた構成については、同一の符号を付しており、その説明は省略するものとする。
コンテンツモデル学習部201は、状態が遷移する状態遷移確率と、状態から、所定の観測値が観測される観測確率とで規定される状態遷移確率モデルの学習に用いるコンテンツである学習用コンテンツの画像の各フレームの特徴量として、画像特徴量、音声特徴量、および対象物特徴量を抽出する。そして、コンテンツモデル学習部201は、学習用コンテンツの画像特徴量、音声特徴量、および対象物特徴量を用いて、それぞれ状態遷移確率モデルの学習を行う。
画像特徴量抽出部220は、図2の特徴量抽出部22と同一のものであり、さらに、画像特徴量記憶部26、および学習部27については、図2のものと同一である。すなわち、画像特徴量を扱う構成については、図2のコンテンツモデル学習部12と同一である。また、学習部27において、学習により得られるコンテンツモデルは、モデル記憶部202における画像モデル記憶部202aに記憶される。すなわち、画像モデル記憶部202aは、図2におけるモデル記憶部13と同様のものである。尚、画像モデル記憶部202aに記憶されるコンテンツモデルは、画像特徴量により得られるコンテンツモデルであるので、以降においては、画像コンテンツモデルとも称する。
音声特徴量抽出部221は、学習用コンテンツの音声について、画像の各フレームに対応付けて特徴量を抽出する。
音声特徴量抽出部221は、学習用コンテンツ選択部21からの学習用コンテンツを、画像と音声のデータに逆多重化し、画像の各フレームに対応付けて、音声の特徴量を抽出して、音声特徴量記憶部222に供給する。尚、ここでいうフレーム単位の音声についての特徴量を、以降においては、音声特徴量と称するものとする。
すなわち、音声特徴量抽出部221は、プリミティブ特徴量抽出部241、平均算出部242、分散算出部243、および結合部244から構成される。
プリミティブ特徴量抽出部241は、音声分類(sound classification, audio classification)の分野で利用されているような、音声からシーン(例えば、「音楽」、「非音楽」、「ノイズ」、「人の声」、「人の声+音楽」、および「観衆」など)を分類するのに適した音声特徴量を生成するための原始的な特徴量であるプリミティブ特徴量を抽出する。プリミティブ特徴量とは、音声分類で使用される、例えば、10msecオーダ程度の比較的短い時間単位で音声信号から計算により得られるエネルギー、ゼロ交差レート、およびスペクトル重心などである。
より具体的には、プリミティブ特徴量抽出部241は、例えば、「Zhu Liu; Jincheng Huang; Yao Wang; Tsuhan Chen, Audio feature extraction and analysis for scene classification, First Workshop on Multimedia Signal Processing, 1997., IEEE Volume, Issue , 23-25 Jun 1997 Page(s):343 - 348」、および「Brezeale, D. Cook, D.J., Automatic Video Classification: A Survey of the Literature, IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, May 2008, Volume: 38, Issue: 3, pp. 416-430」に挙げられている特徴量の抽出手法により、プリミティブ特徴量を抽出する。
平均算出部242は、プリミティブ特徴量時系列から、より長い所定の時間単位(一般的に1sec以上)で統計量として平均値を計算することにより、より長い所定の時間単位の特徴量を時系列に抽出し、結合部244に供給する。
分散算出部243は、プリミティブ特徴量時系列から、より長い所定の時間単位(一般的に1sec以上)で統計量として分散を計算することにより、より長い所定の時間単位の特徴量を時系列に抽出し、結合部244に供給する。
結合部244は、プリミティブ特徴量時系列から統計量として求められた平均値、および分散を結合し、結合結果を注目フレームの特徴量として音声特徴量記憶部26に供給する。
より具体的には、音声特徴量は、後述する処理を実現するため、上述した画像特徴量と同期するように抽出する必要がある。また、音声特徴量は、画像特徴量が抽出された各時刻において、音声によりシーンを判別するのに適した特徴量であることが望ましいことから、以下のような手法により生成される。
すなわち、プリミティブ特徴量抽出部241は、まず、音信号がステレオ音声信号である場合、モノラル音声信号に変換する。そして、プリミティブ特徴量抽出部241は、図37の波形図A及びBで示されるように、0.05secのステップ幅で、0.05secの時間幅の窓をずらしていき、窓の中の音声信号のプリミティブ特徴量を抽出する。ここで、波形図A,Bにおいては、いずれも縦軸が音声信号の振幅を表し、横軸が時間を表す。また、波形図Bは、波形図Aの一部について、分解能を挙げて表示したものであり、波形図Aにおいては、0(×104)ないし10(×104)の範囲が、2.0833secのスケールとなっており、波形図Bでは、0ないし5000の範囲が、0.1042secのスケールとなっている。尚、プリミティブ特徴量は、窓の中の音声信号から、複数種類を抽出するようにしてもよい。その場合、プリミティブ特徴量抽出部241は、それらの複数種類を要素とするベクトルを構成してプリミティブ特徴量とする。
そして、音声特徴量抽出部221は、画像特徴量が抽出された各時刻(例えば、フレームの開始の時刻や、フレームの開始の時刻と終了の時刻との間の中点の時刻)において、図38で示されるように、平均算出部242、および分散算出部243は、その時刻の前後0.5sec分(つまり1.0sec分)のプリミティブ特徴量の平均値と分散を求め、それを当該時刻の音声特徴量とする。
図38においては、上から、波形図Aは、音声情報のサンプリングデータを識別する識別子(プリミティブ特徴量が抽出される時刻)Sidとプリミティブ特徴量であるエネルギーとの関係を示すの波形であり、波形図Bは、画像のフレームを識別する識別子(フレームの画像特徴量が抽出される時刻)Vidと画像特徴量(GIST)との関係を示す波形である。尚、波形図A,Bにおいては、丸印が、それぞれプリミティブ特徴量、および画像特徴量を表す。
また、波形図C,Dは、それぞれ波形図A,Bの元になる波形であり、波形図A,Bは、それぞれ、波形図C,Dの一部の横軸の識別子Sid、Vidの表示間隔が拡大された波形である。図38においては、音声のプリミティブ特徴量のサンプリングレートfq_sが20Hzであり、画像特徴量のサンプリングレートfq_vは、3Hzであるときの例が示されている。
ある画像識別子Vidのフレームと同期するプリミティブ特徴量の音声識別子Sidは、以下の式(4)で示される。
Sid=ceil((Vid-1)×(fq_s/fq_v))+1
・・・(4)
ここで、ceil()は、正の無限大方向の丸め込み(カッコ内の値以上の最小の整数)を示す関数である。
いま、音声特徴量となる平均値を求めるのに用いるプリミティブ特徴量のサンプル数Wを、所定の定数Kを1として、式(5)で表すこととすると、サンプル数Wは、7となる。この場合、ある画像識別子Vidのフレームに対しては、式(4)を満たす音声識別子Sidを中心とするW=7個のプリミティブ特徴量の平均値、および分散が、対応(同期)する音声特徴量となる。
W=round(K×(fq_s/fq_v))
・・・(5)
ここで、round()は、最も近い整数にする(カッコ内の小数点以下を四捨五入する)関数である。なお、式(5)において、定数K=fq_vとすると、音声特徴量を求めるのに用いられるプリミティブ特徴量は、1秒分のプリミティブ特徴量となる。
このようにして抽出された音声特徴量は、音声特徴量記憶部222に記憶される。尚、音声特徴量記憶部222、および学習部223についての機能は、画像特徴量記憶部26、および学習部27と同様であるので、その説明は省略するものとする。さらに、学習部223が、学習処理することにより得られるコンテンツモデルは、音声コンテンツモデルとしてモデル記憶部202の音声モデル記憶部202bに記憶される。
対象物特徴量抽出部224は、学習用コンテンツの画像の各フレームについて対象物に対応付けて特徴量を抽出する。
対象物特徴量抽出部224は、学習用コンテンツ選択部21からの学習用コンテンツを、画像と音声のデータに逆多重化し、画像の各フレームに含まれる、例えば、人物、および顔といった対象物の存在範囲を矩形画像として検出する。そして、対象物特徴量抽出部224は、検出した矩形画像を用いて特徴量を抽出し、対象物特徴量記憶部225に供給する。
すなわち、対象物特徴量抽出部224は、対象物抽出部261、フレーム分割部262、サブ領域特徴量抽出部263、および結合部264から構成される。
対象物抽出部261は、学習用コンテンツを、まず、画像と音声のデータに逆多重化する。次に、対象物抽出部261は、画像の各フレームにおいて、対象物検出処理を実行し、例えば、対象物を人物の全身外形であるものとすると、図39の左上部で示されるように、フレームF1内の矩形領域からなる対象物OB1,OB2を検出する。そして、対象物抽出部261は、図39の左下部において斜線部で示される、検出された対象物を含む矩形領域の左上座標と幅及び高さからなるベクトル(X1,Y1,W1,H1)および(X2,Y2,W2,H2)をサブ領域特徴量抽出部263に出力する。尚、複数の対象物が検出され、複数の矩形領域が出力された場合、1フレームにこの情報が検出数分だけ出力されることになる。
同時に、フレーム分割部262は、フレーム分割部23と同様にフレームを、例えば、図39の左下部で示されるようにサブ領域R1乃至R36(6×6)に分割し、サブ領域特徴量抽出部263に供給する。
サブ領域特徴量抽出部263は、図39の中央下部で示されるように、各サブ領域Rnにおける矩形領域のピクセル数Vnをカウントし、検出数分だけ累積する。さらに、サブ領域特徴量抽出部263は、矩形領域のピクセル数Vnをサブ領域内総ピクセル数Snで除することで画像サイズに対して正規化し、結合部264に出力する。
結合部264は、図39の右下部で示されるように、各サブ領域Rnで計算された値Fn=Vn/Snを、ベクトルのコンポーネントとして結合することで、対象物特徴量となるベクトルを生成し、対象物特徴量記憶部225に出力する。尚、対象物特徴量記憶部225、および学習部226についての機能は、画像特徴量記憶部26、および学習部27と同様であるので、その説明は省略するものとする。さらに、学習部226が、学習処理することにより得られるコンテンツモデルは、対象物コンテンツモデルとしてモデル記憶部202の対象物モデル記憶部202cに記憶される。
[コンテンツモデル学習部201が行うコンテンツモデル学習処理]
次に、図36のコンテンツモデル学習部201が行うコンテンツ学習処理について説明する。図36のコンテンツモデル学習部201が行うコンテンツ学習処理は、特徴量の種類に応じて、画像コンテンツモデル学習処理、音声コンテンツモデル学習処理、および、対象物コンテンツモデル学習処理からなる。このうち、画像コンテンツモデル学習処理は、図8を参照して説明したコンテンツモデル学習処理と同様であり、生成された画像コンテンツモデルが画像モデル記憶部202aに記憶されるのみであるので、その説明は省略する。
次に、図40のフローチャートを参照して、図36のコンテンツモデル学習部201が行う音声コンテンツモデル学習処理について説明する。尚、図40におけるステップS201の処理は、図8のステップS11の処理と同様であるのでその説明は省略するものとする。
ステップS202では、音声特徴量抽出部221のプリミティブ特徴量抽出部241が、学習用コンテンツ選択部21からの学習用コンテンツの中の、まだ、注目学習用コンテンツ(以下、注目コンテンツともいう)に選択していない学習用コンテンツの1つを、注目コンテンツに選択する。
そして、処理は、ステップS202からステップS203に進み、プリミティブ特徴量抽出部241は、注目コンテンツのフレームのうちの、まだ、注目フレームとしていない、時間的に最も先行するフレームを、注目フレームに選択し、処理は、ステップS204に進む。
ステップS204では、プリミティブ特徴量抽出部241が、図37、図38を参照して説明したように、注目フレームに対応する音声特徴量を生成するのに用いるプリミティブ特徴量を、注目コンテンツの音源から抽出する。そして、プリミティブ特徴量抽出部241は、抽出したプリミティブ特徴量を、平均算出部242、および分散算出部243に供給する。
ステップS205では、平均算出部242は、供給されたプリミティブ特徴量のうち、注目フレームの分について平均値を算出し、結合部244に供給する。
ステップS206では、分散算出部243は、供給されたプリミティブ特徴量のうち、注目フレームの分について分散を算出し、結合部244に供給する。
ステップS207では、結合部244は、平均算出部242より供給された、注目フレームにおけるプリミティブ特徴量の平均値と、分散算出部243より供給された、注目フレームにおけるプリミティブ特徴量の分散と結合することで特徴量ベクトルを構成する。そして、結合部244は、この特徴量ベクトルを、注目フレームの音声特徴量として生成し、処理は、ステップS208に進む。
ステップS208では、フレーム分割部23は、注目コンテンツのすべてのフレームを注目フレームとしたかどうかを判定する。
ステップS208において、注目コンテンツのフレームの中に、まだ、注目フレームとしていないフレームがあると判定された場合、処理は、ステップS203に戻り、以下、同様の処理が繰り返される。
また、ステップS208において、注目コンテンツのすべてのフレームを注目フレームとしたと判定された場合、処理は、ステップS209に進み、結合部244は、注目コンテンツについて求めた注目コンテンツの各フレームの特徴量(の時系列)を、音声特徴量記憶部222に供給して記憶させる。
そして、処理は、ステップS209からステップS210に進み、プリミティブ特徴量抽出部241は、学習用コンテンツ選択部21からの学習用コンテンツのすべてを、注目コンテンツとしたかどうかを判定する。
ステップS210において、学習用コンテンツの中に、まだ、注目コンテンツとしていない学習用コンテンツがあると判定された場合、処理は、ステップS202に戻り、以下、同様の処理が繰り返される。
また、ステップS210において、学習用コンテンツのすべてが、注目コンテンツとしたと判定された場合、処理は、ステップS211に進み、学習部223は、音声特徴量記憶部222に記憶された、学習用コンテンツの音声特徴量(各フレームの音声特徴量の時系列)を用いて、音声HMMの学習を行う。
そして、学習部223は、学習後の音声HMMを、音声コンテンツモデルとして、学習用コンテンツのカテゴリと対応付けて、音声モデル記憶部202bに出力(供給)し、音声コンテンツモデル学習処理を終了する。
なお、音声コンテンツモデル学習処理は、任意のタイミングで開始することができる。
以上の音声コンテンツモデル学習処理によれば、音声HMMにおいて、学習用コンテンツに潜む、コンテンツの構造(例えば、音声等が作り出す構造)が自己組織的に獲得される。
その結果、音声コンテンツモデル学習処理よって得られる音声コンテンツモデルとしての音声HMMの各状態は、学習によって獲得されたコンテンツの構造の要素に対応し、状態遷移は、コンテンツの構造の要素どうしの間での、時間的な遷移を表現する。
そして、音声コンテンツモデルの状態は、音声特徴量空間(音声特徴量抽出部221(図36)で抽出される音声特徴量の空間)において、空間的な距離が近く、かつ、時間的な前後関係が似ているフレーム群(つまり「似たシーン」)をまとめて表現する。
次に、図41のフローチャートを参照して、図36のコンテンツモデル学習部201が行う対象物コンテンツモデル学習処理について説明する。尚、図41におけるステップS231の処理は、図8のステップS11の処理と同様であるのでその説明は省略するものとする。
ステップS232では、対象物特徴量抽出部224のフレーム分割部262が、学習用コンテンツ選択部21からの学習用コンテンツの中の、まだ、注目学習用コンテンツ(以下、注目コンテンツともいう)に選択していない学習用コンテンツの1つを、注目コンテンツに選択する。
そして、処理は、ステップS232からステップS233に進み、フレーム分割部262は、注目コンテンツのフレームのうちの、まだ、注目フレームとしていない、時間的に最も先行するフレームを、注目フレームに選択し、処理は、ステップS234に進む。
ステップS234では、フレーム分割部262は、注目フレームを、複数のサブ領域に分割し、サブ領域特徴量抽出部263に供給して、処理は、ステップS235に進む。
ステップS235では、対象物抽出部261は、注目フレームに含まれる対象物を検出し、検出した対象物を含む領域を矩形領域とし、矩形領域の左上座標と幅及び高さからなるベクトルをサブ領域特徴量抽出部263に出力する。
ステップS236では、サブ領域特徴量抽出部263は、フレーム分割部262からの各サブ領域Rnについて、対象物を含む矩形領域になっているピクセル数Vnをカウントする。さらに、サブ領域特徴量抽出部263は、サブ領域Rnに含まれる全ピクセル数Snで、各サブ領域Rnにおける矩形領域となっているピクセル数Vnを除算して正規化し、サブ領域特徴量Fn=Vn/Snとして結合部264に供給する。
ステップS237では、結合部264は、サブ領域特徴量抽出部263からの、注目フレームを構成する複数のサブ領域Rnそれぞれのサブ領域特徴量Fnを結合することで、注目フレームの対象物特徴量を生成し、処理は、ステップS238に進む。
ステップS238では、フレーム分割部262は、注目コンテンツのすべてのフレームを注目フレームとしたかどうかを判定する。
ステップS238において、注目コンテンツのフレームの中に、まだ、注目フレームとしていないフレームがあると判定された場合、処理は、ステップS233に戻り、以下、同様の処理が繰り返される。
また、ステップS238において、注目コンテンツのすべてのフレームを注目フレームとしたと判定された場合、処理は、ステップS239に進み、結合部244は、注目コンテンツについて求めた注目コンテンツの各フレームの対象物特徴量(の時系列)を、対象物特徴量記憶部225に供給して記憶させる。
そして、処理は、ステップS239からステップS240に進み、フレーム分割部262は、学習用コンテンツ選択部21からの学習用コンテンツのすべてを、注目コンテンツとしたかどうかを判定する。
ステップS240において、学習用コンテンツの中に、まだ、注目コンテンツとしていない学習用コンテンツがあると判定された場合、処理は、ステップS232に戻り、以下、同様の処理が繰り返される。
また、ステップS240において、学習用コンテンツのすべてを、注目コンテンツとしたと判定された場合、処理は、ステップS241に進む。ステップS241において、学習部226は、対象物特徴量記憶部225に記憶された、学習用コンテンツの対象物特徴量(各フレームの対象物特徴量の時系列)を用いて、対象物HMMの学習を行う。
そして、学習部226は、学習後の対象物HMMを、対象物コンテンツモデルとして、学習用コンテンツのカテゴリと対応付けて、対象物モデル記憶部202cに出力(供給)し、対象物コンテンツモデル学習処理を終了する。
なお、対象物コンテンツモデル学習処理は、任意のタイミングで開始することができる。
以上の対象物コンテンツモデル学習処理によれば、対象物HMMにおいて、学習用コンテンツに潜む、コンテンツの構造(例えば、対象物の登場の有無等が作り出す構造)が自己組織的に獲得される。
その結果、対象物コンテンツモデル学習処理よって得られる対象物コンテンツモデルとしての対象物HMMの各状態は、学習によって獲得されたコンテンツの構造の要素に対応し、状態遷移は、コンテンツの構造の要素どうしの間での、時間的な遷移を表現する。
そして、対象物コンテンツモデルの状態は、対象物特徴量空間(対象物特徴量抽出部224(図36)で抽出される対象物特徴量の空間)において、空間的な距離が近く、かつ、時間的な前後関係が似ているフレーム群(つまり「似たシーン」)をまとめて表現する。
次に、コンテンツ構造提示部203の構成例について説明する。コンテンツ構造提示部203の構成例については、例えば、後述する初期スクラップブック生成部371(図48)における、状態選択部419、および選択状態登録部420を除いた構成となる。これは、画像コンテンツモデル、音声コンテンツモデル、および対象物コンテンツモデルのそれぞれに対応したコンテンツ構造提示部14が設けられることにより構成されるものであるからである。
また、コンテンツ構造提示部203のコンテンツ構造提示処理は、画像コンテンツモデル、音声コンテンツモデル、および対象物コンテンツモデルのそれぞれのコンテンツ構造のマップ画像を個別に、または各々独立したウィンドウに表示する処理となる。従って、画像コンテンツモデル、音声コンテンツモデル、および対象物コンテンツモデルのそれぞれについて、上述したコンテンツ構造提示部14(図9)におけるコンテンツ構造提示処理(図13)の処理と、同一の処理により実現されるものである。
以上のことから、コンテンツ構造提示部203の構成例と、そのコンテンツ構造提示処理については、その説明を省略するものとする。
[ダイジェスト生成部204の構成例]
図42は、図35のダイジェスト生成部204の構成例を示すブロック図である。
ダイジェスト生成部204は、ハイライト検出器学習部291、検出器記憶部292、及び、ハイライト検出部293から構成される。
ハイライト検出器学習部291、検出器記憶部292、及び、ハイライト検出部293は、基本的に、ハイライト検出器学習部51、検出器記憶部52、及び、ハイライト検出部53と同様の機能を備えているが、いずれも画像コンテンツモデル、音声コンテンツモデル、および対象物コンテンツモデルに対応した処理を実行することができる。
[ハイライト検出器学習部291の構成例]
図43は、図42のハイライト検出器学習部291の構成例を示すブロック図である。尚、図43におけるハイライト検出器学習部291の構成について、図15のハイライト検出器学習部51の構成と同一の機能を備える構成については、同一の符号を付しており、その説明は、適宜省略するものとする。
すなわち、ハイライト検出器学習部291において、ハイライト検出器学習部51の構成と異なる構成は、画像特徴量、音声特徴量、および対象物特徴量に対応したモデル選択部62、特徴量抽出部63、および最尤状態系列推定部64を備えている点である。より具体的には、ハイライト検出器学習部291は、画像特徴量に対応した画像モデル選択部311、画像特徴量抽出部312、および画像最尤状態系列推定部313を備えている。また、ハイライト検出器学習部291は、音声特徴量に対応した音声モデル選択部316、音声特徴量抽出部317、および音声最尤状態系列推定部318を備えている。さらに、ハイライト検出器学習部291は、対象物特徴量に対応した、対象物モデル選択部319、対象物特徴量抽出部320、および対象物最尤状態系列推定部321を備えている。
ただし、画像コンテンツモデルを対象とした画像モデル選択部311、画像特徴量抽出部312、および画像最尤状態系列推定部313は、モデル選択部62、特徴量抽出部63、および最尤状態系列推定部64と同様のものである。また、音声モデル選択部316、音声特徴量抽出部317、および音声最尤状態系列推定部318は、扱う特徴量が音声特徴量である点を除き、基本的な機能は、モデル選択部62、特徴量抽出部63、および最尤状態系列推定部64と同様である。さらに、対象物モデル選択部319、対象物特徴量抽出部320、および対象物最尤状態系列推定部321も、扱う特徴量が対象物特徴量である点を除き、基本的な機能は、モデル選択部62、特徴量抽出部63、および最尤状態系列推定部64と同様である。
さらに、画像モデル選択部311は、モデル記憶部202のうちの画像モデル記憶部202aより画像コンテンツモデルのいずれかを選択する。音声モデル選択部316は、モデル記憶部202のうちの音声モデル記憶部202bより音声コンテンツモデルのいずれかを選択する。対象物モデル選択部319は、モデル記憶部202のうちの対象物モデル記憶部202cより対象物コンテンツモデルのいずれかを選択する。
また、図43のハイライト検出器学習部291においては、学習用ラベル生成部66に代えて、学習用ラベル生成部314を備えている。学習用ラベル生成部314は、基本的な機能は、学習用ラベル生成部66と同様である。学習用ラベル生成部314は、画像最尤状態系列推定部313より、注目モデルとしての画像コンテンツモデルにおいて注目コンテンツの画像特徴量が観測されるときの最尤状態系列(画像最尤状態系列とも称する)である状態IDの系列を取得する。学習用ラベル生成部314は、音声最尤状態系列推定部318より、注目モデルとしての音声コンテンツモデルにおいて注目コンテンツの音声特徴量が観測されるときの最尤状態系列(音声最尤状態系列とも称する)である状態IDの系列を取得する。学習用ラベル生成部314は、対象物最尤状態系列推定部319より、注目モデルとしての対象物コンテンツモデルにおいて注目コンテンツの対象物特徴量が観測されるときの最尤状態系列(対象物最尤状態系列とも称する)である状態IDの系列を取得する。学習用ラベル生成部314は、ハイライトラベル生成部65からのハイライトラベル系列を取得する。そして、学習用ラベル生成部314は、画像最尤状態系列、音声最尤状態系列、および対象物最尤状態系列である状態IDの系列、並びにハイライトラベル系列からなる学習用ラベル系列を生成する。
すなわち、学習用ラベル生成部314は、画像、音声、および対象物それぞれの最尤状態系列の状態ID、並びに、ハイライトラベル系列における、各時刻tの状態IDと、ハイライトラベルとを合成したマルチストリームの学習用ラベル系列を生成する。
したがって、学習用ラベル生成部314は、上述した式(2)におけるストリーム数M=4の構成要素系列からなるマルチストリームの学習用ラベル系列を生成する。そして、学習用ラベル生成部314は、マルチストリームの学習用ラベル系列を、学習部315に供給する。
学習部315は、学習用ラベル生成部314からの学習用ラベル系列を用いて、例えば、エルゴディック型の、マルチストリームHMMであるハイライト検出器の学習を、Baum-Welchの再推定法に従って行う。
そして、学習部315は、学習後のハイライト検出器を、コンテンツ選択部61で選択された注目コンテンツのカテゴリと対応付けて、検出器記憶部292に供給して記憶させる。
尚、学習部315におけるマルチストリームHMMの学習においては、上述したようにM=4の4種類の構成要素系列で構成されるため、各構成要素系列の系列重みをW1ないしW4とし、例えば、全てを均等に割付ける場合、いずれも1/4(=0.25)とすることができる。また、ストリーム数Mについて一般化すると、各系列の系列重みについて均等とする場合、いずれの系列重みも1/Mとすることができる。
[ハイライト検出器学習処理]
図44は、図43のハイライト検出器学習部291が行う処理(ハイライト検出器学習処理)を説明するフローチャートである。
ステップS261では、コンテンツ選択部61は、コンテンツ記憶部11に記憶されたコンテンツの中から、例えば、ユーザの操作によって再生が指定されたコンテンツを、注目コンテンツ(注目検出器学習用コンテンツ)に選択する。
そして、コンテンツ選択部61は、注目コンテンツを、画像特徴量抽出部312、音声特徴量抽出部317、および対象物特徴量抽出部320のそれぞれに供給する。また、コンテンツ選択部61は、注目コンテンツのカテゴリを認識し、画像モデル選択部311、音声モデル選択部316、および対象物モデル選択部319に供給して、処理は、ステップS261からステップS262に進む。
ステップS262では、画像モデル選択部311は、画像モデル記憶部202aに記憶された画像コンテンツモデルの中から、コンテンツ選択部61からの、注目コンテンツのカテゴリに対応付けられた画像コンテンツモデルを、注目モデルに選択する。
そして、画像モデル選択部311は、注目モデルを、画像最尤状態系列推定部313に供給して、処理は、ステップS262からステップS263に進む。
ステップS263では、画像特徴量抽出部312は、コンテンツ選択部61から供給される注目コンテンツの各フレームの画像特徴量を抽出し、注目コンテンツの各フレームの画像特徴量(の時系列)を、画像最尤状態系列推定部313に供給する。そして、処理は、ステップS264に進む。
ステップS264では、画像最尤状態系列推定部313は、画像モデル選択部311からの注目モデルにおいて、画像特徴量抽出部312からの注目コンテンツの画像特徴量(の時系列)が観測される尤度が最も高い状態遷移が生じる画像最尤状態系列を推定する。
そして、画像最尤状態系列推定部313は、注目コンテンツに対する注目モデルの画像最尤状態系列を、学習用ラベル生成部314に供給して、処理は、ステップS264からステップS265に進む。
ステップS265では、音声モデル選択部316は、音声モデル記憶部202bに記憶された音声コンテンツモデルの中から、コンテンツ選択部61からの、注目コンテンツのカテゴリに対応付けられた音声コンテンツモデルを、注目モデルに選択する。
そして、音声モデル選択部316は、注目モデルを、音声最尤状態系列推定部318に供給して、処理は、ステップS265からステップS266に進む。
ステップS266では、音声特徴量抽出部317は、コンテンツ選択部61から供給される注目コンテンツの各フレームの音声特徴量を抽出し、注目コンテンツの各フレームの音声特徴量(の時系列)を、音声最尤状態系列推定部318に供給する。そして、処理は、ステップS267に進む。
ステップS267では、音声最尤状態系列推定部318は、音声モデル選択部316からの注目モデルにおいて、音声特徴量抽出部317からの注目コンテンツの音声特徴量(の時系列)が観測される尤度が最も高い状態遷移が生じる音声最尤状態系列を推定する。
そして、音声最尤状態系列推定部318は、注目コンテンツに対する注目モデルの音声最尤状態系列を、学習用ラベル生成部314に供給して、処理は、ステップS267からステップS268に進む。
ステップS268では、対象物モデル選択部319は、対象物モデル記憶部202cに記憶された対象物コンテンツモデルの中から、コンテンツ選択部61からの、注目コンテンツのカテゴリに対応付けられた対象物コンテンツモデルを、注目モデルに選択する。
そして、対象物モデル選択部319は、注目モデルを、対象物最尤状態系列推定部321に供給して、処理は、ステップS268からステップS269に進む。
ステップS269では、対象物特徴量抽出部320は、コンテンツ選択部61から供給される注目コンテンツの各フレームの対象物特徴量を抽出し、注目コンテンツの各フレームの対象物特徴量(の時系列)を、対象物最尤状態系列推定部321に供給する。そして、処理は、ステップS270に進む。
ステップS270では、対象物最尤状態系列推定部321は、対象物モデル選択部319からの注目モデルにおいて、対象物特徴量抽出部320からの注目コンテンツの対象物特徴量(の時系列)が観測される尤度が最も高い状態遷移が生じる対象物最尤状態系列を推定する。
そして、対象物最尤状態系列推定部321は、注目コンテンツに対する注目モデルの対象物最尤状態系列を、学習用ラベル生成部314に供給して、処理は、ステップS270からステップS271に進む。
ステップS271では、ハイライトラベル生成部65は、ユーザの操作に従い、ハイライトラベルを、コンテンツ選択部61で選択された注目コンテンツの各フレームにラベリングすることにより、注目コンテンツについて、ハイライトラベル系列を生成する。
そして、ハイライトラベル生成部65は、注目コンテンツについて生成したハイライトラベル系列を、学習用ラベル生成部314に供給し、処理は、ステップS272に進む。
ステップS272では、学習用ラベル生成部314は、画像最尤状態系列推定部313からの注目コンテンツに対する注目モデルの画像最尤状態系列の状態IDの系列を取得する。また、学習用ラベル生成部314は、音声最尤状態系列推定部318からの注目コンテンツに対する注目モデルの音声最尤状態系列の状態IDの系列を取得する。さらに、学習用ラベル生成部314は、対象物最尤状態系列推定部321からの注目コンテンツに対する注目モデルの対象物最尤状態系列の状態IDの系列を取得する。また、学習用ラベル生成部314は、ハイライトラベル生成部65からのハイライトラベル系列を取得する。そして、学習用ラベル生成部314は、これらの画像最尤状態系列、音声最尤状態系列、および対象物最尤状態系列であるそれぞれの状態IDの系列、およびハイライトラベル系列の4系列を組み合わせて学習用ラベル系列を生成する。
そして、学習用ラベル生成部314は、学習用ラベル系列を、学習部315に供給し、処理は、ステップS272からステップS273に進む。
ステップS273では、学習部315は、学習用ラベル生成部314からの学習用ラベル系列を用いて、マルチストリームHMMであるハイライト検出器の学習を行い、処理は、ステップS274に進む。
ステップS274では、学習部315は、学習後のハイライト検出器を、コンテンツ選択部61で選択された注目コンテンツのカテゴリと対応付けて、検出器記憶部292に供給して記憶させる。
以上のように、ハイライト検出器は、注目コンテンツの注目モデルの画像最尤状態系列、音声最尤状態系列、および対象物最尤状態系列の状態IDの系列と、ハイライトラベル系列の4系列の学習用ラベル系列を用いた、マルチストリームHMMの学習により得られる。
したがって、ハイライト検出器の各状態の、ハイライトラベル系列の観測確率を参照することにより、その状態で観測される(確率が高い)、コンテンツモデルの状態に対応するフレームが、ユーザの興味があるシーン(ハイライトシーン)であるかどうかを判定することができる。
[ハイライト検出部293の構成例]
図45は、図42のハイライト検出部293の構成例を示すブロック図である。尚、図45のハイライト検出部293において、図18のハイライト検出部53における構成と同一の機能を備えた構成については、同一の符号を付しており、その説明は省略するものとする。
図45においてのハイライト検出部293は、基本的に図18のハイライト検出部53と同様の機能を備えたものであるが、画像特徴量、音声特徴量、および対象物特徴量のそれぞれに対応して検出用ラベルを生成する点で異なる。
すなわち、画像モデル選択部341、画像特徴量抽出部342、および画像最尤状態系列推定部343は、図43のハイライト検出器学習部291の画像モデル選択部311、画像特徴量抽出部312、および画像最尤状態系列推定部313と同様である。また、音声モデル選択部350、音声特徴量抽出部351、および音声最尤状態系列推定部352は、図43のハイライト検出器学習部291の音声モデル選択部316、音声特徴量抽出部317、および音声最尤状態系列推定部318と同様である。さらに、対象物モデル選択部353、対象物特徴量抽出部354、および対象物最尤状態系列推定部355は、図43のハイライト検出器学習部291の対象物モデル選択部319、対象物特徴量抽出部320、および対象物最尤状態系列推定部321と同様である。
このような構成により、検出用ラベル生成部344には、注目コンテンツに対する注目モデルの画像最尤状態系列、音声最尤状態系列、および対象物最尤状態系列のそれぞれの状態IDの系列が検出用ラベル生成部344に供給される。
検出用ラベル生成部344は、注目コンテンツに対する注目モデルの画像最尤状態系列、音声最尤状態系列、および対象物最尤状態系列のそれぞれである状態IDの系列、並びに、ハイライトラベルのみのハイライトラベル系列からなる検出用ラベル系列を生成する。
すなわち、検出用ラベル生成部344は、ハイライトシーンでないことを表すハイライトラベルのみのハイライトラベル系列であって、画像最尤状態系列、音声最尤状態系列、および対象物最尤状態系列の系列と同一の長さ(系列長)のハイライトラベル系列を、ハイライト検出器に与える、いわばダミーの系列として生成する。
さらに、検出用ラベル生成部344は、画像最尤状態系列、音声最尤状態系列、および対象物最尤状態系列のそれぞれである状態ID、並びに、ダミーの系列のハイライトラベル系列における、各時刻tの状態IDと、ハイライトラベルとを組み合わせた、マルチストリームの検出用ラベル系列を生成する。
そして、検出用ラベル生成部344は、検出用ラベル系列を、最尤状態系列推定部346に供給する。
尚、検出用ラベル系列の観測確率を求める際の、画像最尤状態系列、音声最尤状態系列、対象物最尤状態系列、およびダミーの系列としてのハイライトラベル系列のそれぞれの系列の系列重みW1乃至W4は、(W1:W2:W3:W4)=(1/3:1/3:1/3:0)を用いる。これにより、最尤状態系列推定部346では、ダミーの系列として入力されたハイライトラベル系列を考慮せずに、注目コンテンツに対する注目モデルの画像最尤状態系列、音声最尤状態系列、および対象物最尤状態系列のみを考慮して、ハイライト関係状態系列の推定が行われることになる。また、ストリーム数Mの場合の重みを一般化すると、ハイライトラベル系列の重みを0として、それ以外の系列の系列重みを均等にする場合、いずれの系列重みも1/(M-1)となる。
また、検出器選択部345、最尤状態系列推定部346、ハイライトシーン検出部347、ダイジェストコンテンツ生成部348、および再生制御部349は、扱うマルチストリームの検出用ラベルが、4つのストリームからなる検出用ラベル系列となる。それ以外の点については、図18における検出器選択部76、最尤状態系列推定部77、ハイライトシーン検出部78、ダイジェストコンテンツ生成部79、および再生制御部80と基本的に同様の機能であるので、その説明は省略する。
[ハイライト検出処理]
図46は、図45のハイライト検出部293の処理(ハイライト検出処理)を説明するフローチャートである。
ステップS291において、コンテンツ選択部71は、コンテンツ記憶部11に記憶されたコンテンツの中から、ハイライトシーンを検出する対象のコンテンツである注目コンテンツ(注目ハイライト検出用コンテンツ)を選択する。
そして、コンテンツ選択部71は、注目コンテンツを、画像特徴量抽出部342、音声特徴量抽出部351、および対象物特徴量抽出部354に供給する。さらに、コンテンツ選択部71は、注目コンテンツのカテゴリを認識し、画像モデル選択部341、音声モデル選択部350、および対象物モデル選択部353、並びに検出器選択部345に供給して、処理は、ステップS291からステップS292に進む。
ステップS292では、画像モデル選択部341は、画像モデル記憶部202aに記憶された画像コンテンツモデルの中から、コンテンツ選択部71からの、注目コンテンツのカテゴリに対応付けられた画像コンテンツモデルを、注目モデルに選択する。
そして、画像モデル選択部341は、注目モデルを、画像最尤状態系列推定部343に供給し、処理は、ステップS292からステップS293に進む。
ステップS293では、画像特徴量抽出部342は、コンテンツ選択部71から供給される注目コンテンツの各フレームの画像特徴量を抽出し、画像最尤状態系列推定部343に供給して、処理は、ステップS294に進む。
ステップS294では、画像最尤状態系列推定部343は、画像モデル選択部341からの注目モデルにおいて、画像特徴量抽出部342からの注目コンテンツの画像特徴量(の時系列)が観測される尤度が最も高い状態遷移が生じる画像最尤状態系列(注目コンテンツに対する注目モデルの画像最尤状態系列)を推定する。
そして、最尤状態系列推定部294は、注目コンテンツに対する注目モデルの画像最尤状態系列を、検出用ラベル生成部344に供給し、処理は、ステップS294からステップS295に進む。
ステップS295では、音声モデル選択部350は、音声モデル記憶部202bに記憶された音声コンテンツモデルの中から、コンテンツ選択部71からの、注目コンテンツのカテゴリに対応付けられた音声コンテンツモデルを、注目モデルに選択する。
そして、音声モデル選択部350は、注目モデルを、音声最尤状態系列推定部352に供給し、処理は、ステップS295からステップS296に進む。
ステップS296では、音声特徴量抽出部351は、コンテンツ選択部71から供給される注目コンテンツの各フレームの音声特徴量を抽出し、音声最尤状態系列推定部352に供給して、処理は、ステップS297に進む。
ステップS297では、音声最尤状態系列推定部352は、音声モデル選択部350からの注目モデルにおいて、音声特徴量抽出部351からの注目コンテンツの音声特徴量(の時系列)が観測される尤度が最も高い状態遷移が生じる音声最尤状態系列(注目コンテンツに対する注目モデルの音声最尤状態系列)を推定する。
そして、音声最尤状態系列推定部352は、注目コンテンツに対する注目モデルの音声最尤状態系列を、検出用ラベル生成部344に供給し、処理は、ステップS297からステップS298に進む。
ステップS298では、対象物モデル選択部353は、対象物モデル記憶部202cに記憶された対象物コンテンツモデルの中から、コンテンツ選択部71からの、注目コンテンツのカテゴリに対応付けられた対象物コンテンツモデルを、注目モデルに選択する。
そして、対象物モデル選択部353は、注目モデルを、対象物最尤状態系列推定部355に供給し、処理は、ステップS298からステップS299に進む。
ステップS299では、対象物特徴量抽出部354は、コンテンツ選択部71から供給される注目コンテンツの各フレームの対象物特徴量を抽出し、対象物最尤状態系列推定部355に供給して、処理は、ステップS300に進む。
ステップS300では、対象物最尤状態系列推定部355は、対象物モデル選択部353からの注目モデルにおいて、対象物特徴量抽出部354からの注目コンテンツの対象物特徴量(の時系列)が観測される尤度が最も高い状態遷移が生じる対象物最尤状態系列(注目コンテンツに対する注目モデルの対象物最尤状態系列)を推定する。
そして、対象物最尤状態系列推定部355は、注目コンテンツに対する注目モデルの対象物最尤状態系列を、検出用ラベル生成部344に供給し、処理は、ステップS300からステップS301に進む。
ステップS301では、検出用ラベル生成部344は、ダミーのハイライトラベル系列として、例えば、ハイライトシーンでないことを表すハイライトラベル(値が"0"のハイライトラベル)のみのハイライトラベル系列を生成し、処理は、ステップS302に進む。
ステップS302では、検出用ラベル生成部344は、注目コンテンツに対する注目モデルの画像最尤状態系列、音声最尤状態系列、対象物最尤状態系列のそれぞれである状態IDの系列、及びダミーのハイライトラベル系列の4系列の検出用ラベル系列を生成する。
そして、検出用ラベル生成部344は、検出用ラベル系列を、最尤状態系列推定部346に供給して、処理は、ステップS302からステップS303に進む。
ステップS303では、検出器選択部345は、検出器記憶部292に記憶されたハイライト検出器の中から、コンテンツ選択部71からの、注目コンテンツのカテゴリに対応付けられたハイライト検出器を、注目検出器に選択する。そして、検出器選択部345は、検出器記憶部292に記憶されたハイライト検出器の中から、注目検出器を取得し、最尤状態系列推定部346とハイライトシーン検出部347とに供給して、処理は、ステップS303からステップS304に進む。
ステップS304では、最尤状態系列推定部346は、検出器選択部345からの注目検出器において、検出用ラベル生成部344からの検出用ラベル系列が観測される尤度が最も高い状態遷移が生じる最尤状態系列(ハイライト関係状態系列)を推定する。
そして、最尤状態系列推定部346は、ハイライト関係状態系列を、ハイライトシーン検出部347に供給して、処理は、ステップS304からステップS305に進む。
ステップS305では、ハイライトシーン検出部347は、最尤状態系列推定部346からのハイライト関係状態系列の各状態のハイライトラベルの観測確率に基づいて、注目コンテンツから、ハイライトシーンを検出し、ハイライトフラグを出力するハイライトシーン検出処理を行う。
そして、ハイライトシーン検出処理の終了後、処理は、ステップS305からステップS306に進み、ダイジェストコンテンツ生成部348は、コンテンツ選択部71からの注目コンテンツのフレームから、ハイライトシーン検出部347が出力するハイライトフラグによって特定されるハイライトシーンのフレームを抽出する。
さらに、ダイジェストコンテンツ生成部348は、注目コンテンツのフレームから抽出したハイライトシーンのフレームを用いて、注目コンテンツのダイジェストコンテンツを生成し、再生制御部349に供給して、処理は、ステップS306からステップS307に進む。
ステップS307では、再生制御部49は、ダイジェストコンテンツ生成部348からのダイジェストコンテンツを再生する再生制御を行う。
尚、ステップS305におけるハイライトシーン検出処理については、図20におけるステップS89の処理、すなわち、図21のフローチャートを参照して説明した処理と同様であるので、その説明は省略するものとする。
以上のように、ハイライト検出部293は、ハイライト検出器において、画像、音声、および対象物最尤状態系列のそれぞれである状態IDの系列、及びダミーのハイライトラベル系列から検出用ラベル系列が観測される最尤状態系列のハイライト関係状態系列を推定する。そして、ハイライト検出部293は、そのハイライト関係状態系列の各状態のハイライトラベルの観測確率に基づいて、注目コンテンツから、ハイライトシーンのフレームを検出して、そのハイライトシーンのフレームを用いて、ダイジェストコンテンツを生成する。
また、ハイライト検出器は、コンテンツに対するコンテンツモデルの画像最尤状態系列、音声最尤状態系列、および対象物最尤状態系列である状態IDの系列、並びにユーザの操作に応じて生成されるハイライトラベル系列の4系列の組み合わせからなる学習用ラベル系列を用いて、HMMの学習を行うことにより得られる。
したがって、ダイジェストコンテンツを生成する注目コンテンツが、コンテンツモデルや、ハイライト検出器の学習に用いられていない場合であっても、注目コンテンツと同一のカテゴリのコンテンツを用いての、コンテンツモデル、及び、ハイライト検出器の学習が行われていれば、そのコンテンツモデル、及び、ハイライト検出器を用いて、ユーザの興味があるシーンを、ハイライトシーンとして集めたダイジェスト(ダイジェストコンテンツ)を、容易に得ることができる。
[スクラップブック生成部205の構成例]
図47は、図35のスクラップブック生成部205の構成例を示すブロック図である。
スクラップブック生成部205は、初期スクラップブック生成部371、初期スクラップブック記憶部372、登録スクラップブック生成部373、登録スクラップブック記憶部374、及び、再生制御部375から構成される。
初期スクラップブック生成部371、初期スクラップブック記憶部372、登録スクラップブック生成部373、登録スクラップブック記憶部374、及び、再生制御部375は、基本的に初期スクラップブック生成部101ないし再生制御部105と同様である。しかしながら、いずれも、画像特徴量に基づいた画像コンテンツモデルだけでなく、さらに、音声特徴量に基づいた音声コンテンツモデル、および対象物特徴量に基づいた対象物コンテンツモデルに対応した処理を実行する。
[初期スクラップブック生成部371の構成例]
図48は、図47の初期スクラップブック生成部371の構成例を示すブロック図である。尚、図48の初期スクラップブック生成部371の構成において、図23の初期スクラップブック生成部101と同一の機能を備えた構成については、同一の符号を付しており、その説明は適宜省略するものとする。
また、図48において、初期スクラップブック生成部371の、画像モデル選択部411、画像特徴量抽出部412、画像最尤状態系列推定部413、画像状態対応画像情報生成部414、画像状態間距離算出部415、画像座標算出部416、画像マップ描画部417は、それぞれモデル選択部112、特徴量抽出部113、最尤状態系列推定部114、状態対応画像情報生成部115、状態間距離算出部116、座標算出部117、およびマップ描画部118と同一であるので、その説明は省略する。
すなわち、画像モデル選択部411ないし画像マップ描画部417は、コンテンツ構造提示部14(図9)のモデル選択部32ないしマップ描画部38と同様に構成され、図13で説明した画像特徴量に基づいたコンテンツ構造提示処理を行う。
また、音声モデル選択部421、音声特徴量抽出部422、音声最尤状態系列推定部423、音声状態対応画像情報生成部424、音声状態間距離算出部425、音声座標算出部426、および音声マップ描画部427は、いずれも扱う対象が音声特徴量であることを除き、画像モデル選択部411、画像特徴量抽出部412ないし画像マップ描画部417と同様の処理を行う。
さらに、対象物モデル選択部428、対象物特徴量抽出部429、対象物最尤状態系列推定部430、対象物状態対応画像情報生成部431、対象物状態間距離算出部432、対象物座標算出部433、および対象物マップ描画部434は、いずれも扱う対象が対象物特徴量であることを除き、それぞれ画像モデル選択部411ないし画像マップ描画部417と同様の処理を行う。
また、表示制御部418、状態選択部419、及び、選択状態登録部420は、図23の表示制御部119、状態選択部121、及び、選択状態登録部122と、それぞれ同様の処理を行う。
従って、初期スクラップブック生成部371では、コンテンツ構造提示処理が行われることにより、モデルマップ(図11、図12)が、画像特徴量、音声特徴量、および対象物特徴量のそれぞれに基づいて、図示せぬディスプレイに表示される。そして、画像特徴量、音声特徴量、および対象物特徴量のそれぞれに基づいたモデルマップ上の状態が、ユーザの操作によって指定された場合に、その指定された状態(選択状態)の状態IDが、(空の)スクラップブックに登録される。
図49は、ユーザがモデルマップ上の状態を指定するための、表示制御部418が表示制御を行うことによって表示されるユーザインターフェースの例を示す図である。尚、図24のウィンドウ131における表示と、同一の機能を備える表示については、同一の符号を付しており、その説明は適宜省略するものとする。
図49では、ウインドウ451に、画像マップ描画部417で生成された画像特徴量に基づいたモデルマップ462、および、音声マップ描画部427で生成された音声特徴量に基づいたモデルマップ463が表示されている。尚、図49の例においては、示されていないが、対象物マップ描画部434で生成された対象物特徴量に基づいたモデルマップも合わせて表示することも当然のことながら可能である。また、画像特徴量、音声特徴量、および対象物特徴量以外の他の特徴量を扱う場合、さらに、他の特徴量に基づいたモデルマップを描画して表示させることもできる。さらに、それぞれのモデルマップを異なるウィンドウにして表示することもできる。
ウインドウ451内のモデルマップ462,463上の状態は、ユーザが指定することにより、いわゆるフォーカスをあてることができる。ユーザによる状態の指定は、例えば、マウス等のポインティングデバイスでクリックすることや、ポインティングデバイスの操作に応じて移動するカーソルを、フォーカスをあてようとする状態の位置に移動すること等によって行うことができる。
また、モデルマップ462,463上の状態のうち、既に、選択状態になっている状態と、選択状態になっていない状態とは、異なる色等の、異なる表示形式で表示することができる。
ウインドウ451の下部における表示において、図24のウィンドウ131と異なるのは、状態ID入力欄133に代えて、画像状態ID入力欄471、および音声状態ID入力欄472が設けられている点である。
画像状態ID入力欄471には、画像特徴量に基づいたモデルマップ462上の状態のうちの、フォーカスがあたっている状態の状態IDが表示される。
音声状態ID入力欄472には、音声特徴量に基づいたモデルマップ463上の状態のうちの、フォーカスがあたっている状態の状態IDが表示される。
なお、画像状態ID入力欄471、および音声状態ID入力欄472には、ユーザが、直接、状態IDを入力することもできる。また、対象物特徴量に基づいたモデルマップが表示される場合、併せて対象物状態ID入力欄も表示される。
ウインドウ461は、モデルマップ462,463上の状態のうちの、フォーカスがあたっている状態に、コンテンツ構造提示処理で生成された状態対応画像情報がリンク付けされている場合にオープンする。そして、ウインドウ461には、フォーカスがあたっている状態にリンク付けされている状態対応画像情報が表示される。
なお、ウインドウ461には、モデルマップ462,463上の、フォーカスがあたっている状態と、その状態に近い位置の状態とのそれぞれにリンク付けされた状態対応画像情報を表示することが可能である。また、ウインドウ461には、モデルマップ462,463上のすべての状態のそれぞれにリンク付けされた状態対応画像情報を、時間的にシーケンシャルに、又は、空間的に並列的に表示することが可能である。
ユーザは、ウインドウ451に表示されたモデルマップ462,463上の任意の状態をクリックすること等によって指定することができる。
ユーザによって状態が指定されると、表示制御部418(図48)は、ユーザによって指定された状態にリンク付けされた状態対応画像情報を、ウインドウ461に表示する。
これにより、ユーザは、モデルマップ462,463上の状態に対応するフレームの画像を確認することができる。
図48の初期スクラップブック生成部371では、選択状態登録部420により、画像モデルマップ、音声モデルマップ、および対象物モデルマップの選択状態の状態IDが、初期スクラップブックに登録される。
すなわち、図48の初期スクラップブック生成部371による初期スクラップブック生成処理は、画像モデルマップ(画像特徴量に基づいたモデルマップ)、音声モデルマップ(音声特徴量に基づいたモデルマップ)、および対象物モデルマップ(対象物特徴量に基づいたモデルマップ)それぞれについて、図25を参照して説明した処理と同様であるので、その説明は省略するものとする。
但し、図48の初期スクラップブック生成部371では、画像モデルマップ、音声モデルマップ、及び、対象物モデルマップのうちの、あるモデルマップから選択(指定)された選択状態と、他のモデルマップから選択された選択状態とに、同一のフレームが対応する場合、それらの選択状態(の状態ID)は、関連づけて、初期スクラップブックに登録される。
すなわち、例えば、いま、画像モデルマップと音声モデルマップとに注目する。
注目コンテンツの各フレームは、画像モデルマップ上のいずれかの状態(画像最尤状態系列において、フレームの画像特徴量が観測される状態)に対応し、音声モデルマップ上のいずれかの状態にも対応する。
したがって、画像モデルマップから選択された選択状態と、音声モデルマップから選択された選択状態とに、注目コンテンツの同一のフレームが対応する場合がある。
この場合、同一のフレームに対応する、画像モデルマップから選択された選択状態と、音声モデルマップから選択された選択状態とは、関連づけて、初期スクラップブックに登録される。
画像モデルマップ、音声モデルマップ、及び、対象物モデルマップのうちの、任意の2つのモデルマップそれぞれから選択された2つの選択状態に、同一のフレームが対応する場合の他、画像モデルマップ、音声モデルマップ、及び、対象物モデルマップの3つのモデルマップそれぞれから選択された3つの選択状態に、同一のフレームが対応する場合も、その3つの選択状態は、関連づけて、初期スクラップブックに登録される。
なお、初期スクラップブックに登録された選択状態の状態ID(登録状態ID)のうちの、画像モデルマップから選択された選択状態(画像コンテンツモデルの状態)の状態IDを、以下、適宜、画像登録状態IDともいう。
同様に、初期スクラップブックに登録された登録状態IDのうちの、音声モデルマップから選択された選択状態(音声コンテンツモデルの状態)の状態IDを、以下、適宜、音声登録状態IDともいい、対象物モデルマップから選択された選択状態(対象物コンテンツモデルの状態)の状態IDを、以下、適宜、対象物登録状態IDともいう。
[登録スクラップブック生成部373の構成例]
図50は、図47の登録スクラップブック生成部373の構成例を示すブロック図である。尚、図50の登録スクラップブック生成部373において、図26の登録スクラップブック生成部103における構成と同一の機能を備えた構成については、同一の符号を付しており、その説明は適宜省略するものとする。
図50において、画像モデル選択部501、画像特徴量抽出部502、画像最尤状態系列推定部503、及び、フレーム登録部505は、図26におけるモデル選択部143ないし最尤状態系列推定部145、及び、フレーム登録部147と同一であるので、その説明は省略する。
また、音声モデル選択部506、音声特徴量抽出部507、および音声最尤状態系列推定部508は、扱う対象が音声特徴量に対応したものであることを除き、画像モデル選択部501ないし画像最尤状態系列推定部503と同様であるので、その説明は省略する。
さらに、対象物モデル選択部509、対象物特徴量抽出部510、および対象物最尤状態系列推定部511は、扱う処理対象が対象物特徴量に対応したものであることを除き、画像モデル選択部501ないし画像最尤状態系列推定部503と同様である。そこで、それらの説明は省略する。
フレーム抽出部504は、基本的に図26のフレーム抽出部146と同様の機能を備えたものであるが、扱う状態系列が異なる。すなわち、フレーム抽出部504は、画像最尤状態系列、音声最尤状態系列、および対象物最尤状態系列の各状態IDが、スクラップブック選択部141からの注目スクラップブックに登録されている登録状態IDに一致するかどうかを判定する。
さらに、フレーム抽出部504は、状態IDが、スクラップブック選択部141からの注目スクラップブックに登録されている登録状態IDに一致する状態に対応するフレームを、注目コンテンツから抽出し、フレーム登録部505に供給する。
[登録スクラップブック生成部373による登録スクラップブック生成処理]
図51は、図50の登録スクラップブック生成部373が行う登録スクラップブック生成処理を説明するフローチャートである。
ステップS331において、スクラップブック選択部141は、初期スクラップブック記憶部372に記憶された初期スクラップブックのうちの、まだ、注目スクラップブックに選択されたことがない初期スクラップブックの1つを、注目スクラップブックに選択する。
そして、スクラップブック選択部141は、注目スクラップブックを、フレーム抽出部504、及び、フレーム登録部505に供給する。さらに、スクラップブック選択部141は、注目スクラップブックに対応付けられたカテゴリを、コンテンツ選択部142、画像モデル選択部501、音声モデル選択部506、および対象物モデル選択部509に供給する。そして、処理は、ステップS331からステップS332に進む。
ステップS332では、コンテンツ選択部142は、コンテンツ記憶部11に記憶されたコンテンツのうちの、スクラップブック選択部141からのカテゴリのコンテンツの中で、注目コンテンツに選択されていないコンテンツの1つを、注目コンテンツに選択する。
そして、コンテンツ選択部142は、注目コンテンツを、画像特徴量抽出部502、音声特徴量抽出部507、対象物特徴量抽出部510、及び、フレーム抽出部504に供給して、処理は、ステップS332からステップS333に進む。
ステップS333では、画像モデル選択部501は、画像モデル記憶部202aに記憶された画像コンテンツモデルの中から、スクラップブック選択部141からのカテゴリに対応付けられた画像コンテンツモデルを、注目モデルに選択する。
そして、画像モデル選択部501は、注目モデルを、画像最尤状態系列推定部503に供給し、処理は、ステップS333からステップS334に進む。
ステップS334では、画像特徴量抽出部502は、コンテンツ選択部142から供給される注目コンテンツの各フレームの画像特徴量を抽出し、注目コンテンツの各フレームの画像特徴量(の時系列)を、画像最尤状態系列推定部503に供給する。
その後、処理は、ステップS334からステップS335に進む。ステップS335において、画像最尤状態系列推定部503は、画像モデル選択部501からの注目モデルにおいて、画像特徴量抽出部502からの注目コンテンツの画像特徴量(の時系列)が観測される尤度が最も高い状態遷移が生じる画像最尤状態系列を推定する。
そして、画像最尤状態系列推定部503は、注目コンテンツに対する注目モデルの画像最尤状態系列を、フレーム抽出部504に供給して、処理は、ステップS335からステップS336に進む。
ステップS336では、音声モデル選択部506は、音声モデル記憶部202bに記憶された音声コンテンツモデルの中から、スクラップブック選択部141からのカテゴリに対応付けられた音声コンテンツモデルを、注目モデルに選択する。
そして、音声モデル選択部506は、注目モデルを、音声最尤状態系列推定部508に供給し、処理は、ステップS336からステップS337に進む。
ステップS337では、音声特徴量抽出部507は、コンテンツ選択部142から供給される注目コンテンツの各フレームの音声特徴量を抽出し、注目コンテンツの各フレームの音声特徴量(の時系列)を、音声最尤状態系列推定部508に供給する。
その後、処理は、ステップS337からステップS338に進む。ステップS338において、音声最尤状態系列推定部508は、音声モデル選択部506からの注目モデルにおいて、音声特徴量抽出部507からの注目コンテンツの音声特徴量(の時系列)が観測される尤度が最も高い状態遷移が生じる音声最尤状態系列を推定する。
そして、音声最尤状態系列推定部508は、注目コンテンツに対する注目モデルの音声最尤状態系列を、フレーム抽出部504に供給して、処理は、ステップS338からステップS339に進む。
ステップS339では、対象物モデル選択部509は、対象物モデル記憶部202cに記憶された対象物コンテンツモデルの中から、スクラップブック選択部141からのカテゴリに対応付けられた対象物コンテンツモデルを、注目モデルに選択する。
そして、対象物モデル選択部509は、注目モデルを、対象物最尤状態系列推定部511に供給し、処理は、ステップS339からステップS340に進む。
ステップS340では、対象物特徴量抽出部510は、コンテンツ選択部142から供給される注目コンテンツの各フレームの対象物特徴量を抽出し、注目コンテンツの各フレームの対象物特徴量(の時系列)を、対象物最尤状態系列推定部511に供給する。
その後、処理は、ステップS340からステップS341に進む。ステップS341において、対象物最尤状態系列推定部511は、対象物モデル選択部509からの注目モデルにおいて、対象物特徴量抽出部510からの注目コンテンツの対象物特徴量が観測される尤度が最も高い状態遷移が生じる対象物最尤状態系列を推定する。
そして、対象物最尤状態系列推定部511は、注目コンテンツに対する注目モデルの対象物最尤状態系列を、フレーム抽出部504に供給して、処理は、ステップS341からステップS342に進む。
ステップS342では、フレーム抽出部504は、時刻(注目コンテンツのフレーム数)をカウントする変数tに、初期値としての1をセットして、処理は、ステップS343に進む。
ステップS343では、フレーム抽出部504は、画像最尤状態系列、音声最尤状態系列、および対象物最尤状態系列の時刻tの状態(先頭からt番目の状態)の状態IDが、スクラップブック選択部141からの注目スクラップブックに登録されている選択状態の登録状態IDのいずれかに一致するかどうかを判定する。
ステップS343において、注目コンテンツに対する注目モデルの画像最尤状態系列、音声最尤状態系列、および対象物最尤状態系列の時刻tの状態の状態IDが、注目スクラップブックの登録状態IDのいずれかに一致すると判定された場合、処理は、ステップS344に進む。
ステップS344において、フレーム抽出部504は、コンテンツ選択部142からの注目コンテンツから、時刻tのフレームを抽出し、フレーム登録部505に供給して、処理は、ステップS345に進む。
また、ステップS343において、注目モデルの画像最尤状態系列、音声最尤状態系列、および対象物最尤状態系列の時刻tの状態の状態IDが、注目スクラップブックの登録状態IDのいずれかにも一致しない場合、処理は、ステップS345に進む。すなわち、ステップS344はスキップされる。
ステップS345では、フレーム抽出部504は、変数tが、注目コンテンツのフレームの総数NFに等しいかどうかを判定する。
ステップS345において、変数tが、注目コンテンツのフレームの総数NFに等しくないと判定された場合、処理は、ステップS346に進み、フレーム抽出部504は、変数tを1だけインクリメントする。その後、処理は、ステップS346からステップS343に戻り、以下、同様の処理が繰り返される。
また、ステップS345において、変数tが、注目コンテンツのフレームの総数NFに等しいと判定された場合、処理は、ステップS347に進む。
ステップS347において、フレーム登録部505は、フレーム抽出部504から供給されたフレーム、すなわち、注目コンテンツから抽出されたフレームすべてを、スクラップブック選択部141からの注目スクラップブックに登録する。
その後、処理は、ステップS347からステップS348に進む。ステップS348において、コンテンツ選択部142は、コンテンツ記憶部11に記憶された、カテゴリが注目スクラップブックに対応付けられたカテゴリと同一のコンテンツの中で、まだ、注目コンテンツに選択されていないコンテンツがあるかどうかを判定する。
ステップS348において、コンテンツ記憶部11に記憶された、カテゴリが注目スクラップブックに対応付けられたカテゴリと同一のコンテンツの中で、注目コンテンツに選択されていないコンテンツがあると判定された場合、処理は、ステップS332に戻る。
また、ステップS348において、コンテンツ記憶部11に記憶された、カテゴリが注目スクラップブックに対応付けられたカテゴリと同一のコンテンツに、注目コンテンツに選択されていないコンテンツがないと判定された場合、処理は、ステップS349に進む。
ステップS349において、フレーム登録部505は、注目スクラップブックを、登録スクラップブックとして、登録スクラップブック記憶部374に出力し、登録スクラップブック生成処理を終了する。
図52を参照して、登録スクラップブック生成部373が行う登録スクラップブック生成処理について、図28において説明した登録スクラップブック生成部103による画像特徴量のみを用いた場合のスクラップブック生成処理との違いについて説明する。
すなわち、図28のDでは、注目スクラップブックの画像登録状態IDとして、"1"と"3"が登録されており、注目コンテンツからは、画像特徴量に基づいた状態ID(注目コンテンツの画像特徴量が観測される画像最尤状態系列における状態ID)が"1"及び"3"のそれぞれのフレームが抽出されている。
そして、図28のEで示されるように、スクラップブックには、注目コンテンツから抽出されたフレームが、その時間的な前後関係を維持する形で、例えば、動画として、登録される。
一方、画像特徴量以外の特徴量をも用いた場合、すなわち、例えば、画像特徴量と音声特徴量を用いた場合、図52で示されるように、注目スクラップブックの登録状態IDとして、"V1","V3","A5","V2&A6"が登録されることがある。
ここで、図52において、"V1"等の"V"の文字とそれに続く数字からなる文字列は、登録状態IDのうちの、画像登録状態IDを表し、"A5"等の"A"の文字とそれに続く数字からなる文字列は、登録状態IDのうちの、音声登録状態IDを表す。
また、図52において、"V2&A6"は、画像登録状態IDである"V2"と、音声登録状態IDである"A6"とが関連づけられていることを表す。
図52に示したように、注目スクラップブックに、登録状態IDとして、"V1","V3","A5","V2&A6"が登録されている場合、フレーム抽出部504(図50)では、注目コンテンツから、画像特徴量に基づいた状態IDが、画像登録状態ID="V1"に一致するフレーム、及び、画像登録状態ID="V3"に一致するフレームが抽出されるとともに、音声特徴量に基づいた状態IDが、音声登録状態ID="A5"に一致するフレームが抽出される。
さらに、フレーム抽出部504では、注目コンテンツから、画像特徴量に基づいた状態IDが、画像登録状態ID="V2"に一致し、かつ、音声特徴量に基づいた状態IDが、音声登録状態ID="A6"に一致するフレームが抽出される。
したがって、複数の特徴量を考慮して、フレームが選択されることになるので、画像特徴量のみを用いた場合よりも、さらに高い精度でユーザの興味があるフレームを集めたスクラップブックを得ることが可能となる。
尚、図52においては、画像特徴量、および音声特徴量を用いた例が示されているが、当然の事ながら、対象物特徴量をさらに用いるようにしてもよいものである。
また、以上においては、画像特徴量、音声特徴量、および対象物特徴量を用いた例について説明してきたが、さらに、異なる特徴量を組み合わせて利用するようにしても良いし、それらを単独で利用するようにしてもよい。さらに、対象物の種類に応じて対象物特徴量を設定し、それらを区別して利用するようにしても良く、例えば、対象物として人物の全体像、上半身、および顔画像等をそれぞれ個別の対象物特徴量として用いるようにしてもよい。
<サムネイル表示用情報処理装置>
ところで、コンテンツモデルによれば、コンテンツの各フレームをクラスタリングすることができる。
以下、コンテンツの各フレームをクラスタリングしたクラスタリング結果を利用して、サムネイルを表示することにより、コンテンツの内容を迅速に把握すること等に寄与するサムネイル表示用情報処理装置について説明する。
[本発明の表示制御装置を適用した表示システムの一実施の形態]
図53は、本発明の表示制御装置を適用したサムネイル表示用情報処理装置としての表示システムの一実施の形態の構成例を示すブロック図である。
図53において、表示システムは、コンテンツ記憶装置601、表示制御装置602、及び、表示装置603を有する。
なお、コンテンツ記憶装置601は、例えば、レコーダや、インターネット上のサイト(サーバ)、PC(パーソナルコンピュータ)の内蔵する、又は、外付けのHD等に相当し、表示装置603は、例えば、TV(テレビジョン受像機)等に相当する。
また、表示制御装置602は、コンテンツ記憶装置601、及び、表示装置603のそれぞれとは別個に構成することもできるが、コンテンツ記憶装置601に相当するレコーダ等、又は、表示装置603に相当するTV等に内蔵させることもできる。
コンテンツ記憶装置601は、図1のコンテンツ記憶部11と同様に、動画のコンテンツを記憶する。また、コンテンツ記憶装置601は、記憶しているコンテンツを読み出し、表示制御装置602に供給する。
表示制御装置602は、表示装置603での画像の表示を制御する。
すなわち、表示制御装置602は、クラスタリング部611、シーン区分部612、サムネイル作成部613、表示制御部614、操作部615、及び、制御部616を有する。
クラスタリング部611には、コンテンツ記憶装置601から、再生の対象のコンテンツ(以下、再生対象コンテンツともいう)が供給される。
クラスタリング部611は、コンテンツ記憶装置601からの再生対象コンテンツの各フレームを、例えば、あらかじめ定められた複数のクラスタのうちのいずれかのクラスタにクラスタリングし、そのクラスタリング結果を表すクラスタリング情報を、シーン区分部612に供給(出力)する。
ここで、クラスタリング情報には、再生対象コンテンツの各フレームが属するクラスタを特定するクラスタ情報(例えば、クラスタに付されたユニークな番号等)が、少なくとも含まれる。
シーン区分部612は、クラスタリング部611でクラスタリングされ得る複数のクラスタそれぞれについて、そのクラスタに属するフレームを、時間的に連続する1フレーム以上のフレームの集まりであるシーンに区分する。
すなわち、シーン区分部612は、クラスタリング部611でクラスタリングされ得る複数のクラスタそれぞれを、順次、注目する注目クラスタに選択し、クラスタリング部611からのクラスタリング情報に基づいて、注目クラスタに属する、再生対象コンテンツのフレームを認識する。
さらに、シーン区分部612は、注目クラスタに属するフレームを、時系列に並べたときに、時間的に連続する1フレーム以上のフレームの集まりを、1シーンとして、シーン(カット、又は、ショット)に区分する。
したがって、例えば、いま、再生対象コンテンツの先頭からt1番目のフレームt1から連続するn1(枚の)フレームと、再生対象コンテンツの先頭からt2(>t1+n1)番目のフレームt2から連続するn2(枚の)フレームとが、注目クラスタに属する場合、シーン区分部612では、注目クラスタに属するn1+n2フレームが、再生対象コンテンツのフレームt1から連続するn1フレームを有するシーンと、再生対象コンテンツのフレームt2から連続するn2フレームを有するシーンとに区分される。
そして、シーン区分部612は、注目クラスタに属するフレームから得られたシーンを、注目クラスタに属するシーンとして、そのシーンを表すシーン情報を、サムネイル作成部613に供給する。
ここで、シーン情報には、シーンが有するフレームを特定するフレーム情報(例えば、再生対象コンテンツの先頭から何番目のフレームであるかを表す番号)と、シーン(ひいては、シーンが有するフレーム)が属するクラスタを表すクラスタ情報とが、少なくとも含まれる。
サムネイル作成部613には、シーン区分部612から、再生対象コンテンツの各シーンのシーン情報が供給される他、コンテンツ記憶装置601から、再生対象コンテンツが供給される。
サムネイル作成部613は、再生対象コンテンツの各シーンのサムネイルを作成する。
すなわち、サムネイル作成部613は、シーン区分部612からのシーン情報に基づいて、再生対象コンテンツのすべてのシーンを認識し、順次、注目する注目シーンに選択する。
さらに、サムネイル作成部613は、シーン区分部612からのシーン情報に基づいて、注目シーンが有するフレームを認識し、コンテンツ記憶装置601からの、注目シーンが有するフレームを用いて、注目シーン(の内容)を表すサムネイルを作成する。
そして、サムネイル作成部613は、注目シーンのサムネイルを、注目シーンのシーン情報とともに、表示制御部614に供給する。
ここで、注目シーンのサムネイルとしては、注目シーンが有するフレームのうちの、例えば、先頭のフレーム等の1フレームを縮小した画像を採用することができる。
また、注目シーンのサムネイルとしては、注目シーンが有するフレームのうちの、例えば、複数フレームを縮小した画像をアニメーション(動画)で表示するアニメーションGIF等の画像を採用することができる。
表示制御部614には、サムネイル作成部613から、再生対象コンテンツのシーンのサムネイル、及び、シーン情報が供給される他、コンテンツ記憶装置601から、再生対象コンテンツが供給される。
表示制御部614は、サムネイル作成部613からのシーン情報に基づいて、同じくサムネイル作成部613からのシーンのサムネイルを、表示装置603に表示させる表示制御を行う。
また、表示制御部614は、コンテンツ記憶装置601から供給される再生対象コンテンツの各フレーム(の画像)を、表示装置603に表示させる表示制御を行う。
操作部615は、再生対象コンテンツの指示や、表示装置603に表示されたサムネイル等の指示等を入力するときに操作され、その操作に対応する操作信号を、制御部616に供給する。
制御部616は、操作部615からの操作信号に従い、クラスタリング部611、シーン区分部612、サムネイル再生部613、及び、表示制御部614のうちの必要なブロックを制御する。
また、制御部616は、コンテンツ記憶装置601から再生対象コンテンツ(のフレーム)を再生する再生制御等を行う。
なお、制御部616は、コンテンツ記憶装置601、クラスタリング部611、シーン区分部612、サムネイル再生部613、及び、表示制御部614に対して、必要なデータ(信号)を供給する。但し、制御部616が必要なデータを供給する等のための接続線の図示は、図が煩雑になるのを防止するため、省略してある。
表示装置603は、表示制御部614からの表示制御に従って、サムネイルや再生対象コンテンツ(のフレーム)を表示する。
[サムネイル表示制御の処理]
図54は、図53の表示制御装置602が、表示装置603に、コンテンツのサムネイルを表示させるサムネイル表示制御の処理を説明するフローチャートである。
ステップS601において、制御部616は、ユーザが操作部615を操作することにより、コンテンツ記憶装置601に記憶されたコンテンツの中から、再生対象コンテンツを指示する指示入力が行われる(与えられる)のを待って、その指示入力に基づいて、その指示入力によって指示されたコンテンツを、再生対象コンテンツに選択する。
そして、制御部616は、コンテンツ記憶装置601から、再生対象コンテンツを読み出させ、クラスタリング部611、及び、サムネイル作成部613に供給させて、処理は、ステップS601からステップS602に進む。
ステップS602では、クラスタリング部611が、コンテンツ記憶装置601からの再生対象コンテンツの各フレームをクラスタリングし、そのクラスタリング結果を表すクラスタリング情報を、シーン区分部612に供給して、処理は、ステップS603に進む。
ステップS603では、シーン区分部612が、クラスタリング部611からのクラスタリング情報に基づいて、各クラスタについて、そのクラスタに属するフレームを、時間的に連続する1フレーム以上のフレームの集まりであるシーンに区分する。
そして、シーン区分部612は、各クラスタに属する各シーンを表すシーン情報を、サムネイル作成部613に供給して、処理は、ステップS603からステップS604に進む。
ステップS604では、サムネイル作成部613が、シーン区分部612からのシーン情報に基づいて、再生対象コンテンツのすべてのシーンを認識し、各シーンについて、そのシーンのサムネイルを、コンテンツ記憶装置601からの再生対象コンテンツを用いて作成する。
そして、サムネイル作成部613は、各シーンのサムネイルを、そのシーンのシーン情報とともに、表示制御部614に供給して、処理は、ステップS604からステップS605に進む。
ステップS605では、表示制御部614は、サムネイル作成部613からのシーン情報に基づいて、同じくサムネイル作成部613からのシーンのサムネイルを、表示装置603に表示させる表示制御を行う。
以上のように、表示制御装置602では、クラスタリング部611が、再生対象コンテンツの各フレームをクラスタリングし、シーン区分部612が、各クラスタについて、そのクラスタに属するフレームを、時間的に連続する1フレーム以上のフレームの集まりであるシーンに区分する。
したがって、表示制御装置602によれば、再生対象コンテンツを、各クラスタに対応する内容(特徴量)ごとのシーンに、容易に分けることができる。
すなわち、フレームをクラスタリングするクラスタリング方法として、どのような方法を採用しても、個々のクラスタには、同じような内容(特徴量)のフレームがクラスタリングされる。
したがって、あるクラスタに注目すると、そのクラスタに属するフレームを、時間的に連続する1フレーム以上のフレームの集まりに区分するだけで、そのクラスタに対応する内容のシーンを、容易に構成することができる。
なお、クラスタに対応する内容が、どのような内容であるかは、既知であってもよいし、未知であってもよい。
但し、クラスタに対応する内容を、既知の内容とするには、すなわち、各クラスタに、例えば、多数の人が映っているフレームや、一人がアップで映っているフレーム等の、既知の内容のフレームがクラスタリングされることが、あらかじめ分かるようにするには、そのような既知の内容のフレームがクラスタリングされるように、クラスタ(さらには、クラスタリングに用いる各フレームの特徴量)を設計する必要がある。
しかしながら、そのように、特定の既知の内容のフレームがクラスタリングされるように、クラスタを設計することは、面倒であり、また、困難な場合もある。
一方、内容が未知のクラスタ、すなわち、どのような内容のフレームがクラスタリングされるのかが分からないクラスタは、設計が容易である。さらに、クラスタに対応する内容が、未知であっても、各クラスタに属するシーン(フレーム)が、どのような内容のシーンであるかは、ユーザが、表示装置603に表示されるシーンのサムネイルを見ることで判断することができるので、問題はない。
[クラスタリング部611の構成例]
図55は、図53のクラスタリング部611の構成例を示すブロック図である。
図55において、クラスタリング部611は、クラスタリングモデル学習部621、クラスタリングモデル記憶部622、クラスタリングモデル選択部623、特徴量抽出部624、及び、クラスタ判定部625を有する。
クラスタリングモデル学習部621は、コンテンツの各フレームをクラスタリングするのに用いるモデルであるクラスタリングモデルの学習を行い、クラスタリングモデル記憶部622に供給する。
なお、クラスタリングモデルとしては、例えば、状態と状態遷移とを有する状態遷移モデルを採用することができる。
クラスタリングモデルとして採用する状態遷移モデルとしては、例えば、上述のコンテンツモデルとしてのHMMや、後述する、ベクトル量子化に用いられるk-means法を利用したモデル(以下、新ベクトル量子化モデルともいう)、同じく後述するGMM(Gaussian Mixture Model)を利用したモデル(以下、新GMMともいう)等を採用することができる。
クラスタリングモデル学習部621は、コンテンツ記憶装置601に記憶されたコンテンツを、クラスタリングモデルの学習用の学習用コンテンツとして、その学習用コンテンツを、カテゴリごとに分類する。
そして、クラスタリングモデル学習部621は、各カテゴリについて、そのカテゴリの学習用コンテンツを用いて、そのカテゴリのクラスタリングモデルの学習を行い、カテゴリごとのクラスタリングモデルを生成(獲得)する。
すなわち、クラスタリングモデルとして、例えば、上述のコンテンツモデルとしてのHMMを採用する場合には、クラスタリングモデル学習部621は、図2のコンテンツモデル学習部12と同様にして、クラスタリングモデルとしてのコンテンツモデルの学習を行う。
なお、以下では、説明を簡単にするため、図1ないし図34の場合と同様に、コンテンツのデータのうちの、画像のデータだけを、クラスタリングモデルの学習の処理や、クラスタリングモデルを用いた処理に用いることとする。
但し、クラスタリングモデルの学習の処理や、クラスタリングモデルを用いた処理には、図35ないし図52で説明したように、画像の他、音声等のデータ(特徴量)を用いることが可能である。
クラスタリングモデル記憶部622は、クラスタリングモデル学習部621等で生成される、カテゴリごとのクラスタリングモデルを記憶する。
ここで、クラスタリングモデルの学習は、例えば、インターネット上のサイト等で行うことができ、クラスタリングモデル記憶部622は、そのサイトから、クラスタリングモデルをダウンロード(取得)して記憶することができる。
この場合、クラスタリング部611は、クラスタリングモデル学習部621を設けずに構成することができる。
クラスタリングモデル選択部623は、クラスタリングモデル記憶部622に記憶された、カテゴリごとのクラスタリングモデルの中から、コンテンツ記憶装置601から供給される再生対象コンテンツのカテゴリに一致するカテゴリのクラスタリングモデルを、クラスタリングに用いる注目モデルとして選択し、クラスタ判定部625に供給する。
特徴量抽出部624には、コンテンツ記憶装置601から、再生対象コンテンツが供給される。
特徴量抽出部624は、コンテンツ記憶装置601からの再生対象コンテンツの各フレームの特徴量を抽出して、クラスタ判定部625に供給する。
ここで、クラスタリングモデルの学習は、学習用コンテンツから抽出される特徴量を用いて行われる。
特徴量抽出部624では、再生対象コンテンツから、クラスタリングモデルの学習で用いられるのと同様の特徴量が抽出される。
したがって、クラスタリングモデルとして、例えば、上述のコンテンツモデルとしてのHMMを採用し、クラスタリングモデル学習部621において、図2のコンテンツモデル学習部12と同様にして、クラスタリングモデルとしてのコンテンツモデルの学習が行われる場合には、特徴量抽出部624は、図2の特徴量抽出部22と同様にして、再生対象コンテンツの各フレームの特徴量を抽出する。
クラスタ判定部625は、クラスタリングモデル選択部623から供給されるクラスタリングモデルと、特徴量抽出部624から供給される特徴量とを用いて、再生対象コンテンツの各フレームが属するクラスタを判定し、そのクラスタであるクラスタリング結果を表すクラスタリング情報を、シーン区分部612に供給(出力)する。
クラスタリングモデルとして、例えば、上述のコンテンツモデルとしてのHMMを採用する場合には、クラスタ判定部625は、図9の最尤状態系列推定部34と同様に、例えば、Viterbiアルゴリズムに従い、クラスタリングモデル選択部623からの注目モデルにおいて、特徴量抽出部624からの再生対象コンテンツの特徴量(再生対象コンテンツの各フレームの特徴量の時系列)が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定する。
ここで、注目モデルにおいて、再生対象コンテンツの特徴量が観測される場合の最尤状態系列(以下、再生対象コンテンツに対する注目モデルの最尤状態系列ともいう)の先頭を基準とする時刻tの状態(最尤状態系列を構成する、先頭からt番目の状態)を、s(t)と表すとともに、再生対象コンテンツのフレーム数を、Tと表すこととする。
この場合、再生対象コンテンツに対する注目モデルの最尤状態系列は、T個の状態s(1),S(2),・・・,s(T)の系列であり、そのうちのt番目の状態(時刻tの状態)s(t)は、再生対象コンテンツの時刻tのフレーム(フレームt)に対応する。
また、注目モデルの状態の総数をNと表すこととすると、時刻tの状態s(t)は、N個の状態s1,s2,・・・,sNのうちのいずれかである。
さらに、N個の状態s1,s2,・・・,sNのそれぞれには、状態を特定するインデクスである状態IDが付されている。
いま、再生対象コンテンツに対する注目モデルの最尤状態系列の時刻tの状態s(t)が、N個の状態s1ないしsNのうちのi番目の状態siであるとすると、時刻tのフレームは、状態siに対応する。
再生対象コンテンツに対する注目モデルの最尤状態系列の実体は、再生対象コンテンツの各時刻tのフレームが対応する、N個の状態s1ないしsNのうちのいずれかの状態の状態IDの系列である。
以上のような、再生対象コンテンツに対する注目モデルの最尤状態系列は、再生対象コンテンツが、注目モデル上において、どのような状態遷移を起こすかを表現する。
また、再生対象コンテンツに対する注目モデルの最尤状態系列において、上述したように、時刻tの状態s(t)が、N個の状態s1ないしsNのうちのi番目の状態siであるとすると、時刻tのフレームは、状態siに対応する。
したがって、注目モデルのN個の状態それぞれを、クラスタとみなすことにより、時刻tのフレームは、注目モデルのN個の状態のうちの、最尤状態系列の、時刻tの状態s(t)であるi番目の状態siに対応するクラスタにクラスタリングされており、再生対象コンテンツに対する注目モデルの最尤状態系列の推定では、再生対象コンテンツの各フレームが属するクラスタが判定されている、ということができる。
クラスタ判定部625は、再生対象コンテンツに対する注目モデルの最尤状態系列を推定すると、その最尤状態系列を、クラスタリング情報として出力する。
[サムネイル等の表示制御]
図53の表示制御部614によるサムネイル、及び、再生対象コンテンツの表示制御について説明する。
表示制御部614によるサムネイル、及び、再生対象コンテンツの表示の方法には、例えば、2Dマップ表示、ステート表示、2ペイン表示、5ペイン表示、時系列表示、及び、フラット表示の6種類の表示の方法がある。
以下、これらの2Dマップ表示、ステート表示、2ペイン表示、5ペイン表示、時系列表示、及び、フラット表示の6種類の表示の表示制御について説明する。
なお、2Dマップ表示、ステート表示、2ペイン表示、5ペイン表示、時系列表示、及び、フラット表示の6種類の表示の表示制御については、そのうちのいずれか1種類の表示の表示制御を、表示システムに実装することもできるし、全部を含む複数種類の表示の表示制御を、表示システムに実装することもできる。
2Dマップ表示、ステート表示、2ペイン表示、5ペイン表示、時系列表示、及び、フラット表示の6種類の表示のうちの、全部を含む複数種類の表示の表示制御を、表示システムに実装する場合において、いずれの表示制御を行うかは、例えば、ユーザが操作部615(図53)を操作することによって選択することができる。
さらに、いずれの表示制御を行うかは、例えば、ユーザが操作部615を操作することによって、再生対象コンテンツの再生中に切り替えることができる。
[2Dマップ表示]
図56は、2Dマップ表示の表示例を示す図である。
2Dマップ表示では、表示制御部614は、再生対象コンテンツのクラスタリングに用いられたクラスタリングモデル、つまり、注目モデルである状態遷移モデルにおいて、状態遷移が可能な状態どうしが近くなるように、状態を配置した2次元のマップであるモデルマップを生成し、そのモデルマップの各状態の位置に、その状態に対応するクラスタに属する(フレームを有する)シーンのサムネイルを配置して、表示装置603に表示する。
すなわち、表示制御部614は、2次元のマップ(平面)に、注目モデルのN個の状態s1ないしsNを、状態遷移が可能な状態どうしが近くなるように配置したモデルマップを生成する。
なお、注目モデルは、制御部616がクラスタリング部611から取得し、表示制御部614に供給する。
さらに、表示制御部614は、モデルマップ上の状態どうしの間を、その状態どうしの間の状態遷移確率に応じて結ぶ線分を描画する。
すなわち、表示制御部614は、例えば、ある状態siからの状態遷移のうちの、状態遷移確率が最大の状態遷移の遷移元siの状態と、遷移先の状態とを結ぶ線分を、モデルマップに描画する。
あるいは、表示制御部614は、例えば、ある状態siからの状態遷移のうちの、状態遷移確率が所定の閾値以上の状態遷移の遷移元siの状態と、遷移先の状態とを結ぶ線分を、モデルマップに描画する。
ここで、図56において、線分の端点が状態を表し、線分が状態遷移を表す。
表示制御部614は、サムネイル作成部613から供給されるシーン情報から、再生対象コンテンツの各シーンが属するクラスタを認識し、モデルマップのN個の状態s1ないしsNそれぞれの位置に、その状態siに対応するクラスタに属する(クラスタリングされた)シーンのサムネイルを配置する。
ここで、図56において、小さい矩形が、サムネイルを表す。図56では、サムネイルが配置されていない状態が存在するが、これは、再生対象コンテンツにおいて、その状態に対応するクラスタにクラスタリングされたフレームがなかったことを表す。
また、ある状態siに対応するクラスタには、複数のシーンが属する場合があるが、この場合、モデルマップの状態siの位置には、その状態siに対応するクラスタに属する複数のシーンそれぞれのサムネイルを並べて表示することが可能である。
但し、1つの状態siの位置に、複数のシーンそれぞれのサムネイルを表示すると、その複数のシーンそれぞれのサムネイル(の一部)が、他の状態sjの位置に表示されるサムネイルと重なり、サムネイルが見にくくなることがある。
また、1つの状態siの位置に表示される複数のシーンそれぞれのサムネイルと、他の状態sjの位置に表示されるサムネイルとの重なりを防止するには、サムネイルのサイズを、より小さくする方法があるが、サムネイルのサイズを小さくすると、やはり、サムネイルが見にくくなることがある。
そこで、ある状態siに対応するクラスタに、複数のシーンが属する場合には、モデルマップの状態siの位置には、その状態siに対応するクラスタに属する複数のシーンそれぞれのサムネイルのうちの、例えば、再生対象コンテンツにおいて時系列順で最も早い(再生順が最も早い)1シーンのサムネイルだけを表示することができる。
なお、ある状態siに対応するクラスタに、複数のシーンが属する場合に、モデルマップの状態siの位置に表示する、その状態siに対応するクラスタに属する1シーンのサムネイルは、例えば、ユーザによる操作部615(図53)の操作に応じて切り替えることが可能である。
すなわち、状態siに対応するクラスタに、例えば、時系列順に3つのシーンc1,c2,c3が属する場合には、操作部615が、サムネイルを切り替えるように操作されるごとに、モデルマップの状態siの位置に表示するサムネイルを、シーンc1のサムネイル、シーンc2のサムネイル、シーンc3のサムネイル、シーンc1のサムネイル、・・・のように、巡回的に切り替えることが可能である。
以上のように、2Dマップ表示では、再生対象コンテンツのクラスタリングに用いられたクラスタリングモデル(注目モデル)の、状態遷移が可能な状態どうしが近くなるように、状態が配置され、かつ、状態遷移が描画されたモデルマップの各状態の位置に、その状態に対応するクラスタに属するシーンのサムネイルが配置されて表示される。
したがって、2Dマップ表示によれば、ユーザは、各状態の位置に配置されたシーンのサムネイルと、状態どうしの間の状態遷移を表す線分とによって、図9等で説明したように、再生対象コンテンツの構造を認識し、再生対象コンテンツの概要を、一目で、容易に把握することができる。
ここで、モデルマップでは、注目モデルのN個の状態s1ないしsNが、状態遷移が可能な状態どうしが近くなるように配置されるが、このような状態の配置は、図9のコンテンツ構造提示部14と同様に行うことができる。
すなわち、表示制御部614では、注目モデルの1つの状態siから他の1つの状態sjへの状態間距離dij *を、1つの状態siから他の1つの状態sjへの状態遷移の状態遷移確率aijに基づいて求め、モデルマップ上の、1つの状態siから他の1つの状態sjへのユークリッド距離dijと、状態間距離dij *との誤差が小さくなるように、、具体的には、例えば、例えば、式(1)のSammon Mapのエラー関数Eを最小にするように、モデルマップ上の状態siの位置の座標である状態座標Yiを求める。
そして、表示制御部614では、モデルマップの状態座標Yiの位置に、対応する状態siを配置する。
なお、上述したように、式(1)のエラー関数Eを、そのまま採用し、エラー関数Eを最小にするように、モデルマップ上の状態座標Yiを求めた場合、状態は、図11に示したように、モデルマップ上に、円状に配置され、円周付近(外側)に、状態が密集し、状態の配置が見にくくなって、可視性が損なわれることがある。
そこで、表示制御部614でも、図12で説明したように、式(1)のエラー関数Eを修正し、修正後のエラー関数Eを最小にするように、モデルマップ上の状態座標Yiを求めることができる。
すなわち、表示制御部614では、1つの状態siから他の1つの状態sjへのユークリッド距離dijが、所定の閾値THd(例えば、THd=1.0等)より大でない場合には、式(1)のエラー関数の演算において、ユークリッド距離dijとして、そのユークリッド距離dijを、そのまま用い、所定の閾値THdより大である場合には、式(1)のエラー関数の演算において、ユークリッド距離dijとして、状態間距離dij *を用いる(dij=dij *とする)(ユークリッド距離dijを、状態間距離dij *に等しい距離とする)ことができる。
以上のように、修正後のエラー関数Eを最小にするように、モデルマップ上の状態座標Yiを求めることで、ユークリッド距離dijが、ある程度遠い2つの状態si及びsjは、ユークリッド距離dijが遠いままとされるので、モデルマップの円周付近に、状態が密集することによって、可視性が損なわれることを防止することができる。すなわち、図12に示したように、可視性が良いモデルマップを表示することができる。
図57は、2Dマップ表示の他の表示例を示す図である。
上述したように、2Dマップ表示では、再生対象コンテンツのクラスタリングに用いられたクラスタリングモデル、つまり、注目モデルにおいて、状態遷移が可能な状態どうしが近くなるように、状態を配置したモデルマップの各状態の位置に、その状態に対応するクラスタに属する(フレームを有する)シーンのサムネイルが配置される。
したがって、例えば、再生対象コンテンツのフレームが、多数のクラスタにクラスタリングされた場合、モデルマップに表示されるサムネイルの数が多くなる。そして、そのような多くの数のサムネイルを、互いに重ならないように表示するには、サムネイルのサイズを、ある程度小さくする必要がある。
しかしながら、サムネイルのサイズが小さい場合には、サムネイルが見にくくなることがある。
そこで、2Dマップ表示では、表示制御部614は、モデルマップの一部を拡大して、表示装置603に表示させることができる。
すなわち、ユーザが、モデルマップのある位置を拡大するように、操作部615を操作すると、すなわち、例えば、モデルマップのある位置に、カーソルを移動して、操作部615をクリックすると、表示制御部614は、図57に示すように、モデルマップの、カーソルの位置を含む所定の範囲を拡大し、表示装置603に表示させる。
この場合、ユーザは、サムネイルとしての画像を、明確に確認することができる。
なお、モデルマップの拡大は、操作部615の所定の操作により解除される。
図58は、2Dマップ表示のさらに他の表示例を示す図である。
図54で説明したように、表示制御装置602(図53)では、ユーザが操作部615を操作し、再生対象コンテンツを指示する指示入力を与えると、制御部616は、その指示入力によって指示されたコンテンツを、再生対象コンテンツに選択し、その再生対象コンテンツを、コンテンツ記憶装置601から読み出させ、クラスタリング部611、及び、サムネイル作成部613に供給させる。
クラスタリング部611、及び、サムネイル作成部613に再生対象コンテンツを供給するための、コンテンツ記憶装置601からの再生対象コンテンツの読み出しと、その再生対象コンテンツの、クラスタリング部611、及び、サムネイル作成部613への供給とは、サムネイルの表示を、迅速に行うために、高速で行われる。
制御部616は、以上のように、クラスタリング部611、及び、サムネイル作成部613への、再生対象コンテンツの高速な供給の他に、再生対象コンテンツを、リアルタイムでの表示のために、コンテンツ記憶装置601から表示制御部614に供給する、再生対象コンテンツの再生制御を行う。
そして、表示制御部614は、制御部616の再生制御によって、コンテンツ記憶装置601から供給される再生対象コンテンツの各フレームを、例えば、その先頭のフレームから、リアルタイムで、表示装置603に表示させる。
すなわち、表示制御部614は、図56及び図57の場合と同様に、状態遷移を表す線分が描画されたモデルマップの各状態の位置に、その状態に対応するクラスタに属するシーンのサムネイルが配置されたモデルマップを表示させるとともに、再生対象コンテンツにおいて、現在、再生の対象になっているフレームである再生対象フレームを、サムネイルよりも所定のサイズだけ大きいサイズのウインドウである再生ウインドウに描画し、その再生ウインドウを、モデルマップの、その再生対象フレームが属するクラスタに対応する状態の位置に表示させる。
したがって、再生対象フレームが属するクラスタが変化すると、すなわち、シーンが変化すると、再生ウインドウの表示位置は、図58において矢印で示すように、変化前のクラスタに対応する状態の位置から、変化後のクラスタに対応する状態の位置に移動する。
この場合、ユーザは、どのクラスタに属するフレームが再生されているのか(再生対象フレームになっているのか)を認識することができる。
以上のように、再生対象フレームが描画された再生ウインドウを、モデルマップとともに表示する場合には、モデルマップにおいて、複数のシーンが属するクラスタに対応する状態の位置には、再生ウインドウの再生対象フレームに対して、時系列で最も近いシーンのサムネイルを表示することができる。
この場合、ユーザは、各クラスタに属するシーンにおいて、そのクラスタに属するシーンのうちの、再生対象フレームに、時系列で最も近いシーンの概要を確認することができる。
また、ユーザは、操作部615を操作することにより、モデルマップ上の状態を指示する指示入力を与えることができる。
この場合、制御部616は、モデルマップ上の状態を指示する指示入力に基づいて、その指示入力によって指示された状態に対応するクラスタに属するフレームを、再生対象フレームに変更し、その再生対象フレームからの再生制御を開始する。
したがって、ユーザが、モデルマップの状態の位置に表示されたサムネイルを見て、そのサムネイルを指示する指示入力を与えると、そのサムネイルが表すシーンの、例えば、先頭のフレームが、再生対象フレームとなり、その再生対象フレームが描画された再生ウインドウが、指示入力によって指示されたサムネイルの位置に表示される。
以上のように、ユーザは、再生対象フレームを見ながら、状態の位置に表示されたサムネイルを指示する指示入力を与えるだけで、そのサムネイルが表すシーンに、いわば、再生位置をジャンプすることができる。
したがって、状態(の位置に表示されているサムネイル)は、いわゆるチャプタとして機能し、チャプタの頭出しに利用することができる。
すなわち、例えば、DVDに記録された商用のコンテンツには、チャプタが付されている(ことが多い)のに対して、個人的に撮影された動画のコンテンツには、ユーザが手動でチャプタを付ける必要がある。表示制御装置602によれば、等価的に、コンテンツに対して、チャプタを自動で付すことができる。
また、従来のレコーダには、再生位置を、現在、再生の対象になっている位置(フレーム)から、例えば、5秒や30秒等の所定の時間だけ後(や前)の位置にジャンプするときに操作されるジャンプボタンが設けられていることがある。
ユーザは、ジャンプボタンを操作し、再生位置をジャンプして、ジャンプ後の位置から再生される画像を、少しだけ見て、再び、ジャンプボタンを操作することを繰り返すことにより、コンテンツの概要を把握することができる。
しかしながら、ジャンプボタンの操作では、再生位置のジャンプ前と、ジャンプ後とで、シーンに変化がないことがあり、この場合、コンテンツの概要を把握するのに、何度も、ジャンプボタンを操作する必要がある。
また、ジャンプボタンの操作では、再生位置のジャンプ前のシーンと、ジャンプ後のシーンとの間に、多数のシーンが存在することがあり、この場合、コンテンツの概要を把握することが困難となる。
一方、2Dマップ表示によれば、状態遷移を表す線分が描画されたモデルマップの各状態の位置に、その状態に対応するクラスタに属するシーンのサムネイルが配置されたモデルマップが表示され、さらに、再生対象フレームが描画された再生ウインドウが、モデルマップの、再生対象フレームが属するクラスタに対応する状態の位置に表示される。
したがって、ユーザは、再生ウインドウの他、例えば、再生ウインドウが表示されている位置の状態、つまり、再生対象フレームが属するクラスタに対応する状態と(状態遷移を表す線分によって)接続された状態の位置に配置されているサムネイルを見て、再生対象フレームを有するシーンの直前のシーンや直後のシーンの概要を予想することができるので、再生対象コンテンツの概要を、より容易に把握することができる。
[ステート表示]
図59は、ステート表示の表示例を示す図である。
ステート表示では、表示制御部614(図53)は、表示装置603の表示画面を、再生対象コンテンツのクラスタリングに用いられたクラスタリングモデル、つまり、注目モデルである状態遷移モデルの状態に対応するクラスタに従って区切った矩形状のクラスタ領域に、対応するクラスタに属する(フレームを有する)シーンのサムネイルを配置して、表示装置603に表示する。
すなわち、表示制御部614は、表示装置603の表示画面を、注目モデルの状態の総数N(以上)の数のクラスタ領域に、格子状に区切り、例えば、ラスタスキャン順で、左上からi番目のクラスタ領域が、クラスタリング部611でのクラスタリングのi番目のクラスタ(状態si)に対応することとして、そのi番目のクラスタ領域に、注目モデルのN個の状態s1ないしsNのうちの、i番目の状態に対応するクラスタに属するシーンのサムネイルを配置する。
ここで、図59において、点線で囲む矩形の領域が、クラスタ領域を表す。また、クラスタ領域の中の実線の矩形が、サムネイルを表す。
図59では、サムネイルが配置されていないクラスタ領域が存在するが、これは、再生対象コンテンツにおいて、そのクラスタ領域に対応するクラスタにクラスタリングされたフレームがなかったことを表す。
図56ないし図58で説明した2Dマップ表示では、モデルマップの状態siの位置に、その状態siに対応するクラスタに属する1つのシーンのサムネイルだけを表示することとしたが、ステート表示では、クラスタ領域には、対応するクラスタに属するシーンすべてのサムネイルを表示することができる。
すなわち、ステート表示では、ある状態siに対応するクラスタに、1つのシーンだけが属する場合には、その1つのシーンのサムネイルだけが、i番目のクラスタ領域に表示される。
また、ある状態siに対応するクラスタに、複数のシーンが属する場合には、その複数のシーンそれぞれのサムネイルが、i番目のクラスタ領域に、並べて表示される。
図59において、注目モデルの状態の総数N(以上)の数のクラスタ領域それぞれは、同一のサイズの領域になっており、したがって、クラスタ領域に表示されるサムネイルの数が多いほど、サムネイルは、同一のサイズのクラスタ領域に、より小さいサイズで表示される。
以上のように、ステート表示では、同一のクラスタに属するシーンのサムネイルが、1つのクラスタ領域に並べて表示されるので、ユーザは、同一のクラスタに属するシーン(同様の内容のシーン)を俯瞰し、かつ、各クラスタに属するシーンも俯瞰するような形で、再生対象コンテンツのすべてのシーンを確認することができ、再生対象コンテンツの概要を、容易に把握することができる。
図60は、ステート表示の他の表示例を示す図である。
上述したように、ステート表示では、表示画面を、注目モデルの状態に対応するクラスタに従って区切った矩形状のクラスタ領域に、対応するクラスタに属するシーンすべてのサムネイルが並べて表示される。
したがって、クラスタ領域に対応するクラスタに属するシーンの数が多い場合、そのクラスタ領域には、そのような多くのシーンのサムネイルが並べて表示されるため、サムネイルのサイズを小さくする必要があり、その結果、サムネイルが見にくくなることがある。
そこで、ステート表示でも、2Dマップ表示の場合と同様に、表示制御部614は、幾つかのクラスタ領域を拡大して、表示装置603に表示させることができる。
すなわち、ユーザが、クラスタ領域を拡大するように、操作部615を操作すると、すなわち、例えば、あるクラスタ領域の位置に、カーソルを移動して、操作部615をクリックすると、表示制御部614は、図60に示すように、カーソルの位置にあるクラスタ領域を含む所定の範囲を拡大し、表示装置603に表示させる。
この場合、ユーザは、サムネイルとしての画像を、明確に確認することができる。
なお、以上のようなクラスタ領域の拡大は、図57で説明したモデルマップの拡大と同様に、操作部615の所定の操作により解除される。
また、ステート表示においても、2Dマップ表示の場合と同様に、再生対象フレームが描画された再生ウインドウ(図58)を表示することができる。
すなわち、表示制御部614では、シーンのサムネイルが配置されたクラスタ領域を表示するとともに、再生対象フレームが描画された再生ウインドウを、その再生対象フレームが属するクラスタ領域の位置に表示させることができる。
さらに、ステート表示でも、2Dマップ表示の場合と同様に、ユーザは、操作部615を操作することにより、クラスタ領域や、クラスタ領域に表示されたサムネイルを指示する指示入力を与えることができる。
ここで、指示入力が、クラスタ領域、及び、クラスタ領域に表示されたサムネイルのうちのいずれを指示するのかは、例えば、操作部615の操作に応じて切り替えることができる。
指示入力が、クラスタ領域を指示する場合、制御部616は、クラスタ領域を指示する指示入力に基づいて、その指示入力によって指示されたクラスタ領域に対応するクラスタに属するフレームを、再生対象フレームに変更し、その再生対象フレームからの再生制御を開始する。
すなわち、制御部616は、指示入力によって指示されたクラスタ領域に対応するクラスタに属するシーンのうちの、再生対象フレームに対して、時系列で最も近いシーンの、例えば、先頭のフレームを、再生対象フレームとする(再生制御を行う)。そして、表示制御部614において、その再生対象フレームが描画された再生ウインドウが、指示入力によって指示されたクラスタ領域の位置に表示される。
以上のように、ユーザは、再生対象フレームを見ながら、クラスタ領域を指示する指示入力を与えるだけで、そのクラスタ領域に表示されたサムネイルが表すシーンに、再生位置をジャンプすることができる。
また、指示入力が、クラスタ領域に配置されたサムネイルを指示する場合、制御部616は、サムネイルを指示する指示入力に基づいて、その指示入力によって指示されたサムネイルが表すシーンが有するフレームを、再生対象フレームに変更し、その再生対象フレームからの再生制御を開始する。
すなわち、制御部616は、指示入力によって指示されたサムネイルが表すシーンの、例えば、先頭のフレームを、再生対象フレームとする。そして、表示制御部614において、その再生対象フレームが描画された再生ウインドウが、指示入力によって指示されたサムネイルが配置されたクラスタ領域の位置に表示される。
以上のように、ユーザは、再生対象フレームを見ながら、サムネイルを指示する指示入力を与えるだけで、そのサムネイルが表すシーンに、再生位置をジャンプすることができる。
[2ペイン表示]
図61は、2ペイン表示の表示例を示す図である。
2ペイン表示では、表示制御部614は、再生対象コンテンツ(の再生対象フレーム)を描画した再生ウインドウ631と、再生対象フレームが属するクラスタに属する(フレームを有する)シーンのサムネイルを描画したクラスタウインドウ632とを、表示装置603に表示する。
図61では、表示装置603の表示画面の上側の2/3程度の領域に、再生ウインドウ631が表示され、再生ウインドウ631の下側に、クラスタウインドウ632が表示されている。
また、クラスタウインドウ632には、再生対象フレームが属するクラスタに属するシーンすべて(再生対象フレームを有するシーンを含む)のサムネイルが、クラスタウインドウ632を等分した領域に、例えば、時系列順に並べて表示(描画)される。
クラスタウインドウ632にサムネイルが表示される、再生対象フレームが属するクラスタに属するシーンすべては、同様の内容のシーンであり、したがって、クラスタウインドウ632によれば、ユーザは、再生対象フレームを有するシーンと同様のシーンを、容易に把握することができる。
2ペイン表示でも、2Dマップ表示等の場合と同様に、ユーザは、操作部615を操作することにより、クラスタウインドウ632に表示されたサムネイルを指示する指示入力を与えることができる。
制御部616は、サムネイルを指示する指示入力に基づいて、その指示入力によって指示されたサムネイルが表すシーンが有するフレームを、再生対象フレームに変更し、その再生対象フレームからの再生制御を開始する。
すなわち、制御部616は、指示入力によって指示されたサムネイルが表すシーンの、例えば、先頭のフレームを、再生対象フレームとする。そして、表示制御部614において、その再生対象フレームが、いままで、再生対象フレームであったフレームに代えて、再生ウインドウ631に表示される。
さらに、表示制御部614は、再生対象フレームの変更に応じて、クラスタウインドウ632の表示も変更する。
クラスタウインドウ632にサムネイルが表示される、再生対象フレームが属するクラスタに属するシーンすべては、同様の内容のシーンであるので、2ペイン表示によれば、ユーザは、再生対象フレームを見ながら、サムネイルを指示する指示入力を与えるだけで、再生対象フレームを有するシーンと同様の他のシーンに、再生位置をジャンプすることができる。
[5ペイン表示]
図62は、5ペイン表示の表示例を示す図である。
5ペイン表示では、表示制御部614は、図61で説明した2ペイン表示と同様に、再生対象コンテンツを描画した再生ウインドウ641と、再生対象フレームが属するクラスタに属する(フレームを有する)シーンのサムネイルを描画したクラスタウインドウ642とを、表示装置603に表示する。
さらに、5ペイン表示では、表示制御部614は、クラスタウインドウ643及び644、並びに、サムネイルウインドウ645も、表示装置603に表示する。
クラスタウインドウ643には、再生対象フレームを有するシーンの直前のシーン(のフレーム)が属するクラスタに属する(フレームを有する)シーンすべてのサムネイルが、例えば、図61のクラスタウインドウ632と同様に、時系列順に並べて表示される。
クラスタウインドウ643にサムネイルが表示される、再生対象フレームを有するシーンの直前のシーンが属するクラスタに属するシーンすべては、同様の内容のシーンであり、したがって、クラスタウインドウ643によれば、ユーザは、再生対象フレームを有するシーンの直前のシーンと同様のシーンを、容易に把握することができる。
クラスタウインドウ644には、再生対象フレームを有するシーンの直後のシーン(のフレーム)が属するクラスタに属する(フレームを有する)シーンすべてのサムネイルが、例えば、図61のクラスタウインドウ632と同様に、時系列順に並べて表示される。
したがって、クラスタウインドウ644によれば、ユーザは、再生対象フレームを有するシーンの直後のシーンと同様のシーンを、容易に把握することができる。
サムネイルウインドウ645には、再生対象コンテンツのシーンすべてのサムネイルが、例えば、図61のクラスタウインドウ632と同様に、時系列に並べて表示される。
したがって、サムネイルウインドウ645によれば、再生対象コンテンツのシーンすべてを、容易に把握することができる。
以上から、5ペイン表示によれば、ユーザは、サムネイルウインドウ645によって、再生対象コンテンツの、いわば全貌を確認しつつ、クラスタウインドウ642によって、再生対象フレームを有するシーン(以下、現在シーンともいう)と同様のシーンを把握し、さらに、クラスタウインドウ643や644によって、現在シーンの直前のシーンと同様のシーンや、現在シーンの直後のシーンと同様のシーンも把握することができる。
ここで、図62では、表示装置603の表示画面の左上側の1/4程度の領域に、再生ウインドウ641が表示され、再生ウインドウ641の右側の、表示画面の右上側の1/4程度の領域に、サムネイルウインドウ645が表示されている。
さらに、図62では、表示装置603の表示画面の下側の1/2程度の領域を、水平方向に3つに分けた(3つの)領域のうちの、左から1番目の領域には、クラスタウインドウ644が、2番目の領域には、クラスタウインドウ642が、3番目の領域には、クラスタウインドウ643が、それぞれ表示されている。
なお、5ペイン表示において、サムネイルウインドウ645に表示されるサムネイルのうちの、現在シーンのサムネイルについては、枠で囲む等の強調表示を行うことができる。
さらに、サムネイルウインドウ645では、再生対象コンテンツのすべてのシーンのサムネイルのうちの、クラスタウインドウ642ないし644に表示されたサムネイルを除いた、残りのサムネイルだけを表示することができる。
また、5ペイン表示でも、2Dマップ表示等の場合と同様に、ユーザは、操作部615を操作することにより、クラスタウインドウ642ないし644や、サムネイルウインドウ645に表示されたサムネイルを指示する指示入力を与えることができる。
制御部616は、サムネイルを指示する指示入力に基づいて、その指示入力によって指示されたサムネイルが表すシーンが有するフレームを、再生対象フレームに変更し、その再生対象フレームからの再生制御を開始する。
すなわち、制御部616は、指示入力によって指示されたサムネイルが表すシーンの、例えば、先頭のフレームを、再生対象フレームとする。そして、表示制御部614において、その再生対象フレームが、いままで、再生対象フレームであったフレームに代えて、再生ウインドウ641に表示される。
さらに、表示制御部614は、再生対象フレームの変更に応じて、クラスタウインドウ642ないし644の表示も変更する。
したがって、5ペイン表示によれば、ユーザは、サムネイルを指示する指示入力を与えるだけで、再生対象コンテンツの任意のシーンに、再生位置をジャンプすることができる。
[時系列表示]
図63は、時系列表示の表示例を示す図である。
時系列表示では、表示制御部614は、再生対象コンテンツを描画した再生ウインドウ651と、サムネイル画像群652とを、表示装置603に表示する。
図63では、表示装置603の表示画面の上側の3/4程度の領域に、再生ウインドウ651が表示され、再生ウインドウ651の下側の、表示画面の下側の1/4程度の領域に、サムネイル画像群652が表示されている。
サムネイル画像群652は、再生対象フレームを有するシーン(現在シーン)のサムネイル、現在シーンの後の1以上のシーンのサムネイル、及び、現在シーンの前の1以上のシーンのサムネイルを、時系列に並べた画像になっている。
すなわち、図63では、サムネイル画像群652の中央に、現在シーンのサムネイルが配置されており、右から左方向を、時刻の進行方向として、現在シーンのサムネイルの右側に、現在シーンの直前の4つのシーンのサムネイルが、時系列に配置されている。
さらに、図63のサムネイル画像群652では、現在シーンのサムネイルの左側に、現在シーンの直後の4つのシーンのサムネイルが、時系列に配置されている。
また、図63のサムネイル画像群652において、サムネイルは、円柱の側面に貼り付けられたような状態で、いわゆる3D画像のように表示されている。これにより、サムネイル画像群652を構成するサムネイルの中で、現在シーンのサムネイルは、最も大きいサイズで表示されており、現在シーンから、時系列で離れたシーンのサムネイルほど、小さいサイズで表示されている。
以上のように、サムネイル画像群652では、現在シーンのサムネイル、現在シーンの後の1以上のシーンのサムネイル、及び、現在シーンの前の1以上のシーンのサムネイルが、時系列に並んでいるので、サムネイル画像群652によれば、ユーザは、現在シーンに時間的に近いシーンを、容易に把握することができる。
時系列表示でも、2Dマップ表示等の場合と同様に、ユーザは、操作部615を操作することにより、サムネイル画像群652のサムネイルを指示する指示入力を与えることができる。
制御部616は、サムネイルを指示する指示入力に基づいて、その指示入力によって指示されたサムネイルが表すシーンが有するフレームを、再生対象フレームに変更し、その再生対象フレームからの再生制御を開始する。
すなわち、制御部616は、指示入力によって指示されたサムネイルが表すシーンの、例えば、先頭のフレームを、再生対象フレームとする。そして、表示制御部614において、その再生対象フレームが、いままで、再生対象フレームであったフレームに代えて、再生ウインドウ651に表示される。
さらに、表示制御部614は、再生対象フレームの変更に応じて、サムネイル画像群652の表示も変更する。
したがって、時系列表示によれば、ユーザは、サムネイルを指示する指示入力を与えるだけで、再生対象コンテンツの任意のシーンに、再生位置をジャンプすることができる。
ここで、時系列表示では、サムネイル画像群652において、現在シーンの後の1以上のシーンのサムネイル、及び、現在シーンの前の1以上のシーンのサムネイルが、時系列に並んでいるので、例えば、現在シーンの次(直後)のシーンや、現在シーンの次の次のシーン等に、再生位置をジャンプすることができる。
したがって、サムネイル画像群652の各サムネイルは、従来のレコーダの、上述したジャンプボタンのような機能を有する、ということができる。
なお、ジャンプボタンによるジャンプでは、ジャンプ後のフレーム(再生対象フレーム)が、現在シーンとは異なるシーンのフレームとは限らず、現在シーンのフレームであることがあり、シーンが変わらないことがあるが、サムネイル画像群652のサムネイルによるジャンプでは、ジャンプ後のフレームが、必ず、現在シーンとは異なるシーンのフレームである点で、サムネイル画像群652のサムネイルによるジャンプは、ジャンプボタンによるジャンプよりも、有用である。
[フラット表示]
図64は、フラット表示の表示例を示す図である。
フラット表示では、表示制御部614は、図62の5ペイン表示のサムネイルウインドウ645と同様に、再生対象コンテンツのすべてのシーンのサムネイルを時系列に並べて、表示装置603に表示する。
したがって、フラット表示によれば、再生対象コンテンツのシーンすべてを、容易に把握することができる。
また、フラット表示においても、2Dマップ表示の場合と同様に、再生対象フレームが描画された再生ウインドウを表示することができる。
すなわち、表示制御部614では、再生対象コンテンツのすべてのシーンのサムネイルを表示するとともに、再生対象フレームが描画された再生ウインドウを、その再生対象フレームのシーン(現在シーン)のサムネイルの位置に表示させることができる。
さらに、フラット表示でも、2Dマップ表示の場合と同様に、ユーザは、操作部615を操作することにより、サムネイルを指示する指示入力を与えることができる。
制御部616は、サムネイルを指示する指示入力に基づいて、その指示入力によって指示されたサムネイルが表すシーンが有するフレームを、再生対象フレームに変更し、その再生対象フレームからの再生制御を開始する。
すなわち、制御部616は、指示入力によって指示されたサムネイルが表すシーンの、例えば、先頭のフレームを、再生対象フレームとする。そして、表示制御部614において、その再生対象フレームが描画された再生ウインドウが、指示入力によって指示されたサムネイルの位置に表示される。
以上のように、ユーザは、再生対象フレームを見ながら、サムネイルを指示する指示入力を与えるだけで、そのサムネイルが表すシーンに、再生位置をジャンプすることができる。
[クラスタリングモデルがHMMである場合の、クラスタリングモデルの学習]
図65は、クラスタリングモデルがHMMである場合に、クラスタリングモデル学習部621(図55)が行う、クラスタリングモデルの学習の処理を説明するフローチャートである。
ここで、図55で説明したように、クラスタリングモデルとしては、例えば、状態と状態遷移とを有する状態遷移モデルを採用することができ、また、クラスタリングモデルとして採用する状態遷移モデルとしては、例えば、コンテンツモデルとしてのHMMや、ベクトル量子化に用いられるk-means法を利用したモデルである新ベクトル量子化モデル、GMMを利用したモデルである新GMM等を採用することができる。
図65は、以上のHMM、新ベクトル量子化モデル、及び、新GMMモデルのうちの、HMMを、クラスタリングモデルとして採用した場合の、そのクラスタリングモデルの学習の処理を説明するフローチャートである。
クラスタリングモデル学習部621(図55)は、ステップS621において、コンテンツ記憶装置601に記憶されたコンテンツを、クラスタリングモデルの学習用の学習用コンテンツとして、その学習用コンテンツを、カテゴリごとに分類する。
そして、クラスタリングモデル学習部621は、例えば、図2のコンテンツモデル学習部12と同様に、学習用コンテンツの各フレームの特徴量を抽出し、処理は、ステップS621からステップS622に進む。
ステップS622では、クラスタリングモデル学習部621は、各カテゴリについて、そのカテゴリの学習用コンテンツのフレームの特徴量(の時系列)を用いて、クラスタリングモデルとなるHMMの学習を、図2のコンテンツモデル学習部12と同様にして行い、カテゴリごとのクラスタリングモデルとしてのHMMを生成(獲得)する。
そして、クラスタリングモデル学習部621は、カテゴリごとのクラスタリングモデルとしてのHMMを、クラスタリングモデル記憶部622に供給して記憶させ、クラスタリングモデルの学習の処理は、終了する。
ここで、クラスタリングモデルがHMMである場合、HMMの状態が、クラスタに対応する。
[クラスタリングモデルがHMMである場合のクラスタリング]
図66は、クラスタリングモデルがHMMである場合に、クラスタリング部611(図55)が行う、再生対象コンテンツのクラスタリングの処理を説明するフローチャートである。
ステップS631において、クラスタリングモデル選択部623(図55)は、クラスタリングモデル記憶部622に記憶された、カテゴリごとのクラスタリングモデルの中から、再生対象コンテンツのカテゴリに一致するカテゴリのクラスタリングモデルを、クラスタリングに用いる注目モデルとして選択し、クラスタ判定部625に供給して、処理は、ステップS632に進む。
ステップS632では、特徴量抽出部624(図55)は、コンテンツ記憶装置601からの再生対象コンテンツの各フレームの特徴量(コンテンツモデルとしてのHMMの学習に用いられたのと同一の特徴量)を抽出し、クラスタ判定部625に供給して、処理は、ステップS633に進む。
ステップS633、及び、続くステップS634では、クラスタ判定部625(図55)は、クラスタリングモデル選択部623からの注目モデルと、特徴量抽出部624からの再生対象コンテンツの各フレーム(の時系列)の特徴量とを用いて、再生対象コンテンツの各フレームが属するクラスタを判定し、そのクラスタであるクラスタリング結果を表すクラスタリング情報を、シーン区分部612に供給(出力)する。
すなわち、ステップS633では、クラスタ判定部623は、図9の最尤状態系列推定部34と同様に、クラスタリングモデル選択部623からの注目モデルにおいて、特徴量抽出部624からの再生対象コンテンツの特徴量(再生対象コンテンツの各フレームの特徴量の時系列)が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列(再生対象コンテンツに対する注目モデルの最尤状態系列)を推定し、処理は、ステップS634に進む。
ステップS634では、クラスタ判定部625は、再生対象コンテンツに対する注目モデルの最尤状態系列を、クラスタリング情報として、シーン区分部612(図53)に出力し、再生対象コンテンツのクラスタリングの処理は、終了する。
図67は、HMMをクラスタリングモデルとして採用した場合のクラスタリングを表現するグラフィカルモデルを示す図である。
図67のグラフィカルモデルは、再生対象コンテンツに対する注目モデルの最尤状態系列s(1),s(2),・・・,s(T)の時刻tの状態s(t)において(Tは、再生対象コンテンツのフレーム数を表す)、再生対象コンテンツの時刻tのフレームの特徴量xtが観測されることを表現している。
再生対象コンテンツに対する注目モデルの最尤状態系列s(1)ないしs(T)の時刻tの状態s(t)は、再生対象コンテンツの時刻tのフレームが、状態s(t)に対応するクラスタにクラスタリングされたことを表す。
[クラスタリングモデルが新ベクトル量子化モデルである場合の、クラスタリングモデルの学習]
図68は、クラスタリングモデルが新ベクトル量子化モデルである場合に、クラスタリングモデル学習部621(図55)が行う、クラスタリングモデルの学習の処理を説明するフローチャートである。
クラスタリングモデル学習部621(図55)は、ステップS641において、コンテンツ記憶装置601に記憶されたコンテンツを、クラスタリングモデルの学習用の学習用コンテンツとして、その学習用コンテンツを、カテゴリごとに分類する。
そして、クラスタリングモデル学習部621は、例えば、図2のコンテンツモデル学習部12と同様に、学習用コンテンツの各フレームの特徴量(ベクトル)を抽出し、処理は、ステップS641からステップS642に進む。
ステップS642では、クラスタリングモデル学習部621は、各カテゴリについて、そのカテゴリの学習用コンテンツの各フレームの特徴量を用いて、フレームの特徴量(ベクトル)のベクトル量子化に用いるコードブックを、例えば、k-means法によって求め、処理は、ステップS643に進む。
すなわち、クラスタリングモデル学習部621は、k-means法によって、フレームの特徴量の空間(特徴量空間)のベクトルであるコードベクトルを求め、そのコードベクトルを表す(識別する)コードと対応付けて、コードブックに登録する。
なお、クラスタリングモデルが新ベクトル量子化モデルである場合、コードベクトル(を表すコード)が、状態遷移モデルである新ベクトル量子化モデルの状態、ひいては、クラスタに対応する。
ここで、コードブックのコードベクトルの総数が、N個であるとし、そのN個のコードベクトルのうちの、n番目のコードベクトルを、μnと表すとともに、そのコードベクトルμnを表すコードを、nと表すこととする。
ステップS643では、クラスタリングモデル学習部621は、各カテゴリについて、そのカテゴリの学習用コンテンツの各フレームの特徴量を、時系列に、そのカテゴリのコードブックを用いてベクトル量子化することによりクラスタリングし、クラスタリング結果としての、コードの系列(コード系列)を出力して、処理は、ステップS644に進む。
すなわち、学習用コンテンツの時刻tのフレームの特徴量(ベクトル)を、xtと表すこととすると、クラスタリングモデル学習部621は、特徴量(ベクトル)xtを、式s(t)=argmin|xt−μn|で表されるコードs(t)、つまり、特徴量(ベクトル)xtと、コードベクトルμnとの距離|xt−μn|を最小にするコードnにベクトル量子化することによりクラスタリングする。
クラスタリングモデル学習部621は、各カテゴリについて、そのカテゴリの学習用コンテンツの各フレームの特徴量を、時系列に、そのカテゴリのコードブックを用いてベクトル量子化することによりクラスタリングし、クラスタリング結果としての、コード系列s(1),s(2),・・・,s(T)(Tは、再生対象コンテンツのフレーム数を表す)を出力する。
ステップS644では、クラスタリングモデル学習部621は、各カテゴリについて、そのカテゴリのコード系列s(1)ないしs(T)に基づき、コード(が表すコードベクトル)に対応する状態の状態遷移確率(以下、コード遷移確率ともいう)を求め、処理は、ステップS645に進む。
すなわち、クラスタリングモデル学習部621は、ある時刻tに、コードs(t)に対応する状態iにいて、次の時刻t+1に、コードs(t+1)に対応する状態jに状態遷移する状態遷移確率であるコード遷移確率Aij=P(j=s(t+1)|i=s(t))を求める。
なお、コード系列s(1)ないしs(T)において、時刻tに、コードiに対応する状態iにいて、次の時刻t+1に、コードjに対応する状態jに状態遷移した回数を、mi,jと表すこととすると、時刻tに、コードs(t)に対応する状態にいて、次の時刻t+1に、コードs(t+1)に対応する状態に状態遷移する状態遷移確率P(s(t+1)|s(t))は、式P(s(t+1)|s(t))=ms(t),s(t+1)/Σms(t),nで表される。
ここで、式P(s(t+1)|s(t))=ms(t),s(t+1)/Σms(t),nにおいて、右辺の分母のΣは、nを、1からNまでの整数に変えてのサメ−ション(総和)を表す。
ステップS645では、クラスタリングモデル学習部621は、各カテゴリについて求められたコードブックと、コード遷移確率Aijとのセットを、コードに対応する状態と、コード遷移確率Aijを状態遷移確率とする状態遷移とを有する状態遷移モデルである新ベクトル量子化モデルとして、クラスタリングモデル記憶部622に供給して記憶させ、クラスタリングモデルの学習の処理は、終了する。
[クラスタリングモデルが新ベクトル量子化モデルである場合のクラスタリング]
図69は、クラスタリングモデルが新ベクトル量子化モデルである場合に、クラスタリング部611(図55)が行う、再生対象コンテンツのクラスタリングの処理を説明するフローチャートである。
ステップS651において、クラスタリングモデル選択部623(図55)は、クラスタリングモデル記憶部622に記憶された、カテゴリごとのクラスタリングモデルの中から、再生対象コンテンツのカテゴリに一致するカテゴリのクラスタリングモデルを、クラスタリングに用いる注目モデルとして選択し、クラスタ判定部625に供給して、処理は、ステップS652に進む。
ステップS652では、特徴量抽出部624(図55)は、コンテンツ記憶装置601からの再生対象コンテンツの各フレームの特徴量(コンテンツモデルとしての新ベクトル量子化モデルの学習に用いられたのと同一の特徴量)を抽出し、クラスタ判定部625に供給して、処理は、ステップS653に進む。
ステップS653、及び、続くステップS654では、クラスタ判定部625(図55)は、クラスタリングモデル選択部623からの注目モデルと、特徴量抽出部624からの再生対象コンテンツの各フレームの特徴量とを用いて、再生対象コンテンツの各フレームが属するクラスタを判定し、そのクラスタであるクラスタリング結果を表すクラスタリング情報を、シーン区分部612に供給(出力)する。
すなわち、ステップS653では、クラスタ判定部623は、特徴量抽出部624からの再生対象コンテンツの各フレームの特徴量(ベクトル)を、クラスタリングモデル選択部623からの注目モデルとしてのコードブックを用いてベクトル量子化することにより、再生対象コンテンツの各フレームをクラスタリングし、処理は、ステップS654に進む。
ステップS654では、クラスタ判定部625は、再生対象コンテンツの各フレームのベクトル量子化結果であるコード(の系列)を、クラスタリング情報として、シーン区分部612(図53)に出力し、再生対象コンテンツのクラスタリングの処理は、終了する。
なお、新ベクトル量子化モデルの状態遷移確率であるコード遷移確率は、新ベクトル量子化モデルを用いたクラスタリングには用いられないが、図56ないし図58で説明した2Dマップ表示を行う場合において、モデルマップ上の状態どうしの間を、その状態どうしの間の状態遷移確率に応じて結ぶ線分を描画するときに用いられる。
図70は、新ベクトル量子化モデルをクラスタリングモデルとして採用した場合のクラスタリングを表現するグラフィカルモデルを示す図である。
図70のグラフィカルモデルは、再生対象コンテンツの時刻tのフレームのベクトル量子化結果であるコードs(t)に対応する状態において(図70で、Tは、再生対象コンテンツのフレーム数を表す)、再生対象コンテンツの時刻tのフレームの特徴量xtが観測されることを表現している。
また、コードs(t)は、再生対象コンテンツの時刻tのフレームが、コードs(t)(に対応する状態)に対応するクラスタにクラスタリングされたことを表す。
[クラスタリングモデルが新GMMである場合の、クラスタリングモデルの学習]
図71は、クラスタリングモデルが新GMMである場合に、クラスタリングモデル学習部621(図55)が行う、クラスタリングモデルの学習の処理を説明するフローチャートである。
クラスタリングモデル学習部621は、ステップS661において、コンテンツ記憶装置601に記憶されたコンテンツを、クラスタリングモデルの学習用の学習用コンテンツとして、その学習用コンテンツを、カテゴリごとに分類する。
そして、クラスタリングモデル学習部621は、例えば、図2のコンテンツモデル学習部12と同様に、学習用コンテンツの各フレームの特徴量(ベクトル)を抽出し、処理は、ステップS661からステップS662に進む。
ステップS662では、クラスタリングモデル学習部621は、各カテゴリについて、そのカテゴリの学習用コンテンツの各フレームの特徴量を用いて、一般的なGMMの学習を行うことにおり、GMMのクラスの平均値(ベクトル)と分散とを求め、処理は、ステップS663に進む。
すなわち、クラスタリングモデル学習部621は、フレームの特徴量の空間(特徴量空間)の一部の空間(分布)であるクラスを規定する平均値と分散とを求める。
ここで、クラスを規定する平均値と分散を、それぞれ、クラス平均値とクラス分散という。このクラス平均値とクラス分散とで規定されるクラスが、状態遷移モデルである新GMMの状態、ひいては、クラスタに対応する。
なお、ここでは、GMMのクラスの総数が、N個であるとし、そのN個のクラスのうちの、n番目のクラスnのクラス平均値とクラス分散を、それぞれ、μnとσ2 nと表す。
ステップS663では、クラスタリングモデル学習部621は、各カテゴリについて、そのカテゴリの学習用コンテンツの各フレームの特徴量を、そのカテゴリのGMMのいずれかのクラスに分類することによりクラスタリングし、クラスタリング結果としての、特徴量を分類したクラスの系列(クラス系列)を出力して、処理は、ステップS664に進む。
すなわち、学習用コンテンツの時刻tのフレームの特徴量(ベクトル)を、xtと表すこととすると、クラスタリングモデル学習部621は、特徴量(ベクトル)xtを、式s(t)=argmax{Normal(xt;μn,σ2 n)}で表されるクラスs(t)に分類することによりクラスタリングする。
ここで、式s(t)=argmax{Normal(xt;μn,σ2 n)}において、Normal(xt;μn,σ2 n)は、平均値(ベクトル)が、クラス平均値μnで、分散が、クラス分散σ2 nの正規分布を表す正規分布関数の、引数が特徴量xtであるときの関数値を表す。
したがって、式s(t)=argmax{Normal(xt;μn,σ2 n)}によれば、特徴量xtは、その特徴量xtを引数とする正規分布関数の関数値を最大にするクラスnに分類されることによりクラスタリングされる。
クラスタリングモデル学習部621は、各カテゴリについて、そのカテゴリの学習用コンテンツの各フレームの特徴量を、時系列に、そのカテゴリのGMMのいずれかのクラスに分類することによりクラスタリングし、クラスタリング結果としての、クラス系列s(1),s(2),・・・,s(T)(Tは、再生対象コンテンツのフレーム数を表す)を出力する。
ステップS664では、クラスタリングモデル学習部621は、各カテゴリについて、そのカテゴリのクラス系列s(1)ないしs(T)に基づき、クラスに対応する状態の状態遷移確率(以下、クラス遷移確率ともいう)を求め、処理は、ステップS665に進む。
すなわち、クラスタリングモデル学習部621は、ある時刻tに、クラスs(t)に対応する状態iにいて、次の時刻t+1に、クラスs(t+1)に対応する状態jに状態遷移する状態遷移確率であるクラス遷移確率Aij=P(j=s(t+1)|i=s(t))を求める。
なお、クラス系列s(1)ないしs(T)において、時刻tに、クラスiに対応する状態iにいて、次の時刻t+1に、クラスjに対応する状態jに状態遷移した回数を、mi,jと表すこととすると、時刻tに、クラスs(t)に対応する状態にいて、次の時刻t+1に、クラスs(t+1)に対応する状態に状態遷移する状態遷移確率P(s(t+1)|s(t))は、上述のコード遷移確率と同様に、式P(s(t+1)|s(t))=ms(t),s(t+1)/Σms(t),nで表される。
ここで、式P(s(t+1)|s(t))=ms(t),s(t+1)/Σms(t),nにおいて、右辺の分母のΣは、nを、1からNまでの整数に変えてのサメ−ション(総和)を表す。
ステップS665では、クラスタリングモデル学習部621は、各カテゴリについて求められたGMMと、クラス遷移確率Aijとのセットを、クラスに対応する状態と、クラス遷移確率Aijを状態遷移確率とする状態遷移とを有する状態遷移モデルである新GMMとして、クラスタリングモデル記憶部622に供給して記憶させ、クラスタリングモデルの学習の処理は、終了する。
[クラスタリングモデルが新GMMである場合のクラスタリング]
図72は、クラスタリングモデルが新GMMである場合に、クラスタリング部611(図55)が行う、再生対象コンテンツのクラスタリングの処理を説明するフローチャートである。
ステップS671において、クラスタリングモデル選択部623(図55)は、クラスタリングモデル記憶部622に記憶された、カテゴリごとのクラスタリングモデルの中から、再生対象コンテンツのカテゴリに一致するカテゴリのクラスタリングモデルを、クラスタリングに用いる注目モデルとして選択し、クラスタ判定部625に供給して、処理は、ステップS672に進む。
ステップS672では、特徴量抽出部624(図55)は、コンテンツ記憶装置601からの再生対象コンテンツの各フレームの特徴量(コンテンツモデルとしての新GMMの学習に用いられたのと同一の特徴量)を抽出し、クラスタ判定部625に供給して、処理は、ステップS673に進む。
ステップS673、及び、続くステップS674では、クラスタ判定部625(図55)は、クラスタリングモデル選択部623からの注目モデルと、特徴量抽出部624からの再生対象コンテンツの各フレームの特徴量とを用いて、再生対象コンテンツの各フレームが属するクラスタを判定し、そのクラスタであるクラスタリング結果を表すクラスタリング情報を、シーン区分部612に供給(出力)する。
すなわち、ステップS673では、クラスタ判定部623は、特徴量抽出部624からの再生対象コンテンツの各フレームの特徴量を、クラスタリングモデル選択部623からの注目モデルとしてのGMMのいずれかのクラスに分類するクラス分類を行うことにより、再生対象コンテンツの各フレームをクラスタリングし、処理は、ステップS674に進む。
ステップS674では、クラスタ判定部625は、再生対象コンテンツの各フレームのクラス分類結果であるクラス(の系列)を、クラスタリング情報として、シーン区分部612(図53)に出力し、再生対象コンテンツのクラスタリングの処理は、終了する。
なお、新GMMの状態遷移確率であるクラス遷移確率は、新GMMを用いたクラスタリングには用いられないが、図56ないし図58で説明した2Dマップ表示を行う場合において、モデルマップ上の状態どうしの間を、その状態どうしの間の状態遷移確率に応じて結ぶ線分を描画するときに用いられる。
また、新GMMをクラスタリングモデルとして採用した場合のクラスタリングを表現するグラフィカルモデルは、図70に示した、新ベクトル量子化モデルをクラスタリングモデルとして採用した場合のクラスタリングを表現するグラフィカルモデルと同様であるので、説明を省略する。
以上、クラスタリングモデルとして、状態遷移モデルであるHMMや、新ベクトル量子化モデル、新GMMを用いた場合について説明したが、クラスタリングモデルとしては、状態遷移モデルでないモデル、すなわち、例えば、コードブックや、GMMを採用することが可能である。
クラスタリングモデルとして、状態遷移モデルでないコードブックや、GMMを採用した場合でも、クラスタリング部611では、クラスタリングとして、図69や図72で説明した、コードブックを用いたベクトル量子化や、GMMを用いたクラス分類を行うことができる。
但し、クラスタリングモデルとして、状態遷移モデルでないコードブックや、GMMを採用した場合には、状態遷移確率が存在しないため、状態遷移確率を用いた表示が行われる2Dマップ表示は、行うことができない(ステート表示、2ペイン表示、5ペイン表示、時系列表示、及び、フラット表示は、行うことができる)。
[本発明を適用したコンピュータの説明]
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
そこで、図73は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク1005やROM1003に予め記録しておくことができる。
あるいはまた、プログラムは、ドライブ1009に装着されるリムーバブル記録媒体1011に格納(記録)しておくことができる。このようなリムーバブル記録媒体1011は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体1011としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
なお、プログラムは、上述したようなリムーバブル記録媒体1011からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク1005にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。
コンピュータは、CPU(Central Processing Unit)1002を内蔵しており、CPU1002には、バス1001を介して、入出力インタフェース1010が接続されている。
CPU1002は、入出力インタフェース1010を介して、ユーザによって、入力部1007が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)1003に格納されているプログラムを実行する。あるいは、CPU1002は、ハードディスク1005に格納されたプログラムを、RAM(Random Access Memory)1004にロードして実行する。
これにより、CPU1002は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU1002は、その処理結果を、必要に応じて、例えば、入出力インタフェース1010を介して、出力部1006から出力、あるいは、通信部1008から送信、さらには、ハードディスク1005に記録等させる。
なお、入力部1007は、キーボードや、マウス、マイク等で構成される。また、出力部1006は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。