JP2013207529A

JP2013207529A - 表示制御装置、表示制御方法、及びプログラム

Info

Publication number: JP2013207529A
Application number: JP2012074114A
Authority: JP
Inventors: Hirotaka Suzuki; 洋貴鈴木
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-03-28
Filing date: 2012-03-28
Publication date: 2013-10-07
Also published as: US20130262998A1; CN103365942A

Abstract

【課題】コンテンツから、ユーザの所望する再生位置を検索する。
【解決手段】分割部は、複数の静止画像により構成されるコンテンツを、複数のチャプタに区分するためのチャプタポイントデータを生成し、提示部は、チャプタポイントデータに基づいて、チャプタ毎に設けられたチャプタ表示領域に、チャプタの各シーンを代表する代表画像を表示させ、コンテンツを構成する複数の静止画像のうち、予め決められたユーザ操作で選択された静止画像に基づき指定される画像群を、コンテンツの総再生時間における、画像群を構成する各静止画像の再生位置とともに表示させる。本技術は、例えば、画像を表示させる表示制御装置などに適用できる。
【選択図】図２６

Description

本開示は、表示制御装置、表示制御方法、及びプログラムに関し、特に、例えば、コンテンツから、ユーザの所望する再生位置を容易に検索できるようにした表示制御装置、表示制御方法、及びプログラムに関する。

例えば、動画等のコンテンツを、複数のチャプタに分割（区分）する分割技術が存在する。

この分割技術では、コンテンツをチャプタに分割する際に、例えば、コマーシャルと本編との切り替わりや、画像に映る人物や物体の切り替わり等を、チャプタの切替わりとして検出する（例えば、特許文献１参照）。そして、検出した切替わりで、コンテンツが複数のチャプタに分割される。

これにより、ユーザは、複数のチャプタに分割されたコンテンツを、所望のチャプタの始めから視聴（再生）することができる。

特開2008-312183号公報

ところで、例えば、ユーザがコンテンツの視聴時に、ユーザの所望する再生位置から、コンテンツを容易に再生できることが望ましい。

すなわち、ユーザが、コンテンツをチャプタの始めから再生できる他、チャプタの途中から再生できたり、所定のシーンに類似するシーンを検索し、その検索により得られるシーンから再生できるようにすることが望まれる。

本開示は、このような状況に鑑みてなされたものであり、コンテンツから、ユーザの所望する再生位置を容易に検索できるようにするものである。

本開示の一側面の表示制御装置は、複数の静止画像により構成されるコンテンツを、複数のチャプタに区分するためのチャプタポイントデータを生成するチャプタポイント生成部と、前記チャプタポイントデータに基づいて、前記チャプタ毎に設けられたチャプタ表示領域に、前記チャプタの各シーンを代表する代表画像を表示させ、前記コンテンツを構成する前記複数の静止画像のうち、予め決められたユーザ操作で選択された静止画像に基づき指定される画像群を、前記コンテンツの総再生時間における、前記画像群を構成する各静止画像の再生位置とともに表示させる表示制御部とを含む表示制御装置である。

前記チャプタポイント生成部では、前記コンテンツを、ユーザの変更操作に応じて変更されるチャプタ数のチャプタに区分することにより得られる前記チャプタポイントデータを生成し、前記表示制御部では、前記チャプタ数からなるチャプタ毎に設けられたチャプタ表示領域に、前記チャプタの各シーンを代表する代表画像を表示させることができる。

前記表示制御部では、前記コンテンツを構成する前記複数の静止画像のうち、前記代表画像として表示された静止画像が選択されたことに対応して、選択された前記代表画像に代表されるシーンを構成する各静止画像を、前記再生位置とともに表示させることができる。

前記表示制御部では、前記コンテンツを構成する前記複数の静止画像のうち、前記シーンを構成する静止画像として表示された静止画像が選択されたことに対応して、選択された前記静止画像と同様の表示内容とされた各静止画像を、前記再生位置とともに表示させることができる。

前記表示制御部では、注目されている静止画像の前記再生位置を強調して表示させることができる。

前記コンテンツに基づいて、前記コンテンツを構成する各静止画像の属性をそれぞれ表すシンボルを生成するシンボル列生成部をさらに設けることができ、前記表示制御部では、前記コンテンツを構成する前記複数の静止画像のうち、前記シーンを構成する静止画像として表示された静止画像が選択されたことに対応して、選択された前記静止画像のシンボルと同一のシンボルに対応する各静止画像を、前記再生位置とともに表示させることができる。

前記シンボル列生成部により生成される各シンボルの分散に基づいて、前記コンテンツを複数のチャプタに区分する区分部をさらに設けることができる。

前記コンテンツから、前記コンテンツの特徴を表す特徴量を抽出する特徴量抽出部をさらに設けることができ、前記表示制御部では、前記特徴量にも基づいて、前記チャプタ毎に設けられたチャプタ表示領域に、所定のシーンの特徴を表す特徴表示を、前記所定のシーンを代表する代表画像に付加して表示させることができる。

前記表示制御部では、前記静止画像を縮小して得られるサムネイル画像を表示させることができる。

本開示の一側面の表示制御方法は、画像を表示させる表示制御装置の表示制御方法であって、前記表示制御装置による、複数の静止画像により構成されるコンテンツを、複数のチャプタに区分するためのチャプタポイントデータを生成するチャプタポイント生成ステップと、前記チャプタポイントデータに基づいて、前記チャプタ毎に設けられたチャプタ表示領域に、前記チャプタの各シーンを代表する代表画像を表示させ、前記コンテンツを構成する前記複数の静止画像のうち、予め決められたユーザ操作で選択された静止画像に基づき指定される画像群を、前記コンテンツの総再生時間における、前記画像群を構成する各静止画像の再生位置とともに表示させる表示制御ステップとを含む表示制御方法である。

本開示の一側面のプログラムは、コンピュータを、複数の静止画像により構成されるコンテンツを、複数のチャプタに区分するためのチャプタポイントデータを生成するチャプタポイント生成部と、前記チャプタポイントデータに基づいて、前記チャプタ毎に設けられたチャプタ表示領域に、前記チャプタの各シーンを代表する代表画像を表示させ、前記コンテンツを構成する前記複数の静止画像のうち、予め決められたユーザ操作で選択された静止画像に基づき指定される画像群を、前記コンテンツの総再生時間における、前記画像群を構成する各静止画像の再生位置とともに表示させる表示制御部として機能させるためのプログラムである。

本開示によれば、複数の静止画像により構成されるコンテンツを、複数のチャプタに区分するためのチャプタポイントデータが生成され、前記チャプタポイントデータに基づいて、前記チャプタ毎に設けられたチャプタ表示領域に、前記チャプタの各シーンを代表する代表画像が表示され、前記コンテンツを構成する前記複数の静止画像のうち、予め決められたユーザ操作で選択された静止画像に基づき指定される画像群が、前記コンテンツの総再生時間における、前記画像群を構成する各静止画像の再生位置とともに表示される。

本開示によれば、コンテンツから、ユーザの所望する再生位置を容易に検索することが可能となる。

第１の実施の形態であるレコーダの構成例を示すブロック図である。図１のシンボル列生成部が生成するシンボル列の一例を示す図である。図１のコンテンツモデル学習部の構成例を示すブロック図である。 left-to-right型のHMMの一例を示す図である。エルゴディック(Ergodic)型のHMMの一例を示す図である。スパースな構造のHMMである2次元近傍拘束HMMの一例を示す図である。スパースな構造のHMMの、2次元近傍拘束HMM以外の一例を示す図である。図３の特徴量抽出部による特徴量の抽出の処理を示す図である。図３のコンテンツモデル学習部が行うコンテンツモデル学習処理を説明するためのフローチャートである。図１のシンボル列生成部の構成例を示すブロック図である。図１のシンボル列生成部が行うシンボル列生成処理の概要を説明するための図である。図１のシンボル列生成部が行うシンボル列生成処理を説明するためのフローチャートである。図１の分割部が、シンボル列に基づいて、コンテンツを複数のセグメントに分割するときの一例を示す図である。図１の分割部が行う再帰二分割処理を説明するためのフローチャートである。図１の分割部が行う焼きなまし分割処理を説明するためのフローチャートである。図１のレコーダが行うコンテンツ分割処理を説明するためのフローチャートである。第２の実施の形態であるレコーダの構成例を示すブロック図である。図１７の分割部により生成されるチャプタポイントデータの一例を示す図である。図１７のダイジェスト生成部が行うダイジェスト生成処理の概要を説明するための図である。図１７のダイジェスト生成部の詳細な構成例を示すブロック図である。図２０の特徴量抽出部が、音声パワー時系列データを生成する様子を説明するための図である。フレームの動きベクトルの一例を示す図である。ズームインテンプレートの一例を示す図である。図２０のエフェクト追加部が行う処理を説明するための図である。図１７のレコーダが行うダイジェスト生成処理を説明するためのフローチャートである。第３の実施の形態であるレコーダの構成例を示すブロック図である。ユーザの指定操作により、チャプタポイントデータが変化する様子の一例を示す図である。チャプタポイントとされたフレームの一例を示す図である。チャプタポイントとされたフレームの右方向に、50フレームの間隔でサムネイル画像を表示させるときの一例を示す図である。表示部の表示画面の一例を示す第１の図である。表示部の表示画面の一例を示す第２の図である。表示部の表示画面の一例を示す第３の図である。表示部の表示画面の一例を示す第４の図である。図２６の提示部の詳細な構成例を示すブロック図である。表示部の表示画面の一例を示す第５の図である。表示部の表示画面の一例を示す第６の図である。表示部の表示画面の一例を示す第７の図である。表示部の表示画面の一例を示す第８の図である。表示部の表示画面の一例を示す第９の図である。図２６のレコーダが行う提示処理を説明するためのフローチャートである。表示モードが移行する様子の一例を示すフローチャートである。コンピュータの構成例を示すブロック図である。

以下、本開示における実施の形態（以下、実施の形態という）について説明する。なお、説明は以下の順序で行う。
１．第１の実施の形態（コンテンツを、意味的にまとまりのあるセグメントに区分するときの一例）
２．第２の実施の形態（コンテンツの大まかな内容がわかるダイジェストを生成するときの一例）
３．第３の実施の形態（コンテンツを構成する各チャプタのサムネイル画像を表示をするときの一例）
４．変形例

＜１．第１の実施の形態＞
［レコーダ１の構成例］

図１は、第１の実施の形態であるレコーダ１の構成例を示している。

図１のレコーダ１は、例えば、HD(Hard Disk)レコーダ等であり、テレビジョン放送の番組や、インターネット等のネットワークを介して提供されるコンテンツ、ビデオカメラ等で撮影したコンテンツ等の各種のコンテンツを録画（記録）（記憶）することができる。

すなわち、図１において、レコーダ１は、コンテンツ記憶部１１、コンテンツモデル学習部１２、モデル記憶部１３、シンボル列生成部１４、分割部１５、制御部１６、及び操作部１７から構成される。

コンテンツ記憶部１１は、例えば、テレビジョン放送の番組等のコンテンツを記憶（記録）する。コンテンツ記憶部１１へのコンテンツの記憶が、そのコンテンツの録画となり、その録画がされたコンテンツ（コンテンツ記憶部１１に記憶されたコンテンツ）は、例えば、操作部１７を用いたユーザの再生操作に応じて再生される。

コンテンツモデル学習部１２は、例えば、コンテンツ記憶部１１に記憶されたコンテンツ等を、所定の特徴量空間において自己組織的に構造化し、コンテンツの構造（時空間構造）を表すモデル（以下、コンテンツモデルともいう）を求める学習（統計学習）を行う。コンテンツモデル学習部１２は、学習の結果得られるコンテンツモデルを、モデル記憶部１３に供給する。

モデル記憶部１３は、コンテンツモデル学習部１２から供給されるコンテンツモデルを記憶する。

シンボル列生成部１４は、コンテンツ記憶部１１からコンテンツを読み出す。そして、シンボル列生成部１４は、読み出したコンテンツを構成する各フレーム（又はフィールド）の属性を表すシンボルを求め、各フレーム毎に求めた複数のシンボルを時系列に並べたシンボル列を作成（生成）し、分割部１５に供給する。

すなわち、例えば、シンボル列生成部１４は、コンテンツ記憶部１１に記憶されたコンテンツと、モデル記憶部１３に記憶されたコンテンツモデルとを用いて、複数のシンボルから構成されるシンボル列を作成し、分割部１５に供給する。

ここで、シンボルとしては、例えば、特徴量空間を構成する各部分空間である複数のクラスタのうち、フレームの特徴量が含まれるクラスタを表すクラスタIDを採用することができる。

なお、クラスタIDは、そのクラスタIDが表すクラスタに応じた値とされる。すなわち、例えば、クラスタIDは、クラスタどうしの位置が近い程に、互いのクラスタIDは近い値とされる。したがって、フレームの特徴量が類似しているほどに、フレームどうしのクラスタIDは、近い値とされる。

また、例えば、シンボルとしては、複数の異なる状態をそれぞれ表す状態IDのうち、フレームの状態を表す状態IDを採用するようにしてもよい。なお、状態IDは、その状態IDが表す状態に応じた値とされる。すなわち、例えば、状態IDは、フレームの状態が近い程に、互いの状態IDは近い値とされる。

シンボルとしてクラスタIDを採用した場合、同一のシンボルに対応する各フレームは、フレームに表示されるオブジェクトが類似しているものとなる。

また、シンボルとして状態IDを採用した場合、同一のシンボルに対応する各フレームは、フレームに表示されるオブジェクトが類似している他、時間的な前後関係も類似しているものとなる。

すなわち、例えば、シンボルとしてクラスタIDを採用した場合、発車寸前の電車が表示されたフレームと、停車寸前の電車が表示されたフレームとは、同一のシンボルとされる。

これは、シンボルとしてクラスタIDを採用した場合、オブジェクトが類似しているか否かのみで、フレームにシンボルが割り当てられることによる。

これに対して、シンボルとして状態IDを採用した場合、発車寸前の電車が表示されたフレームと、停車寸前の電車が表示されたフレームとは、異なるシンボルとされる。

これは、シンボルとして状態IDを採用した場合、オブジェクトが類似しているか否かの他、時間的な前後関係も考慮して、フレームにシンボルが割り当てられることによる。

したがって、シンボルとして状態IDを採用した場合、シンボルは、クラスタIDを採用した場合よりも、フレームの属性をより詳細に表したものとなる。

第１の実施の形態では、シンボル列における各シンボルのばらつき（分散）に基づいて、コンテンツを複数のセグメントに分割する点がポイントである。

したがって、第１の実施の形態では、シンボルとして状態IDを採用した場合、シンボルとしてクラスタIDを採用した場合と比較して、精度良く、コンテンツを、意味的にまとまりのある複数のセグメントに分割できる。

なお、モデル記憶部１３に、学習済みのコンテンツモデルが、既に記憶されている場合には、コンテンツモデル学習部１２を設けずに、レコーダ１を構成することができる。

ここで、コンテンツ記憶部１１に記憶されるコンテンツのデータは、画像、音声、及び、必要なテキスト（字幕）のデータ（ストリーム）を含むこととする。

また、ここでは、コンテンツのデータのうちの、画像のデータだけを、コンテンツモデルの学習の処理や、コンテンツモデルを用いた処理に用いることとする。

但し、コンテンツモデルの学習の処理や、コンテンツモデルを用いた処理には、画像のデータの他、音声やテキストのデータをも用いることが可能であり、この場合、処理の精度を向上させることができる。

また、コンテンツモデルの学習の処理や、コンテンツモデルを用いた処理には、画像ではなく、音声のデータだけを用いることが可能である。

分割部１５は、シンボル列生成部１４からのシンボル列を生成する際に用いられたコンテンツと同一のコンテンツを、コンテンツ記憶部１１から読み出す。そして、分割部１５は、シンボル列生成部１４からのシンボル列における各シンボルのばらつき（分散）に基づいて、読み出したコンテンツを、意味的にまとまりのある複数のセグメントに分割（区分）する。

すなわち、例えば、分割部１５は、意味的にまとまりのある複数のセグメントとして、番組のコーナー毎や、ニュースのトピック毎に、コンテンツを分割する。

制御部１６は、例えば、操作部１７からの操作信号に基づいて、コンテンツモデル学習部１２、シンボル列生成部１４、及び分割部１５を制御する。

操作部１７は、ユーザにより操作される操作ボタン等であり、ユーザにより操作されたことに対応して、ユーザの操作に対応する操作信号を、制御部１６に供給する。

次に、図２は、シンボル列生成部１４が生成するシンボル列の一例を示している。

なお、図２において、横軸は時刻tを表しており、縦軸は、時刻tにおけるフレーム(フレームt)のシンボルを表している。

ここで、時刻tとは、例えば、コンテンツの先頭を基準とする時刻であり、時刻tにおけるフレームtとは、コンテンツの先頭からt番目のフレームを意味する。なお、コンテンツの先頭のフレームは、フレーム０とされる。

また、シンボルは、シンボル（の値）どうしが近い程に、シンボルに対応するフレームどうしの属性は近いものとなる。

また、図２において、図中垂直方向に延びる太線の線分は、複数のシンボルから構成されるシンボル列を、６個の部分系列に分割する分割線を表す。

このシンボル列は、図２に示されるように、比較的少ない種類のシンボルが頻繁に観測される第１の部分系列（「停留」的な特徴を持つ部分系列）と、比較的多くの種類のシンボルが観測される第２の部分系列（「大分散」的な特徴を持つ部分系列）とで構成される。

図２では、第１の部分系列が４個、第２の部分系列が２個だけ示されている。

本発明者らは、複数の被験者を対象として、図２に示されるようなシンボル列を、N個（図２の場合、N=6）に分割させるための分割線を引かせる実験を行なった。そして、本発明者らは、以下のような実験結果を得た。

すなわち、被験者が、シンボル列のうち、第１の部分系列と第２の部分系列との境界や、第１の部分系列どうしの境界、第２の部分系列どうしの境界に、分割線を引くことが多いとの実験結果を得た。

また、被験者が引いた分割線の位置で、図２に示されるシンボル列に対応するコンテンツを分割した場合にも、そのコンテンツは、概ね、意味的にまとまりのある複数のセグメントに分割されていることがわかった。

したがって、分割部１５は、シンボル列生成部１４からのシンボル列に基づいて、被験者と同様の位置に分割線を引くことにより、コンテンツを、意味的にまとまりのある複数のセグメントに分割する。

なお、分割部１５が行う具体的な処理は、図１３乃至図１５を参照して詳述する。

［コンテンツモデル学習部１２の構成例］
図３は、図１のコンテンツモデル学習部１２の構成例を示している。

コンテンツモデル学習部１２は、状態が遷移する状態遷移確率と、状態から、所定の観測値が観測される観測確率とで規定される状態遷移確率モデルの学習（モデル学習）を行う。また、コンテンツモデル学習部１２は、後述するクラスタ情報を得るためのクラスタ学習に用いるコンテンツである学習用コンテンツの画像の各フレームの特徴量を抽出する。さらに、コンテンツモデル学習部１２は、学習用コンテンツの特徴量を用いて、クラスタ学習を行う。

すなわち、コンテンツモデル学習部１２は、学習用コンテンツ選択部２１、特徴量抽出部２２、特徴量記憶部２６、及び、学習部２７から構成される。

学習用コンテンツ選択部２１は、コンテンツ記憶部１１に記憶されたコンテンツの中から、モデル学習及びクラスタ学習に用いるコンテンツを、学習用コンテンツとして選択し、特徴量抽出部２２に供給する。

ここで、学習用コンテンツ選択部２１は、コンテンツ記憶部１１に記憶されたコンテンツの中から、例えば、所定のカテゴリに属する１以上のコンテンツを、学習用コンテンツとして選択する。

所定のカテゴリに属するコンテンツとは、例えば、ジャンルが同一の番組や、連続番組、毎週又は毎日その他周期的に放送される番組（タイトルが同一の番組）等の、コンテンツに潜む、コンテンツの構造が共通するコンテンツを意味する。

ジャンルとしては、例えば、スポーツ番組やニュース番組等といった、いわば大まかな分類を採用することもできるが、例えば、サッカーの試合の番組や野球の試合の番組等といった、いわば細かい分類であることが望ましい。

また、例えば、サッカーの試合の番組であれば、チャンネル（放送局）が異なるごとに、異なるカテゴリに属するコンテンツに分類することもできる。

なお、コンテンツのカテゴリとして、どのようなカテゴリを採用するかは、例えば、図１のレコーダ１に、あらかじめ設定されていることとする。

また、コンテンツ記憶部１１に記憶されたコンテンツのカテゴリは、例えば、テレビジョン放送で番組とともに送信されてくる、番組のタイトルやジャンル等のメタデータや、インターネット上のサイトが提供する番組の情報等から認識することができる。

特徴量抽出部２２は、学習用コンテンツ選択部２１からの学習用コンテンツを、画像と音声のデータに逆多重化（分離）し、画像の各フレームの特徴量を抽出して、特徴量記憶部２６に供給する。

すなわち、特徴量抽出部２２は、フレーム分割部２３、サブ領域特徴量抽出部２４、及び、結合部２５から構成される。

フレーム分割部２３には、学習用コンテンツ選択部２１からの学習用コンテンツの画像の各フレームが、時系列に供給される。

フレーム分割部２３は、学習用コンテンツ選択部２１から時系列に供給される学習用コンテンツのフレームを、順次、注目フレームとする。そして、フレーム分割部２３は、注目フレームを、複数の小領域であるサブ領域に分割し、サブ領域特徴量抽出部２４に供給する。

サブ領域特徴量抽出部２４は、フレーム分割部２３からの注目フレームの各サブ領域から、そのサブ領域の特徴量（以下、サブ領域特徴量ともいう）を抽出し、結合部２５に供給する。

結合部２５は、サブ領域特徴量抽出部２４からの注目フレームのサブ領域のサブ領域特徴量を結合し、その結合結果を、注目フレームの特徴量として、特徴量記憶部２６に供給する。

特徴量記憶部２６は、特徴量抽出部２２（の結合部２５）から供給される学習用コンテンツの各フレームの特徴量を時系列に記憶する。

学習部２７は、特徴量記憶部２６に記憶された学習用コンテンツの各フレームの特徴量を用いて、クラスタ学習を行う。

すなわち、学習部２７は、特徴量記憶部２６に記憶された学習用コンテンツの各フレームの特徴量（ベクトル）を用いて、その特徴量の空間である特徴量空間を、複数のクラスタに分割するクラスタ学習を行い、クラスタの情報であるクラスタ情報を求める。

ここで、クラスタ学習としては、例えば、k-means法を採用することができる。クラスタ学習として、k-means法を採用する場合、クラスタ学習の結果得られるクラスタ情報は、特徴量空間のクラスタを代表する代表ベクトルと、その代表ベクトル（が代表するクラスタ）を表すコードとが対応付けられたコードブックとなる。

なお、k-means法では、注目する注目クラスタの代表ベクトルは、学習用コンテンツの特徴量（ベクトル）の中で、注目クラスタに属する特徴量（コードブックの各代表ベクトルとの距離（ユークリッド距離）の中で、注目クラスタの代表ベクトルとの距離が最も短い特徴量）の平均値（ベクトル）となる。

学習部２７は、さらに、学習用コンテンツから得られたクラスタ情報を用いて、特徴量記憶部２６に記憶された学習用コンテンツの各フレームの特徴量を複数のクラスタのうちのいずれかのクラスタにクラスタリングすることにより、その特徴量が属するクラスタを表すコードを求めることで、学習用コンテンツの特徴量の時系列を、コード系列に変換する（学習用コンテンツのコード系列を求める）。

ここで、クラスタ学習として、k-means法を採用する場合、そのクラスタ学習によって得られるクラスタ情報としてのコードブックを用いて行われるクラスタリングは、ベクトル量子化となる。

ベクトル量子化では、コードブックの代表ベクトルそれぞれについて、特徴量（ベクトル）との距離が計算され、その距離が最小となる代表ベクトルのコードが、ベクトル量子化結果として出力される。

学習部２７は、学習用コンテンツの特徴量の時系列をクラスタリングすることにより、コード系列に変換すると、そのコード系列を用いて、状態遷移モデルの学習であるモデル学習を行う。

そして、学習部２７は、モデル学習後の状態遷移確率モデルと、クラスタ学習により得られるクラスタ情報とのセットを、コンテンツモデルとして、学習用コンテンツのカテゴリと対応付けて、モデル記憶部１３に供給する。

したがって、コンテンツモデルは、状態遷移確率モデルと、クラスタ情報とから構成される。

ここで、コンテンツモデルを構成する状態遷移確率モデル（コード系列を用いて学習が行われる状態遷移確率モデル）を、以下、コードモデルともいう。

［状態遷移確率モデル］
図４乃至図７を参照して、図３の学習部２７がモデル学習を行う状態遷移確率モデルについて説明する。

状態遷移確率モデルとしては、例えば、HMM(Hidden Marcov Model)を採用することができる。状態遷移確率モデルとして、HMMを採用する場合、HMMの学習は、例えば、Baum-Welchの再推定法によって行われる。

図４は、left-to-right型のHMMの一例を示している。

left-to-right型のHMMは、状態が、左から右方向に、一直線上に並んだHMMであり、自己遷移（ある状態から、その状態への遷移）と、ある状態から、その状態よりも右側にある状態への遷移とを行うことができる。left-to-right型のHMMは、例えば、音声認識等で用いられる。

図４のHMMは、３つの状態s1,s2,s3から構成され、状態遷移として、自己遷移と、ある状態から、その右隣の状態への遷移とが許されている。

なお、HMMは、状態s_iの初期確率π_i、状態遷移確率a_ij、及び、状態s_iから、所定の観測値oが観測される観測確率b_i(o)で規定される。

ここで、初期確率π_iは、状態s_iが、初期の状態（最初の状態）である確率であり、left-to-right型のHMMでは、最も左側の状態s₁の初期確率π₁は、1.0とされ、他の状態s_iの初期確率π_iは、0.0とされる。

状態遷移確率a_iｊは、状態s_iから状態s_jに遷移する確率である。

観測確率b_i(o)は、状態s_iへの状態遷移時に、状態s_iから観測値oが観測される確率である。観測確率b_i(o)としては、観測値oが離散値である場合には、確率となる値（離散値）が用いられるが、観測値oが連続値である場合には、確率分布関数が用いられる。確率分布関数としては、例えば、平均値（平均ベクトル）と分散（共分散行列）とで定義されるガウス分布等を採用することができる。なお、本実施の形態では、観測値oとして、離散値が用いられる。

図５は、エルゴディック(Ergodic)型のHMMの一例を示している。

エルゴディック型のHMMは、状態遷移に制約がないHMM、すなわち、任意の状態s_iから任意の状態s_jへの状態遷移が可能なHMMである。

図５のHMMは、３つの状態s₁,s₂,s₃から構成され、任意の状態遷移が許されている。

エルゴディック型のHMMは、状態遷移の自由度が最も高いHMMであるが、状態数が多くなると、HMMのパラメータ（初期確率π_i、状態遷移確率a_ij、及び、観測確率b_i(o)）の初期値によっては、ローカルミニマムに収束し、適切なパラメータを得られないことがある。

そこで、「自然界の現象の殆どや、ビデオコンテンツを生み出すカメラワークや番組構成は、スモールワールドネットワークのようなスパースな結合によって表現可能である」という仮説を採用し、学習部２７での学習には、状態遷移を、スパース(Sparse)な構造に制約したHMMを採用することとする。

ここで、スパースな構造とは、ある状態から任意の状態への状態遷移が可能なエルゴディック型のHMMのような密な状態遷移ではなく、ある状態から状態遷移することができる状態が非常に限定されている構造（状態遷移が疎らな構造）である。

なお、ここでは、スパースな構造であっても、他の状態への状態遷移は、少なくとも１つ存在し、また、自己遷移は存在することとする。

図６は、スパースな構造のHMMである2次元近傍拘束HMMの一例を示している。

図６のＡ及び図６のＢのHMMには、スパースな構造であることの他、HMMを構成する状態を、２次元平面上に、格子状に配置する制約が課されている。

ここで、図６のＡのHMMでは、他の状態への状態遷移が、横に隣接する状態と、縦に隣接する状態とに制限されている。図６のＢのHMMでは、他の状態への状態遷移が、横に隣接する状態、縦に隣接する状態、及び、斜めに隣接する状態に制限されている。

図７は、スパースな構造のHMMの、2次元近傍拘束HMM以外の一例を示している。

すなわち、図７のＡは、３次元グリッド制約によるHMMの例を示している。図７のＢは、２次元ランダム配置制約によるHMMの例を示している。図７のＣは、スモールワールドネットワークによるHMMの例を示している。

図３の学習部２７では、状態が、例えば、100乃至数百個程度の、図６や図７に示したスパースな構造のHMMの学習が、特徴量記憶部２６に記憶された画像の（フレームから抽出された）特徴量のコード系列を用い、Baum-Welchの再推定法によって行われる。

学習部２７での学習の結果得られるコードモデルであるHMMは、コンテンツの画像(Visual)の特徴量のみを用いた学習によって得られるので、Visual HMMと呼ぶことができる。

ここで、HMMの学習（モデル学習）に用いられる、特徴量のコード系列は、離散値であり、HMMの観測確率bi(o)としては、確率となる値が用いられる。

なお、HMMについては、例えば、Laurence Rabiner, Biing-Hwang Juang 共著、「音声認識の基礎（上・下）、ＮＴＴアドバンステクノロジ株式会社」や、本件出願人が先に提案した特願2008-064993号に記載されている。また、エルゴティック型のHMMや、スパースな構造のHMMの利用については、例えば、本件出願人が先に提案した特開2009-223444号公報に記載されている。

［特徴量の抽出］
図８は、図３の特徴量抽出部２２による特徴量の抽出の処理を示している。

特徴量抽出部２２において、フレーム分割部２３には、学習用コンテンツ選択部２１からの学習用コンテンツの画像の各フレームが、時系列に供給される。

フレーム分割部２３は、学習用コンテンツ選択部２１から時系列に供給される学習用コンテンツのフレームを、順次、注目フレームとし、注目フレームを、複数のサブ領域R_kに分割して、サブ領域特徴量抽出部２４に供給する。

ここで、図８では、注目フレームが、横×縦が4×4個の１６個のサブ領域R₁，R₂，・・・，R₁₆に等分されている。

なお、１フレームをサブ領域R_kに分割するときの、サブ領域R_kの数は、4×4個の16個に限定されるものではない。すなわち、１フレームは、例えば、5×4個の20個のサブ領域R_kや、5×5個の25個のサブ領域R_k等に分割することができる。

また、図８では、１フレームが、同一のサイズのサブ領域R_kに分割（等分）されているが、サブ領域のサイズは、同一でなくても良い。すなわち、例えば、フレームの中央部分は、小さなサイズのサブ領域に分割し、フレームの周辺部分（画枠に隣接する部分等）は、大きなサイズのサブ領域に分割することができる。

サブ領域特徴量抽出部２４（図３）は、フレーム分割部２３からの注目フレームの各サブ領域R_kのサブ領域特徴量f_k=FeatExt(R_k)を抽出し、結合部２５に供給する。

すなわち、サブ領域特徴量抽出部２４は、サブ領域R_kの画素値（例えば、RGB成分や、YUV成分等）を用い、サブ領域R_kの大域的な特徴量を、サブ領域特徴量f_kとして求める。

ここで、サブ領域R_kの大域的な特徴量とは、サブ領域R_kを構成する画素の位置の情報を用いずに、画素値だけを用いて、加法的に計算される、例えば、ヒストグラムのような特徴量をいう。

大域的な特徴量としては、例えば、GISTと呼ばれる特徴量を採用することができる。GISTについては、例えば、A. Torralba, K. Murphy, W. Freeman, M. Rubin, "Context-based vision system for place and object recognition", IEEE Int. Conf. Computer Vision, vol. 1, no. 1, pp. 273-280, 2003.に、詳細が記載されている。

なお、大域的な特徴量は、GISTに限定されるものではない。すなわち、大域的な特徴量は、局所的な位置、明度、視点等の見えの変化に対して頑強な（変化を吸収するような）（Robustな）特徴量であれば良い。そのような特徴量としては、例えば、HLCA（局所高次相関）や、LBP(Local Binary Patterns)、カラーヒストグラム等がある。

HLCAについては、例えば、N. Otsu, T. Kurita, "A new scheme for practical flexible and intelligent vision systems", Proc. IAPR Workshop on Computer Vision, pp.431-435, 1988に、詳細が記載されている。LBPについては、例えば、Ojala T, Pietikainen M & Maenpaa T, "Multiresolution gray-scale and rotation invariant texture classification with Local Binary Patterns", IEEE Transactions on Pattern Analysis and Machine Intelligence 24(7):971-987に、詳細が記載されている（Pietikainen、及び、Maenpaaの"a"は、正確には、"a"の上部に、"・・"を付加した文字）。

ここで、上述のGISTや、LBP，HLCA、カラーヒストグラム等の大域的な特徴量は、次元数が大となる傾向があるが、次元間の相関が高い傾向もある。

そこで、サブ領域特徴量抽出部２４（図３）では、サブ領域R_kから、GIST等を抽出した後、そのGIST等の主成分分析(PCA(principal component analysis))を行うことができる。そして、サブ領域特徴量抽出部２４では、PCAの結果に基づき、累積寄与率が、ある程度高い値（例えば、95%等以上の値）となるように、GIST等の次元数を圧縮（制限）し、その圧縮結果を、サブ領域特徴量とすることができる。

この場合、GIST等を、次元数を圧縮したPCA空間に射影した射影ベクトルが、GIST等の次元数を圧縮した圧縮結果となる。

結合部２５（図３）は、サブ領域特徴量抽出部２４からの注目フレームのサブ領域R₁乃至R₁₆のサブ領域特徴量f₁乃至f₁₆を結合し、その結合結果を、注目フレームの特徴量として、特徴量記憶部２６に供給する。

すなわち、結合部２５は、サブ領域特徴量抽出部２４からのサブ領域特徴量f₁乃至f₁₆を結合することにより、そのサブ領域特徴量f₁乃至f₁₆をコンポーネントとするベクトルを生成し、そのベクトルを、注目フレームの特徴量F_tとして、特徴量記憶部２６に供給する。

ここで、図８では、時刻tのフレーム（フレームt）が、注目フレームとなっている。

図３の特徴量抽出部２２では、学習用コンテンツの各フレームが、先頭から順次、注目フレームとされ、上述したようにして、特徴量Ftが求められる。そして、学習用コンテンツの各フレームの特徴量Ftは、時系列に（時間的な前後関係を維持した状態で）、特徴量抽出部２２から特徴量記憶部２６に供給されて記憶される。

以上のように、特徴量抽出部２２では、サブ領域特徴量f_kとして、サブ領域R_kの大域的な特徴量が求められ、そのサブ領域特徴量f_kをコンポーネントとするベクトルが、フレームの特徴量F_tとして求められる。

したがって、フレームの特徴量F_tは、局所的な変化（サブ領域内で起こる変化）に対しては頑強であるが、フレーム全体としてのパターンの配置の変化に対してはディスクリミネイティブ（鋭敏に違いを見分ける性質）であるような特徴量となる。

［コンテンツモデル学習処理］
次に、図９のフローチャートを参照して、図３のコンテンツモデル学習部１２が行う処理（コンテンツモデル学習処理）を説明する。

ステップＳ１１において、学習用コンテンツ選択部２１は、コンテンツ記憶部１１に記憶されたコンテンツの中から、所定のカテゴリに属する１以上のコンテンツを、学習用コンテンツとして選択する。

すなわち、例えば、学習用コンテンツ選択部２１は、コンテンツ記憶部１１に記憶されたコンテンツの中から、まだ、学習用コンテンツとしていない任意の１つのコンテンツを、学習用コンテンツとして選択する。

さらに、学習用コンテンツ選択部２１は、学習用コンテンツとして選択した１つのコンテンツのカテゴリを認識し、そのカテゴリに属する他のコンテンツが、コンテンツ記憶部１１に記憶されている場合には、そのコンテンツ（他のコンテンツ）を、さらに、学習用コンテンツとして選択する。

学習用コンテンツ選択部２１は、学習用コンテンツを、特徴量抽出部２２に供給し、処理は、ステップＳ１１からステップＳ１２に進む。

ステップＳ１２では、特徴量抽出部２２のフレーム分割部２３が、学習用コンテンツ選択部２１からの学習用コンテンツの中の、まだ、注目学習用コンテンツ（以下、注目コンテンツともいう）に選択していない学習用コンテンツの１つを、注目コンテンツに選択する。

そして、処理は、ステップＳ１２からステップＳ１３に進み、フレーム分割部２３は、注目コンテンツのフレームのうちの、まだ、注目フレームとしていない、時間的に最も先行するフレームを、注目フレームに選択し、処理は、ステップＳ１４に進む。

ステップＳ１４では、フレーム分割部２３は、注目フレームを、複数のサブ領域に分割し、サブ領域特徴量抽出部２４に供給して、処理は、ステップＳ１５に進む。

ステップＳ１５では、サブ領域特徴量抽出部２４は、フレーム分割部２３からの複数のサブ領域それぞれのサブ領域特徴量を抽出し、結合部２５に供給して、処理は、ステップＳ１６に進む。

ステップＳ１６では、結合部２５は、サブ領域特徴量抽出部２４からの、注目フレームを構成する複数のサブ領域それぞれのサブ領域特徴量を結合することで、注目フレームの特徴量を生成し、処理は、ステップＳ１７に進む。

ステップＳ１７では、フレーム分割部２３は、注目コンテンツのすべてのフレームを注目フレームとしたかどうかを判定する。

ステップＳ１７において、注目コンテンツのフレームの中に、まだ、注目フレームとしていないフレームがあると判定された場合、処理は、ステップＳ１３に戻り、以下、同様の処理が繰り返される。

また、ステップＳ１７において、注目コンテンツのすべてのフレームを注目フレームとしたと判定された場合、処理は、ステップＳ１８に進み、結合部２５は、注目コンテンツについて求めた注目コンテンツの各フレームの特徴量（の時系列）を、特徴量記憶部２６に供給して記憶させる。

そして、処理は、ステップＳ１８からステップＳ１９に進み、フレーム分割部２３は、学習用コンテンツ選択部２１からの学習用コンテンツのすべてを、注目コンテンツとしたかどうかを判定する。

ステップＳ１９において、学習用コンテンツの中に、まだ、注目コンテンツとしていない学習用コンテンツがあると判定された場合、処理は、ステップＳ１２に戻り、以下、同様の処理が繰り返される。

また、ステップＳ１９において、学習用コンテンツのすべてを、注目コンテンツとしたと判定された場合、処理は、ステップＳ２０に進み、学習部２７は、特徴量記憶部２６に記憶された、学習用コンテンツの特徴量（各フレームの特徴量の時系列）を用いて、コンテンツモデルの学習を行う。

すなわち、学習部２７は、特徴量記憶部２６に記憶された学習用コンテンツの各フレームの特徴量（ベクトル）を用いて、その特徴量の空間である特徴量空間を、複数のクラスタに分割するクラスタ学習を、k-means法によって行い、既定数としての、例えば、100乃至数100のクラスタ（代表ベクトル）のコードブックを、クラスタ情報として求める。

さらに、学習部２７は、クラスタ学習によって得られたクラスタ情報としてのコードブックを用いて、特徴量記憶部２６に記憶された学習用コンテンツの各フレームの特徴量をクラスタリングするベクトル量子化を行い、学習用コンテンツの特徴量の時系列を、コード系列に変換する。

学習部２７は、学習用コンテンツの特徴量の時系列をクラスタリングすることにより、コード系列に変換すると、そのコード系列を用いて、HMM（離散HMM）の学習であるモデル学習を行う。

そして、学習部２７は、モデル学習後のHMMであるコードモデルと、クラスタ学習により得られるクラスタ情報としてのコードブックとのセットを、コンテンツモデルとして、学習用コンテンツのカテゴリと対応付けて、モデル記憶部１３に出力（供給）し、コンテンツモデル学習処理を終了する。

なお、コンテンツモデル学習処理は、任意のタイミングで開始することができる。

以上のコンテンツモデル学習処理によれば、コードモデルであるHMMにおいて、学習用コンテンツに潜む、コンテンツの構造（例えば、番組構成や、カメラワーク等が作り出す構造）が自己組織的に獲得される。

その結果、コンテンツモデル学習処理よって得られるコンテンツモデルにおけるコードモデルとしてのHMMの各状態は、学習によって獲得されたコンテンツの構造の要素に対応し、状態遷移は、コンテンツの構造の要素どうしの間での、時間的な遷移を表現する。

そして、コードモデルの状態は、特徴量空間（特徴量抽出部２２（図３）で抽出される特徴量の空間）において、空間的な距離が近く、かつ、時間的な前後関係が似ているフレーム群（つまり「似たシーン」）をまとめて表現する。

［シンボル列生成部１４の構成例］
図１０は、図１のシンボル列生成部１４の構成例を示している。

シンボル列生成部１４は、コンテンツ選択部３１、モデル選択部３２、特徴量抽出部３３、及び最尤状態系列推定部３４から構成される。

コンテンツ選択部３１は、制御部１６からの制御に従い、コンテンツ記憶部１１に記憶されたコンテンツの中から、シンボル列を生成するためのコンテンツを、注目コンテンツとして選択する。

なお、制御部１６は、例えば、操作部１７からの、ユーザの選択操作に対応する操作信号に基づいて、コンテンツ選択部３１を制御し、ユーザの選択操作により選択されたコンテンツを、注目コンテンツとして選択させる。

また、コンテンツ選択部３１は、注目コンテンツを、特徴量抽出部３３に供給する。さらに、コンテンツ選択部３１は、注目コンテンツのカテゴリを認識し、モデル選択部３２に供給する。

モデル選択部３２は、モデル記憶部１３に記憶されたコンテンツモデルの中から、コンテンツ選択部３１からの、注目コンテンツのカテゴリと一致するカテゴリのコンテンツモデル（注目コンテンツのカテゴリに対応付けられたコンテンツモデル）を、注目モデルに選択する。

そして、モデル選択部３２は、注目モデルを、最尤状態系列推定部３４に供給する。

特徴量抽出部３３は、コンテンツ選択部３１から供給される注目コンテンツの（画像の）各フレームの特徴量を、図３の特徴量抽出部２２と同様にして抽出し、注目コンテンツの各フレームの特徴量（の時系列）を、最尤状態系列推定部３４に供給する。

最尤状態系列推定部３４は、モデル選択部３２からの注目モデルのクラスタ情報を用いて、特徴量抽出部３３からの注目コンテンツの特徴量（の時系列）をクラスタリングし、注目コンテンツの（特徴量の）コード系列を求める。

さらに、最尤状態系列推定部３４は、例えば、Viterbiアルゴリズムに従い、モデル選択部３２からの注目モデルのコードモデルにおいて、特徴量抽出部３３からの注目コンテンツの（特徴量の）コード系列が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列（いわゆるビタビパスを構成する状態の系列）を推定する。

そして、最尤状態系列推定部３４は、注目モデルのコードモデル（以下、注目コードモデルともいう）において、注目コンテンツのコード系列が観測される場合の最尤状態系列（以下、注目コンテンツに対する注目コードモデルの最尤状態系列ともいう）を、シンボル列として、分割部１５に供給する。

なお、最尤状態系列推定部３４は、注目コンテンツに対する注目コードモデルの最尤状態系列に代えて、クラスタリングにより求めた注目コンテンツのコード系列（クラスタIDの系列）を、シンボル列として、分割部１５に供給するようにしてもよい。

ここで、注目コンテンツに対する注目コードモデルの最尤状態系列の先頭を基準とする時刻tの状態（最尤状態系列を構成する、先頭からt番目の状態）を、s(t)と表すとともに、注目コンテンツのフレーム数を、Tと表すこととする。

この場合、注目コンテンツに対する注目コードモデルの最尤状態系列は、T個の状態s(1)，S(2)，・・・，s(T)の系列であり、そのうちのt番目の状態（時刻tの状態）s(t)は、注目コンテンツの時刻tのフレーム（フレームt）に対応する。

また、注目コードモデルの状態の総数をNと表すこととすると、時刻tの状態s(t)は、N個の状態s₁，s₂，・・・，s_Nのうちのいずれかである。

さらに、N個の状態s₁，s₂，・・・，s_Nのそれぞれには、状態を特定するインデクスである状態ID(Identification)が付されている。

いま、注目コンテンツに対する注目コードモデルの最尤状態系列の時刻tの状態s(t)が、N個の状態s₁乃至s_Nのうちのi番目の状態s_iであるとすると、時刻tのフレームは、状態s_iに対応する。

したがって、注目コンテンツの各フレームは、N個の状態s₁乃至s_Nのうちのいずれかに対応する。

注目コンテンツに対する注目コードモデルの最尤状態系列の実体は、注目コンテンツの各時刻tのフレームが対応する、N個の状態s₁乃至s_Nのうちのいずれかの状態の状態IDの系列である。

図１１は、図１０のシンボル列生成部１４が行うシンボル列生成処理の概要を示している。

図１１のＡは、コンテンツ選択部３１において注目コンテンツとして選択されたコンテンツのフレームの時系列を示している。

図１１のＢは、特徴量抽出部３３において抽出された、図１１のＡのフレームの時系列の特徴量の時系列を示している。

図１１のＣは、最尤状態系列推定部３４において、図１１のＢの特徴量の時系列をクラスタリングすることにより得られるコードのコード系列を示している。

図１１のＤは、最尤状態系列推定部３４において推定される、注目コードモデルにおいて、図１１のＣの注目コンテンツの（特徴量の時系列の）コード系列が観測される最尤状態系列（注目コンテンツに対する注目コードモデルの最尤状態系列）を示している。

シンボル列生成部１４は、図１１のCに示されるコード系列をシンボル列として、分割部１５に供給する場合、コード系列を構成する各コード（クラスタID）を、シンボルとして、分割部１５に供給する。

また、シンボル列生成部１４は、図１１のDに示される最尤状態系列をシンボル列として、分割部１５に供給する場合、最尤状態系列を構成する各状態IDを、シンボルとして、分割部１５に供給する。

[シンボル列生成部１４の動作説明]
次に、図１２のフローチャートを参照して、シンボル列生成部１４が行うシンボル列生成処理を説明する。

このシンボル列生成処理は、例えば、ユーザが、操作部１７を用いて、コンテンツ記憶部１１に記憶されたコンテンツの中から、シンボル列を生成するためのコンテンツを選択する選択操作を行ったときに開始される。

このとき、操作部１７は、ユーザの選択操作に対応する操作信号を、制御部１６に供給する。制御部１６は、操作部１７からの操作信号に基づいて、コンテンツ選択部３１を制御する。

すなわち、ステップＳ４１では、コンテンツ選択部３１は、制御部１６からの制御に従い、コンテンツ記憶部１１に記憶されたコンテンツの中から、シンボル列を生成するためのコンテンツを、注目コンテンツとして選択する。

そして、コンテンツ選択部３１は、注目コンテンツを、特徴量抽出部３３に供給する。また、コンテンツ選択部３１は、注目コンテンツのカテゴリを認識し、モデル選択部３２に供給する。

ステップＳ４２では、モデル選択部３２は、モデル記憶部１３に記憶されたコンテンツモデルの中から、コンテンツ選択部３１からの、注目コンテンツのカテゴリと一致するカテゴリのコンテンツモデル（注目コンテンツのカテゴリに対応付けられたコンテンツモデル）を、注目モデルに選択する。

ステップＳ４３では、特徴量抽出部３３は、コンテンツ選択部３１から供給される注目コンテンツの（画像の）各フレームの特徴量を、図３の特徴量抽出部２２と同様にして抽出し、注目コンテンツの各フレームの特徴量（の時系列）を、最尤状態系列推定部３４に供給する。

ステップＳ４４では、最尤状態系列推定部３４は、モデル選択部３２からの注目モデルのクラスタ情報を用いて、特徴量抽出部３３からの注目コンテンツの特徴量（の時系列）をクラスタリングし、注目コンテンツの（特徴量の）コード系列を求める。

なお、最尤状態系列推定部３４は、注目コンテンツに対する注目コードモデルの最尤状態系列に代えて、クラスタリングにより求めた注目コンテンツのコード系列を、シンボル列として、分割部１５に供給するようにしてもよい。以上でシンボル列生成処理は終了される。

次に、図１３は、分割部１５が、シンボル列生成部１４からのシンボル列に基づいて、コンテンツを意味的にまとまりのある複数のセグメントに分割するときの一例を示している。

なお、図１３は、図２と同様に構成されている。すなわち、例えば、図１３において、横軸は時刻tを表しており、縦軸はフレームtのシンボルを表している。

また、図１３には、コンテンツを６個のセグメントS₁,S₂,S₃,S₄,S₅,S₆に分割するための分割線（太い線分で示す）が示されている。なお、分割線は、任意の時刻tに配置される（引かれる）。

ここで、シンボル列としてコード系列が採用される場合、シンボルは、コード系列を構成する各コード（図１１のCに示されるコード）となる。また、シンボル列として最尤状態系列が採用される場合、シンボルは、最尤状態系列を構成するコード（図１１のDに示されるコード）となる。

分割部１５は、図２を参照して説明したように、第１の部分系列と第２の部分系列との境界や、第１の部分系列どうしの境界、第２の部分系列どうしの境界に、分割線を引くようにして、コンテンツを分割する。

すなわち、例えば、分割部１５は、図１３に示される各セグメントSi(i=1,2,…,6)のエントロピ(entropy)H(Si)の総和Qが最小となるように、分割線を引けばよい。ここで、セグメントSiのエントロピとは、セグメントSiにおけるシンボルのばらつきの程度を表す。

なお、分割線が、任意の時刻tの位置に配置された場合、フレームtを境界として、コンテンツが分割される。すなわち、例えば、まだ分割されていないコンテンツにおいて、分割線が任意の時刻tの位置に配置された場合、そのコンテンツは、先頭のフレーム0からフレームt-1までを含むセグメントと、フレームtから最後のフレームTまでを含むセグメントに分割される。

分割部１５は、シンボル列生成部１４からの、図１３に示されるようなシンボル列における各シンボルのばらつき（分散）に基づいて、コンテンツを分割すべき分割位置（分割線を引くべき位置）を算出する。

そして、分割部１５は、シンボル列生成部１４からのシンボル列に対応するコンテンツを、コンテンツ記憶部１１から読み出し、算出した分割位置で、複数のセグメントに分割する。

すなわち、例えば、分割部１５は、操作部１７を用いたユーザの指定操作により指定された総分割数Dで、コンテンツを、D個のセグメントSi(i=1,2,…,D)に分割する。

具体的には、例えば、分割部１５は、次式（１）により、セグメントSi毎のエントロピH(Si)を算出する。

ここで、式（１）において、確率P^[Si](k)は、セグメントSiにおいて、例えばシンボルを昇順に並べたときの、k番目のシンボル（k番目に小さい値とされるシンボル）が出現する確率を表す。

さらに、式（１）において、P^[Si](k)=(セグメントSi内における、k番目のシンボルの出現頻度数)/(セグメントSi内におけるシンボルの総数)である。

また分割部１５は、次式（２）を用いて、全てのセグメントS₁乃至S_DのエントロピH(S₁)乃至H(S_D)の総和Qを算出する。

この総和Qが最小となるときのセグメントS₁,S₂,S₃,S₄,S₅,S₆,…S_Dが、図１３に示されるような分割線で分割されたセグメントS₁,S₂,S₃,S₄,S₅,S₆,…S_Dとなる。

したがって、分割部１５は、算出した総和Qを最小化する最小化問題を解くことにより、コンテンツを複数のセグメントS₁乃至S_Dに分割し、分割後のコンテンツを、コンテンツ記憶部１１に供給して記憶させる。

なお、総和Qの最小化問題を解くには、例えば、再帰二分割処理や、焼きなまし分割処理を用いることができる。なお、総和Qの最小化問題を解く方法は、これに限定されず、例えばタブーサーチや遺伝的アルゴリズム等を利用して、最小化問題を解くこともできる。

ここで、再帰二分割処理とは、分割後の各セグメントのエントロピの総和が最小となる分割位置で、コンテンツを分割する処理を再帰的に（繰り返して）行うことにより、コンテンツ、複数のセグメントに分割する処理をいう。再帰二分割処理は、図１４を参照して詳述する。

また、焼きなまし分割処理とは、コンテンツを任意に分割した分割位置を、エントロピの総和を最小化する分割位置に変更していく処理を行うことにより、コンテンツを、複数のセグメントに分割する処理をいう。焼きなまし分割処理は、図１５を参照して詳述する。

[分割部１５の動作説明]
次に、図１４のフローチャートを参照して、分割部１５が行う再帰二分割処理を説明する。

この再帰二分割処理は、例えば、ユーザが、操作部１７を用いて、コンテンツの総分割数Dを指定する指定操作をしたときに開始される。このとき、操作部１７は、ユーザの指定操作に対応する操作信号を、制御部１６に供給する。

制御部１６は、操作部１７からの操作信号に応じて、分割部１５を制御し、ユーザにより指定された総分割数Dで、分割部１５にシンボル列を分割させる。

すなわち、ステップＳ８１では、分割部１５は、図示せぬ内蔵のメモリに予め保持している分割数dを１に設定する。この分割数dは、再帰二分割処理において、シンボル列を分割した分割数を表す。なお、分割数d=1であるとき、シンボル列はまだ分割されていないことを表す。

ステップＳ８２では、分割部１５は、シンボル列生成部１４からのシンボル列における各シンボルの分散に基づいて、分割線を追加可能な時刻を表す追加ポイントLiのうち、まだ分割線が追加されていない追加ポイントLi毎に、分割線を追加したときのエントロピの総和Q=Q(Li)を算出する。

ここで、追加ポイントLiは、コンテンツを構成する各フレーム0乃至Tのうち、フレーム1乃至Tに対応するの時刻tとされる。

ステップＳ８３では、分割部１５は、ステップＳ８２で算出したエントロピの総和Q(Li)のうち、総和Q(Li)が最小となるときのLiを、L*とする。そして、ステップＳ８４では、分割部１５は、追加ポイントL*に、分割線を追加し、ステップＳ８５において分割数dに１を加算（インクリメント）する。

これにより、分割部１５は、シンボル列生成部１４からのシンボル列を、追加ポイントL*で分割したこととなる。

ステップＳ８６では、分割部１５は、分割数dが、ユーザの指定操作により指定された総分割数Dと等しいか否かを判定し、分割数dが総分割数Dと等しくないと判定した場合、処理をステップＳ８２に戻し、それ以降、同様の処理を繰り返す。

また、ステップＳ８６では、分割部１５は、分割数dが総分割数Dと等しいと判定した場合、すなわち、シンボル列をD個のセグメントS₁乃至S_Dに分割したと判定した場合、再帰二分割処理を終了する。

そして、分割部１５は、コンテンツ記憶部１１から、シンボル列生成部１４でシンボル列に変換されたコンテンツと同一のコンテンツを読み出し、読み出したコンテンツを、シンボル列を分割した分割位置と同一の分割位置で分割する。分割部１５は、複数のセグメントS₁乃至S_Dに分割したコンテンツを、コンテンツ記憶部１１に供給して記憶させる。

以上説明したように、図１４の再帰二分割処理によれば、コンテンツを、エントロピH(Si)の総和Qが最小となるD個のセグメントS₁乃至S_Dに分割するようにした。

したがって、図１４の再帰二分割処理によれば、被験者と同様にして、コンテンツを、意味的にまとまりのあるセグメントに分割することが可能となる。

すなわち、例えば、コンテンツを、複数のセグメントとして、番組のコーナーや、ニュースの各トピックに、分割することができる。

また、図１４の再帰二分割処理によれば、比較的単純なアルゴリズムを用いて、コンテンツを分割するようにしている。このため、再帰二分割処理では、比較的少ない計算量で、迅速に、コンテンツを分割することが可能となる。

[分割部１５の他の動作説明]
次に、図１５のフローチャートを参照して、分割部１５が行う焼きなまし分割処理を説明する。

この焼きなまし分割処理は、例えば、ユーザが、操作部１７を用いて、コンテンツの総分割数Dを指定する指定操作をしたときに開始される。このとき、操作部１７は、ユーザの指定操作に対応する操作信号を、制御部１６に供給する。制御部１６は、操作部１７からの操作信号に応じて、分割部１５を制御し、ユーザにより指定された総分割数Dで、分割部１５にシンボル列を分割させる。

ステップＳ１１１では、分割部１５は、分割線を追加可能な時刻を表す追加ポイントLiのうち、任意にD-1個の追加ポイントLiを選択し、選択したD-1個の追加ポイントLiに分割線を追加（配置）する。これにより、分割部１５は、シンボル列生成部１４からのシンボル列を、暫定的に、D個のセグメントS₁乃至S_Dに分割したこととなる。

ステップＳ１１２では、分割部１５は、図示せぬ内蔵のメモリに予め保持している変数t及びjをそれぞれ１に設定する。また、分割部１５は、図示せぬ内蔵のメモリに予め保持している温度パラメータtempを所定の値に設定（初期化）する。

ステップＳ１１３では、分割部１５は、変数tが予め決められた閾値NREPであるか否かを判定し、変数tが閾値NREPではないと判定した場合、処理をステップＳ１１４に進める。

ステップＳ１１４では、分割部１５は、変数jが予め決められた閾値NIREPであるか否かを判定し、変数jが閾値NIREPであると判定した場合、処理をステップＳ１１５に進める。なお、閾値NIREPは、閾値NREPよりも十分に大きな値とされることが望ましい。

ステップＳ１１５では、分割部１５は、図示せぬ内蔵のメモリに予め保持している温度パラメータtempに0.9を乗算して得られる乗算結果temp×0.9を、変更後のtempとする。また、ステップＳ１１６では、分割部１５は、変数tに１を加算（インクリメント）し、ステップＳ１１７において、変数jを１とする。

その後、処理は、ステップＳ１１３に戻され、分割部１５は、それ以降同様の処理を行う。

ステップＳ１１４において、分割部１５は、変数jが閾値NIREPではないと判定した場合、処理をステップＳ１１８に進める。

ステップＳ１１８では、分割部１５は、分割線を追加済みのD-1個の追加ポイントLiのうち、任意の追加ポイントLiを決定し、決定した追加ポイントLiの前後RNG幅を算出する。ここで、前後RNG幅とは、追加ポイントLi-xから追加ポイントLi+xまでの範囲を表す。なお、自然数xは、分割部１５で予め設定されているものとする。

ステップＳ１１９では、分割部１５は、ステップＳ１１８で決定した追加ポイントLiを、同じくステップＳ１１８で算出した前後RNG幅に含まれる追加ポイントLn（nはi-xからi+xまでの自然数とされる）に移動したときのQ(Ln)を算出する。

ステップＳ１２０では、分割部１５は、ステップＳ１１９で算出した複数のQ(Ln)のうち、Q(Ln)が最小となるときのLnをL*に決定し、Q(L*)を算出する。また、分割部１５は、分割線が移動前のQ(Li)を算出する。

ステップＳ１２１では、分割部１５は、分割線を移動後のQ(L*)から、分割線を移動前のQ(Li)を差し引いて得られる差分ΔQ=Q(L*)-Q(Li)を算出する。

ステップＳ１２２では、分割部１５は、ステップＳ１２１で算出した差分ΔQが０未満であるか否かを判定し、差分ΔQが０未満であると判定した場合、処理をステップＳ１２３に進める。

ステップＳ１２３では、分割部１５は、ステップＳ１１８で決定した追加ポイントLiに配置されている分割線を、ステップＳ１２０で決定した追加ポイントL*に移動させ、処理をステップＳ１２５に進める。

また、ステップＳ１２２において、分割部１５は、差分ΔQが０未満ではない（０以上である）と判定した場合、処理をステップＳ１２４に進める。

ステップＳ１２４では、分割部１５は、exp(ΔQ/temp)(=自然対数の底eのΔQ/temp乗)の確率で、ステップＳ１１８で決定した追加ポイントLiに配置されている分割線を、ステップＳ１２０で決定した追加ポイントL*に移動させ、処理をステップＳ１２５に進める。

ステップＳ１２５では、分割部１５は、変数jに１を加算し、処理をステップＳ１１４に戻し、それ以降、同様の処理を行う。

なお、ステップＳ１１３において、分割部１５は、変数tが予め決められた閾値NREPであると判定した場合、図１５の焼きなまし分割処理は終了される。

以上説明したように、図１５の焼きなまし分割処理によれば、図１４の再帰二分割処理と同様、コンテンツを、意味的にまとまりのあるセグメントに分割することが可能となる。

ところで、分割部１５は、ユーザの指定操作により指定された総分割数Dで、コンテンツ記憶部１１から読み出したコンテンツを分割するようにした。しかしながら、その他、例えば、分割部１５は、コンテンツを分割可能な総分割数のうち、エントロピの総和Qが最小となる総分割数Dで、コンテンツを分割するようにしてもよい。

また、例えば、ユーザの指定操作により、総分割数Dが指定されたときには、指定された総分割数Dで、総分割数Dが指定されなかったときには、エントロピの総和Qが最小となる総分割数Dで分割するようにしてもよい。

[レコーダ１の動作説明]
次に、図１６のフローチャートを参照して、レコーダ１が、ユーザの指定操作により、総分割数Dが指定されたときには、指定された総分割数Dで、総分割数Dが指定されなかったときには、エントロピの総和Qが最小となる総分割数Dで分割するコンテンツ分割処理を説明する。

ステップＳ１５１では、コンテンツモデル学習部１２は、図９を参照して説明したコンテンツモデル学習処理を行う。

ステップＳ１５２では、シンボル列生成部１４は、図１２を参照して説明したシンボル列生成処理を行う。

ステップＳ１５３では、制御部１６は、操作部１７からの操作信号に基づいて、ユーザの指定操作により、予め決められた期間内に総分割数Dが指定されたか否かを判定する。

そして、制御部１６は、操作部１７からの操作信号に基づいて、ユーザの指定操作により、総分割数Dが指定されたと判定した場合、分割部１５を制御して、分割部１５に、ユーザの指定操作により指定された総分割数Dでコンテンツを分割させる。

すなわち、例えば、分割部１５は、図１４の再帰二分割処理や図１５の焼きなまし分割処理により得られる分割位置（分割線が配置される位置）で、コンテンツを分割する。そして、分割部１５は、総分割数Dのセグメントに分割したコンテンツを、コンテンツ記憶部１１に供給して記憶させる。

また、ステップＳ１５３では、制御部１６は、操作部１７からの操作信号に基づいて、ユーザの指定操作により、総分割数Dが指定されなかったと判定した場合、処理をステップＳ１５５に進める。

ステップＳ１５５以降の処理では、制御部１６は、分割部１５を制御して、コンテンツを分割可能な総分割数のうち、エントロピの総和Qが最小となる総分割数Dを算出し、算出した総分割数Dで、分割対象のコンテンツを分割させる。

すなわち、ステップＳ１５５では、分割部１５は、例えば、再帰二分割処理や焼きなまし分割処理の一方である分割処理を用いて、所定の総分割数D（例えば、D=２）でシンボル列を分割するときのエントロピの総和Q_Dを算出する。

ステップＳ１５６では、分割部１５は、算出した総和Q_Dに基づいて、平均エントロピmean(Q_D)= Q_D/Dを算出する。

ステップＳ１５７では、分割部１５は、ステップＳ１５５と同一の分割処理を用いて、総分割数D+1でシンボル列を分割するときのエントロピの総和Q_D+1を算出する。

ステップＳ１５８では、分割部１５は、算出したQ_D+1に基づいて、平均エントロピmean(Q_D+1)=Q_D+1/(D+1)を算出する。

ステップＳ１５９では、分割部１５は、ステップＳ１５８で算出した平均エントロピmean(Q_D+1)から、ステップＳ１５６で算出した平均エントロピmean(Q_D)を差し引いて得られる差分Δmeanを算出する。

ステップＳ１６０では、分割部１５は、ステップＳ１５９で算出した差分Δmeanが予め決められた閾値TH未満であるか否かを判定し、差分Δmeanが閾値TH未満ではない（閾値TH以上である）と判定した場合、処理をステップＳ１６１に進める。

ステップＳ１６１では、分割部１５は、所定の総分割数Dに１を加算して得られる加算結果D+1を、新たな所定の総分割数Dとし、処理をステップＳ１５７に戻し、それ以降同様の処理を行う。

ステップＳ１６０では、分割部１５は、ステップＳ１５９で算出した差分Δmeanが閾値TH未満であると判定した場合、所定の総分割数Dでシンボル列を分割するときのエントロピの総和Qが最小であるものとし、処理をステップＳ１６２に進める。

ステップＳ１６２では、分割部１５は、シンボル列を分割した分割位置と同一の分割位置で、コンテンツを分割し、その分割により得られる、所定の総分割数Dで分割されたコンテンツを、コンテンツ記憶部１１に供給して記憶させる。以上で、図１６のコンテンツ分割処理は終了される。

以上説明したように、図１６のコンテンツ分割処理では、ユーザの指定操作により、総分割数Dが指定されたときには、指定された総分割数Dでコンテンツを分割した。このため、ユーザが指定した所望の総分割数Dでコンテンツを分割できる。

また、図１６のコンテンツ分割処理によれば、ユーザの指定操作により、総分割数Dが指定されなかったときには、シンボル列のエントロピの総和Qが最小となる総分割数Dでコンテンツを分割するようにした。このため、コンテンツを分割する際に、ユーザが総分割数Dを指定する手間を省くことが可能となる。

第１の実施の形態では、レコーダ１は、コンテンツを、意味的にまとまりのある複数のセグメントに分割するようにした。これにより、レコーダ１のユーザは、意味的にまとまりのある複数のセグメントの中から、所望のセグメント（例えば、番組の一部分である所定のコーナー）を選択して再生させることがきる。

第１の実施の形態では、レコーダ１が、コンテンツを複数のセグメントに分割するようにしたが、分割の対象はコンテンツに限定されず、例えば、音声データや、脳波の波形などであってもよい。すなわち、分割の対象は、データが時系列に並ぶ時系列データであれば、どのようなデータであってもよい。

ところで、セグメント毎に、そのセグメントのダイジェスト（要約）を生成すれば、ユーザは、生成されたダイジェストを参照することにより、所望のセグメントをより容易に選択して再生させることができる。

このため、コンテンツを意味的にまとまりのある複数のセグメントに分割する他、複数のセグメント毎にダイジェストを生成することが望ましい。

次に、図１７乃至図２５を参照して、コンテンツを意味的にまとまりのある複数のセグメントに分割する他、複数のセグメント毎にダイジェストを生成するようにしたレコーダ５１について説明する。

＜２．第２の実施の形態＞
[レコーダ５１の構成例]
次に、図１７は、第２の実施の形態であるレコーダ５１の構成例を示している。

なお、図１７のレコーダ５１では、第１の実施の形態であるレコーダ１（図１）と同様に構成される部分について同一の符号を付すようにしているので、それらの説明は、以下、適宜省略する。

すなわち、レコーダ５１において、図１の分割部１５に代えて分割部７１が設けられているとともに、新たにダイジェスト生成部７２が設けられている他は、図１のレコーダ１と同様に構成される。

分割部７１は、図１の分割部１５と同様の処理を行う。そして、分割部７１は、複数のセグメントに分割後のコンテンツを、ダイジェスト生成部７２を介して、コンテンツ記憶部１１に供給して記憶させる。

また、分割部７１は、コンテンツを複数のセグメントに分割したときの、各セグメントの先頭のフレーム（分割線が配置された時刻tのフレームt）を一意に識別するためのチャプタIDを、チャプタポイントデータとして生成し、ダイジェスト生成部７２に供給する。

以下の説明では、分割部７１がコンテンツを分割することにより得られるセグメントを、チャプタともいう。

次に、図１８は、分割部７１により生成されるチャプタポイントデータの一例を示している。

図１８には、コンテンツを構成する複数のフレームのうち、フレーム番号300,720,1115,1431に対応する各フレームの時刻に、分割線が配置されたときの一例を示している。

すなわち、コンテンツが、フレーム番号0乃至299に対応する各フレームから構成されるチャプタ（セグメント）、フレーム番号300乃至719に対応する各フレームから構成されるチャプタ、フレーム番号720乃至1114に対応する各フレームから構成されるチャプタ、フレーム番号1115乃至1430に対応する各フレームから構成されるチャプタ、・・・に分割されたときの一例を示している。

ここで、フレーム番号tとは、コンテンツの先頭からt番目のフレームtを一意に識別するための番号をいう。

チャプタIDは、チャプタを構成する各フレームのうち、先頭のフレーム（フレーム番号が最小のフレーム）に対応付けられている。すなわち、チャプタID「0」は、フレーム番号0のフレーム0に対応付けられ、チャプタID「1」は、フレーム番号300のフレーム300に対応付けられる。また、チャプタID「2」は、フレーム番号720のフレーム720に対応付けられ、チャプタID「3」は、フレーム番号1115のフレーム1115に対応付けられ、チャプタID「4」は、フレーム番号1431のフレーム1431に対応付けられる。

分割部７１は、図１８に示されるような複数のチャプタIDを、チャプタポイントデータとして、図１７のダイジェスト生成部７２に供給する。

図１７に戻る。ダイジェスト生成部７２は、コンテンツ記憶部１１から、分割部７１が読み出したコンテンツと同一のコンテンツを読み出す。

また、ダイジェスト生成部７２は、分割部７１からのチャプタポイントデータに基づいて、コンテンツ記憶部１１から読み出したコンテンツの各チャプタを識別する。そして、ダイジェスト生成部７２は、識別した各チャプタから、予め決められた長さ（基本セグメント長）のチャプタセグメントを抽出する。

すなわち、ダイジェスト生成部７２は、識別した各チャプタから、チャプタを代表する部分、つまり、例えば、チャプタの先頭から基本セグメント長までの予め決められた部分などを、チャプタセグメントとして抽出する。

なお、基本セグメント長は、例えば、５乃至１０秒の範囲とされる。また、基本セグメント長は、操作部１７を用いたユーザの変更操作により変更することができる。

さらに、ダイジェスト生成部７２は、読み出したコンテンツから、特徴量時系列データを抽出し、抽出した特徴量時系列データに基づいて、各チャプタから、基本セグメント長の、特徴的な部分である特徴ピークセグメントを抽出する。

なお、特徴量時系列データとは、特徴ピークセグメントを抽出する際に用いられる時系列の特徴量を表す。特徴量時系列データの詳細は後述する。

また、ダイジェスト生成部７２は、特徴ピークセグメントを、チャプタセグメントとは異なる長さで抽出するようにしてもよい。すなわち、チャプタセグメントの基本セグメント長と、特徴ピークセグメントの基本セグメント長とは、異なる長さとすることができる。

さらに、ダイジェスト生成部７２は、１個のチャプタから、１個の特徴ピークセグメントを抽出するようにしてもよいし、複数の特徴ピークセグメントを抽出するようにしてもよい。また、ダイジェスト生成部７２は、必ずしも、各チャプタから、特徴ピークセグメントを抽出する必要はない。

ダイジェスト生成部７２は、各チャプタから抽出したチャプタセグメントと特徴ピークセグメントを、時系列に並べることにより、コンテンツの大まかな内容を表すダイジェストを生成し、コンテンツ記憶部１１に供給して記憶させる。

なお、ダイジェスト生成部７２は、チャプタセグメントとして抽出すべき期間内に、著しいシーンの切替わりが発生している場合、シーンの切替わりの直前までを、チャプタセグメントとして抽出することができる。

これにより、ダイジェスト生成部７２は、区切りのよいところで分割されたチャプタセグメントを抽出することが可能となる。このことは、特徴ピークセグメントについても同様である。

なお、ダイジェスト生成部７２は、例えば、時間的に隣接するフレームどうしの各画素の差分絶対値和が、所定の閾値以上であるか否かに基づいて、著しいシーンの切替わりが発生しているか否かを判定する。

また、例えば、ダイジェスト生成部７２は、識別したチャプタの音声データに基づいて、そのチャプタで発話が行なわれている発話区間を検出するようにしてもよい。

そして、ダイジェスト生成部７２は、チャプタセグメントとして抽出すべき期間を経過しても、発話が行われているときには、その発話が終了するまでを、チャプタセグメントとして抽出するように構成することができる。このことは、特徴ピークセグメントについても同様である。

また、発話区間が、基本セグメント長よりも十分に長い場合、すなわち、例えば、発話区間が、基本セグメント長の２倍以上である場合、ダイジェスト生成部７２は、発話の途中で切られたチャプタセグメントを抽出するようにしてもよい。このことは、特徴ピークセグメントについても同様である。

この場合、チャプタセグメントが、発話の途中で途切れることによる違和感を、ユーザに感じさせないようなエフェクトを、チャプタセグメントに追加することが望ましい。

すなわち、例えば、ダイジェスト生成部７２は、抽出したチャプタセグメントにおける発話を、チャプタセグメントの終了に伴ってフェードアウトさせる（発話の音声を徐々に小さくする）様なエフェクトを掛ける等することが望ましい。

ところで、ダイジェスト生成部７２は、分割部７１により分割されたコンテンツから、チャプタセグメントや特徴ピークセグメントを抽出するようにしている。

しかしながら、例えば、ユーザが編集ソフトなどを用いて、コンテンツを複数のチャプタに分割した場合、そのコンテンツを対象として、チャプタセグメントや特徴ピークセグメントを抽出することができる。なお、チャプタポイントデータは、ユーザが編集ソフトなどを用いて、コンテンツを複数のチャプタに分割した際に、編集ソフトなどにより生成されるものとする。

以下、ダイジェスト生成部７２は、各チャプタから、それぞれ、１個のチャプタセグメントと１個の特徴ピークセグメントを抽出するとともに、生成したダイジェストにBGMのみを付加するものとして説明する。

次に、図１９は、ダイジェスト生成部７２が行うダイジェスト生成処理の概要を示している。

図１９には、ダイジェストの抽出対象とされたコンテンツを、複数のチャプタに分割するための分割線が示されている。この分割線の上には、対応するチャプタIDが示されている。

また、図１９には、特徴量時系列データとして、例えば音声パワー時系列データ９１及び顔領域時系列データ９２が示されている。

ここで、音声パワー時系列データ９１とは、フレームtの音声が大であるほどに大きな値とされる時系列のデータをいう。また、顔領域時系列データとは、フレームtに表示される顔（の割合）が大であるほどに大きな値とされる時系列のデータをいう。

なお、図１９において、横軸はコンテンツを再生する際の時刻tを表し、縦軸は特徴量時系列データを表す。

さらに、図１９において、白色の矩形は、チャプタの先頭部分を示すチャプタセグメントを表し、斜線で示される矩形は、音声パワー時系列データ９１に基づき抽出される特徴ピークセグメントを表す。また、黒色の矩形は、顔領域時系列データ９２に基づき抽出される特徴ピークセグメントを表す。

ダイジェスト生成部７２は、分割部７１からのチャプタポイントデータ（チャプタID）に基づいて、コンテンツ記憶部１１から読み出したコンテンツの各チャプタを識別し、識別した各チャプタのチャプタセグメントを抽出する。

また、ダイジェスト生成部７２は、コンテンツ記憶部１１から読み出したコンテンツから、例えば、図１９に示されるような音声パワー時系列データ９１を抽出する。

さらに、ダイジェスト生成部７２は、識別した各チャプタにおいて、音声パワー時系列データ９１が最大値となるときのフレームを、ピーク特徴フレームとして抽出する。

そして、ダイジェスト生成部７２は、抽出したピーク特徴フレームを含む特徴ピークセグメント（例えば、ピーク特徴フレームを先頭とする特徴ピークセグメント）を、チャプタから抽出する。

なお、例えば、ダイジェスト生成部７２は、一定間隔で、ピーク特徴フレームの抽出ポイントを決定する。そして、ダイジェスト生成部７２は、決定した抽出ポイントに基づき決まる範囲において、音声パワー時系列データ９１が最大値となるときのフレームを、ピーク特徴フレームとして抽出してもよい。

また、例えば、ダイジェスト生成部７２は、音声パワー時系列データ９１の最大値が、予め決められた閾値以下である場合、ピーク特徴フレームの抽出を行わないようにしてもよい。この場合、ダイジェスト生成部７２は、特徴ピークセグメントを抽出しないこととなる。

さらに、例えば、ダイジェスト生成部７２は、音声パワー時系列データ９１の最大値に代えて、音声パワー時系列データ９１が極大値となるときのフレームを、ピーク特徴フレームとして抽出するようにしてもよい。

なお、ダイジェスト生成部７２は、例えば、１個の音声パワー時系列データ９１を用いて、特徴ピークセグメントを抽出する他、複数の特徴量時系列データを用いて、特徴ピークセグメントを抽出するようにしてもよい。

すなわち、例えば、ダイジェスト生成部７２は、コンテンツ記憶部１１から読み出したコンテンツから、音声パワー時系列データ９１の他、顔領域時系列データ９２を抽出する。

また、ダイジェスト生成部７２は、音声パワー時系列データ９１及び顔領域時系列データ９２のうち、チャプタにおける最大値が大となる方の特徴量時系列データを選択する。

そして、ダイジェスト生成部７２は、チャプタにおいて、選択した特徴量時系列データが最大値となるときのフレームを、ピーク特徴フレームとして抽出し、抽出したピーク特徴フレームを含む特徴ピークセグメントを、チャプタから抽出する。

この場合、ダイジェスト生成部７２は、所定のチャプタにおいて、音声が大きくなっている部分を特徴ピークセグメントとして抽出し、他のチャプタにおいて、顔の割合が多くなっている部分を特徴ピークセグメントとして抽出することとなる。

このため、ダイジェスト生成部７２において、例えば音声が大きくなっている部分のみが、特徴ピークセグメントとして抽出されることにより、単調なダイジェストが生成されることを防止できる。

すなわち、ダイジェスト生成部７２は、あたかも特徴ピークセグメントがランダムに抽出されたものであるかのようなランダム性のあるダイジェストを生成することができる。

これにより、ダイジェスト生成部７２では、生成されるダイジェストがパターン化することにより、ダイジェストを視聴するユーザが飽きてしまうような事態を防止できる。

その他、例えば、ダイジェスト生成部７２は、複数の特徴時系列データ毎に、特徴ピークセグメントを抽出するようにしてもよい。

すなわち、例えば、ダイジェスト生成部７２は、識別した各チャプタにおいて、音声パワー時系列データ９１が最大値となるときのフレームを、ピーク特徴フレームとして含む特徴ピークセグメントを抽出する。また、ダイジェスト生成部７２は、顔領域時系列データ９２が最大値となるときのフレームを、ピーク特徴フレームとして含む特徴ピークセグメントも抽出する。この場合、ダイジェスト生成部７２は、１個のチャプタから、２個の特徴ピークセグメントを抽出することとなる。

なお、図１９の右下に示されるように、チャプタID=4に対応する分割線から、チャプタID=5に対応する分割線までのチャプタからは、チャプタセグメント（白色の矩形で示す）と特徴ピークセグメント（斜線の矩形で示す）とが重複した状態で抽出されることとなる。

この場合、ダイジェスト生成部７２は、チャプタセグメントと特徴ピークセグメントとを、１個のセグメントとして取り扱う。

ダイジェスト生成部７２は、例えば、図１９に示されるようにして抽出したチャプタセグメント及び特徴ピークセグメントを、時系列につなぎ合わせることにより、ダイジェストを生成する。

そして、ダイジェスト生成部７２は、生成したダイジェストに、BGM(background music)等を付加し、BGMが付加されたダイジェストを、コンテンツ記憶部１１に供給して記憶させる。

[ダイジェスト生成部７２の詳細]
次に、図２０は、ダイジェスト生成部７２の詳細な構成例を示している。

ダイジェスト生成部７２は、チャプタセグメント抽出部１１１、特徴量抽出部１１２、特徴ピークセグメント抽出部１１３、及びエフェクト追加部１１４から構成される。

なお、チャプタセグメント抽出部１１１及び特徴量抽出部１１２には、コンテンツ記憶部１１からコンテンツが供給される。

また、チャプタセグメント抽出部１１１及び特徴ピークセグメント抽出部１１３には、分割部７１からチャプタポイントデータが供給される。

チャプタセグメント抽出部１１１は、分割部７１からのチャプタポイントデータに基づいて、コンテンツ記憶部１１から供給されるコンテンツの各チャプタを識別する。そして、チャプタセグメント抽出部１１１は、識別した各チャプタから、チャプタセグメントを抽出し、エフェクト追加部１１４に供給する。

特徴量抽出部１１２は、コンテンツ記憶部１１から供給されるコンテンツから、例えば複数の特徴量時系列データを抽出し、特徴ピークセグメント抽出部１１３に供給する。なお、特徴量時系列データについては、図２１乃至図２３を参照して詳述する。

また、特徴量抽出部１１２は、スムージングフィルタ（平滑化フィルタ）等を用いて、抽出した特徴量時系列データを平滑化することにより、特徴量時系列データに生じているノイズを除去した上で、特徴ピークセグメント抽出部１１３に供給するようにしてもよい。

さらに、特徴量抽出部１１２は、コンテンツ記憶部１１からのコンテンツを、そのまま、特徴ピークセグメント抽出部１１３に供給する。

特徴ピークセグメント抽出部１１３は、分割部７１からのチャプタポイントデータに基づいて、コンテンツ記憶部１１から特徴量抽出部１１２を介して供給されるコンテンツの各チャプタを識別する。

また、特徴ピークセグメント抽出部１１３は、特徴量抽出部１１２から供給される複数の特徴量時系列データに基づいて、図１９を参照して説明したように、識別した各チャプタから、特徴ピークセグメントを抽出して、エフェクト追加部１１４に供給する。

エフェクト追加部１１４は、例えば、図１９に示されるようにして抽出したチャプタセグメント及び特徴ピークセグメントを、時系列につなぎ合わせることにより、ダイジェストを生成する。

また、エフェクト追加部１１４は、生成したダイジェストにBGM等を付加し、コンテンツ記憶部１１に供給して記憶させる。なお、エフェクト追加部１１４が、ダイジェストにBGM等を付加する処理は、図２４を参照して詳述する。

さらに、エフェクト追加部１１４は、生成したダイジェストを構成する各セグメント（チャプタセグメントや特徴ピークセグメント）の終了間際のフレームをフェードアウトさせたり、開始直後のフレームをフェードインさせる等のエフェクトも付加することができる。

[特徴量時系列データの例]
次に、図２１乃至図２３を参照して、図２０の特徴量抽出部１１２が、コンテンツから特徴量時系列データを抽出（生成）する方法を説明する。

なお、特徴量抽出部１１２は、特徴量時系列データとして、例えば、顔領域時系列データ、音声パワー時系列データ、ズームイン強度時系列データ、又はズームアウト強度時系列データの少なくとも１つを、コンテンツから抽出する。

ここで、顔領域時系列データは、特徴ピークセグメント抽出部１１３において、フレーム上に表示される顔の領域（顔領域）の割合が多くなったときのフレームを含むセグメントを、特徴ピークセグメントとして、チャプタから抽出する際に用いられる。

特徴量抽出部１１２は、コンテンツを構成する各フレームtから、人間の顔が存在する領域である顔領域（のピクセル数）を検出する。そして、特徴量抽出部１１２は、その検出結果に基づいて、フレームt毎に顔領域特徴値f₁(t)=R_t-ave(R_t')を算出することにより、フレームtの時系列に、顔領域特徴値f₁(t)を並べて得られる顔領域時系列データを生成する。

なお、割合R_t=顔領域のピクセル数/フレームの総ピクセル数であり、ave(R_t')は、区間[t-W_L,t+W_L]に存在するフレームt'から得られる割合R_t'の平均を表す。また、時刻tはフレームtが表示される時刻を表し、値W_L(>0)は予め設定された値である。

次に、図２１は、特徴量抽出部１１２が、特徴量時系列データとして、音声パワー時系列データを生成するときの一例を示している。

図２１において、音声データx（t）は、時刻t_sから時刻t_eまでの全区間[t_s,t_e]で再生される音声データを表している。なお、横軸は時刻tを表しており、縦軸は音声データx(t)を表す。

ここで、音声パワー時系列データは、特徴ピークセグメント抽出部１１３において、音声（音量）が大きくなったときのフレームを含むセグメントを、特徴ピークセグメントとして、チャプタから抽出する際に用いられる。

特徴量抽出部１１２は、次式（３）により、コンテンツを構成する各フレームtの音声パワーP(t)を算出する。

ここで、式（３）において、音声パワーP(t)は、区間[t-W,t+W]における各音声データx(τ)の自乗和の平方根を表す。また、τはt-Wからt+Wまでの値とされ、Wは予め設定される。

そして、特徴量抽出部１１２は、区間[t-W,t+W]で算出した音声パワーP(t)の平均値から、全区間[t_s,t_e]で算出した音声パワーP(t)の平均値を差し引くことにより得られる差分値を、フレームtにおける音声パワー特徴量値f₂(t)として算出する。

特徴量抽出部１１２は、各フレームt毎に、音声パワー特徴量値f₂(t)を算出することにより、フレームtの時系列に、音声パワー特徴量値f₂(t)を並べて得られる音声パワー時系列データを生成する。

次に、図２２及び図２３を参照して、特徴量抽出部１１２が、特徴量時系列データとして、ズームイン強度時系列データを生成する方法を説明する。

なお、ズームイン強度時系列データは、特徴ピークセグメント抽出部１１３において、ズームイン（ズームアップ）されたときのフレームを含むセグメントを、特徴ピークセグメントとして、チャプタから抽出する際に用いられる。

図２２は、フレームtの動きベクトルの一例を示している。

図２２には、複数のブロックに区分されたフレームtが示されている。また、フレームtの各ブロックには、そのブロックの動きベクトルが示されている。

特徴量抽出部１１２は、コンテンツを構成する各フレームtを、図２２に示されるような、複数のブロックに区分する。そして、特徴量抽出部１１２は、コンテンツを構成する各フレームtを用いて、複数のブロック毎に、ブロックマッチングなどにより、ブロックの動きベクトルを検出する。

ここで、フレームtにおけるブロックの動きベクトルとは、例えば、フレームtからフレームt+1に対する、ブロックの動きを表すベクトルをいう。

次に、図２３は、フレームtの各ブロックの動きベクトルとの内積が計算される動きベクトルから構成されるズームインテンプレートの一例を示している。

このズームインテンプレートは、図２３に示されるように、ズームインされたときの各ブロックの動きを表す動きベクトルにより構成される。

特徴量抽出部１１２は、フレームtにおける各ブロックの動きベクトルa_t（図２２）と、それぞれ対応する、ズームインテンプレートの各ブロックの動きベクトルb（図２３）との内積a_t・bを計算し、その計算結果の総和sum(a_t・b)を算出する。

また、特徴量抽出部１１２は、区間[t-W,t+W]に含まれるフレームt'毎に算出される総和sum(a_t'・b)の平均値ave(sum(a_t'・b))を算出する。

そして、特徴量抽出部１１２は、総和sum(a_t・b)から平均値ave(sum(a_t'・b))を差し引くことにより得られる差分値を、フレームtにおけるズームイン特徴量値f₃(t)として算出する。ズームイン特徴量値f₃(t)は、フレームtにおけるズームインの大きさに比例する。

特徴量抽出部１１２は、各フレームt毎に、ズームイン特徴量値f₃(t)を算出することにより、フレームtの時系列に、ズームイン特徴量値f₃(t)を並べて得られるズームイン強度時系列データを生成する。

ここで、ズームアウト強度時系列データは、特徴ピークセグメント抽出部１１３において、ズームアウトされたときのフレームを含むセグメントを、特徴ピークセグメントとして、チャプタから抽出する際に用いられる。

特徴量抽出部１１２は、ズームアウト強度時系列データを生成する場合、図２３に示されるようなズームインテンプレートに代えて、図２３に示されたテンプレートの動きベクトルとは逆向きの動きベクトルを、ズームアップテンプレートとして用いる。

すなわち、特徴量抽出部１１２は、ズームイン強度時系列データを生成する場合と同様に、ズームアウトテンプレートを用いて、ズームアップ強度時系列データを生成する。

次に、図２４は、エフェクト追加部１１４が、生成したダイジェストにBGMを付加するときの詳細を説明する。

図２４の上側には、ダイジェストを構成する各セグメント（チャプタセグメント及び特徴ピークセグメント）の音量の重みが示されている。

図２４の下側には、図１９に示されるチャプタセグメント及び特徴ピークセグメントを結合して得られるダイジェストが示されている。

エフェクト追加部１１４は、チャプタセグメント抽出部１１１からのチャプタセグメントと、特徴ピークセグメント抽出部１１３からの特徴ピークセグメントを、図２４の下側に示されるように、時系列に結合することにより、約L秒のダイジェストを生成する。

ここで、ダイジェストの長さLは、チャプタセグメント抽出部１１１により抽出されるチャプタセグメントの個数や長さ、及び特徴ピークセグメント抽出部１１３により抽出される特徴ピークセグメントの個数や長さにより決まる。

また、例えば、ユーザは、操作部１７を用いて、ダイジェストの長さLを設定することができる。すなわち、操作部１７は、ユーザによる長さLの設定操作に対応する操作信号を、制御部１６に供給する。制御部１６は、操作部１７からの操作信号に基づいて、ダイジェスト生成部７２を制御して、設定操作で設定された長さLのダイジェストを、ダイジェスト生成部７２に生成させる。

ダイジェスト生成部７２は、抽出したセグメントの総延長（長さの総和）が長さLとなるまで、チャプタセグメントや特徴ピークセグメントを抽出していくこととなる。

この場合、ダイジェスト生成部７２は、各チャプタからチャプタセグメントを優先して抽出していき、その後、特徴ピークセグメントを抽出するようにして、各チャプタから少なくともチャプタセグメントが抽出されるようにすることが望ましい。

また、例えば、ダイジェスト生成部７２は、各チャプタからチャプタセグメントを優先して抽出した後、特徴ピークセグメントを抽出する際には、１又は複数の特徴量時系列データにおいて、極大値が大きい順に、対応する特徴ピークセグメントを抽出していく。

さらに、例えば、ユーザは、操作部１７を用いて、ダイジェストの長さLとともに、１個のチャプタから抽出されるセグメントの長さの和Sを設定する設定操作を行うことによっても、所望の長さLのダイジェストを、ダイジェスト生成部７２に生成させられる。

この場合、操作部１７は、ユーザの設定操作に対応する操作信号を、制御部１６に供給する。制御部１６は、操作部１７からの操作信号に基づいて、ユーザにより設定されたL及びSを識別し、識別したL及びSに基づいて、総分割数Dを算出（逆算）する。

すなわち、総分割数Dは、L/Sに最も近い整数値（例えば、L/Sを四捨五入した値）とされる。例えば、いま、ユーザの設定操作により、L=30に設定された他、チャプタから、7.5秒のチャプタセグメントと、7.5秒の特徴ピークセグメントを抽出するように設定された場合、つまり、S=15(7.5+7.5)に設定された場合を考える。

この場合、制御部１６は、L=30及びS=15に基づいて、L/S=30/15=2を算出し、L/S=2に最も近い整数値2を、総分割数Dとして算出する。

制御部１６は、分割部７１を制御し、分割部７１に、算出した総分割数Dに対応するチャプタポイントデータを生成させる。これにより、分割部７１は、制御部１６からの制御に従い、算出された総分割数Dに対応するチャプタポイントデータを生成し、ダイジェスト生成部７２に供給する。

ダイジェスト生成部７２は、分割部７１からのチャプタポイントデータと、コンテンツ記憶部１１から読み出したコンテンツとに基づいて、ユーザにより設定された長さLのダイジェストを生成し、コンテンツ記憶部１１に供給して記憶させる。

また、エフェクト追加部１１４は、図２４の上側に示したような重みαで、ダイジェストを構成する各セグメント（チャプタセグメントや特徴ピークセグメント）の音声データにαの重み付けをし、BGM（のデータ）に1-αの重み付けをする。

そして、エフェクト追加部１１４は、重み付け後の音声データと、重み付け後のBGMとを混合し、その結果得られる混合音声データを、ダイジェストを構成する各セグメントの音声データとして、ダイジェストを構成する各フレームに対応付ける。

なお、エフェクト追加部１１４は、図示せぬ内蔵のメモリに、BGM(のデータ)を予め保持しているものとし、ユーザの操作に応じて、付加されるBGMが指定されるものとする。

すなわち、例えば、エフェクト追加部１１４は、白色の矩形で示されるチャプタセグメントにBGMを付加する場合、BGMの音量を大きめに設定するために、チャプタセグメントの音声データに、0.5よりも小さな重みを重み付け（乗算）をする。

具体的には、例えば、エフェクト追加部１１４は、図２４において、チャプタセグメントの音声データに0.2の重み付けをし、付加するBGM（のデータ）に0.8の重み付けをする。

また、例えば、エフェクト追加部１１４は、複数の特徴量時系列データのうち、音声パワー時系列データとは異なる特徴量時系列データに基づき抽出された特徴ピークセグメントにBGMを付加する場合、チャプタセグメントにBGMを付加する場合と同様の重み付けで付加する。

具体的には、例えば、エフェクト追加部１１４は、図２４において、顔領域時系列データに基づき抽出された特徴ピークセグメント（黒色の矩形で示される）の音声データに0.2の重み付けをし、付加するBGMに0.8の重み付けをする。

また、例えば、エフェクト追加部１１４は、音声パワー時系列データに基づき抽出された特徴ピークセグメント（斜線の矩形で示される）にBGMを付加する場合、BGMの音量を小さめに設定するために、その特徴ピークセグメントの音声データに、0.5よりも大きな重みを重み付けをする。

具体的には、例えば、エフェクト追加部１１４は、図２４において、音声パワー時系列データに基づき抽出された特徴ピークセグメントの音声データに0.8の重み付けをし、付加するBGMに0.2の重み付けをする。

なお、図１９に示されるように、例えば、チャプタセグメントと特徴ピークセグメントとがオーバラップした（重なった）状態で抽出された場合、１個のセグメントとして抽出されることとなる。

この場合、エフェクト追加部１１４において、チャプタセグメントと特徴ピークセグメントから構成される１個のセグメントの音声データに適用する重みとして、先頭のフレームの時刻が時間的に後の特徴ピークセグメントに適用すべき重みが用いられる。

また、例えば、エフェクト追加部１１４は、図２４の上側に示されるように、重みの切替わりを、不連続ではなく連続的に変化させる。

すなわち、例えば、エフェクト追加部１１４は、ダイジェストの音声データに対する重みを、0.2から0.8に不連続に切り替えるのではなく、所定時間（例えば、500ミリ秒）で、0.2から0.8に向かって線形に変化させる。なお、エフェクト追加部１１４は、重みを線形に変化させる他、非線形に変化（例えば、時間の２乗に比例するように重みを変化させるなど）させるようにしてもよい。

これにより、重み付けの切替わり時に、ダイジェストの音量やBGMの音量が急激に大きくなる等の事態を防止できるので、音量の急激な変化により、ユーザが不愉快な思いをしなくてすむ。

[レコーダ５１の動作説明]
次に、図２５のフローチャートを参照して、レコーダ５１（特に分割部７１及びダイジェスト生成部７２）が行うダイジェスト生成処理を説明する。

ステップＳ１９１では、分割部７１は、図１の分割部１５と同様の処理を行う。そして、分割部７１は、コンテンツを複数のセグメントに分割したときの、各セグメントの先頭のフレームを一意に識別するためのチャプタIDを、チャプタポイントデータとして生成する。

分割部７１は、生成したチャプタポイントデータを、ダイジェスト生成部７２のチャプタセグメント抽出部１１１及び特徴ピークセグメント抽出部１１３に供給する。

ステップＳ１９２では、チャプタセグメント抽出部１１１は、分割部７１からのチャプタポイントデータに基づいて、コンテンツ記憶部１１から供給されるコンテンツの各チャプタを識別する。そして、チャプタセグメント抽出部１１１は、識別した各チャプタから、チャプタの先頭部分を表すチャプタセグメントを抽出し、エフェクト追加部１１４に供給する。

ステップＳ１９３では、特徴量抽出部１１２は、例えば、コンテンツ記憶部１１から供給されるコンテンツから、例えば複数の特徴量時系列データを抽出し、特徴ピークセグメント抽出部１１３に供給する。

なお、特徴量抽出部１１２は、スムージングフィルタ（平滑化フィルタ）等を用いて、抽出した特徴量時系列データを平滑化することにより、特徴量時系列データに生じているノイズを除去した上で、特徴ピークセグメント抽出部１１３に供給するようにしてもよい。

ステップＳ１９４では、特徴ピークセグメント抽出部１１３は、分割部７１からのチャプタポイントデータに基づいて、コンテンツ記憶部１１から特徴量抽出部１１２を介して供給されるコンテンツの各チャプタを識別する。

そして、特徴ピークセグメント抽出部１１３は、特徴量抽出部１１２から供給される複数の特徴量時系列データに基づいて、識別した各チャプタから、特徴ピークセグメントを抽出して、エフェクト追加部１１４に供給する。

ステップＳ１９５では、エフェクト追加部１１４は、例えば、図１９に示されるようにして抽出したチャプタセグメント及び特徴ピークセグメントを、時系列につなぎ合わせることにより、ダイジェストを生成する。

そして、エフェクト追加部１１４は、生成したダイジェストにBGM(background music)等を付加し、コンテンツ記憶部１１に供給して記憶させる。以上で、図２５のダイジェスト生成処理は終了される。

以上説明したように、ダイジェスト生成処理によれば、チャプタセグメント抽出部１１１は、各チャプタから、チャプタセグメントを抽出するようにした。そして、エフェクト追加部１１４は、抽出されたチャプタセグメントを少なくとも有するダイジェストを生成するようにした。

このため、ユーザは、例えば、ダイジェストを再生することにより、コンテンツの各チャプタの先頭部分であるチャプタセグメントを視聴できるようになるので、コンテンツの大まかな内容（あらすじ）を容易に把握することが可能となる。

また、ダイジェスト生成処理によれば、特徴ピークセグメント抽出部１１３は、例えば、複数の特徴量時系列データに基づいて、特徴ピークセグメントとして抽出するようにしている。

このため、ダイジェストの生成対象とされたコンテンツにおいて、例えば、山場となるような場面を、特徴ピークセグメントとして含むダイジェストを生成することが可能となる。

ここで、特徴ピークセグメントとして、例えば、音声が大となっている場面、ズームインやズームアウトが行われている場面、人間の顔の割合が多くなっている場面などが抽出される。

また、例えば、エフェクト追加部１１４は、BGM等のエフェクトを付加したダイジェストを生成するようにした。このため、ダイジェスト生成処理によれば、コンテンツの内容をより容易に理解し易いダイジェストが生成されることとなる。

さらに、エフェクト追加部１１４は、BGMを混合する際の重み付けを、緩やかに切り替えるようにしたので、重み付けの切替わり時に、BGMの音声や、ダイジェスト本来の音声が急に大きくなる事態を防止することが可能となる。

ところで、ユーザにおいては、コンテンツ記憶部１１に記憶されているコンテンツを再生する際、所望の再生位置からコンテンツを容易に再生できることが望ましい。

次に、図２６乃至図４１を参照して、ユーザが、所望の再生位置を容易に検索できるようにした表示画面を表示させるレコーダ１３１を説明する。

＜３．第３の実施の形態＞
[レコーダ１３１の構成例]
図２６は、第３の実施の形態であるレコーダ１３１の構成例を示している。

なお、図２６のレコーダ１３１では、第１の実施の形態であるレコーダ１（図１）と同様に構成される部分について同一の符号を付すようにしているので、それらの説明は、以下、適宜省略する。

すなわち、レコーダ１３１において、図１の分割部１５に代えて分割部１５１が設けられているとともに、新たに提示部１５２が設けられている他は、図１のレコーダ１と同様に構成される。

また、レコーダ１３１には、画像を表示する表示部１３２が接続されている。さらに、レコーダ１３１は、図１７のダイジェスト生成部７２を省略しているが、図１７の場合と同様に、ダイジェスト生成部７２を設けるようにしてもよい。

分割部１５１は、図１の分割部１５と同様の処理を行う。また、分割部１５１は、図１７の分割部７１と同様にして、チャプタポイントデータ（チャプタID）を生成し、提示部１５２に供給する。

さらに、分割部１５１は、シンボル列生成部１４から供給されるシンボル列を構成する各シンボルを、対応する、コンテンツを構成する各フレームに対応付けて、提示部１５２に供給する。

また、分割部１５１は、コンテンツ記憶部１１から読み出したコンテンツを、提示部１５２に供給する。

提示部１５２は、分割部１５１からのチャプタポイントデータに基づいて、同じく分割部１５１から供給されるコンテンツの各チャプタを、行状に配置するように、表示部１３２に表示させる。

すなわち、例えば、提示部１５２は、操作部１７を用いたユーザの指定操作に応じて変化する総分割数Dのチャプタを、行状に配置するように、表示部１３２に表示させる。

具体的には、例えば、分割部１５１は、ユーザの指定操作により、総分割数Dが変化したことに対応して、変化後の総分割数Dに対応する新たなチャプタポイントデータを生成し、提示部１５２に供給する。

提示部１５２は、分割部１５１から供給される新たなチャプタポイントデータに基づいて、ユーザの指定操作により指定された総分割数Dのチャプタを表示部１３２に表示させる。

また、提示部１５２は、後述の図３９に示されるように、分割部１５１からのシンボルを用いて、ユーザにより選択されたフレームと同じシンボルを有するフレームをタイル状に表示させる。

次に、図２７は、ユーザの指定操作により、総分割数Dが変化することに応じて、対応するチャプタポイントデータが変化する様子の一例を示している。

図２７のＡには、総分割数Dと、総分割数Dに対応するチャプタポイントデータとの組合せの一例が示されている。

また、図２７のＢには、コンテンツの時間軸上に配置されたチャプタポイントの一例が示されている。ここで、チャプタポイントとは、チャプタを構成する各フレームのうち、先頭のフレームが配置される位置を表す。

図２７のＡに示されるように、総分割数D=2のとき、フレーム番号0のフレームの他、フレーム番号720のフレームが、チャプタポイントとされる。

総分割数D=2のとき、コンテンツは、図２７のＢの1行目に示されるように、フレーム番号0のフレームを先頭とするチャプタ、及びフレーム番号720のフレームを先頭とするチャプタに分割されていることとなる。

なお、フレーム番号0のフレームは、必ず、チャプタポイントとされるため、図２７のＡ及びＢでは、フレーム番号0の図示を省略している。

そして、総分割数D=2から総分割数D=3とされるとき、フレーム番号300のフレームが、新たにチャプタポイントとされる。

総分割数D=3のとき、コンテンツは、図２７のＢの２行目に示されるように、フレーム番号0のフレームを先頭とするチャプタ、フレーム番号300のフレームを先頭とするチャプタ、及びフレーム番号720のフレームを先頭とするチャプタに分割されていることとなる。

また、総分割数D=3から総分割数D=4とされるとき、フレーム番号1431のフレームが、新たにチャプタポイントとされる。

総分割数D=4のとき、コンテンツは、図２７のＢの３行目に示されるように、フレーム番号0のフレームを先頭とするチャプタ、フレーム番号300のフレームを先頭とするチャプタ、フレーム番号720のフレームを先頭とするチャプタ、及びフレーム番号1431のフレームを先頭とするチャプタに分割されていることとなる。

さらに、総分割数D=4から総分割数D=5とされるとき、フレーム番号1115のフレームが、新たにチャプタポイントとされる。

総分割数D=5のとき、コンテンツは、図２７のＢの４行目に示されるように、フレーム番号0のフレームを先頭とするチャプタ、フレーム番号300のフレームを先頭とするチャプタ、フレーム番号720のフレームを先頭とするチャプタ、フレーム番号1115のフレームを先頭とするチャプタ、及びフレーム番号1431のフレームを先頭とするチャプタに分割されていることとなる。

次に、図２８乃至図３０を参照して、提示部１５２が、表示部１３２に表示させるための表示用データを生成する処理を説明する。なお、図２８乃至図３０では、総分割数D=5であるときの表示用データを、提示部１５２が生成する様子を説明する。

図２８は、チャプタポイントとされたフレームの一例を示している。

なお、図２８において、矩形はフレームを表しており、矩形内に記載された番号は、フレーム番号を表す。

提示部１５２は、分割部１５１からのチャプタポイントデータに基づいて、分割部１５１から供給されるコンテンツから、チャプタポイントとされたフレーム番号0,300,720,1115,1431の各フレームを抽出する。

なお、いまの場合、チャプタポイントデータは、総分割数D=5に対応するものであり、フレーム番号0,300,720,1115,1431の各フレームが、チャプタポイントとされているものとする。

提示部１５２は、抽出した各フレームを縮小してサムネイル画像とし、フレーム番号0,300,720,1115,1431の順序で、図２８に示されるように、表示部１３２の表示画面に、上から下方向に表示させる。

そして、提示部１５２は、表示部１３２の表示画面に、左から右方向に、例えば50フレームの間隔で、チャプタを構成するフレームを、サムネイル画像として表示させる。

次に、図２９は、チャプタポイントとされたフレームの右方向に、50フレームの間隔で、サムネイル画像を表示させるときの一例を示している。

提示部１５２は、分割部１５１からのチャプタポイントデータに基づいて、分割部１５１から供給されるコンテンツから、チャプタポイントとされたフレーム番号0のフレームの他、フレーム番号50,100,150,200,250の各フレームを抽出する。

そして、提示部１５２は、抽出した各フレームを縮小してサムネイル画像とし、フレーム番号50,100,150,200,250の順序で、フレーム番号0のフレームから右方向に表示させる。

また、提示部１５２は、フレーム番号300のフレームから右方向に、フレーム番号350,400,450,500,550,600,650,700の各フレームを、サムネイル画像として、フレーム番号の小さい順に表示させる。

さらに、提示部１５２は、同様にして、フレーム番号720のフレームから右方向に、フレーム番号770,820,870,920,970,1020,1070の各フレームを、サムネイル画像として、フレーム番号の小さい順に表示させる。また提示部１５２は、フレーム番号1115のフレームから右方向に、フレーム番号1165,1215,1265,1315,1365,1415の各フレームを、サムネイル画像として、フレーム番号の小さい順に表示させる。さらに提示部１５２は、フレーム番号1431のフレームから右方向に、フレーム番号1481,1531,1581,1631,…の各フレームを、サムネイル画像として、フレーム番号の小さい順に表示させる。

これにより、提示部１５２は、図３０に示されるように、各チャプタ毎に、チャプタのサムネイル画像を行状に配置した表示を、表示部１３２に表示させることができる。

なお、提示部１５２は、チャプタのサムネイル画像を行状に配置する他、そのサムネイル画像に重ねるようにして、他のサムネイル画像を配置するようにしてもよい。

具体的には、例えば、提示部１５２は、フレーム番号300のフレームをサムネイル画像として表示し、そのフレームに隠れるように、フレーム番号301乃至349の各フレームのサムネイル画像を配置するようにしてもよい。

次に、図３０は、表示部１３２の表示画面の一例を示している。

この表示画面には、図３０に示されるように、各チャプタのサムネイル画像が、チャプタ毎に設けられたチャプタ表示領域（チャプタ番号1,2,3,4,5がそれぞれ付加された横長の矩形）に、行状に表示される。

すなわち、１行目には、コンテンツの先頭から１番目のチャプタ１のサムネイル画像として、フレーム番号0,50,100,150,200,…の各フレームが、その順序で、図中左から右方向に配置される。

つまり、表示部１３２は、サムネイル画像を、チャプタ１の各シーンを代表する代表画像として表示する。

具体的には、例えば、表示部１３２は、フレーム番号0のフレームに対応するサムネイル画像を、フレーム番号0乃至49の各フレームから構成されるシーンを代表する代表画像として表示する。このことは、図３０に示されるチャプタ２乃至５についても同様である。

また、２行目には、コンテンツの先頭から２番目のチャプタ２のサムネイル画像として、フレーム番号300,350,400,450,500,…の各フレームが、その順序で、図中左から右方向に配置される。

さらに、３行目には、コンテンツの先頭から３番目のチャプタ３のサムネイル画像として、フレーム番号720,770,820,870,920,…の各フレームが、その順序で、図中左から右方向に配置される。また４行目には、コンテンツの先頭から４番目のチャプタ４のサムネイル画像として、フレーム番号1115,1165,1215,1265,1315,…の各フレームが、その順序で、図中左から右方向に配置される。

また、５行目には、コンテンツの先頭から５番目のチャプタ５のサムネイル画像として、フレーム番号1431,1481,1531,1581,1631,…の各フレームが、その順序で、図中左から右方向に配置される。

なお、表示部１３２の表示画面には、図３０に示されるように、スライダ１７１も表示させることができる。このスライダ１７１は、総分割数Dを設定する際に、図中左右方向に移動（スライド）されるものであり、スライダ１７１の位置に応じて、総分割数Dを変更させることができる。

すなわち、例えば、スライダ１７１が図中左方向に移動するほど、総分割数Dは減少し、スライダ１７１が図中右方向に移動するほど、総分割数Dは増加する。

したがって、例えば、ユーザが、操作部１７を用いて、図３０に示される表示画面のスライダ１７１を、図中左方向に移動させる操作を行うと、その操作に対応して、表示部１３２には、図３１に示されるような表示画面が表示される。

なお、分割部１５１は、スライダ１７１を用いたユーザのスライド操作に応じて、そのスライド操作に対応する総分割数Dのチャプタポイントデータを生成し、生成したチャプタポイントデータを、提示部１５２に供給する。

提示部１５２は、分割部１５１からのチャプタポイントデータに基づいて、図３１に示されるような表示画面を生成して、表示部１３２に表示させる。

また、分割部１５１は、ユーザのスライド操作が行われる毎に、そのスライド操作に対応する総分割数Dのチャプタポイントデータを生成するようにしてもよいし、複数の異なる総分割数D毎に、チャプタポイントデータを予め生成しておいてもよい。

分割部１５１は、複数の異なる総分割数D毎のチャプタポイントデータを、予め生成した場合、複数の異なる総分割数D毎のチャプタポイントデータを、提示部１５２に供給する。

この場合、提示部１５２は、分割部１５１から供給される、複数の異なる総分割数D毎のチャプタポイントデータのうち、スライダ１７１を用いたユーザのスライド操作に対応する総分割数Dのチャプタポイントを選択する。そして、提示部１５２は、選択したチャプタポイントデータに基づいて、表示部１３２に表示させる表示画面を生成し、表示部１３２に供給して表示させる。

次に、図３１は、スライダ１７１を、総分割数Dが減少する方向に移動させたときに、表示部１３２に表示される表示画面の一例を示している。

図３１に示される表示画面は、図３０に示された表示画面と比較して、チャプタ数（総分割数D）が、５個から３個に減少していることがわかる。

その他、例えば、提示部１５２は、図２０の特徴量抽出部１１２と同様にして、分割部１５１からのコンテンツから、特徴量時系列データを抽出するようにしてもよい。そして、提示部１５２は、抽出した特徴量時系列データの強度（大きさ）に応じて、表示部１３２に表示されるサムネイル画像を修飾するようにしてもよい。

次に、図３２は、特徴量時系列データの強度に応じて修飾されたサムネイル画像が表示される、表示部１３２の表示画面の他の一例を示している。

なお、図３２に示されるサムネイル画像には、適宜、そのサムネイル画像に対応するフレームを含むシーン（例えば、サムネイル画像に対応するフレームを先頭とする５０フレーム）の特徴に応じて、帯表示が付加される。

帯表示１９１a乃至１９１fは、それぞれ、顔領域の割合が比較的高いシーンを代表するサムネイル画像に付加される。

いま、フレーム番号100,150,350,400,450,1581の各サムネイル画像に、帯表示１９１a乃至１９１fが付加されている。

また、帯表示１９２a乃至１９２dは、それぞれ、顔領域の割合が比較的高いとともに、音声パワーが比較的大きいシーンを代表するサムネイル画像に付加される。

さらに、帯表示１９３a及び１９３bは、それぞれ、音声パワーが比較的大きいシーンを代表するサムネイル画像に付加される。

なお、帯表示１９１a乃至１９１fは、例えば、シーンを構成する各フレームのうち、顔領域の割合が所定の閾値以上となるフレームの枚数が、予め決められた枚数閾値以上となる場合に、そのシーンを代表するサムネイル画像に付加される。

その他、例えば、帯表示１９１a乃至１９１fにおいて、例えば、シーンを構成する各フレームのうち、顔領域の割合が所定の閾値以上となるフレームの枚数が多くなるほどに、帯表示１９１a乃至１９１fの色を濃くするようにしてもよい。

これらのことは、帯表示１９２a乃至１９２d、並びに帯表示１９３a及び１９３bについても同様である。

また図３２では、サムネイル画像に帯表示を付加するようにしたが、その他、例えば、帯表示１９１a乃至１９１fに代えて、人間の顔を付加するようにしてもよい。すなわち、シーンの特徴を表すようなものであれば、どのような表示方法で表示するようにしてもよい。

なお、図３２は、各サムネイル画像を識別するために、フレーム番号を付すようにしているが、実際には、表示部１３２の表示画面は、例えば図３３に示されるような表示とされる。

[提示部１５２の詳細]
次に、図３４は、図２６の提示部１５２の詳細な構成例を示している。

提示部１５２は、特徴量抽出部２１１、表示データ生成部２１２、及び表示制御部２１３から構成される。

特徴量抽出部２１１には、分割部１５１からコンテンツが供給される。特徴量抽出部２１１は、図２０の特徴量抽出部１１２と同様にして、特徴量時系列データを抽出して、表示データ生成部２１２に供給する。

すなわち、例えば、特徴量抽出部２１１は、分割部１５１からのコンテンツから、顔領域時系列データ、音声パワー時系列データ、ズームイン強度時系列データ、又はズームアウト強度時系列データの少なくとも１つを抽出し、表示データ生成部２１２に供給する。

表示データ生成部２１２には、特徴量抽出部２１１からの特徴量時系列データの他、分割部１５１からチャプタポイントデータが供給される。

表示データ生成部２１２は、特徴量抽出部２１１からの特徴量時系列データと、分割部１５１からのチャプタポイントデータに基づいて、表示部１３２の表示画面に、図３１乃至図３３に示したような表示をさせるための表示データを生成し、表示制御部２１３に供給する。

表示制御部２１３は、表示データ生成部２１２からの表示データに基づいて、表示部１３２の表示画面に、図３１乃至図３３に示したような表示をさせる。

なお、表示データ生成部２１２は、ユーザの操作に応じた表示データを生成し、表示制御部２１３に供給する。

そして、表示制御部２１３は、表示データ生成部２１２からの表示データに基づいて、表示部１３２の表示画面を、ユーザの操作に応じて変化させる。

すなわち、表示制御部２１３が、コンテンツのチャプタの表示の制御を行うときの表示モードとしては、レイヤ０モード、レイヤ１モード、及びレイヤ２モードの３つのモードがある。

レイヤ０モードでは、表示部１３２は、図３１乃至図３３に示したような表示とされる。

次に、図３５は、レイヤ０モードにおいて、ユーザが、表示部１３２の表示画面上の位置を指示したときの様子の一例を示している。

ここで、以下では、説明を分かり易くするために、操作部１７として、例えばマウスが採用されていることとする。ユーザは、マウスとしての操作部１７を用いて、例えば、シングルクリックやダブルクリックを行うことができる。なお、操作部１７は、マウスに限定されない。

レイヤ０モードでは、ユーザが、マウスとしての操作部１７を操作して、ポインタ（カーソル）２３１を、チャプタ４の、図３５の左から５番目のサムネイル画像上に移動させたとき、表示制御部２１３は、表示部１３２の表示画面を、図３５に示されるような表示とする。

すなわち、レイヤ０モードでは、ポインタ２３１により指示されるサムネイル画像２３２が、強調して表示される。図３５の例では、ポインタ２３１により指示されたサムネイル画像２３２が、例えば、黒色の枠で囲まれた状態で、他のサムネイル画像よりも大きく表示されている。

これにより、ユーザは、ポインタ２３１により指示しているサムネイル画像２３２を、容易に把握できる。

次に、図３６は、レイヤ０モードにおいて、ポインタ２３１でサムネイル画像２３２を指示した状態で、ダブルクリックをしたときの様子の一例を示している。

サムネイル画像２３２が、ポインタ２３１により指示されている状態で、ユーザがダブルクリックをした場合、サムネイル画像２３２に対応するフレームから、コンテンツが再生される。

すなわち、表示制御部２１３は、例えば、図３６に示されるように、表示部１３２の表示画面において、図中左上にウインドウ２３３を配置させる。このウインドウ２３３には、サムネイル画像２３２に対応するフレームから再生されたコンテンツ２３３aが表示される。

また、ウインドウ２３３において、コンテンツ２３３aの上部には、図中左から右方向に、時計マーク２３３b、タイムラインバー２３３c、再生位置表示２３３d、及び音量ボタン２３３eが配置される。

時計マーク２３３bは、コンテンツ２３３aの総再生時間のうち、コンテンツ２３３aが再生されている再生位置（再生時刻）を、時計の針で表示するアイコンである。なお、時計マーク２３３bでは、コンテンツ２３３aの総再生時間が、例えば、時計の針の１周の時間（0分から60分までの1時間）に割り当てられている。

タイムラインバー２３３cは、横長のバーであり、時計マーク２３３bと同様に、コンテンツ２３３aの再生位置を表示するものである。なお、タイムラインバー２３３cには、コンテンツ２３３aの総再生時間が、タイムラインバー２３３cの左端から右端までに割り当てられており、コンテンツ２３３aの再生位置に応じた位置に、再生位置表示２３３dが配置される。

なお、図３６において、再生位置表示２３３dを、スライダとして移動可能とするように構成することができる。この場合、ユーザは、操作部１７を用いて、再生位置表示２３３dをスライダとして移動させる移動操作を行うことにより、移動後の再生位置表示２３３dの位置から、コンテンツ２３３aを再生させることができる。

音量ボタン２３３eは、再生中のコンテンツ２３３aの音量をミュート（消音）する際や、音量を変更する際に操作されるアイコンである。

すなわち、例えば、ユーザは、操作部１７を用いて、ポインタ２３１を音量ボタン２３３e上に移動させ、シングルクリックをした場合、再生中のコンテンツ２３３aの音量はミュートされる。

また、例えば、ユーザは、操作部１７を用いて、ポインタ２３１を音量ボタン２３３e上に移動させ、ダブルクリックをした場合、再生中のコンテンツ２３３aの音量を変更するためのウインドウが新たに表示される。

次に、図３７は、レイヤ０モードにおいて、ポインタ２３１でサムネイル画像２３２を指示した状態で、シングルクリックをしたときの様子の一例を示している。

レイヤ０モードにおいて、ポインタ２３１でサムネイル画像２３２を指示した状態（図３５）で、ユーザがシングルクリックをしたとき、表示制御部２１３は、表示モードを、レイヤ０モードからレイヤ１モードに移行する。

そして、表示制御部２１３は、例えば、図３７に示されるように、表示部１３２の表示画面において、図中下側にウインドウ２５１を配置させる。このウインドウ２５１には、タイル画像２５１a、時計マーク２５１b、タイムラインバー２５１c、及び再生位置表示２５１dが配置される。

タイル画像２５１aは、サムネイル画像２３２に畳み込まれたサムネイル画像の一覧の画像（サムネイル画像２３２により代表されるシーンのサムネイル画像）を表す。

なお、例えば、サムネイル画像２３２が、フレーム番号300のフレームに対応するサムネイル画像である場合、サムネイル画像２３２には、図２９に示されるように、フレーム番号301乃至349の各フレームに対応するサムネイル画像が畳み込まれている。

また、ウインドウ２５１に、サムネイル画像２３２に畳み込まれたサムネイル画像の一覧の画像全てを、タイル画像２５１aとして表示できない場合、例えば、一部のサムネイル画像が間引かれて表示される。

その他、例えば、ウインドウ２５１にスクロールバーが表示され、そのスクロールバーを移動させることにより、サムネイル画像２３２に畳み込まれたサムネイル画像の一覧の画像全てを見られるようにしてもよい。

時計マーク２５１bは、コンテンツ２３３aの総再生時間のうち、シングルクリックされたサムネイル画像２３２に対応するフレームが再生される再生位置を、時計の針で表示するアイコンであり、図３６の時計マーク２３３bと同様に構成される。

タイムラインバー２５１cは、コンテンツ２３３aの総再生時間のうち、シングルクリックされたサムネイル画像２３２に対応するフレームが再生される再生位置を、再生位置表示２５１dで表示するものであり、図３６のタイムラインバー２３３cと同様に構成される。

さらに、タイムラインバー２５１cは、タイル画像２５１aを構成するサムネイル画像（サムネイル画像２３２以外）にそれぞれ対応する各フレームの再生位置も、再生位置表示２５１dと同様の再生位置表示を用いて表示する。

図３７では、図面が煩雑になるのをさけるため、サムネイル画像２３２の再生位置表示２５１dのみを記載し、他の再生位置表示は記載していない。

また、ユーザは、操作部１７を用いて、タイル画像２５１aを構成する複数のサムネイル画像のうち、所定のサムネイル画像を、ポインタ２３１で指示するマウスオン操作を行うと、ポインタ２３１で指示された所定のサムネイル画像が強調して表示される。

すなわち、例えば、ユーザが、操作部１７を用いて、タイル画像２５１a内のサムネイル画像２７１を、ポインタ２３１で指示するマウスオン操作を行うと、サムネイル画像２７１を強調したサムネイル画像２７１'が表示される。

このとき、タイムラインバー２５１cにおいて、サムネイル画像２７１'の再生位置表示は、サムネイル画像２７１'と同様に強調して表示される。すなわち、例えば、サムネイル画像２７１'の再生位置表示は、他の再生位置表示とは異なる色等とされ、強調して表示される。

また、タイムラインバー２５１cにおいて、強調して表示された再生位置表示を、スライダとして移動可能とするように構成することができる。

この場合、ユーザは、操作部１７を用いて、強調して表示された再生位置表示をスライダとして移動させる移動操作を行うことにより、例えば、移動後の再生位置表示に対応するサムネイル画像により代表されるシーンを、タイル画像２５１aとして表示させることができる。

なお、サムネイル画像２７１は、強調されたサムネイル画像２７１'を表示する他、図３５を参照して説明したサムネイル画像２３２と同様の方法で、強調して表示させるようにしてもよい。

ユーザは、強調表示されたサムネイル画像２７１'をポインタ２３１で指示した状態で、操作部１７を用いたダブルクリックを行うと、図３８に示されるように、サムネイル画像２７１'(２７１)に対応するフレームから、コンテンツ２３３aの再生が行われる。

次に、図３８は、レイヤ１モードにおいて、ポインタ２３１でサムネイル画像２７１'を指示した状態で、ダブルルクリックをしたときの様子の一例を示している。

レイヤ１モードにおいて、ポインタ２３１でサムネイル画像２７１'を指示した状態（図３７）で、ユーザがダブルクリックをしたとき、表示制御部２１３は、表示モードを、レイヤ１モードからレイヤ０モードに移行する。

そして、表示制御部２１３は、例えば、図３８に示されるように、表示部１３２の表示画面において、図中左上にウインドウ２３３を配置させる。このウインドウ２３３には、サムネイル画像２７１'(２７１)に対応するフレームから再生されたコンテンツ２３３aが表示される。

次に、図３９は、レイヤ１モードにおいて、ポインタ２３１でサムネイル画像２７１'を指示した状態で、シングルクリックをしたときの様子の一例を示している。

レイヤ１モードにおいて、ポインタ２３１でサムネイル画像２７１'を指示した状態（図３７）で、ユーザがシングルクリックをしたとき、表示制御部２１３は、表示モードを、レイヤ１モードからレイヤ２モードに移行する。

そして、表示制御部２１３は、例えば、図３９に示されるように、表示部１３２の表示画面において、ウインドウ２９１を配置させる。このウインドウ２９１には、タイル画像２９１a、時計マーク２９１b、及びタイムラインバー２９１cが配置される。

タイル画像２９１aは、サムネイル画像２７１'(２７１)に表示された表示内容と同様の表示内容とされたサムネイル画像の一覧を表す。

すなわち、タイル画像２９１aは、コンテンツ２３３aを構成する各フレームのうち、サムネイル画像２７１'に対応するフレームのシンボルと同一のシンボルを有するフレームのサムネイル画像の一覧である。

ここで、表示データ生成部２１２には、分割部１５１からのチャプタポイントデータの他、コンテンツ２３３aと、コンテンツ２３３aのシンボル列が供給される。

表示データ生成部２１２は、分割部１５１からのシンボル列に基づいて、サムネイル画像２７１'に対応するフレームのシンボルと同一のシンボルを有するフレームを、分割部１５１からのコンテンツ２３３aから抽出する。

そして、表示データ生成部２１２は、抽出した各フレームをそれぞれサムネイル画像とし、それらのサムネイル画像の一覧であるタイル画像２９１aを生成し、生成したタイル画像２９１aを含む表示データを、表示制御部２１３に供給する。

表示制御部２１３は、表示データ生成部２１２からの表示データに基づいて、表示部１３２を制御し、表示部１３２の表示画面に、タイル画像２９１aを含むウインドウ２９１を表示させる。

なお、ウインドウ２９１に、タイル画像２９１aを構成するサムネイル画像全てを表示できない場合、ウインドウ２９１にはスクロールバー等が追加される。その他、例えば、一部分のサムネイル画像を省略するようにして、ウインドウ２９１に、タイル画像２９１aが収まるようしてもよい。

時計マーク２９１bは、コンテンツ２３３aの総再生時間のうち、シングルクリックされたサムネイル画像２７１'に対応するフレームが再生される再生位置を、時計の針で表示するアイコンであり、図３６の時計マーク２３３bと同様に構成される。

タイムラインバー２９１cは、コンテンツ２３３aの総再生時間のうち、タイル画像２９１aとしての複数のサムネイル画像に対応する各フレームが再生される再生位置を表示するものであり、図３６のタイムラインバー２３３cと同様に構成される。

したがって、タイムラインバー２９１cには、例えば、タイル画像２９１aとしての複数のサムネイル画像の枚数と同じ個数だけ、再生位置が表示される。

また、ユーザは、操作部１７を用いて、タイル画像２９１aを構成する複数のサムネイル画像のうち、所定のサムネイル画像を、ポインタ２３１で指示するマウスオン操作を行うと、ポインタ２３１で指示された所定のサムネイル画像が強調して表示される。

このとき、タイムラインバー２９１cでは、ポイント２３１で指示された所定のサムネイル画像の再生位置が、例えば、他の再生位置とは異なる色等とされることにより、強調して表示される。

図３９では、例えば、サムネイル画像２７１をポインタ２３１で指示するマウスオン操作を行ったときに、強調されたサムネイル画像２７１'が表示される場合（図３７）と同様にして、所定のサムネイル画像が強調して表示される。

そして、ユーザは、強調表示された所定のサムネイル画像をポインタ２３１で指示した状態で、操作部１７を用いたダブルクリックを行うと、図３８を参照して説明した場合と同様にして、所定のサムネイル画像に対応するフレームから、コンテンツ２３３aの再生が行われる。

[レコーダ１３１の動作説明]
次に、図４０のフローチャートを参照して、図２６のレコーダ１３１（特に提示部１５２）が行う提示処理について説明する。

ステップＳ２２１では、分割部１５１は、図１の分割部１５と同様の処理を行う。また、分割部１５１は、図１７の分割部７１と同様にして、チャプタポイントデータ（チャプタID）を生成し、提示部１５２の表示データ生成部２１２に供給する。

さらに、分割部１５１は、シンボル列生成部１４からのシンボル列における各シンボルを、対応する、コンテンツの各フレームに対応付けて、提示部１５２の表示データ生成部２１２に供給する。

また、分割部１５１は、コンテンツ記憶部１１から読み出したコンテンツを、提示部１５２の特徴量抽出部２１１に供給する。

ステップＳ２２２では、特徴量抽出部２１１は、図２０の特徴量抽出部１１２と同様にして、特徴量時系列データを抽出して、表示データ生成部２１２に供給する。

ステップＳ２２３では、表示データ生成部２１２は、特徴量抽出部２１１からの特徴量時系列データと、分割部１５１からのチャプタポイントデータに基づいて、例えば、図３１乃至図３３に示したような表示をさせるための表示データを生成し、表示制御部２１３に供給する。

また例えば、表示データ生成部２１２は、制御部１６からの制御に従い、ユーザの操作に応じて、表示部１３２の表示画面に表示させるための表示データを生成し、表示制御部２１３に供給する。

すなわち、例えば、図３９に示されるように、サムネイル画像２７１'がポイント２３１で指示された状態でシングルクリックが行われた場合、表示データ生成部２１２は、分割部１５１からのシンボルを用いて、タイル画像２９１aを含むウインドウ２９１を表示させるための表示データを生成し、表示制御部２１３に供給する。

ステップＳ２２４では、表示制御部２１３は、表示データ生成部２１２からの表示データに基づいて、表示部１３２の表示画面に、表示データに対応する表示をさせる。以上で、図４０の提示処理は終了される。

以上説明したように、図４０の提示処理によれば、表示制御部２１３が、表示部１３２の表示画面に、コンテンツを構成する各チャプタ毎に、サムネイル画像を表示させるようにした。

このため、ユーザは、表示部１３２の表示画面を参照することにより、所定のチャプタにおける所望の再生位置からコンテンツを再生することが可能となる。

さらに、例えば、図４０の提示処理によれば、表示制御部２１３が、帯表示が付加されたサムネイル画像を表示させるようにした。このため、サムネイル画像に対応するシーンの特徴を、帯表示により容易に認識できるようになる。

特に、ユーザは、サムネイル画像から、音声についての情報を得ることができないため、音声が大であるとの特徴を表す帯表示が、サムネイル画像に付加されることにより、シーンを再生することなく、シーンの特徴を容易に認識できるようになる。

さらに図４０の提示処理によれば、表示部１３２が、例えば、図３７に示されるように、サムネイル画像２３２に代表されるシーンのサムネイル画像を、その再生位置とともに、タイル画像２５１aとして表示するようにした。

また、図４０の提示処理によれば、表示制御部２１３が、例えば、図３９に示されるように、サムネイル画像２７１'に対応するフレームのシンボルと同じシンボルとされた各フレームのサムネイル画像を、その再生位置とともに、タイル画像２９１aとして表示するようにした。

これにより、ユーザは、コンテンツ２３３aを構成する複数のフレームの中から、再生を開始したいフレームの再生位置を、容易に検索することが可能となる。よって、ユーザは、所望の開始位置から、コンテンツ２３３aを容易に再生することができる。

次に、図４１は、表示部制御部２１３の表示モードが移行する様子の一例を示している。

ステップST１において、表示制御部２１３の表示モードは、レイヤ０モードである。このため、表示制御部２１３は、表示部１３２を制御し、表示部１３２の表示画面を、図３３に示したような表示とする。

例えば、制御部１６は、操作部１７からの操作信号に基づいて、いずれのサムネイル画像もポインタ２３１で指示されていない状態で、ユーザにより操作部１７を用いたダブルクリックが行われたと判別した場合、処理をステップST１からステップST２に進める。

そして、ステップST２では、制御部１６は、コンテンツ２３３aを再生中のウインドウ２３３が存在する場合、表示データ生成部２１２を制御し、そのウインドウ２３３を前面に表示させるための表示データを生成させ、表示制御部２１３に供給させる。

表示制御部２１３は、表示データ生成部２１２からの表示データに基づいて、表示部１３２の表示画面を、ウインドウ２３３が前面に表示された表示画面に変更させ、処理はステップST２からステップST１に戻る。

また、ステップST１において、制御部１６は、適宜、処理をステップST３に進める。

ステップST３では、制御部１６は、操作部１７からの操作信号に基づいて、ユーザにより、スライダ１７１をスライドさせるスライド操作等が行われたか否かを判別する。そして、制御部１６は、操作部１７からの操作信号に基づいて、ユーザによるスライド操作等が行われたと判別した場合、表示データ生成部２１２に、ユーザのスライド操作等に応じた表示データを生成させ、表示制御部２１３に供給する。

表示制御部２１３は、表示データ生成部２１２からの表示データに基づいて、表示部１３２の表示画面を、ユーザのスライド操作等に応じた表示画面に変更させる。これにより、表示部１３２の表示画面は、例えば、図３０に示された表示画面から、図３１に示された表示画面に変更する。その後、処理は、ステップST３からステップST１に戻る。

さらに、ステップST１において、制御部１６は、適宜、処理をステップST４に進める。

ステップST４では、制御部１６は、操作部１７からの操作信号に基づいて、ポインタ２３１との距離が予め決められた閾値以下となるサムネイル画像２３２が存在するか否かを判別する。制御部１６は、そのようなサムネイル画像２３２が存在しないと判別した場合、処理を、ステップST１に戻す。

また、ステップST４では、制御部１６は、操作部１７からの操作信号に基づいて、ポインタ２３１との距離が予め決められた閾値以下となるサムネイル画像２３２が存在すると判別した場合、処理を、ステップST５に進める。

ここで、ポインタ２３１とサムネイル画像２３２との距離とは、例えば、ポインタ２３１の重心（又は矢印としてのポインタ２３１の先端部分）と、サムネイル画像２３２の重心との距離を表す。

ステップST５では、制御部１６は、表示データ生成部２１２に、サムネイル画像２３２を強調して表示させるための表示データを生成させ、表示制御部２１３に供給させる。

表示制御部２１３は、表示データ生成部２１２からの表示データに基づいて、表示部１３２の表示画面を、図３５に示したような表示画面に変更させる。

また、ステップST５では、制御部１６は、操作部１７からの操作信号に基づいて、ポインタ２３１とサムネイル画像２３２との距離が閾値以下の状態で、ユーザによる操作部１７を用いたダブルクリック又はシングルクリックの一方が行われたか否かを判別する。

なお、ステップST５では、制御部１６は、操作部１７からの操作信号に基づいて、ユーザによる操作部１７を用いたダブルクリック及びシングルクリックのいずれも行われていないと判別した場合、適宜、処理をステップST４に戻す。

ステップST５では、制御部１６は、操作部１７からの操作信号に基づいて、ポインタ２３１とサムネイル画像２３２との距離が閾値以下の状態で、ユーザによる操作部１７を用いたダブルクリックが行われたと判別した場合、処理を、ステップST６に進める。

ステップST６では、制御部１６は、表示データ生成部２１２に、サムネイル画像２３２に対応するフレームの再生位置から、コンテンツ２３３aを再生させる際の表示データを生成させ、表示制御部２１３に供給させる。

表示制御部２１３は、表示データ生成部２１２からの表示データに基づいて、表示部１３２の表示画面を、図３６に示したような表示画面に変更させ、処理はステップST１に戻る。

また、ステップST５では、制御部１６は、操作部１７からの操作信号に基づいて、ポインタ２３１とサムネイル画像２３２との距離が閾値以下の状態で、ユーザによる操作部１７を用いたシングルクリックが行われたと判別した場合、処理を、ステップST７に進める。

ステップST７では、制御部１６は、表示制御部２１３を制御し、表示制御部２１３の表示モードを、レイヤ０モードからレイヤ１モードに移行させる。また、表示制御部２１３は、制御部１６からの制御に従い、表示部１３２の表示画面を、例えば、図３３に示される表示画面に、図３７のウインドウ２５１が追加された表示画面に変更させる。

また、ステップST７では、制御部１６は、操作部１７からの操作信号に基づいて、ユーザによる操作部１７を用いたダブルクリックが行われたか否かを判別し、ユーザによるダブルクリックが行われたと判別した場合、処理をステップST８に進める。

ステップST８では、制御部１６は、表示データ生成部２１２に、ポインタ２３１に最も近いサムネイル画像に対応するフレームの再生位置から、コンテンツ２３３aを再生させる際の表示データを生成させ、表示制御部２１３に供給させる。

表示制御部２１３は、表示データ生成部２１２からの表示データに基づいて、表示部１３２の表示画面を、図３６に示したよう表示画面に表示させ、処理はステップST１に戻る。

さらに、ステップST７では、制御部１６は、操作部１７からの操作信号に基づいて、ユーザによる操作部１７を用いたダブルクリックが行われていないと判別した場合、適宜、処理をステップST９に進める。

ステップST９では、制御部１６は、操作部１７からの操作信号に基づいて、例えば、ウインドウ２５１において、ポインタ２３１との距離が予め決められた閾値以下となるサムネイル画像２７１が存在するか否かを判別する。制御部１６は、そのようなサムネイル画像２７１が存在しないと判別した場合、処理を、ステップST１０に進める。

ステップST１０では、制御部１６は、操作部１７からの操作信号に基づいて、レイヤ１モードで表示されるウインドウ２５１のエリア外に、ポインタ２３１が移動したか否かを判別し、ウインドウ２５１のエリア外に、ポインタ２３１が移動したと判別した場合、処理をステップST1に戻す。

ステップST1では、制御部１６は、表示データ生成部２１２に、レイヤ０モードに対応する表示をさせるための表示データを生成させ、表示制御部２１３に供給させる。

表示制御部２１３は、表示データ生成部２１２からの表示データに基づいて、表示部１３２の表示画面を、例えば、図３３に示されるような表示画面に変更させる。なお、この場合、表示制御部２１３は、表示モードを、レイヤ１モードからレイヤ０モードに移行する。

また、ステップST１０では、制御部１６は、操作部１７からの操作信号に基づいて、ウインドウ２５１のエリア外に、ポインタ２３１が移動していないと判別した場合、処理をステップST７に戻す。

ステップST９では、制御部１６は、操作部１７からの操作信号に基づいて、例えば、ウインドウ２５１において、ポインタ２３１との距離が予め決められた閾値以下となるサムネイル画像２７１が存在すると判別した場合、処理を、ステップST１１に進める。

ステップST１１では、制御部１６は、表示データ生成部２１２に、サムネイル画像２７１を強調して表示させるための表示データを生成させ、表示制御部２１３に供給させる。

表示制御部２１３は、表示データ生成部２１２からの表示データに基づいて、表示部１３２の表示画面を、図３７に示したような、サムネイル画像２７１を強調したサムネイル画像２７１'が表示される表示画面に変更させる。

また、ステップST１１では、制御部１６は、操作部１７からの操作信号に基づいて、ポインタ２３１とサムネイル画像２７１'との距離が閾値以下の状態で、ユーザによる操作部１７を用いたダブルクリック又はシングルクリックの一方が行われたか否かを判別する。

なお、ステップST１１では、制御部１６は、操作部１７からの操作信号に基づいて、ユーザによる操作部１７を用いたダブルクリック及びシングルクリックのいずれも行われていないと判別した場合、適宜、処理をステップST９に戻す。

ステップST１１では、制御部１６は、操作部１７からの操作信号に基づいて、ポインタ２３１とサムネイル画像２７１'との距離が閾値以下の状態で、ユーザによる操作部１７を用いたダブルクリックが行われたと判別した場合、処理を、ステップST１２に進める。

ステップST１２では、制御部１６は、表示データ生成部２１２に、サムネイル画像２７１'に対応するフレームの再生位置から、コンテンツ２３３aを再生させる際の表示データを生成させ、表示制御部２１３に供給させる。

表示制御部２１３は、表示データ生成部２１２からの表示データに基づいて、表示部１３２の表示画面を、図３８に示したような表示画面に変更させ、処理はステップST７に戻る。

また、ステップST１１では、制御部１６は、操作部１７からの操作信号に基づいて、ポインタ２３１とサムネイル画像２７１'との距離が閾値以下の状態で、ユーザによる操作部１７を用いたシングルクリックが行われたと判別した場合、処理を、ステップST１３に進める。

ステップST１３では、制御部１６は、表示制御部２１３を制御し、表示制御部２１３の表示モードを、レイヤ１モードからレイヤ２モードに移行させる。また、表示制御部２１３は、制御部１６からの制御に従い、表示部１３２の表示画面を、例えば、図３９に示されるような、ウインドウ２９１が表示される表示画面に変更させる。

また、ステップST１３では、制御部１６は、操作部１７からの操作信号に基づいて、ユーザによる操作部１７を用いたダブルクリックが行われたか否かを判別し、ユーザによるダブルクリックが行われたと判別した場合、処理をステップST１４に進める。

ステップST１４では、制御部１６は、表示データ生成部２１２に、ポインタ２３１に最も近いサムネイル画像に対応するフレームの再生位置から、コンテンツ２３３aを再生させる際の表示データを生成させ、表示制御部２１３に供給させる。

さらに、ステップST１３では、制御部１６は、操作部１７からの操作信号に基づいて、ユーザによる操作部１７を用いたダブルクリックが行われていないと判別した場合、適宜、処理をステップST１５に進める。

ステップST１５では、制御部１６は、操作部１７からの操作信号に基づいて、例えば、ウインドウ２９１において、ポインタ２３１との距離が予め決められた閾値以下となる所定のサムネイル画像（タイル画像２９１aに含まれる画像）が存在するか否かを判別する。制御部１６は、そのような所定のサムネイル画像が存在すると判別した場合、処理を、ステップST１６に進める。

ステップST１６では、制御部１６は、表示データ生成部２１２に、ウインドウ２９１において、ポインタ２３１との距離が閾値以下となる所定のサムネイル画像を強調して表示させるための表示データを生成させ、表示制御部２１３に供給させる。

表示制御部２１３は、表示データ生成部２１２からの表示データに基づいて、表示部１３２の表示画面を、所定のサムネイル画像が強調して表示される表示画面に変更させる。

また、ステップST１６では、制御部１６は、操作部１７からの操作信号に基づいて、ポインタ２３１とサムネイル画像との距離が閾値以下の状態で、ユーザによる操作部１７を用いたダブルクリックが行われたか否かを判別する。そして、制御部１６は、ダブルクリックが行われたと判定した場合、処理をステップST１７に進める。

ステップST１７では、制御部１６は、表示データ生成部２１２に、サムネイル画像に対応するフレームの再生位置から、コンテンツ２３３aを再生させる際の表示データを生成させ、表示制御部２１３に供給させる。

また、ステップST１５では、制御部１６は、操作部１７からの操作信号に基づいて、例えば、ウインドウ２９１において、ポインタ２３１との距離が予め決められた閾値以下となる所定のサムネイル画像（タイル画像２９１aに含まれる画像）が存在しないと判定した場合、処理を、ステップST１８に進める。

ステップST１８では、制御部１６は、操作部１７からの操作信号に基づいて、レイヤ２モードで表示されるウインドウ２９１のエリア外に、ポインタ２３１が移動したか否かを判別し、ウインドウ２９１のエリア外に、ポインタ２３１が移動したと判別した場合、処理をステップST1に戻す。

ステップST１では、制御部１６は、表示制御部２１３を制御し、表示モードを、レイヤ２モードからレイヤ０モードに移行させ、それ以降、同様の処理が行われる。

また、ステップST１８では、制御部１６は、操作部１７からの操作信号に基づいて、レイヤ２モードで表示されるウインドウ２９１のエリア外に、ポインタ２３１が移動していないと判別した場合、処理をステップST１３に戻し、それ以降同様の処理が行われる。

＜４．変形例＞
ところで、本技術は、以下の構成をとることができる。
（１）複数の静止画像により構成されるコンテンツを、複数のチャプタに区分するためのチャプタポイントデータを生成するチャプタポイント生成部と、前記チャプタポイントデータに基づいて、前記チャプタ毎に設けられたチャプタ表示領域に、前記チャプタの各シーンを代表する代表画像を表示させ、前記コンテンツを構成する前記複数の静止画像のうち、予め決められたユーザ操作で選択された静止画像に基づき指定される画像群を、前記コンテンツの総再生時間における、前記画像群を構成する各静止画像の再生位置とともに表示させる表示制御部とを含む表示制御装置。
（２）前記チャプタポイント生成部は、前記コンテンツを、ユーザの変更操作に応じて変更されるチャプタ数のチャプタに区分することにより得られる前記チャプタポイントデータを生成し、前記表示制御部は、前記チャプタ数からなるチャプタ毎に設けられたチャプタ表示領域に、前記チャプタの各シーンを代表する代表画像を表示させる前記（１）に記載の表示制御装置。
（３）前記表示制御部は、前記コンテンツを構成する前記複数の静止画像のうち、前記代表画像として表示された静止画像が選択されたことに対応して、選択された前記代表画像に代表されるシーンを構成する各静止画像を、前記再生位置とともに表示させる前記（１）又は（２）に記載の表示制御装置。
（４）前記表示制御部は、前記コンテンツを構成する前記複数の静止画像のうち、前記シーンを構成する静止画像として表示された静止画像が選択されたことに対応して、選択された前記静止画像と同様の表示内容とされた各静止画像を、前記再生位置とともに表示させる前記（１）乃至（３）に記載の表示制御装置。
（５）前記表示制御部は、注目されている静止画像の前記再生位置を強調して表示させる前記（１）乃至（４）に記載の表示制御装置。
（６）前記コンテンツに基づいて、前記コンテンツを構成する各静止画像の属性をそれぞれ表すシンボルを生成するシンボル列生成部をさらに含み、前記表示制御部は、前記コンテンツを構成する前記複数の静止画像のうち、前記シーンを構成する静止画像として表示された静止画像が選択されたことに対応して、選択された前記静止画像のシンボルと同一のシンボルに対応する各静止画像を、前記再生位置とともに表示させる前記（４）又は（５）に記載の表示制御装置。
（７）前記シンボル列生成部により生成される各シンボルの分散に基づいて、前記コンテンツを複数のチャプタに区分する区分部をさらに含む前記（１）乃至（６）に記載の表示制御装置。
（８）前記コンテンツから、前記コンテンツの特徴を表す特徴量を抽出する特徴量抽出部をさらに含み、前記表示制御部は、前記特徴量にも基づいて、前記チャプタ毎に設けられたチャプタ表示領域に、所定のシーンの特徴を表す特徴表示を、前記所定のシーンを代表する代表画像に付加して表示させる前記（１）乃至（７）に記載の表示制御装置。
（９）前記表示制御部は、前記静止画像を縮小して得られるサムネイル画像を表示させる前記（１）乃至（８）に記載の表示制御装置。
（１０）画像を表示させる表示制御装置の表示制御方法において、前記表示制御装置による、複数の静止画像により構成されるコンテンツを、複数のチャプタに区分するためのチャプタポイントデータを生成するチャプタポイント生成ステップと、前記チャプタポイントデータに基づいて、前記チャプタ毎に設けられたチャプタ表示領域に、前記チャプタの各シーンを代表する代表画像を表示させ、前記コンテンツを構成する前記複数の静止画像のうち、予め決められたユーザ操作で選択された静止画像に基づき指定される画像群を、前記コンテンツの総再生時間における、前記画像群を構成する各静止画像の再生位置とともに表示させる表示制御ステップとを含む表示制御方法。
（１１）コンピュータを、複数の静止画像により構成されるコンテンツを、複数のチャプタに区分するためのチャプタポイントデータを生成するチャプタポイント生成部と、前記チャプタポイントデータに基づいて、前記チャプタ毎に設けられたチャプタ表示領域に、前記チャプタの各シーンを代表する代表画像を表示させ、前記コンテンツを構成する前記複数の静止画像のうち、予め決められたユーザ操作で選択された静止画像に基づき指定される画像群を、前記コンテンツの総再生時間における、前記画像群を構成する各静止画像の再生位置とともに表示させる表示制御部として機能させるためのプログラム。

［本技術を適用したコンピュータの構成例］
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。

そこで、図４２は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。

プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク３０５やROM３０３に予め記録しておくことができる。

あるいはまた、プログラムは、ドライブ３０９に装着されるリムーバブル記録媒体３１１に格納（記録）しておくことができる。このようなリムーバブル記録媒体３１１は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体３１１としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto Optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。

なお、プログラムは、上述したようなリムーバブル記録媒体３１１からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク３０５にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。

コンピュータは、CPU(Central Processing Unit)３０２を内蔵しており、CPU３０２には、バス３０１を介して、入出力インタフェース３１０が接続されている。

CPU３０２は、入出力インタフェース３１０を介して、ユーザによって、入力部３０７が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)３０３に格納されているプログラムを実行する。あるいは、CPU３０２は、ハードディスク３０５に格納されたプログラムを、RAM(Random Access Memory)３０４にロードして実行する。

これにより、CPU３０２は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU３０２は、その処理結果を、必要に応じて、例えば、入出力インタフェース３１０を介して、出力部３０６から出力、あるいは、通信部３０８から送信、さらには、ハードディスク３０５に記録等させる。

なお、入力部３０７は、キーボードや、マウス、マイク等で構成される。また、出力部３０６は、LCD(Liquid Crystal Display)やスピーカ等で構成される。

ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。

また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

１レコーダ，１１コンテンツ記憶部，１２コンテンツモデル学習部，１３モデル記憶部，１４シンボル列生成部，１５分割部，１６制御部，１７操作部，２１学習用コンテンツ選択部，２２特徴量抽出部，２３フレーム分割部，２４サブ領域特徴量抽出部，２５結合部，２６特徴量記憶部，２７学習部，３１コンテンツ選択部，３２モデル選択部，３３特徴量抽出部，３４最尤状態系列推定部，５１レコーダ，７１分割部，７２ダイジェスト生成部，１１１チャプタセグメント抽出部，１１２特徴量抽出部，１１３特徴ピークセグメント抽出部，１１４エフェクト追加部，１３１レコーダ，１３２表示部，１５１分割部，１５２提示部，２１１特徴量抽出部，２１２表示データ生成部，２１３表示制御部

Claims

複数の静止画像により構成されるコンテンツを、複数のチャプタに区分するためのチャプタポイントデータを生成するチャプタポイント生成部と、
前記チャプタポイントデータに基づいて、前記チャプタ毎に設けられたチャプタ表示領域に、前記チャプタの各シーンを代表する代表画像を表示させ、
前記コンテンツを構成する前記複数の静止画像のうち、予め決められたユーザ操作で選択された静止画像に基づき指定される画像群を、前記コンテンツの総再生時間における、前記画像群を構成する各静止画像の再生位置とともに表示させる
表示制御部と
を含む表示制御装置。
前記チャプタポイント生成部は、前記コンテンツを、ユーザの変更操作に応じて変更されるチャプタ数のチャプタに区分することにより得られる前記チャプタポイントデータを生成し、
前記表示制御部は、前記チャプタ数からなるチャプタ毎に設けられたチャプタ表示領域に、前記チャプタの各シーンを代表する代表画像を表示させる
請求項１に記載の表示制御装置。
前記表示制御部は、前記コンテンツを構成する前記複数の静止画像のうち、前記代表画像として表示された静止画像が選択されたことに対応して、選択された前記代表画像に代表されるシーンを構成する各静止画像を、前記再生位置とともに表示させる
請求項１に記載の表示制御装置。
前記表示制御部は、前記コンテンツを構成する前記複数の静止画像のうち、前記シーンを構成する静止画像として表示された静止画像が選択されたことに対応して、選択された前記静止画像と同様の表示内容とされた各静止画像を、前記再生位置とともに表示させる
請求項３に記載の表示制御装置。
前記表示制御部は、注目されている静止画像の前記再生位置を強調して表示させる
請求項４に記載の表示制御装置。
前記コンテンツに基づいて、前記コンテンツを構成する各静止画像の属性をそれぞれ表すシンボルを生成するシンボル列生成部をさらに含み、
前記表示制御部は、前記コンテンツを構成する前記複数の静止画像のうち、前記シーンを構成する静止画像として表示された静止画像が選択されたことに対応して、選択された前記静止画像のシンボルと同一のシンボルに対応する各静止画像を、前記再生位置とともに表示させる
請求項４に記載の表示制御装置。
前記シンボル列生成部により生成される各シンボルの分散に基づいて、前記コンテンツを複数のチャプタに区分する区分部を
さらに含む請求項６に記載の表示制御装置。
前記コンテンツから、前記コンテンツの特徴を表す特徴量を抽出する特徴量抽出部をさらに含み、
前記表示制御部は、前記特徴量にも基づいて、前記チャプタ毎に設けられたチャプタ表示領域に、所定のシーンの特徴を表す特徴表示を、前記所定のシーンを代表する代表画像に付加して表示させる
請求項１に記載の表示制御装置。
前記表示制御部は、前記静止画像を縮小して得られるサムネイル画像を表示させる
請求項１に記載の表示制御装置。
画像を表示させる表示制御装置の表示制御方法において、
前記表示制御装置による、
複数の静止画像により構成されるコンテンツを、複数のチャプタに区分するためのチャプタポイントデータを生成するチャプタポイント生成ステップと、
前記チャプタポイントデータに基づいて、前記チャプタ毎に設けられたチャプタ表示領域に、前記チャプタの各シーンを代表する代表画像を表示させ、
前記コンテンツを構成する前記複数の静止画像のうち、予め決められたユーザ操作で選択された静止画像に基づき指定される画像群を、前記コンテンツの総再生時間における、前記画像群を構成する各静止画像の再生位置とともに表示させる
表示制御ステップと
を含む表示制御方法。
コンピュータを、
複数の静止画像により構成されるコンテンツを、複数のチャプタに区分するためのチャプタポイントデータを生成するチャプタポイント生成部と、
前記チャプタポイントデータに基づいて、前記チャプタ毎に設けられたチャプタ表示領域に、前記チャプタの各シーンを代表する代表画像を表示させ、
前記コンテンツを構成する前記複数の静止画像のうち、予め決められたユーザ操作で選択された静止画像に基づき指定される画像群を、前記コンテンツの総再生時間における、前記画像群を構成する各静止画像の再生位置とともに表示させる
表示制御部と
して機能させるためのプログラム。