JP2013207529A - 表示制御装置、表示制御方法、及びプログラム - Google Patents

表示制御装置、表示制御方法、及びプログラム Download PDF

Info

Publication number
JP2013207529A
JP2013207529A JP2012074114A JP2012074114A JP2013207529A JP 2013207529 A JP2013207529 A JP 2013207529A JP 2012074114 A JP2012074114 A JP 2012074114A JP 2012074114 A JP2012074114 A JP 2012074114A JP 2013207529 A JP2013207529 A JP 2013207529A
Authority
JP
Japan
Prior art keywords
unit
content
chapter
display
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012074114A
Other languages
English (en)
Inventor
Hirotaka Suzuki
洋貴 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2012074114A priority Critical patent/JP2013207529A/ja
Priority to US13/777,726 priority patent/US20130262998A1/en
Priority to CN2013100923727A priority patent/CN103365942A/zh
Publication of JP2013207529A publication Critical patent/JP2013207529A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/8042Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal

Abstract

【課題】コンテンツから、ユーザの所望する再生位置を検索する。
【解決手段】分割部は、複数の静止画像により構成されるコンテンツを、複数のチャプタに区分するためのチャプタポイントデータを生成し、提示部は、チャプタポイントデータに基づいて、チャプタ毎に設けられたチャプタ表示領域に、チャプタの各シーンを代表する代表画像を表示させ、コンテンツを構成する複数の静止画像のうち、予め決められたユーザ操作で選択された静止画像に基づき指定される画像群を、コンテンツの総再生時間における、画像群を構成する各静止画像の再生位置とともに表示させる。本技術は、例えば、画像を表示させる表示制御装置などに適用できる。
【選択図】図26

Description

本開示は、表示制御装置、表示制御方法、及びプログラムに関し、特に、例えば、コンテンツから、ユーザの所望する再生位置を容易に検索できるようにした表示制御装置、表示制御方法、及びプログラムに関する。
例えば、動画等のコンテンツを、複数のチャプタに分割(区分)する分割技術が存在する。
この分割技術では、コンテンツをチャプタに分割する際に、例えば、コマーシャルと本編との切り替わりや、画像に映る人物や物体の切り替わり等を、チャプタの切替わりとして検出する(例えば、特許文献1参照)。そして、検出した切替わりで、コンテンツが複数のチャプタに分割される。
これにより、ユーザは、複数のチャプタに分割されたコンテンツを、所望のチャプタの始めから視聴(再生)することができる。
特開2008-312183号公報
ところで、例えば、ユーザがコンテンツの視聴時に、ユーザの所望する再生位置から、コンテンツを容易に再生できることが望ましい。
すなわち、ユーザが、コンテンツをチャプタの始めから再生できる他、チャプタの途中から再生できたり、所定のシーンに類似するシーンを検索し、その検索により得られるシーンから再生できるようにすることが望まれる。
本開示は、このような状況に鑑みてなされたものであり、コンテンツから、ユーザの所望する再生位置を容易に検索できるようにするものである。
本開示の一側面の表示制御装置は、複数の静止画像により構成されるコンテンツを、複数のチャプタに区分するためのチャプタポイントデータを生成するチャプタポイント生成部と、前記チャプタポイントデータに基づいて、前記チャプタ毎に設けられたチャプタ表示領域に、前記チャプタの各シーンを代表する代表画像を表示させ、前記コンテンツを構成する前記複数の静止画像のうち、予め決められたユーザ操作で選択された静止画像に基づき指定される画像群を、前記コンテンツの総再生時間における、前記画像群を構成する各静止画像の再生位置とともに表示させる表示制御部とを含む表示制御装置である。
前記チャプタポイント生成部では、前記コンテンツを、ユーザの変更操作に応じて変更されるチャプタ数のチャプタに区分することにより得られる前記チャプタポイントデータを生成し、前記表示制御部では、前記チャプタ数からなるチャプタ毎に設けられたチャプタ表示領域に、前記チャプタの各シーンを代表する代表画像を表示させることができる。
前記表示制御部では、前記コンテンツを構成する前記複数の静止画像のうち、前記代表画像として表示された静止画像が選択されたことに対応して、選択された前記代表画像に代表されるシーンを構成する各静止画像を、前記再生位置とともに表示させることができる。
前記表示制御部では、前記コンテンツを構成する前記複数の静止画像のうち、前記シーンを構成する静止画像として表示された静止画像が選択されたことに対応して、選択された前記静止画像と同様の表示内容とされた各静止画像を、前記再生位置とともに表示させることができる。
前記表示制御部では、注目されている静止画像の前記再生位置を強調して表示させることができる。
前記コンテンツに基づいて、前記コンテンツを構成する各静止画像の属性をそれぞれ表すシンボルを生成するシンボル列生成部をさらに設けることができ、前記表示制御部では、前記コンテンツを構成する前記複数の静止画像のうち、前記シーンを構成する静止画像として表示された静止画像が選択されたことに対応して、選択された前記静止画像のシンボルと同一のシンボルに対応する各静止画像を、前記再生位置とともに表示させることができる。
前記シンボル列生成部により生成される各シンボルの分散に基づいて、前記コンテンツを複数のチャプタに区分する区分部をさらに設けることができる。
前記コンテンツから、前記コンテンツの特徴を表す特徴量を抽出する特徴量抽出部をさらに設けることができ、前記表示制御部では、前記特徴量にも基づいて、前記チャプタ毎に設けられたチャプタ表示領域に、所定のシーンの特徴を表す特徴表示を、前記所定のシーンを代表する代表画像に付加して表示させることができる。
前記表示制御部では、前記静止画像を縮小して得られるサムネイル画像を表示させることができる。
本開示の一側面の表示制御方法は、画像を表示させる表示制御装置の表示制御方法であって、前記表示制御装置による、複数の静止画像により構成されるコンテンツを、複数のチャプタに区分するためのチャプタポイントデータを生成するチャプタポイント生成ステップと、前記チャプタポイントデータに基づいて、前記チャプタ毎に設けられたチャプタ表示領域に、前記チャプタの各シーンを代表する代表画像を表示させ、前記コンテンツを構成する前記複数の静止画像のうち、予め決められたユーザ操作で選択された静止画像に基づき指定される画像群を、前記コンテンツの総再生時間における、前記画像群を構成する各静止画像の再生位置とともに表示させる表示制御ステップとを含む表示制御方法である。
本開示の一側面のプログラムは、コンピュータを、複数の静止画像により構成されるコンテンツを、複数のチャプタに区分するためのチャプタポイントデータを生成するチャプタポイント生成部と、前記チャプタポイントデータに基づいて、前記チャプタ毎に設けられたチャプタ表示領域に、前記チャプタの各シーンを代表する代表画像を表示させ、前記コンテンツを構成する前記複数の静止画像のうち、予め決められたユーザ操作で選択された静止画像に基づき指定される画像群を、前記コンテンツの総再生時間における、前記画像群を構成する各静止画像の再生位置とともに表示させる表示制御部として機能させるためのプログラムである。
本開示によれば、複数の静止画像により構成されるコンテンツを、複数のチャプタに区分するためのチャプタポイントデータが生成され、前記チャプタポイントデータに基づいて、前記チャプタ毎に設けられたチャプタ表示領域に、前記チャプタの各シーンを代表する代表画像が表示され、前記コンテンツを構成する前記複数の静止画像のうち、予め決められたユーザ操作で選択された静止画像に基づき指定される画像群が、前記コンテンツの総再生時間における、前記画像群を構成する各静止画像の再生位置とともに表示される。
本開示によれば、コンテンツから、ユーザの所望する再生位置を容易に検索することが可能となる。
第1の実施の形態であるレコーダの構成例を示すブロック図である。 図1のシンボル列生成部が生成するシンボル列の一例を示す図である。 図1のコンテンツモデル学習部の構成例を示すブロック図である。 left-to-right型のHMMの一例を示す図である。 エルゴディック(Ergodic)型のHMMの一例を示す図である。 スパースな構造のHMMである2次元近傍拘束HMMの一例を示す図である。 スパースな構造のHMMの、2次元近傍拘束HMM以外の一例を示す図である。 図3の特徴量抽出部による特徴量の抽出の処理を示す図である。 図3のコンテンツモデル学習部が行うコンテンツモデル学習処理を説明するためのフローチャートである。 図1のシンボル列生成部の構成例を示すブロック図である。 図1のシンボル列生成部が行うシンボル列生成処理の概要を説明するための図である。 図1のシンボル列生成部が行うシンボル列生成処理を説明するためのフローチャートである。 図1の分割部が、シンボル列に基づいて、コンテンツを複数のセグメントに分割するときの一例を示す図である。 図1の分割部が行う再帰二分割処理を説明するためのフローチャートである。 図1の分割部が行う焼きなまし分割処理を説明するためのフローチャートである。 図1のレコーダが行うコンテンツ分割処理を説明するためのフローチャートである。 第2の実施の形態であるレコーダの構成例を示すブロック図である。 図17の分割部により生成されるチャプタポイントデータの一例を示す図である。 図17のダイジェスト生成部が行うダイジェスト生成処理の概要を説明するための図である。 図17のダイジェスト生成部の詳細な構成例を示すブロック図である。 図20の特徴量抽出部が、音声パワー時系列データを生成する様子を説明するための図である。 フレームの動きベクトルの一例を示す図である。 ズームインテンプレートの一例を示す図である。 図20のエフェクト追加部が行う処理を説明するための図である。 図17のレコーダが行うダイジェスト生成処理を説明するためのフローチャートである。 第3の実施の形態であるレコーダの構成例を示すブロック図である。 ユーザの指定操作により、チャプタポイントデータが変化する様子の一例を示す図である。 チャプタポイントとされたフレームの一例を示す図である。 チャプタポイントとされたフレームの右方向に、50フレームの間隔でサムネイル画像を表示させるときの一例を示す図である。 表示部の表示画面の一例を示す第1の図である。 表示部の表示画面の一例を示す第2の図である。 表示部の表示画面の一例を示す第3の図である。 表示部の表示画面の一例を示す第4の図である。 図26の提示部の詳細な構成例を示すブロック図である。 表示部の表示画面の一例を示す第5の図である。 表示部の表示画面の一例を示す第6の図である。 表示部の表示画面の一例を示す第7の図である。 表示部の表示画面の一例を示す第8の図である。 表示部の表示画面の一例を示す第9の図である。 図26のレコーダが行う提示処理を説明するためのフローチャートである。 表示モードが移行する様子の一例を示すフローチャートである。 コンピュータの構成例を示すブロック図である。
以下、本開示における実施の形態(以下、実施の形態という)について説明する。なお、説明は以下の順序で行う。
1.第1の実施の形態(コンテンツを、意味的にまとまりのあるセグメントに区分するときの一例)
2.第2の実施の形態(コンテンツの大まかな内容がわかるダイジェストを生成するときの一例)
3.第3の実施の形態(コンテンツを構成する各チャプタのサムネイル画像を表示をするときの一例)
4.変形例
<1.第1の実施の形態>
[レコーダ1の構成例]
図1は、第1の実施の形態であるレコーダ1の構成例を示している。
図1のレコーダ1は、例えば、HD(Hard Disk)レコーダ等であり、テレビジョン放送の番組や、インターネット等のネットワークを介して提供されるコンテンツ、ビデオカメラ等で撮影したコンテンツ等の各種のコンテンツを録画(記録)(記憶)することができる。
すなわち、図1において、レコーダ1は、コンテンツ記憶部11、コンテンツモデル学習部12、モデル記憶部13、シンボル列生成部14、分割部15、制御部16、及び操作部17から構成される。
コンテンツ記憶部11は、例えば、テレビジョン放送の番組等のコンテンツを記憶(記録)する。コンテンツ記憶部11へのコンテンツの記憶が、そのコンテンツの録画となり、その録画がされたコンテンツ(コンテンツ記憶部11に記憶されたコンテンツ)は、例えば、操作部17を用いたユーザの再生操作に応じて再生される。
コンテンツモデル学習部12は、例えば、コンテンツ記憶部11に記憶されたコンテンツ等を、所定の特徴量空間において自己組織的に構造化し、コンテンツの構造(時空間構造)を表すモデル(以下、コンテンツモデルともいう)を求める学習(統計学習)を行う。コンテンツモデル学習部12は、学習の結果得られるコンテンツモデルを、モデル記憶部13に供給する。
モデル記憶部13は、コンテンツモデル学習部12から供給されるコンテンツモデルを記憶する。
シンボル列生成部14は、コンテンツ記憶部11からコンテンツを読み出す。そして、シンボル列生成部14は、読み出したコンテンツを構成する各フレーム(又はフィールド)の属性を表すシンボルを求め、各フレーム毎に求めた複数のシンボルを時系列に並べたシンボル列を作成(生成)し、分割部15に供給する。
すなわち、例えば、シンボル列生成部14は、コンテンツ記憶部11に記憶されたコンテンツと、モデル記憶部13に記憶されたコンテンツモデルとを用いて、複数のシンボルから構成されるシンボル列を作成し、分割部15に供給する。
ここで、シンボルとしては、例えば、特徴量空間を構成する各部分空間である複数のクラスタのうち、フレームの特徴量が含まれるクラスタを表すクラスタIDを採用することができる。
なお、クラスタIDは、そのクラスタIDが表すクラスタに応じた値とされる。すなわち、例えば、クラスタIDは、クラスタどうしの位置が近い程に、互いのクラスタIDは近い値とされる。したがって、フレームの特徴量が類似しているほどに、フレームどうしのクラスタIDは、近い値とされる。
また、例えば、シンボルとしては、複数の異なる状態をそれぞれ表す状態IDのうち、フレームの状態を表す状態IDを採用するようにしてもよい。なお、状態IDは、その状態IDが表す状態に応じた値とされる。すなわち、例えば、状態IDは、フレームの状態が近い程に、互いの状態IDは近い値とされる。
シンボルとしてクラスタIDを採用した場合、同一のシンボルに対応する各フレームは、フレームに表示されるオブジェクトが類似しているものとなる。
また、シンボルとして状態IDを採用した場合、同一のシンボルに対応する各フレームは、フレームに表示されるオブジェクトが類似している他、時間的な前後関係も類似しているものとなる。
すなわち、例えば、シンボルとしてクラスタIDを採用した場合、発車寸前の電車が表示されたフレームと、停車寸前の電車が表示されたフレームとは、同一のシンボルとされる。
これは、シンボルとしてクラスタIDを採用した場合、オブジェクトが類似しているか否かのみで、フレームにシンボルが割り当てられることによる。
これに対して、シンボルとして状態IDを採用した場合、発車寸前の電車が表示されたフレームと、停車寸前の電車が表示されたフレームとは、異なるシンボルとされる。
これは、シンボルとして状態IDを採用した場合、オブジェクトが類似しているか否かの他、時間的な前後関係も考慮して、フレームにシンボルが割り当てられることによる。
したがって、シンボルとして状態IDを採用した場合、シンボルは、クラスタIDを採用した場合よりも、フレームの属性をより詳細に表したものとなる。
第1の実施の形態では、シンボル列における各シンボルのばらつき(分散)に基づいて、コンテンツを複数のセグメントに分割する点がポイントである。
したがって、第1の実施の形態では、シンボルとして状態IDを採用した場合、シンボルとしてクラスタIDを採用した場合と比較して、精度良く、コンテンツを、意味的にまとまりのある複数のセグメントに分割できる。
なお、モデル記憶部13に、学習済みのコンテンツモデルが、既に記憶されている場合には、コンテンツモデル学習部12を設けずに、レコーダ1を構成することができる。
ここで、コンテンツ記憶部11に記憶されるコンテンツのデータは、画像、音声、及び、必要なテキスト(字幕)のデータ(ストリーム)を含むこととする。
また、ここでは、コンテンツのデータのうちの、画像のデータだけを、コンテンツモデルの学習の処理や、コンテンツモデルを用いた処理に用いることとする。
但し、コンテンツモデルの学習の処理や、コンテンツモデルを用いた処理には、画像のデータの他、音声やテキストのデータをも用いることが可能であり、この場合、処理の精度を向上させることができる。
また、コンテンツモデルの学習の処理や、コンテンツモデルを用いた処理には、画像ではなく、音声のデータだけを用いることが可能である。
分割部15は、シンボル列生成部14からのシンボル列を生成する際に用いられたコンテンツと同一のコンテンツを、コンテンツ記憶部11から読み出す。そして、分割部15は、シンボル列生成部14からのシンボル列における各シンボルのばらつき(分散)に基づいて、読み出したコンテンツを、意味的にまとまりのある複数のセグメントに分割(区分)する。
すなわち、例えば、分割部15は、意味的にまとまりのある複数のセグメントとして、番組のコーナー毎や、ニュースのトピック毎に、コンテンツを分割する。
制御部16は、例えば、操作部17からの操作信号に基づいて、コンテンツモデル学習部12、シンボル列生成部14、及び分割部15を制御する。
操作部17は、ユーザにより操作される操作ボタン等であり、ユーザにより操作されたことに対応して、ユーザの操作に対応する操作信号を、制御部16に供給する。
次に、図2は、シンボル列生成部14が生成するシンボル列の一例を示している。
なお、図2において、横軸は時刻tを表しており、縦軸は、時刻tにおけるフレーム(フレームt)のシンボルを表している。
ここで、時刻tとは、例えば、コンテンツの先頭を基準とする時刻であり、時刻tにおけるフレームtとは、コンテンツの先頭からt番目のフレームを意味する。なお、コンテンツの先頭のフレームは、フレーム0とされる。
また、シンボルは、シンボル(の値)どうしが近い程に、シンボルに対応するフレームどうしの属性は近いものとなる。
また、図2において、図中垂直方向に延びる太線の線分は、複数のシンボルから構成されるシンボル列を、6個の部分系列に分割する分割線を表す。
このシンボル列は、図2に示されるように、比較的少ない種類のシンボルが頻繁に観測される第1の部分系列(「停留」的な特徴を持つ部分系列)と、比較的多くの種類のシンボルが観測される第2の部分系列(「大分散」的な特徴を持つ部分系列)とで構成される。
図2では、第1の部分系列が4個、第2の部分系列が2個だけ示されている。
本発明者らは、複数の被験者を対象として、図2に示されるようなシンボル列を、N個(図2の場合、N=6)に分割させるための分割線を引かせる実験を行なった。そして、本発明者らは、以下のような実験結果を得た。
すなわち、被験者が、シンボル列のうち、第1の部分系列と第2の部分系列との境界や、第1の部分系列どうしの境界、第2の部分系列どうしの境界に、分割線を引くことが多いとの実験結果を得た。
また、被験者が引いた分割線の位置で、図2に示されるシンボル列に対応するコンテンツを分割した場合にも、そのコンテンツは、概ね、意味的にまとまりのある複数のセグメントに分割されていることがわかった。
したがって、分割部15は、シンボル列生成部14からのシンボル列に基づいて、被験者と同様の位置に分割線を引くことにより、コンテンツを、意味的にまとまりのある複数のセグメントに分割する。
なお、分割部15が行う具体的な処理は、図13乃至図15を参照して詳述する。
[コンテンツモデル学習部12の構成例]
図3は、図1のコンテンツモデル学習部12の構成例を示している。
コンテンツモデル学習部12は、状態が遷移する状態遷移確率と、状態から、所定の観測値が観測される観測確率とで規定される状態遷移確率モデルの学習(モデル学習)を行う。また、コンテンツモデル学習部12は、後述するクラスタ情報を得るためのクラスタ学習に用いるコンテンツである学習用コンテンツの画像の各フレームの特徴量を抽出する。さらに、コンテンツモデル学習部12は、学習用コンテンツの特徴量を用いて、クラスタ学習を行う。
すなわち、コンテンツモデル学習部12は、学習用コンテンツ選択部21、特徴量抽出部22、特徴量記憶部26、及び、学習部27から構成される。
学習用コンテンツ選択部21は、コンテンツ記憶部11に記憶されたコンテンツの中から、モデル学習及びクラスタ学習に用いるコンテンツを、学習用コンテンツとして選択し、特徴量抽出部22に供給する。
ここで、学習用コンテンツ選択部21は、コンテンツ記憶部11に記憶されたコンテンツの中から、例えば、所定のカテゴリに属する1以上のコンテンツを、学習用コンテンツとして選択する。
所定のカテゴリに属するコンテンツとは、例えば、ジャンルが同一の番組や、連続番組、毎週又は毎日その他周期的に放送される番組(タイトルが同一の番組)等の、コンテンツに潜む、コンテンツの構造が共通するコンテンツを意味する。
ジャンルとしては、例えば、スポーツ番組やニュース番組等といった、いわば大まかな分類を採用することもできるが、例えば、サッカーの試合の番組や野球の試合の番組等といった、いわば細かい分類であることが望ましい。
また、例えば、サッカーの試合の番組であれば、チャンネル(放送局)が異なるごとに、異なるカテゴリに属するコンテンツに分類することもできる。
なお、コンテンツのカテゴリとして、どのようなカテゴリを採用するかは、例えば、図1のレコーダ1に、あらかじめ設定されていることとする。
また、コンテンツ記憶部11に記憶されたコンテンツのカテゴリは、例えば、テレビジョン放送で番組とともに送信されてくる、番組のタイトルやジャンル等のメタデータや、インターネット上のサイトが提供する番組の情報等から認識することができる。
特徴量抽出部22は、学習用コンテンツ選択部21からの学習用コンテンツを、画像と音声のデータに逆多重化(分離)し、画像の各フレームの特徴量を抽出して、特徴量記憶部26に供給する。
すなわち、特徴量抽出部22は、フレーム分割部23、サブ領域特徴量抽出部24、及び、結合部25から構成される。
フレーム分割部23には、学習用コンテンツ選択部21からの学習用コンテンツの画像の各フレームが、時系列に供給される。
フレーム分割部23は、学習用コンテンツ選択部21から時系列に供給される学習用コンテンツのフレームを、順次、注目フレームとする。そして、フレーム分割部23は、注目フレームを、複数の小領域であるサブ領域に分割し、サブ領域特徴量抽出部24に供給する。
サブ領域特徴量抽出部24は、フレーム分割部23からの注目フレームの各サブ領域から、そのサブ領域の特徴量(以下、サブ領域特徴量ともいう)を抽出し、結合部25に供給する。
結合部25は、サブ領域特徴量抽出部24からの注目フレームのサブ領域のサブ領域特徴量を結合し、その結合結果を、注目フレームの特徴量として、特徴量記憶部26に供給する。
特徴量記憶部26は、特徴量抽出部22(の結合部25)から供給される学習用コンテンツの各フレームの特徴量を時系列に記憶する。
学習部27は、特徴量記憶部26に記憶された学習用コンテンツの各フレームの特徴量を用いて、クラスタ学習を行う。
すなわち、学習部27は、特徴量記憶部26に記憶された学習用コンテンツの各フレームの特徴量(ベクトル)を用いて、その特徴量の空間である特徴量空間を、複数のクラスタに分割するクラスタ学習を行い、クラスタの情報であるクラスタ情報を求める。
ここで、クラスタ学習としては、例えば、k-means法を採用することができる。クラスタ学習として、k-means法を採用する場合、クラスタ学習の結果得られるクラスタ情報は、特徴量空間のクラスタを代表する代表ベクトルと、その代表ベクトル(が代表するクラスタ)を表すコードとが対応付けられたコードブックとなる。
なお、k-means法では、注目する注目クラスタの代表ベクトルは、学習用コンテンツの特徴量(ベクトル)の中で、注目クラスタに属する特徴量(コードブックの各代表ベクトルとの距離(ユークリッド距離)の中で、注目クラスタの代表ベクトルとの距離が最も短い特徴量)の平均値(ベクトル)となる。
学習部27は、さらに、学習用コンテンツから得られたクラスタ情報を用いて、特徴量記憶部26に記憶された学習用コンテンツの各フレームの特徴量を複数のクラスタのうちのいずれかのクラスタにクラスタリングすることにより、その特徴量が属するクラスタを表すコードを求めることで、学習用コンテンツの特徴量の時系列を、コード系列に変換する(学習用コンテンツのコード系列を求める)。
ここで、クラスタ学習として、k-means法を採用する場合、そのクラスタ学習によって得られるクラスタ情報としてのコードブックを用いて行われるクラスタリングは、ベクトル量子化となる。
ベクトル量子化では、コードブックの代表ベクトルそれぞれについて、特徴量(ベクトル)との距離が計算され、その距離が最小となる代表ベクトルのコードが、ベクトル量子化結果として出力される。
学習部27は、学習用コンテンツの特徴量の時系列をクラスタリングすることにより、コード系列に変換すると、そのコード系列を用いて、状態遷移モデルの学習であるモデル学習を行う。
そして、学習部27は、モデル学習後の状態遷移確率モデルと、クラスタ学習により得られるクラスタ情報とのセットを、コンテンツモデルとして、学習用コンテンツのカテゴリと対応付けて、モデル記憶部13に供給する。
したがって、コンテンツモデルは、状態遷移確率モデルと、クラスタ情報とから構成される。
ここで、コンテンツモデルを構成する状態遷移確率モデル(コード系列を用いて学習が行われる状態遷移確率モデル)を、以下、コードモデルともいう。
[状態遷移確率モデル]
図4乃至図7を参照して、図3の学習部27がモデル学習を行う状態遷移確率モデルについて説明する。
状態遷移確率モデルとしては、例えば、HMM(Hidden Marcov Model)を採用することができる。状態遷移確率モデルとして、HMMを採用する場合、HMMの学習は、例えば、Baum-Welchの再推定法によって行われる。
図4は、left-to-right型のHMMの一例を示している。
left-to-right型のHMMは、状態が、左から右方向に、一直線上に並んだHMMであり、自己遷移(ある状態から、その状態への遷移)と、ある状態から、その状態よりも右側にある状態への遷移とを行うことができる。left-to-right型のHMMは、例えば、音声認識等で用いられる。
図4のHMMは、3つの状態s1,s2,s3から構成され、状態遷移として、自己遷移と、ある状態から、その右隣の状態への遷移とが許されている。
なお、HMMは、状態siの初期確率πi、状態遷移確率aij、及び、状態siから、所定の観測値oが観測される観測確率bi(o)で規定される。
ここで、初期確率πiは、状態siが、初期の状態(最初の状態)である確率であり、left-to-right型のHMMでは、最も左側の状態s1の初期確率π1は、1.0とされ、他の状態siの初期確率πiは、0.0とされる。
状態遷移確率aijは、状態siから状態sjに遷移する確率である。
観測確率bi(o)は、状態siへの状態遷移時に、状態siから観測値oが観測される確率である。観測確率bi(o)としては、観測値oが離散値である場合には、確率となる値(離散値)が用いられるが、観測値oが連続値である場合には、確率分布関数が用いられる。確率分布関数としては、例えば、平均値(平均ベクトル)と分散(共分散行列)とで定義されるガウス分布等を採用することができる。なお、本実施の形態では、観測値oとして、離散値が用いられる。
図5は、エルゴディック(Ergodic)型のHMMの一例を示している。
エルゴディック型のHMMは、状態遷移に制約がないHMM、すなわち、任意の状態siから任意の状態sjへの状態遷移が可能なHMMである。
図5のHMMは、3つの状態s1,s2,s3から構成され、任意の状態遷移が許されている。
エルゴディック型のHMMは、状態遷移の自由度が最も高いHMMであるが、状態数が多くなると、HMMのパラメータ(初期確率πi、状態遷移確率aij、及び、観測確率bi(o))の初期値によっては、ローカルミニマムに収束し、適切なパラメータを得られないことがある。
そこで、「自然界の現象の殆どや、ビデオコンテンツを生み出すカメラワークや番組構成は、スモールワールドネットワークのようなスパースな結合によって表現可能である」という仮説を採用し、学習部27での学習には、状態遷移を、スパース(Sparse)な構造に制約したHMMを採用することとする。
ここで、スパースな構造とは、ある状態から任意の状態への状態遷移が可能なエルゴディック型のHMMのような密な状態遷移ではなく、ある状態から状態遷移することができる状態が非常に限定されている構造(状態遷移が疎らな構造)である。
なお、ここでは、スパースな構造であっても、他の状態への状態遷移は、少なくとも1つ存在し、また、自己遷移は存在することとする。
図6は、スパースな構造のHMMである2次元近傍拘束HMMの一例を示している。
図6のA及び図6のBのHMMには、スパースな構造であることの他、HMMを構成する状態を、2次元平面上に、格子状に配置する制約が課されている。
ここで、図6のAのHMMでは、他の状態への状態遷移が、横に隣接する状態と、縦に隣接する状態とに制限されている。図6のBのHMMでは、他の状態への状態遷移が、横に隣接する状態、縦に隣接する状態、及び、斜めに隣接する状態に制限されている。
図7は、スパースな構造のHMMの、2次元近傍拘束HMM以外の一例を示している。
すなわち、図7のAは、3次元グリッド制約によるHMMの例を示している。図7のBは、2次元ランダム配置制約によるHMMの例を示している。図7のCは、スモールワールドネットワークによるHMMの例を示している。
図3の学習部27では、状態が、例えば、100乃至数百個程度の、図6や図7に示したスパースな構造のHMMの学習が、特徴量記憶部26に記憶された画像の(フレームから抽出された)特徴量のコード系列を用い、Baum-Welchの再推定法によって行われる。
学習部27での学習の結果得られるコードモデルであるHMMは、コンテンツの画像(Visual)の特徴量のみを用いた学習によって得られるので、Visual HMMと呼ぶことができる。
ここで、HMMの学習(モデル学習)に用いられる、特徴量のコード系列は、離散値であり、HMMの観測確率bi(o)としては、確率となる値が用いられる。
なお、HMMについては、例えば、Laurence Rabiner, Biing-Hwang Juang 共著、「音声認識の基礎(上・下)、NTTアドバンステクノロジ株式会社」や、本件出願人が先に提案した特願2008-064993号に記載されている。また、エルゴティック型のHMMや、スパースな構造のHMMの利用については、例えば、本件出願人が先に提案した特開2009-223444号公報に記載されている。
[特徴量の抽出]
図8は、図3の特徴量抽出部22による特徴量の抽出の処理を示している。
特徴量抽出部22において、フレーム分割部23には、学習用コンテンツ選択部21からの学習用コンテンツの画像の各フレームが、時系列に供給される。
フレーム分割部23は、学習用コンテンツ選択部21から時系列に供給される学習用コンテンツのフレームを、順次、注目フレームとし、注目フレームを、複数のサブ領域Rkに分割して、サブ領域特徴量抽出部24に供給する。
ここで、図8では、注目フレームが、横×縦が4×4個の16個のサブ領域R1,R2,・・・,R16に等分されている。
なお、1フレームをサブ領域Rkに分割するときの、サブ領域Rkの数は、4×4個の16個に限定されるものではない。すなわち、1フレームは、例えば、5×4個の20個のサブ領域Rkや、5×5個の25個のサブ領域Rk等に分割することができる。
また、図8では、1フレームが、同一のサイズのサブ領域Rkに分割(等分)されているが、サブ領域のサイズは、同一でなくても良い。すなわち、例えば、フレームの中央部分は、小さなサイズのサブ領域に分割し、フレームの周辺部分(画枠に隣接する部分等)は、大きなサイズのサブ領域に分割することができる。
サブ領域特徴量抽出部24(図3)は、フレーム分割部23からの注目フレームの各サブ領域Rkのサブ領域特徴量fk=FeatExt(Rk)を抽出し、結合部25に供給する。
すなわち、サブ領域特徴量抽出部24は、サブ領域Rkの画素値(例えば、RGB成分や、YUV成分等)を用い、サブ領域Rkの大域的な特徴量を、サブ領域特徴量fkとして求める。
ここで、サブ領域Rkの大域的な特徴量とは、サブ領域Rkを構成する画素の位置の情報を用いずに、画素値だけを用いて、加法的に計算される、例えば、ヒストグラムのような特徴量をいう。
大域的な特徴量としては、例えば、GISTと呼ばれる特徴量を採用することができる。GISTについては、例えば、A. Torralba, K. Murphy, W. Freeman, M. Rubin, "Context-based vision system for place and object recognition", IEEE Int. Conf. Computer Vision, vol. 1, no. 1, pp. 273-280, 2003.に、詳細が記載されている。
なお、大域的な特徴量は、GISTに限定されるものではない。すなわち、大域的な特徴量は、局所的な位置、明度、視点等の見えの変化に対して頑強な(変化を吸収するような)(Robustな)特徴量であれば良い。そのような特徴量としては、例えば、HLCA(局所高次相関)や、LBP(Local Binary Patterns)、カラーヒストグラム等がある。
HLCAについては、例えば、N. Otsu, T. Kurita, "A new scheme for practical flexible and intelligent vision systems", Proc. IAPR Workshop on Computer Vision, pp.431-435, 1988に、詳細が記載されている。LBPについては、例えば、Ojala T, Pietikainen M & Maenpaa T, "Multiresolution gray-scale and rotation invariant texture classification with Local Binary Patterns", IEEE Transactions on Pattern Analysis and Machine Intelligence 24(7):971-987に、詳細が記載されている(Pietikainen、及び、Maenpaaの"a"は、正確には、"a"の上部に、"・・"を付加した文字)。
ここで、上述のGISTや、LBP,HLCA、カラーヒストグラム等の大域的な特徴量は、次元数が大となる傾向があるが、次元間の相関が高い傾向もある。
そこで、サブ領域特徴量抽出部24(図3)では、サブ領域Rkから、GIST等を抽出した後、そのGIST等の主成分分析(PCA(principal component analysis))を行うことができる。そして、サブ領域特徴量抽出部24では、PCAの結果に基づき、累積寄与率が、ある程度高い値(例えば、95%等以上の値)となるように、GIST等の次元数を圧縮(制限)し、その圧縮結果を、サブ領域特徴量とすることができる。
この場合、GIST等を、次元数を圧縮したPCA空間に射影した射影ベクトルが、GIST等の次元数を圧縮した圧縮結果となる。
結合部25(図3)は、サブ領域特徴量抽出部24からの注目フレームのサブ領域R1乃至R16のサブ領域特徴量f1乃至f16を結合し、その結合結果を、注目フレームの特徴量として、特徴量記憶部26に供給する。
すなわち、結合部25は、サブ領域特徴量抽出部24からのサブ領域特徴量f1乃至f16を結合することにより、そのサブ領域特徴量f1乃至f16をコンポーネントとするベクトルを生成し、そのベクトルを、注目フレームの特徴量Ftとして、特徴量記憶部26に供給する。
ここで、図8では、時刻tのフレーム(フレームt)が、注目フレームとなっている。
図3の特徴量抽出部22では、学習用コンテンツの各フレームが、先頭から順次、注目フレームとされ、上述したようにして、特徴量Ftが求められる。そして、学習用コンテンツの各フレームの特徴量Ftは、時系列に(時間的な前後関係を維持した状態で)、特徴量抽出部22から特徴量記憶部26に供給されて記憶される。
以上のように、特徴量抽出部22では、サブ領域特徴量fkとして、サブ領域Rkの大域的な特徴量が求められ、そのサブ領域特徴量fkをコンポーネントとするベクトルが、フレームの特徴量Ftとして求められる。
したがって、フレームの特徴量Ftは、局所的な変化(サブ領域内で起こる変化)に対しては頑強であるが、フレーム全体としてのパターンの配置の変化に対してはディスクリミネイティブ(鋭敏に違いを見分ける性質)であるような特徴量となる。
[コンテンツモデル学習処理]
次に、図9のフローチャートを参照して、図3のコンテンツモデル学習部12が行う処理(コンテンツモデル学習処理)を説明する。
ステップS11において、学習用コンテンツ選択部21は、コンテンツ記憶部11に記憶されたコンテンツの中から、所定のカテゴリに属する1以上のコンテンツを、学習用コンテンツとして選択する。
すなわち、例えば、学習用コンテンツ選択部21は、コンテンツ記憶部11に記憶されたコンテンツの中から、まだ、学習用コンテンツとしていない任意の1つのコンテンツを、学習用コンテンツとして選択する。
さらに、学習用コンテンツ選択部21は、学習用コンテンツとして選択した1つのコンテンツのカテゴリを認識し、そのカテゴリに属する他のコンテンツが、コンテンツ記憶部11に記憶されている場合には、そのコンテンツ(他のコンテンツ)を、さらに、学習用コンテンツとして選択する。
学習用コンテンツ選択部21は、学習用コンテンツを、特徴量抽出部22に供給し、処理は、ステップS11からステップS12に進む。
ステップS12では、特徴量抽出部22のフレーム分割部23が、学習用コンテンツ選択部21からの学習用コンテンツの中の、まだ、注目学習用コンテンツ(以下、注目コンテンツともいう)に選択していない学習用コンテンツの1つを、注目コンテンツに選択する。
そして、処理は、ステップS12からステップS13に進み、フレーム分割部23は、注目コンテンツのフレームのうちの、まだ、注目フレームとしていない、時間的に最も先行するフレームを、注目フレームに選択し、処理は、ステップS14に進む。
ステップS14では、フレーム分割部23は、注目フレームを、複数のサブ領域に分割し、サブ領域特徴量抽出部24に供給して、処理は、ステップS15に進む。
ステップS15では、サブ領域特徴量抽出部24は、フレーム分割部23からの複数のサブ領域それぞれのサブ領域特徴量を抽出し、結合部25に供給して、処理は、ステップS16に進む。
ステップS16では、結合部25は、サブ領域特徴量抽出部24からの、注目フレームを構成する複数のサブ領域それぞれのサブ領域特徴量を結合することで、注目フレームの特徴量を生成し、処理は、ステップS17に進む。
ステップS17では、フレーム分割部23は、注目コンテンツのすべてのフレームを注目フレームとしたかどうかを判定する。
ステップS17において、注目コンテンツのフレームの中に、まだ、注目フレームとしていないフレームがあると判定された場合、処理は、ステップS13に戻り、以下、同様の処理が繰り返される。
また、ステップS17において、注目コンテンツのすべてのフレームを注目フレームとしたと判定された場合、処理は、ステップS18に進み、結合部25は、注目コンテンツについて求めた注目コンテンツの各フレームの特徴量(の時系列)を、特徴量記憶部26に供給して記憶させる。
そして、処理は、ステップS18からステップS19に進み、フレーム分割部23は、学習用コンテンツ選択部21からの学習用コンテンツのすべてを、注目コンテンツとしたかどうかを判定する。
ステップS19において、学習用コンテンツの中に、まだ、注目コンテンツとしていない学習用コンテンツがあると判定された場合、処理は、ステップS12に戻り、以下、同様の処理が繰り返される。
また、ステップS19において、学習用コンテンツのすべてを、注目コンテンツとしたと判定された場合、処理は、ステップS20に進み、学習部27は、特徴量記憶部26に記憶された、学習用コンテンツの特徴量(各フレームの特徴量の時系列)を用いて、コンテンツモデルの学習を行う。
すなわち、学習部27は、特徴量記憶部26に記憶された学習用コンテンツの各フレームの特徴量(ベクトル)を用いて、その特徴量の空間である特徴量空間を、複数のクラスタに分割するクラスタ学習を、k-means法によって行い、既定数としての、例えば、100乃至数100のクラスタ(代表ベクトル)のコードブックを、クラスタ情報として求める。
さらに、学習部27は、クラスタ学習によって得られたクラスタ情報としてのコードブックを用いて、特徴量記憶部26に記憶された学習用コンテンツの各フレームの特徴量をクラスタリングするベクトル量子化を行い、学習用コンテンツの特徴量の時系列を、コード系列に変換する。
学習部27は、学習用コンテンツの特徴量の時系列をクラスタリングすることにより、コード系列に変換すると、そのコード系列を用いて、HMM(離散HMM)の学習であるモデル学習を行う。
そして、学習部27は、モデル学習後のHMMであるコードモデルと、クラスタ学習により得られるクラスタ情報としてのコードブックとのセットを、コンテンツモデルとして、学習用コンテンツのカテゴリと対応付けて、モデル記憶部13に出力(供給)し、コンテンツモデル学習処理を終了する。
なお、コンテンツモデル学習処理は、任意のタイミングで開始することができる。
以上のコンテンツモデル学習処理によれば、コードモデルであるHMMにおいて、学習用コンテンツに潜む、コンテンツの構造(例えば、番組構成や、カメラワーク等が作り出す構造)が自己組織的に獲得される。
その結果、コンテンツモデル学習処理よって得られるコンテンツモデルにおけるコードモデルとしてのHMMの各状態は、学習によって獲得されたコンテンツの構造の要素に対応し、状態遷移は、コンテンツの構造の要素どうしの間での、時間的な遷移を表現する。
そして、コードモデルの状態は、特徴量空間(特徴量抽出部22(図3)で抽出される特徴量の空間)において、空間的な距離が近く、かつ、時間的な前後関係が似ているフレーム群(つまり「似たシーン」)をまとめて表現する。
[シンボル列生成部14の構成例]
図10は、図1のシンボル列生成部14の構成例を示している。
シンボル列生成部14は、コンテンツ選択部31、モデル選択部32、特徴量抽出部33、及び最尤状態系列推定部34から構成される。
コンテンツ選択部31は、制御部16からの制御に従い、コンテンツ記憶部11に記憶されたコンテンツの中から、シンボル列を生成するためのコンテンツを、注目コンテンツとして選択する。
なお、制御部16は、例えば、操作部17からの、ユーザの選択操作に対応する操作信号に基づいて、コンテンツ選択部31を制御し、ユーザの選択操作により選択されたコンテンツを、注目コンテンツとして選択させる。
また、コンテンツ選択部31は、注目コンテンツを、特徴量抽出部33に供給する。さらに、コンテンツ選択部31は、注目コンテンツのカテゴリを認識し、モデル選択部32に供給する。
モデル選択部32は、モデル記憶部13に記憶されたコンテンツモデルの中から、コンテンツ選択部31からの、注目コンテンツのカテゴリと一致するカテゴリのコンテンツモデル(注目コンテンツのカテゴリに対応付けられたコンテンツモデル)を、注目モデルに選択する。
そして、モデル選択部32は、注目モデルを、最尤状態系列推定部34に供給する。
特徴量抽出部33は、コンテンツ選択部31から供給される注目コンテンツの(画像の)各フレームの特徴量を、図3の特徴量抽出部22と同様にして抽出し、注目コンテンツの各フレームの特徴量(の時系列)を、最尤状態系列推定部34に供給する。
最尤状態系列推定部34は、モデル選択部32からの注目モデルのクラスタ情報を用いて、特徴量抽出部33からの注目コンテンツの特徴量(の時系列)をクラスタリングし、注目コンテンツの(特徴量の)コード系列を求める。
さらに、最尤状態系列推定部34は、例えば、Viterbiアルゴリズムに従い、モデル選択部32からの注目モデルのコードモデルにおいて、特徴量抽出部33からの注目コンテンツの(特徴量の)コード系列が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列(いわゆるビタビパスを構成する状態の系列)を推定する。
そして、最尤状態系列推定部34は、注目モデルのコードモデル(以下、注目コードモデルともいう)において、注目コンテンツのコード系列が観測される場合の最尤状態系列(以下、注目コンテンツに対する注目コードモデルの最尤状態系列ともいう)を、シンボル列として、分割部15に供給する。
なお、最尤状態系列推定部34は、注目コンテンツに対する注目コードモデルの最尤状態系列に代えて、クラスタリングにより求めた注目コンテンツのコード系列(クラスタIDの系列)を、シンボル列として、分割部15に供給するようにしてもよい。
ここで、注目コンテンツに対する注目コードモデルの最尤状態系列の先頭を基準とする時刻tの状態(最尤状態系列を構成する、先頭からt番目の状態)を、s(t)と表すとともに、注目コンテンツのフレーム数を、Tと表すこととする。
この場合、注目コンテンツに対する注目コードモデルの最尤状態系列は、T個の状態s(1),S(2),・・・,s(T)の系列であり、そのうちのt番目の状態(時刻tの状態)s(t)は、注目コンテンツの時刻tのフレーム(フレームt)に対応する。
また、注目コードモデルの状態の総数をNと表すこととすると、時刻tの状態s(t)は、N個の状態s1,s2,・・・,sNのうちのいずれかである。
さらに、N個の状態s1,s2,・・・,sNのそれぞれには、状態を特定するインデクスである状態ID(Identification)が付されている。
いま、注目コンテンツに対する注目コードモデルの最尤状態系列の時刻tの状態s(t)が、N個の状態s1乃至sNのうちのi番目の状態siであるとすると、時刻tのフレームは、状態siに対応する。
したがって、注目コンテンツの各フレームは、N個の状態s1乃至sNのうちのいずれかに対応する。
注目コンテンツに対する注目コードモデルの最尤状態系列の実体は、注目コンテンツの各時刻tのフレームが対応する、N個の状態s1乃至sNのうちのいずれかの状態の状態IDの系列である。
図11は、図10のシンボル列生成部14が行うシンボル列生成処理の概要を示している。
図11のAは、コンテンツ選択部31において注目コンテンツとして選択されたコンテンツのフレームの時系列を示している。
図11のBは、特徴量抽出部33において抽出された、図11のAのフレームの時系列の特徴量の時系列を示している。
図11のCは、最尤状態系列推定部34において、図11のBの特徴量の時系列をクラスタリングすることにより得られるコードのコード系列を示している。
図11のDは、最尤状態系列推定部34において推定される、注目コードモデルにおいて、図11のCの注目コンテンツの(特徴量の時系列の)コード系列が観測される最尤状態系列(注目コンテンツに対する注目コードモデルの最尤状態系列)を示している。
シンボル列生成部14は、図11のCに示されるコード系列をシンボル列として、分割部15に供給する場合、コード系列を構成する各コード(クラスタID)を、シンボルとして、分割部15に供給する。
また、シンボル列生成部14は、図11のDに示される最尤状態系列をシンボル列として、分割部15に供給する場合、最尤状態系列を構成する各状態IDを、シンボルとして、分割部15に供給する。
[シンボル列生成部14の動作説明]
次に、図12のフローチャートを参照して、シンボル列生成部14が行うシンボル列生成処理を説明する。
このシンボル列生成処理は、例えば、ユーザが、操作部17を用いて、コンテンツ記憶部11に記憶されたコンテンツの中から、シンボル列を生成するためのコンテンツを選択する選択操作を行ったときに開始される。
このとき、操作部17は、ユーザの選択操作に対応する操作信号を、制御部16に供給する。制御部16は、操作部17からの操作信号に基づいて、コンテンツ選択部31を制御する。
すなわち、ステップS41では、コンテンツ選択部31は、制御部16からの制御に従い、コンテンツ記憶部11に記憶されたコンテンツの中から、シンボル列を生成するためのコンテンツを、注目コンテンツとして選択する。
そして、コンテンツ選択部31は、注目コンテンツを、特徴量抽出部33に供給する。また、コンテンツ選択部31は、注目コンテンツのカテゴリを認識し、モデル選択部32に供給する。
ステップS42では、モデル選択部32は、モデル記憶部13に記憶されたコンテンツモデルの中から、コンテンツ選択部31からの、注目コンテンツのカテゴリと一致するカテゴリのコンテンツモデル(注目コンテンツのカテゴリに対応付けられたコンテンツモデル)を、注目モデルに選択する。
そして、モデル選択部32は、注目モデルを、最尤状態系列推定部34に供給する。
ステップS43では、特徴量抽出部33は、コンテンツ選択部31から供給される注目コンテンツの(画像の)各フレームの特徴量を、図3の特徴量抽出部22と同様にして抽出し、注目コンテンツの各フレームの特徴量(の時系列)を、最尤状態系列推定部34に供給する。
ステップS44では、最尤状態系列推定部34は、モデル選択部32からの注目モデルのクラスタ情報を用いて、特徴量抽出部33からの注目コンテンツの特徴量(の時系列)をクラスタリングし、注目コンテンツの(特徴量の)コード系列を求める。
さらに、最尤状態系列推定部34は、例えば、Viterbiアルゴリズムに従い、モデル選択部32からの注目モデルのコードモデルにおいて、特徴量抽出部33からの注目コンテンツの(特徴量の)コード系列が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列(いわゆるビタビパスを構成する状態の系列)を推定する。
そして、最尤状態系列推定部34は、注目モデルのコードモデル(以下、注目コードモデルともいう)において、注目コンテンツのコード系列が観測される場合の最尤状態系列(以下、注目コンテンツに対する注目コードモデルの最尤状態系列ともいう)を、シンボル列として、分割部15に供給する。
なお、最尤状態系列推定部34は、注目コンテンツに対する注目コードモデルの最尤状態系列に代えて、クラスタリングにより求めた注目コンテンツのコード系列を、シンボル列として、分割部15に供給するようにしてもよい。以上でシンボル列生成処理は終了される。
次に、図13は、分割部15が、シンボル列生成部14からのシンボル列に基づいて、コンテンツを意味的にまとまりのある複数のセグメントに分割するときの一例を示している。
なお、図13は、図2と同様に構成されている。すなわち、例えば、図13において、横軸は時刻tを表しており、縦軸はフレームtのシンボルを表している。
また、図13には、コンテンツを6個のセグメントS1,S2,S3,S4,S5,S6に分割するための分割線(太い線分で示す)が示されている。なお、分割線は、任意の時刻tに配置される(引かれる)。
ここで、シンボル列としてコード系列が採用される場合、シンボルは、コード系列を構成する各コード(図11のCに示されるコード)となる。また、シンボル列として最尤状態系列が採用される場合、シンボルは、最尤状態系列を構成するコード(図11のDに示されるコード)となる。
分割部15は、図2を参照して説明したように、第1の部分系列と第2の部分系列との境界や、第1の部分系列どうしの境界、第2の部分系列どうしの境界に、分割線を引くようにして、コンテンツを分割する。
すなわち、例えば、分割部15は、図13に示される各セグメントSi(i=1,2,…,6)のエントロピ(entropy)H(Si)の総和Qが最小となるように、分割線を引けばよい。ここで、セグメントSiのエントロピとは、セグメントSiにおけるシンボルのばらつきの程度を表す。
なお、分割線が、任意の時刻tの位置に配置された場合、フレームtを境界として、コンテンツが分割される。すなわち、例えば、まだ分割されていないコンテンツにおいて、分割線が任意の時刻tの位置に配置された場合、そのコンテンツは、先頭のフレーム0からフレームt-1までを含むセグメントと、フレームtから最後のフレームTまでを含むセグメントに分割される。
分割部15は、シンボル列生成部14からの、図13に示されるようなシンボル列における各シンボルのばらつき(分散)に基づいて、コンテンツを分割すべき分割位置(分割線を引くべき位置)を算出する。
そして、分割部15は、シンボル列生成部14からのシンボル列に対応するコンテンツを、コンテンツ記憶部11から読み出し、算出した分割位置で、複数のセグメントに分割する。
すなわち、例えば、分割部15は、操作部17を用いたユーザの指定操作により指定された総分割数Dで、コンテンツを、D個のセグメントSi(i=1,2,…,D)に分割する。
具体的には、例えば、分割部15は、次式(1)により、セグメントSi毎のエントロピH(Si)を算出する。
Figure 2013207529
ここで、式(1)において、確率P[Si](k)は、セグメントSiにおいて、例えばシンボルを昇順に並べたときの、k番目のシンボル(k番目に小さい値とされるシンボル)が出現する確率を表す。
さらに、式(1)において、P[Si](k)=(セグメントSi内における、k番目のシンボルの出現頻度数)/(セグメントSi内におけるシンボルの総数)である。
また分割部15は、次式(2)を用いて、全てのセグメントS1乃至SDのエントロピH(S1)乃至H(SD)の総和Qを算出する。
Figure 2013207529
この総和Qが最小となるときのセグメントS1,S2,S3,S4,S5,S6,…SDが、図13に示されるような分割線で分割されたセグメントS1,S2,S3,S4,S5,S6,…SDとなる。
したがって、分割部15は、算出した総和Qを最小化する最小化問題を解くことにより、コンテンツを複数のセグメントS1乃至SDに分割し、分割後のコンテンツを、コンテンツ記憶部11に供給して記憶させる。
なお、総和Qの最小化問題を解くには、例えば、再帰二分割処理や、焼きなまし分割処理を用いることができる。なお、総和Qの最小化問題を解く方法は、これに限定されず、例えばタブーサーチや遺伝的アルゴリズム等を利用して、最小化問題を解くこともできる。
ここで、再帰二分割処理とは、分割後の各セグメントのエントロピの総和が最小となる分割位置で、コンテンツを分割する処理を再帰的に(繰り返して)行うことにより、コンテンツ、複数のセグメントに分割する処理をいう。再帰二分割処理は、図14を参照して詳述する。
また、焼きなまし分割処理とは、コンテンツを任意に分割した分割位置を、エントロピの総和を最小化する分割位置に変更していく処理を行うことにより、コンテンツを、複数のセグメントに分割する処理をいう。焼きなまし分割処理は、図15を参照して詳述する。
[分割部15の動作説明]
次に、図14のフローチャートを参照して、分割部15が行う再帰二分割処理を説明する。
この再帰二分割処理は、例えば、ユーザが、操作部17を用いて、コンテンツの総分割数Dを指定する指定操作をしたときに開始される。このとき、操作部17は、ユーザの指定操作に対応する操作信号を、制御部16に供給する。
制御部16は、操作部17からの操作信号に応じて、分割部15を制御し、ユーザにより指定された総分割数Dで、分割部15にシンボル列を分割させる。
すなわち、ステップS81では、分割部15は、図示せぬ内蔵のメモリに予め保持している分割数dを1に設定する。この分割数dは、再帰二分割処理において、シンボル列を分割した分割数を表す。なお、分割数d=1であるとき、シンボル列はまだ分割されていないことを表す。
ステップS82では、分割部15は、シンボル列生成部14からのシンボル列における各シンボルの分散に基づいて、分割線を追加可能な時刻を表す追加ポイントLiのうち、まだ分割線が追加されていない追加ポイントLi毎に、分割線を追加したときのエントロピの総和Q=Q(Li)を算出する。
ここで、追加ポイントLiは、コンテンツを構成する各フレーム0乃至Tのうち、フレーム1乃至Tに対応するの時刻tとされる。
ステップS83では、分割部15は、ステップS82で算出したエントロピの総和Q(Li)のうち、総和Q(Li)が最小となるときのLiを、L*とする。そして、ステップS84では、分割部15は、追加ポイントL*に、分割線を追加し、ステップS85において分割数dに1を加算(インクリメント)する。
これにより、分割部15は、シンボル列生成部14からのシンボル列を、追加ポイントL*で分割したこととなる。
ステップS86では、分割部15は、分割数dが、ユーザの指定操作により指定された総分割数Dと等しいか否かを判定し、分割数dが総分割数Dと等しくないと判定した場合、処理をステップS82に戻し、それ以降、同様の処理を繰り返す。
また、ステップS86では、分割部15は、分割数dが総分割数Dと等しいと判定した場合、すなわち、シンボル列をD個のセグメントS1乃至SDに分割したと判定した場合、再帰二分割処理を終了する。
そして、分割部15は、コンテンツ記憶部11から、シンボル列生成部14でシンボル列に変換されたコンテンツと同一のコンテンツを読み出し、読み出したコンテンツを、シンボル列を分割した分割位置と同一の分割位置で分割する。分割部15は、複数のセグメントS1乃至SDに分割したコンテンツを、コンテンツ記憶部11に供給して記憶させる。
以上説明したように、図14の再帰二分割処理によれば、コンテンツを、エントロピH(Si)の総和Qが最小となるD個のセグメントS1乃至SDに分割するようにした。
したがって、図14の再帰二分割処理によれば、被験者と同様にして、コンテンツを、意味的にまとまりのあるセグメントに分割することが可能となる。
すなわち、例えば、コンテンツを、複数のセグメントとして、番組のコーナーや、ニュースの各トピックに、分割することができる。
また、図14の再帰二分割処理によれば、比較的単純なアルゴリズムを用いて、コンテンツを分割するようにしている。このため、再帰二分割処理では、比較的少ない計算量で、迅速に、コンテンツを分割することが可能となる。
[分割部15の他の動作説明]
次に、図15のフローチャートを参照して、分割部15が行う焼きなまし分割処理を説明する。
この焼きなまし分割処理は、例えば、ユーザが、操作部17を用いて、コンテンツの総分割数Dを指定する指定操作をしたときに開始される。このとき、操作部17は、ユーザの指定操作に対応する操作信号を、制御部16に供給する。制御部16は、操作部17からの操作信号に応じて、分割部15を制御し、ユーザにより指定された総分割数Dで、分割部15にシンボル列を分割させる。
ステップS111では、分割部15は、分割線を追加可能な時刻を表す追加ポイントLiのうち、任意にD-1個の追加ポイントLiを選択し、選択したD-1個の追加ポイントLiに分割線を追加(配置)する。これにより、分割部15は、シンボル列生成部14からのシンボル列を、暫定的に、D個のセグメントS1乃至SDに分割したこととなる。
ステップS112では、分割部15は、図示せぬ内蔵のメモリに予め保持している変数t及びjをそれぞれ1に設定する。また、分割部15は、図示せぬ内蔵のメモリに予め保持している温度パラメータtempを所定の値に設定(初期化)する。
ステップS113では、分割部15は、変数tが予め決められた閾値NREPであるか否かを判定し、変数tが閾値NREPではないと判定した場合、処理をステップS114に進める。
ステップS114では、分割部15は、変数jが予め決められた閾値NIREPであるか否かを判定し、変数jが閾値NIREPであると判定した場合、処理をステップS115に進める。なお、閾値NIREPは、閾値NREPよりも十分に大きな値とされることが望ましい。
ステップS115では、分割部15は、図示せぬ内蔵のメモリに予め保持している温度パラメータtempに0.9を乗算して得られる乗算結果temp×0.9を、変更後のtempとする。また、ステップS116では、分割部15は、変数tに1を加算(インクリメント)し、ステップS117において、変数jを1とする。
その後、処理は、ステップS113に戻され、分割部15は、それ以降同様の処理を行う。
ステップS114において、分割部15は、変数jが閾値NIREPではないと判定した場合、処理をステップS118に進める。
ステップS118では、分割部15は、分割線を追加済みのD-1個の追加ポイントLiのうち、任意の追加ポイントLiを決定し、決定した追加ポイントLiの前後RNG幅を算出する。ここで、前後RNG幅とは、追加ポイントLi-xから追加ポイントLi+xまでの範囲を表す。なお、自然数xは、分割部15で予め設定されているものとする。
ステップS119では、分割部15は、ステップS118で決定した追加ポイントLiを、同じくステップS118で算出した前後RNG幅に含まれる追加ポイントLn(nはi-xからi+xまでの自然数とされる)に移動したときのQ(Ln)を算出する。
ステップS120では、分割部15は、ステップS119で算出した複数のQ(Ln)のうち、Q(Ln)が最小となるときのLnをL*に決定し、Q(L*)を算出する。また、分割部15は、分割線が移動前のQ(Li)を算出する。
ステップS121では、分割部15は、分割線を移動後のQ(L*)から、分割線を移動前のQ(Li)を差し引いて得られる差分ΔQ=Q(L*)-Q(Li)を算出する。
ステップS122では、分割部15は、ステップS121で算出した差分ΔQが0未満であるか否かを判定し、差分ΔQが0未満であると判定した場合、処理をステップS123に進める。
ステップS123では、分割部15は、ステップS118で決定した追加ポイントLiに配置されている分割線を、ステップS120で決定した追加ポイントL*に移動させ、処理をステップS125に進める。
また、ステップS122において、分割部15は、差分ΔQが0未満ではない(0以上である)と判定した場合、処理をステップS124に進める。
ステップS124では、分割部15は、exp(ΔQ/temp)(=自然対数の底eのΔQ/temp乗)の確率で、ステップS118で決定した追加ポイントLiに配置されている分割線を、ステップS120で決定した追加ポイントL*に移動させ、処理をステップS125に進める。
ステップS125では、分割部15は、変数jに1を加算し、処理をステップS114に戻し、それ以降、同様の処理を行う。
なお、ステップS113において、分割部15は、変数tが予め決められた閾値NREPであると判定した場合、図15の焼きなまし分割処理は終了される。
そして、分割部15は、コンテンツ記憶部11から、シンボル列生成部14でシンボル列に変換されたコンテンツと同一のコンテンツを読み出し、読み出したコンテンツを、シンボル列を分割した分割位置と同一の分割位置で分割する。分割部15は、複数のセグメントS1乃至SDに分割したコンテンツを、コンテンツ記憶部11に供給して記憶させる。
以上説明したように、図15の焼きなまし分割処理によれば、図14の再帰二分割処理と同様、コンテンツを、意味的にまとまりのあるセグメントに分割することが可能となる。
ところで、分割部15は、ユーザの指定操作により指定された総分割数Dで、コンテンツ記憶部11から読み出したコンテンツを分割するようにした。しかしながら、その他、例えば、分割部15は、コンテンツを分割可能な総分割数のうち、エントロピの総和Qが最小となる総分割数Dで、コンテンツを分割するようにしてもよい。
また、例えば、ユーザの指定操作により、総分割数Dが指定されたときには、指定された総分割数Dで、総分割数Dが指定されなかったときには、エントロピの総和Qが最小となる総分割数Dで分割するようにしてもよい。
[レコーダ1の動作説明]
次に、図16のフローチャートを参照して、レコーダ1が、ユーザの指定操作により、総分割数Dが指定されたときには、指定された総分割数Dで、総分割数Dが指定されなかったときには、エントロピの総和Qが最小となる総分割数Dで分割するコンテンツ分割処理を説明する。
ステップS151では、コンテンツモデル学習部12は、図9を参照して説明したコンテンツモデル学習処理を行う。
ステップS152では、シンボル列生成部14は、図12を参照して説明したシンボル列生成処理を行う。
ステップS153では、制御部16は、操作部17からの操作信号に基づいて、ユーザの指定操作により、予め決められた期間内に総分割数Dが指定されたか否かを判定する。
そして、制御部16は、操作部17からの操作信号に基づいて、ユーザの指定操作により、総分割数Dが指定されたと判定した場合、分割部15を制御して、分割部15に、ユーザの指定操作により指定された総分割数Dでコンテンツを分割させる。
すなわち、例えば、分割部15は、図14の再帰二分割処理や図15の焼きなまし分割処理により得られる分割位置(分割線が配置される位置)で、コンテンツを分割する。そして、分割部15は、総分割数Dのセグメントに分割したコンテンツを、コンテンツ記憶部11に供給して記憶させる。
また、ステップS153では、制御部16は、操作部17からの操作信号に基づいて、ユーザの指定操作により、総分割数Dが指定されなかったと判定した場合、処理をステップS155に進める。
ステップS155以降の処理では、制御部16は、分割部15を制御して、コンテンツを分割可能な総分割数のうち、エントロピの総和Qが最小となる総分割数Dを算出し、算出した総分割数Dで、分割対象のコンテンツを分割させる。
すなわち、ステップS155では、分割部15は、例えば、再帰二分割処理や焼きなまし分割処理の一方である分割処理を用いて、所定の総分割数D(例えば、D=2)でシンボル列を分割するときのエントロピの総和QDを算出する。
ステップS156では、分割部15は、算出した総和QDに基づいて、平均エントロピmean(QD)= QD/Dを算出する。
ステップS157では、分割部15は、ステップS155と同一の分割処理を用いて、総分割数D+1でシンボル列を分割するときのエントロピの総和QD+1を算出する。
ステップS158では、分割部15は、算出したQD+1に基づいて、平均エントロピmean(QD+1)=QD+1/(D+1)を算出する。
ステップS159では、分割部15は、ステップS158で算出した平均エントロピmean(QD+1)から、ステップS156で算出した平均エントロピmean(QD)を差し引いて得られる差分Δmeanを算出する。
ステップS160では、分割部15は、ステップS159で算出した差分Δmeanが予め決められた閾値TH未満であるか否かを判定し、差分Δmeanが閾値TH未満ではない(閾値TH以上である)と判定した場合、処理をステップS161に進める。
ステップS161では、分割部15は、所定の総分割数Dに1を加算して得られる加算結果D+1を、新たな所定の総分割数Dとし、処理をステップS157に戻し、それ以降同様の処理を行う。
ステップS160では、分割部15は、ステップS159で算出した差分Δmeanが閾値TH未満であると判定した場合、所定の総分割数Dでシンボル列を分割するときのエントロピの総和Qが最小であるものとし、処理をステップS162に進める。
ステップS162では、分割部15は、シンボル列を分割した分割位置と同一の分割位置で、コンテンツを分割し、その分割により得られる、所定の総分割数Dで分割されたコンテンツを、コンテンツ記憶部11に供給して記憶させる。以上で、図16のコンテンツ分割処理は終了される。
以上説明したように、図16のコンテンツ分割処理では、ユーザの指定操作により、総分割数Dが指定されたときには、指定された総分割数Dでコンテンツを分割した。このため、ユーザが指定した所望の総分割数Dでコンテンツを分割できる。
また、図16のコンテンツ分割処理によれば、ユーザの指定操作により、総分割数Dが指定されなかったときには、シンボル列のエントロピの総和Qが最小となる総分割数Dでコンテンツを分割するようにした。このため、コンテンツを分割する際に、ユーザが総分割数Dを指定する手間を省くことが可能となる。
第1の実施の形態では、レコーダ1は、コンテンツを、意味的にまとまりのある複数のセグメントに分割するようにした。これにより、レコーダ1のユーザは、意味的にまとまりのある複数のセグメントの中から、所望のセグメント(例えば、番組の一部分である所定のコーナー)を選択して再生させることがきる。
第1の実施の形態では、レコーダ1が、コンテンツを複数のセグメントに分割するようにしたが、分割の対象はコンテンツに限定されず、例えば、音声データや、脳波の波形などであってもよい。すなわち、分割の対象は、データが時系列に並ぶ時系列データであれば、どのようなデータであってもよい。
ところで、セグメント毎に、そのセグメントのダイジェスト(要約)を生成すれば、ユーザは、生成されたダイジェストを参照することにより、所望のセグメントをより容易に選択して再生させることができる。
このため、コンテンツを意味的にまとまりのある複数のセグメントに分割する他、複数のセグメント毎にダイジェストを生成することが望ましい。
次に、図17乃至図25を参照して、コンテンツを意味的にまとまりのある複数のセグメントに分割する他、複数のセグメント毎にダイジェストを生成するようにしたレコーダ51について説明する。
<2.第2の実施の形態>
[レコーダ51の構成例]
次に、図17は、第2の実施の形態であるレコーダ51の構成例を示している。
なお、図17のレコーダ51では、第1の実施の形態であるレコーダ1(図1)と同様に構成される部分について同一の符号を付すようにしているので、それらの説明は、以下、適宜省略する。
すなわち、レコーダ51において、図1の分割部15に代えて分割部71が設けられているとともに、新たにダイジェスト生成部72が設けられている他は、図1のレコーダ1と同様に構成される。
分割部71は、図1の分割部15と同様の処理を行う。そして、分割部71は、複数のセグメントに分割後のコンテンツを、ダイジェスト生成部72を介して、コンテンツ記憶部11に供給して記憶させる。
また、分割部71は、コンテンツを複数のセグメントに分割したときの、各セグメントの先頭のフレーム(分割線が配置された時刻tのフレームt)を一意に識別するためのチャプタIDを、チャプタポイントデータとして生成し、ダイジェスト生成部72に供給する。
以下の説明では、分割部71がコンテンツを分割することにより得られるセグメントを、チャプタともいう。
次に、図18は、分割部71により生成されるチャプタポイントデータの一例を示している。
図18には、コンテンツを構成する複数のフレームのうち、フレーム番号300,720,1115,1431に対応する各フレームの時刻に、分割線が配置されたときの一例を示している。
すなわち、コンテンツが、フレーム番号0乃至299に対応する各フレームから構成されるチャプタ(セグメント)、フレーム番号300乃至719に対応する各フレームから構成されるチャプタ、フレーム番号720乃至1114に対応する各フレームから構成されるチャプタ、フレーム番号1115乃至1430に対応する各フレームから構成されるチャプタ、・・・に分割されたときの一例を示している。
ここで、フレーム番号tとは、コンテンツの先頭からt番目のフレームtを一意に識別するための番号をいう。
チャプタIDは、チャプタを構成する各フレームのうち、先頭のフレーム(フレーム番号が最小のフレーム)に対応付けられている。すなわち、チャプタID「0」は、フレーム番号0のフレーム0に対応付けられ、チャプタID「1」は、フレーム番号300のフレーム300に対応付けられる。また、チャプタID「2」は、フレーム番号720のフレーム720に対応付けられ、チャプタID「3」は、フレーム番号1115のフレーム1115に対応付けられ、チャプタID「4」は、フレーム番号1431のフレーム1431に対応付けられる。
分割部71は、図18に示されるような複数のチャプタIDを、チャプタポイントデータとして、図17のダイジェスト生成部72に供給する。
図17に戻る。ダイジェスト生成部72は、コンテンツ記憶部11から、分割部71が読み出したコンテンツと同一のコンテンツを読み出す。
また、ダイジェスト生成部72は、分割部71からのチャプタポイントデータに基づいて、コンテンツ記憶部11から読み出したコンテンツの各チャプタを識別する。そして、ダイジェスト生成部72は、識別した各チャプタから、予め決められた長さ(基本セグメント長)のチャプタセグメントを抽出する。
すなわち、ダイジェスト生成部72は、識別した各チャプタから、チャプタを代表する部分、つまり、例えば、チャプタの先頭から基本セグメント長までの予め決められた部分などを、チャプタセグメントとして抽出する。
なお、基本セグメント長は、例えば、5乃至10秒の範囲とされる。また、基本セグメント長は、操作部17を用いたユーザの変更操作により変更することができる。
さらに、ダイジェスト生成部72は、読み出したコンテンツから、特徴量時系列データを抽出し、抽出した特徴量時系列データに基づいて、各チャプタから、基本セグメント長の、特徴的な部分である特徴ピークセグメントを抽出する。
なお、特徴量時系列データとは、特徴ピークセグメントを抽出する際に用いられる時系列の特徴量を表す。特徴量時系列データの詳細は後述する。
また、ダイジェスト生成部72は、特徴ピークセグメントを、チャプタセグメントとは異なる長さで抽出するようにしてもよい。すなわち、チャプタセグメントの基本セグメント長と、特徴ピークセグメントの基本セグメント長とは、異なる長さとすることができる。
さらに、ダイジェスト生成部72は、1個のチャプタから、1個の特徴ピークセグメントを抽出するようにしてもよいし、複数の特徴ピークセグメントを抽出するようにしてもよい。また、ダイジェスト生成部72は、必ずしも、各チャプタから、特徴ピークセグメントを抽出する必要はない。
ダイジェスト生成部72は、各チャプタから抽出したチャプタセグメントと特徴ピークセグメントを、時系列に並べることにより、コンテンツの大まかな内容を表すダイジェストを生成し、コンテンツ記憶部11に供給して記憶させる。
なお、ダイジェスト生成部72は、チャプタセグメントとして抽出すべき期間内に、著しいシーンの切替わりが発生している場合、シーンの切替わりの直前までを、チャプタセグメントとして抽出することができる。
これにより、ダイジェスト生成部72は、区切りのよいところで分割されたチャプタセグメントを抽出することが可能となる。このことは、特徴ピークセグメントについても同様である。
なお、ダイジェスト生成部72は、例えば、時間的に隣接するフレームどうしの各画素の差分絶対値和が、所定の閾値以上であるか否かに基づいて、著しいシーンの切替わりが発生しているか否かを判定する。
また、例えば、ダイジェスト生成部72は、識別したチャプタの音声データに基づいて、そのチャプタで発話が行なわれている発話区間を検出するようにしてもよい。
そして、ダイジェスト生成部72は、チャプタセグメントとして抽出すべき期間を経過しても、発話が行われているときには、その発話が終了するまでを、チャプタセグメントとして抽出するように構成することができる。このことは、特徴ピークセグメントについても同様である。
また、発話区間が、基本セグメント長よりも十分に長い場合、すなわち、例えば、発話区間が、基本セグメント長の2倍以上である場合、ダイジェスト生成部72は、発話の途中で切られたチャプタセグメントを抽出するようにしてもよい。このことは、特徴ピークセグメントについても同様である。
この場合、チャプタセグメントが、発話の途中で途切れることによる違和感を、ユーザに感じさせないようなエフェクトを、チャプタセグメントに追加することが望ましい。
すなわち、例えば、ダイジェスト生成部72は、抽出したチャプタセグメントにおける発話を、チャプタセグメントの終了に伴ってフェードアウトさせる(発話の音声を徐々に小さくする)様なエフェクトを掛ける等することが望ましい。
ところで、ダイジェスト生成部72は、分割部71により分割されたコンテンツから、チャプタセグメントや特徴ピークセグメントを抽出するようにしている。
しかしながら、例えば、ユーザが編集ソフトなどを用いて、コンテンツを複数のチャプタに分割した場合、そのコンテンツを対象として、チャプタセグメントや特徴ピークセグメントを抽出することができる。なお、チャプタポイントデータは、ユーザが編集ソフトなどを用いて、コンテンツを複数のチャプタに分割した際に、編集ソフトなどにより生成されるものとする。
以下、ダイジェスト生成部72は、各チャプタから、それぞれ、1個のチャプタセグメントと1個の特徴ピークセグメントを抽出するとともに、生成したダイジェストにBGMのみを付加するものとして説明する。
次に、図19は、ダイジェスト生成部72が行うダイジェスト生成処理の概要を示している。
図19には、ダイジェストの抽出対象とされたコンテンツを、複数のチャプタに分割するための分割線が示されている。この分割線の上には、対応するチャプタIDが示されている。
また、図19には、特徴量時系列データとして、例えば音声パワー時系列データ91及び顔領域時系列データ92が示されている。
ここで、音声パワー時系列データ91とは、フレームtの音声が大であるほどに大きな値とされる時系列のデータをいう。また、顔領域時系列データとは、フレームtに表示される顔(の割合)が大であるほどに大きな値とされる時系列のデータをいう。
なお、図19において、横軸はコンテンツを再生する際の時刻tを表し、縦軸は特徴量時系列データを表す。
さらに、図19において、白色の矩形は、チャプタの先頭部分を示すチャプタセグメントを表し、斜線で示される矩形は、音声パワー時系列データ91に基づき抽出される特徴ピークセグメントを表す。また、黒色の矩形は、顔領域時系列データ92に基づき抽出される特徴ピークセグメントを表す。
ダイジェスト生成部72は、分割部71からのチャプタポイントデータ(チャプタID)に基づいて、コンテンツ記憶部11から読み出したコンテンツの各チャプタを識別し、識別した各チャプタのチャプタセグメントを抽出する。
また、ダイジェスト生成部72は、コンテンツ記憶部11から読み出したコンテンツから、例えば、図19に示されるような音声パワー時系列データ91を抽出する。
さらに、ダイジェスト生成部72は、識別した各チャプタにおいて、音声パワー時系列データ91が最大値となるときのフレームを、ピーク特徴フレームとして抽出する。
そして、ダイジェスト生成部72は、抽出したピーク特徴フレームを含む特徴ピークセグメント(例えば、ピーク特徴フレームを先頭とする特徴ピークセグメント)を、チャプタから抽出する。
なお、例えば、ダイジェスト生成部72は、一定間隔で、ピーク特徴フレームの抽出ポイントを決定する。そして、ダイジェスト生成部72は、決定した抽出ポイントに基づき決まる範囲において、音声パワー時系列データ91が最大値となるときのフレームを、ピーク特徴フレームとして抽出してもよい。
また、例えば、ダイジェスト生成部72は、音声パワー時系列データ91の最大値が、予め決められた閾値以下である場合、ピーク特徴フレームの抽出を行わないようにしてもよい。この場合、ダイジェスト生成部72は、特徴ピークセグメントを抽出しないこととなる。
さらに、例えば、ダイジェスト生成部72は、音声パワー時系列データ91の最大値に代えて、音声パワー時系列データ91が極大値となるときのフレームを、ピーク特徴フレームとして抽出するようにしてもよい。
なお、ダイジェスト生成部72は、例えば、1個の音声パワー時系列データ91を用いて、特徴ピークセグメントを抽出する他、複数の特徴量時系列データを用いて、特徴ピークセグメントを抽出するようにしてもよい。
すなわち、例えば、ダイジェスト生成部72は、コンテンツ記憶部11から読み出したコンテンツから、音声パワー時系列データ91の他、顔領域時系列データ92を抽出する。
また、ダイジェスト生成部72は、音声パワー時系列データ91及び顔領域時系列データ92のうち、チャプタにおける最大値が大となる方の特徴量時系列データを選択する。
そして、ダイジェスト生成部72は、チャプタにおいて、選択した特徴量時系列データが最大値となるときのフレームを、ピーク特徴フレームとして抽出し、抽出したピーク特徴フレームを含む特徴ピークセグメントを、チャプタから抽出する。
この場合、ダイジェスト生成部72は、所定のチャプタにおいて、音声が大きくなっている部分を特徴ピークセグメントとして抽出し、他のチャプタにおいて、顔の割合が多くなっている部分を特徴ピークセグメントとして抽出することとなる。
このため、ダイジェスト生成部72において、例えば音声が大きくなっている部分のみが、特徴ピークセグメントとして抽出されることにより、単調なダイジェストが生成されることを防止できる。
すなわち、ダイジェスト生成部72は、あたかも特徴ピークセグメントがランダムに抽出されたものであるかのようなランダム性のあるダイジェストを生成することができる。
これにより、ダイジェスト生成部72では、生成されるダイジェストがパターン化することにより、ダイジェストを視聴するユーザが飽きてしまうような事態を防止できる。
その他、例えば、ダイジェスト生成部72は、複数の特徴時系列データ毎に、特徴ピークセグメントを抽出するようにしてもよい。
すなわち、例えば、ダイジェスト生成部72は、識別した各チャプタにおいて、音声パワー時系列データ91が最大値となるときのフレームを、ピーク特徴フレームとして含む特徴ピークセグメントを抽出する。また、ダイジェスト生成部72は、顔領域時系列データ92が最大値となるときのフレームを、ピーク特徴フレームとして含む特徴ピークセグメントも抽出する。この場合、ダイジェスト生成部72は、1個のチャプタから、2個の特徴ピークセグメントを抽出することとなる。
なお、図19の右下に示されるように、チャプタID=4に対応する分割線から、チャプタID=5に対応する分割線までのチャプタからは、チャプタセグメント(白色の矩形で示す)と特徴ピークセグメント(斜線の矩形で示す)とが重複した状態で抽出されることとなる。
この場合、ダイジェスト生成部72は、チャプタセグメントと特徴ピークセグメントとを、1個のセグメントとして取り扱う。
ダイジェスト生成部72は、例えば、図19に示されるようにして抽出したチャプタセグメント及び特徴ピークセグメントを、時系列につなぎ合わせることにより、ダイジェストを生成する。
そして、ダイジェスト生成部72は、生成したダイジェストに、BGM(background music)等を付加し、BGMが付加されたダイジェストを、コンテンツ記憶部11に供給して記憶させる。
[ダイジェスト生成部72の詳細]
次に、図20は、ダイジェスト生成部72の詳細な構成例を示している。
ダイジェスト生成部72は、チャプタセグメント抽出部111、特徴量抽出部112、特徴ピークセグメント抽出部113、及びエフェクト追加部114から構成される。
なお、チャプタセグメント抽出部111及び特徴量抽出部112には、コンテンツ記憶部11からコンテンツが供給される。
また、チャプタセグメント抽出部111及び特徴ピークセグメント抽出部113には、分割部71からチャプタポイントデータが供給される。
チャプタセグメント抽出部111は、分割部71からのチャプタポイントデータに基づいて、コンテンツ記憶部11から供給されるコンテンツの各チャプタを識別する。そして、チャプタセグメント抽出部111は、識別した各チャプタから、チャプタセグメントを抽出し、エフェクト追加部114に供給する。
特徴量抽出部112は、コンテンツ記憶部11から供給されるコンテンツから、例えば複数の特徴量時系列データを抽出し、特徴ピークセグメント抽出部113に供給する。なお、特徴量時系列データについては、図21乃至図23を参照して詳述する。
また、特徴量抽出部112は、スムージングフィルタ(平滑化フィルタ)等を用いて、抽出した特徴量時系列データを平滑化することにより、特徴量時系列データに生じているノイズを除去した上で、特徴ピークセグメント抽出部113に供給するようにしてもよい。
さらに、特徴量抽出部112は、コンテンツ記憶部11からのコンテンツを、そのまま、特徴ピークセグメント抽出部113に供給する。
特徴ピークセグメント抽出部113は、分割部71からのチャプタポイントデータに基づいて、コンテンツ記憶部11から特徴量抽出部112を介して供給されるコンテンツの各チャプタを識別する。
また、特徴ピークセグメント抽出部113は、特徴量抽出部112から供給される複数の特徴量時系列データに基づいて、図19を参照して説明したように、識別した各チャプタから、特徴ピークセグメントを抽出して、エフェクト追加部114に供給する。
エフェクト追加部114は、例えば、図19に示されるようにして抽出したチャプタセグメント及び特徴ピークセグメントを、時系列につなぎ合わせることにより、ダイジェストを生成する。
また、エフェクト追加部114は、生成したダイジェストにBGM等を付加し、コンテンツ記憶部11に供給して記憶させる。なお、エフェクト追加部114が、ダイジェストにBGM等を付加する処理は、図24を参照して詳述する。
さらに、エフェクト追加部114は、生成したダイジェストを構成する各セグメント(チャプタセグメントや特徴ピークセグメント)の終了間際のフレームをフェードアウトさせたり、開始直後のフレームをフェードインさせる等のエフェクトも付加することができる。
[特徴量時系列データの例]
次に、図21乃至図23を参照して、図20の特徴量抽出部112が、コンテンツから特徴量時系列データを抽出(生成)する方法を説明する。
なお、特徴量抽出部112は、特徴量時系列データとして、例えば、顔領域時系列データ、音声パワー時系列データ、ズームイン強度時系列データ、又はズームアウト強度時系列データの少なくとも1つを、コンテンツから抽出する。
ここで、顔領域時系列データは、特徴ピークセグメント抽出部113において、フレーム上に表示される顔の領域(顔領域)の割合が多くなったときのフレームを含むセグメントを、特徴ピークセグメントとして、チャプタから抽出する際に用いられる。
特徴量抽出部112は、コンテンツを構成する各フレームtから、人間の顔が存在する領域である顔領域(のピクセル数)を検出する。そして、特徴量抽出部112は、その検出結果に基づいて、フレームt毎に顔領域特徴値f1(t)=Rt-ave(Rt')を算出することにより、フレームtの時系列に、顔領域特徴値f1(t)を並べて得られる顔領域時系列データを生成する。
なお、割合Rt=顔領域のピクセル数/フレームの総ピクセル数であり、ave(Rt')は、区間[t-WL,t+WL]に存在するフレームt'から得られる割合Rt'の平均を表す。また、時刻tはフレームtが表示される時刻を表し、値WL(>0)は予め設定された値である。
次に、図21は、特徴量抽出部112が、特徴量時系列データとして、音声パワー時系列データを生成するときの一例を示している。
図21において、音声データx(t)は、時刻tsから時刻teまでの全区間[ts,te]で再生される音声データを表している。なお、横軸は時刻tを表しており、縦軸は音声データx(t)を表す。
ここで、音声パワー時系列データは、特徴ピークセグメント抽出部113において、音声(音量)が大きくなったときのフレームを含むセグメントを、特徴ピークセグメントとして、チャプタから抽出する際に用いられる。
特徴量抽出部112は、次式(3)により、コンテンツを構成する各フレームtの音声パワーP(t)を算出する。
Figure 2013207529
ここで、式(3)において、音声パワーP(t)は、区間[t-W,t+W]における各音声データx(τ)の自乗和の平方根を表す。また、τはt-Wからt+Wまでの値とされ、Wは予め設定される。
そして、特徴量抽出部112は、区間[t-W,t+W]で算出した音声パワーP(t)の平均値から、全区間[ts,te]で算出した音声パワーP(t)の平均値を差し引くことにより得られる差分値を、フレームtにおける音声パワー特徴量値f2(t)として算出する。
特徴量抽出部112は、各フレームt毎に、音声パワー特徴量値f2(t)を算出することにより、フレームtの時系列に、音声パワー特徴量値f2(t)を並べて得られる音声パワー時系列データを生成する。
次に、図22及び図23を参照して、特徴量抽出部112が、特徴量時系列データとして、ズームイン強度時系列データを生成する方法を説明する。
なお、ズームイン強度時系列データは、特徴ピークセグメント抽出部113において、ズームイン(ズームアップ)されたときのフレームを含むセグメントを、特徴ピークセグメントとして、チャプタから抽出する際に用いられる。
図22は、フレームtの動きベクトルの一例を示している。
図22には、複数のブロックに区分されたフレームtが示されている。また、フレームtの各ブロックには、そのブロックの動きベクトルが示されている。
特徴量抽出部112は、コンテンツを構成する各フレームtを、図22に示されるような、複数のブロックに区分する。そして、特徴量抽出部112は、コンテンツを構成する各フレームtを用いて、複数のブロック毎に、ブロックマッチングなどにより、ブロックの動きベクトルを検出する。
ここで、フレームtにおけるブロックの動きベクトルとは、例えば、フレームtからフレームt+1に対する、ブロックの動きを表すベクトルをいう。
次に、図23は、フレームtの各ブロックの動きベクトルとの内積が計算される動きベクトルから構成されるズームインテンプレートの一例を示している。
このズームインテンプレートは、図23に示されるように、ズームインされたときの各ブロックの動きを表す動きベクトルにより構成される。
特徴量抽出部112は、フレームtにおける各ブロックの動きベクトルat(図22)と、それぞれ対応する、ズームインテンプレートの各ブロックの動きベクトルb(図23)との内積at・bを計算し、その計算結果の総和sum(at・b)を算出する。
また、特徴量抽出部112は、区間[t-W,t+W]に含まれるフレームt'毎に算出される総和sum(at'・b)の平均値ave(sum(at'・b))を算出する。
そして、特徴量抽出部112は、総和sum(at・b)から平均値ave(sum(at'・b))を差し引くことにより得られる差分値を、フレームtにおけるズームイン特徴量値f3(t)として算出する。ズームイン特徴量値f3(t)は、フレームtにおけるズームインの大きさに比例する。
特徴量抽出部112は、各フレームt毎に、ズームイン特徴量値f3(t)を算出することにより、フレームtの時系列に、ズームイン特徴量値f3(t)を並べて得られるズームイン強度時系列データを生成する。
ここで、ズームアウト強度時系列データは、特徴ピークセグメント抽出部113において、ズームアウトされたときのフレームを含むセグメントを、特徴ピークセグメントとして、チャプタから抽出する際に用いられる。
特徴量抽出部112は、ズームアウト強度時系列データを生成する場合、図23に示されるようなズームインテンプレートに代えて、図23に示されたテンプレートの動きベクトルとは逆向きの動きベクトルを、ズームアップテンプレートとして用いる。
すなわち、特徴量抽出部112は、ズームイン強度時系列データを生成する場合と同様に、ズームアウトテンプレートを用いて、ズームアップ強度時系列データを生成する。
次に、図24は、エフェクト追加部114が、生成したダイジェストにBGMを付加するときの詳細を説明する。
図24の上側には、ダイジェストを構成する各セグメント(チャプタセグメント及び特徴ピークセグメント)の音量の重みが示されている。
図24の下側には、図19に示されるチャプタセグメント及び特徴ピークセグメントを結合して得られるダイジェストが示されている。
エフェクト追加部114は、チャプタセグメント抽出部111からのチャプタセグメントと、特徴ピークセグメント抽出部113からの特徴ピークセグメントを、図24の下側に示されるように、時系列に結合することにより、約L秒のダイジェストを生成する。
ここで、ダイジェストの長さLは、チャプタセグメント抽出部111により抽出されるチャプタセグメントの個数や長さ、及び特徴ピークセグメント抽出部113により抽出される特徴ピークセグメントの個数や長さにより決まる。
また、例えば、ユーザは、操作部17を用いて、ダイジェストの長さLを設定することができる。すなわち、操作部17は、ユーザによる長さLの設定操作に対応する操作信号を、制御部16に供給する。制御部16は、操作部17からの操作信号に基づいて、ダイジェスト生成部72を制御して、設定操作で設定された長さLのダイジェストを、ダイジェスト生成部72に生成させる。
ダイジェスト生成部72は、抽出したセグメントの総延長(長さの総和)が長さLとなるまで、チャプタセグメントや特徴ピークセグメントを抽出していくこととなる。
この場合、ダイジェスト生成部72は、各チャプタからチャプタセグメントを優先して抽出していき、その後、特徴ピークセグメントを抽出するようにして、各チャプタから少なくともチャプタセグメントが抽出されるようにすることが望ましい。
また、例えば、ダイジェスト生成部72は、各チャプタからチャプタセグメントを優先して抽出した後、特徴ピークセグメントを抽出する際には、1又は複数の特徴量時系列データにおいて、極大値が大きい順に、対応する特徴ピークセグメントを抽出していく。
さらに、例えば、ユーザは、操作部17を用いて、ダイジェストの長さLとともに、1個のチャプタから抽出されるセグメントの長さの和Sを設定する設定操作を行うことによっても、所望の長さLのダイジェストを、ダイジェスト生成部72に生成させられる。
この場合、操作部17は、ユーザの設定操作に対応する操作信号を、制御部16に供給する。制御部16は、操作部17からの操作信号に基づいて、ユーザにより設定されたL及びSを識別し、識別したL及びSに基づいて、総分割数Dを算出(逆算)する。
すなわち、総分割数Dは、L/Sに最も近い整数値(例えば、L/Sを四捨五入した値)とされる。例えば、いま、ユーザの設定操作により、L=30に設定された他、チャプタから、7.5秒のチャプタセグメントと、7.5秒の特徴ピークセグメントを抽出するように設定された場合、つまり、S=15(7.5+7.5)に設定された場合を考える。
この場合、制御部16は、L=30及びS=15に基づいて、L/S=30/15=2を算出し、L/S=2に最も近い整数値2を、総分割数Dとして算出する。
制御部16は、分割部71を制御し、分割部71に、算出した総分割数Dに対応するチャプタポイントデータを生成させる。これにより、分割部71は、制御部16からの制御に従い、算出された総分割数Dに対応するチャプタポイントデータを生成し、ダイジェスト生成部72に供給する。
ダイジェスト生成部72は、分割部71からのチャプタポイントデータと、コンテンツ記憶部11から読み出したコンテンツとに基づいて、ユーザにより設定された長さLのダイジェストを生成し、コンテンツ記憶部11に供給して記憶させる。
また、エフェクト追加部114は、図24の上側に示したような重みαで、ダイジェストを構成する各セグメント(チャプタセグメントや特徴ピークセグメント)の音声データにαの重み付けをし、BGM(のデータ)に1-αの重み付けをする。
そして、エフェクト追加部114は、重み付け後の音声データと、重み付け後のBGMとを混合し、その結果得られる混合音声データを、ダイジェストを構成する各セグメントの音声データとして、ダイジェストを構成する各フレームに対応付ける。
なお、エフェクト追加部114は、図示せぬ内蔵のメモリに、BGM(のデータ)を予め保持しているものとし、ユーザの操作に応じて、付加されるBGMが指定されるものとする。
すなわち、例えば、エフェクト追加部114は、白色の矩形で示されるチャプタセグメントにBGMを付加する場合、BGMの音量を大きめに設定するために、チャプタセグメントの音声データに、0.5よりも小さな重みを重み付け(乗算)をする。
具体的には、例えば、エフェクト追加部114は、図24において、チャプタセグメントの音声データに0.2の重み付けをし、付加するBGM(のデータ)に0.8の重み付けをする。
また、例えば、エフェクト追加部114は、複数の特徴量時系列データのうち、音声パワー時系列データとは異なる特徴量時系列データに基づき抽出された特徴ピークセグメントにBGMを付加する場合、チャプタセグメントにBGMを付加する場合と同様の重み付けで付加する。
具体的には、例えば、エフェクト追加部114は、図24において、顔領域時系列データに基づき抽出された特徴ピークセグメント(黒色の矩形で示される)の音声データに0.2の重み付けをし、付加するBGMに0.8の重み付けをする。
また、例えば、エフェクト追加部114は、音声パワー時系列データに基づき抽出された特徴ピークセグメント(斜線の矩形で示される)にBGMを付加する場合、BGMの音量を小さめに設定するために、その特徴ピークセグメントの音声データに、0.5よりも大きな重みを重み付けをする。
具体的には、例えば、エフェクト追加部114は、図24において、音声パワー時系列データに基づき抽出された特徴ピークセグメントの音声データに0.8の重み付けをし、付加するBGMに0.2の重み付けをする。
なお、図19に示されるように、例えば、チャプタセグメントと特徴ピークセグメントとがオーバラップした(重なった)状態で抽出された場合、1個のセグメントとして抽出されることとなる。
この場合、エフェクト追加部114において、チャプタセグメントと特徴ピークセグメントから構成される1個のセグメントの音声データに適用する重みとして、先頭のフレームの時刻が時間的に後の特徴ピークセグメントに適用すべき重みが用いられる。
また、例えば、エフェクト追加部114は、図24の上側に示されるように、重みの切替わりを、不連続ではなく連続的に変化させる。
すなわち、例えば、エフェクト追加部114は、ダイジェストの音声データに対する重みを、0.2から0.8に不連続に切り替えるのではなく、所定時間(例えば、500ミリ秒)で、0.2から0.8に向かって線形に変化させる。なお、エフェクト追加部114は、重みを線形に変化させる他、非線形に変化(例えば、時間の2乗に比例するように重みを変化させるなど)させるようにしてもよい。
これにより、重み付けの切替わり時に、ダイジェストの音量やBGMの音量が急激に大きくなる等の事態を防止できるので、音量の急激な変化により、ユーザが不愉快な思いをしなくてすむ。
[レコーダ51の動作説明]
次に、図25のフローチャートを参照して、レコーダ51(特に分割部71及びダイジェスト生成部72)が行うダイジェスト生成処理を説明する。
ステップS191では、分割部71は、図1の分割部15と同様の処理を行う。そして、分割部71は、コンテンツを複数のセグメントに分割したときの、各セグメントの先頭のフレームを一意に識別するためのチャプタIDを、チャプタポイントデータとして生成する。
分割部71は、生成したチャプタポイントデータを、ダイジェスト生成部72のチャプタセグメント抽出部111及び特徴ピークセグメント抽出部113に供給する。
ステップS192では、チャプタセグメント抽出部111は、分割部71からのチャプタポイントデータに基づいて、コンテンツ記憶部11から供給されるコンテンツの各チャプタを識別する。そして、チャプタセグメント抽出部111は、識別した各チャプタから、チャプタの先頭部分を表すチャプタセグメントを抽出し、エフェクト追加部114に供給する。
ステップS193では、特徴量抽出部112は、例えば、コンテンツ記憶部11から供給されるコンテンツから、例えば複数の特徴量時系列データを抽出し、特徴ピークセグメント抽出部113に供給する。
なお、特徴量抽出部112は、スムージングフィルタ(平滑化フィルタ)等を用いて、抽出した特徴量時系列データを平滑化することにより、特徴量時系列データに生じているノイズを除去した上で、特徴ピークセグメント抽出部113に供給するようにしてもよい。
さらに、特徴量抽出部112は、コンテンツ記憶部11からのコンテンツを、そのまま、特徴ピークセグメント抽出部113に供給する。
ステップS194では、特徴ピークセグメント抽出部113は、分割部71からのチャプタポイントデータに基づいて、コンテンツ記憶部11から特徴量抽出部112を介して供給されるコンテンツの各チャプタを識別する。
そして、特徴ピークセグメント抽出部113は、特徴量抽出部112から供給される複数の特徴量時系列データに基づいて、識別した各チャプタから、特徴ピークセグメントを抽出して、エフェクト追加部114に供給する。
ステップS195では、エフェクト追加部114は、例えば、図19に示されるようにして抽出したチャプタセグメント及び特徴ピークセグメントを、時系列につなぎ合わせることにより、ダイジェストを生成する。
そして、エフェクト追加部114は、生成したダイジェストにBGM(background music)等を付加し、コンテンツ記憶部11に供給して記憶させる。以上で、図25のダイジェスト生成処理は終了される。
以上説明したように、ダイジェスト生成処理によれば、チャプタセグメント抽出部111は、各チャプタから、チャプタセグメントを抽出するようにした。そして、エフェクト追加部114は、抽出されたチャプタセグメントを少なくとも有するダイジェストを生成するようにした。
このため、ユーザは、例えば、ダイジェストを再生することにより、コンテンツの各チャプタの先頭部分であるチャプタセグメントを視聴できるようになるので、コンテンツの大まかな内容(あらすじ)を容易に把握することが可能となる。
また、ダイジェスト生成処理によれば、特徴ピークセグメント抽出部113は、例えば、複数の特徴量時系列データに基づいて、特徴ピークセグメントとして抽出するようにしている。
このため、ダイジェストの生成対象とされたコンテンツにおいて、例えば、山場となるような場面を、特徴ピークセグメントとして含むダイジェストを生成することが可能となる。
ここで、特徴ピークセグメントとして、例えば、音声が大となっている場面、ズームインやズームアウトが行われている場面、人間の顔の割合が多くなっている場面などが抽出される。
また、例えば、エフェクト追加部114は、BGM等のエフェクトを付加したダイジェストを生成するようにした。このため、ダイジェスト生成処理によれば、コンテンツの内容をより容易に理解し易いダイジェストが生成されることとなる。
さらに、エフェクト追加部114は、BGMを混合する際の重み付けを、緩やかに切り替えるようにしたので、重み付けの切替わり時に、BGMの音声や、ダイジェスト本来の音声が急に大きくなる事態を防止することが可能となる。
ところで、ユーザにおいては、コンテンツ記憶部11に記憶されているコンテンツを再生する際、所望の再生位置からコンテンツを容易に再生できることが望ましい。
次に、図26乃至図41を参照して、ユーザが、所望の再生位置を容易に検索できるようにした表示画面を表示させるレコーダ131を説明する。
<3.第3の実施の形態>
[レコーダ131の構成例]
図26は、第3の実施の形態であるレコーダ131の構成例を示している。
なお、図26のレコーダ131では、第1の実施の形態であるレコーダ1(図1)と同様に構成される部分について同一の符号を付すようにしているので、それらの説明は、以下、適宜省略する。
すなわち、レコーダ131において、図1の分割部15に代えて分割部151が設けられているとともに、新たに提示部152が設けられている他は、図1のレコーダ1と同様に構成される。
また、レコーダ131には、画像を表示する表示部132が接続されている。さらに、レコーダ131は、図17のダイジェスト生成部72を省略しているが、図17の場合と同様に、ダイジェスト生成部72を設けるようにしてもよい。
分割部151は、図1の分割部15と同様の処理を行う。また、分割部151は、図17の分割部71と同様にして、チャプタポイントデータ(チャプタID)を生成し、提示部152に供給する。
さらに、分割部151は、シンボル列生成部14から供給されるシンボル列を構成する各シンボルを、対応する、コンテンツを構成する各フレームに対応付けて、提示部152に供給する。
また、分割部151は、コンテンツ記憶部11から読み出したコンテンツを、提示部152に供給する。
提示部152は、分割部151からのチャプタポイントデータに基づいて、同じく分割部151から供給されるコンテンツの各チャプタを、行状に配置するように、表示部132に表示させる。
すなわち、例えば、提示部152は、操作部17を用いたユーザの指定操作に応じて変化する総分割数Dのチャプタを、行状に配置するように、表示部132に表示させる。
具体的には、例えば、分割部151は、ユーザの指定操作により、総分割数Dが変化したことに対応して、変化後の総分割数Dに対応する新たなチャプタポイントデータを生成し、提示部152に供給する。
提示部152は、分割部151から供給される新たなチャプタポイントデータに基づいて、ユーザの指定操作により指定された総分割数Dのチャプタを表示部132に表示させる。
また、提示部152は、後述の図39に示されるように、分割部151からのシンボルを用いて、ユーザにより選択されたフレームと同じシンボルを有するフレームをタイル状に表示させる。
次に、図27は、ユーザの指定操作により、総分割数Dが変化することに応じて、対応するチャプタポイントデータが変化する様子の一例を示している。
図27のAには、総分割数Dと、総分割数Dに対応するチャプタポイントデータとの組合せの一例が示されている。
また、図27のBには、コンテンツの時間軸上に配置されたチャプタポイントの一例が示されている。ここで、チャプタポイントとは、チャプタを構成する各フレームのうち、先頭のフレームが配置される位置を表す。
図27のAに示されるように、総分割数D=2のとき、フレーム番号0のフレームの他、フレーム番号720のフレームが、チャプタポイントとされる。
総分割数D=2のとき、コンテンツは、図27のBの1行目に示されるように、フレーム番号0のフレームを先頭とするチャプタ、及びフレーム番号720のフレームを先頭とするチャプタに分割されていることとなる。
なお、フレーム番号0のフレームは、必ず、チャプタポイントとされるため、図27のA及びBでは、フレーム番号0の図示を省略している。
そして、総分割数D=2から総分割数D=3とされるとき、フレーム番号300のフレームが、新たにチャプタポイントとされる。
総分割数D=3のとき、コンテンツは、図27のBの2行目に示されるように、フレーム番号0のフレームを先頭とするチャプタ、フレーム番号300のフレームを先頭とするチャプタ、及びフレーム番号720のフレームを先頭とするチャプタに分割されていることとなる。
また、総分割数D=3から総分割数D=4とされるとき、フレーム番号1431のフレームが、新たにチャプタポイントとされる。
総分割数D=4のとき、コンテンツは、図27のBの3行目に示されるように、フレーム番号0のフレームを先頭とするチャプタ、フレーム番号300のフレームを先頭とするチャプタ、フレーム番号720のフレームを先頭とするチャプタ、及びフレーム番号1431のフレームを先頭とするチャプタに分割されていることとなる。
さらに、総分割数D=4から総分割数D=5とされるとき、フレーム番号1115のフレームが、新たにチャプタポイントとされる。
総分割数D=5のとき、コンテンツは、図27のBの4行目に示されるように、フレーム番号0のフレームを先頭とするチャプタ、フレーム番号300のフレームを先頭とするチャプタ、フレーム番号720のフレームを先頭とするチャプタ、フレーム番号1115のフレームを先頭とするチャプタ、及びフレーム番号1431のフレームを先頭とするチャプタに分割されていることとなる。
次に、図28乃至図30を参照して、提示部152が、表示部132に表示させるための表示用データを生成する処理を説明する。なお、図28乃至図30では、総分割数D=5であるときの表示用データを、提示部152が生成する様子を説明する。
図28は、チャプタポイントとされたフレームの一例を示している。
なお、図28において、矩形はフレームを表しており、矩形内に記載された番号は、フレーム番号を表す。
提示部152は、分割部151からのチャプタポイントデータに基づいて、分割部151から供給されるコンテンツから、チャプタポイントとされたフレーム番号0,300,720,1115,1431の各フレームを抽出する。
なお、いまの場合、チャプタポイントデータは、総分割数D=5に対応するものであり、フレーム番号0,300,720,1115,1431の各フレームが、チャプタポイントとされているものとする。
提示部152は、抽出した各フレームを縮小してサムネイル画像とし、フレーム番号0,300,720,1115,1431の順序で、図28に示されるように、表示部132の表示画面に、上から下方向に表示させる。
そして、提示部152は、表示部132の表示画面に、左から右方向に、例えば50フレームの間隔で、チャプタを構成するフレームを、サムネイル画像として表示させる。
次に、図29は、チャプタポイントとされたフレームの右方向に、50フレームの間隔で、サムネイル画像を表示させるときの一例を示している。
提示部152は、分割部151からのチャプタポイントデータに基づいて、分割部151から供給されるコンテンツから、チャプタポイントとされたフレーム番号0のフレームの他、フレーム番号50,100,150,200,250の各フレームを抽出する。
そして、提示部152は、抽出した各フレームを縮小してサムネイル画像とし、フレーム番号50,100,150,200,250の順序で、フレーム番号0のフレームから右方向に表示させる。
また、提示部152は、フレーム番号300のフレームから右方向に、フレーム番号350,400,450,500,550,600,650,700の各フレームを、サムネイル画像として、フレーム番号の小さい順に表示させる。
さらに、提示部152は、同様にして、フレーム番号720のフレームから右方向に、フレーム番号770,820,870,920,970,1020,1070の各フレームを、サムネイル画像として、フレーム番号の小さい順に表示させる。また提示部152は、フレーム番号1115のフレームから右方向に、フレーム番号1165,1215,1265,1315,1365,1415の各フレームを、サムネイル画像として、フレーム番号の小さい順に表示させる。さらに提示部152は、フレーム番号1431のフレームから右方向に、フレーム番号1481,1531,1581,1631,…の各フレームを、サムネイル画像として、フレーム番号の小さい順に表示させる。
これにより、提示部152は、図30に示されるように、各チャプタ毎に、チャプタのサムネイル画像を行状に配置した表示を、表示部132に表示させることができる。
なお、提示部152は、チャプタのサムネイル画像を行状に配置する他、そのサムネイル画像に重ねるようにして、他のサムネイル画像を配置するようにしてもよい。
具体的には、例えば、提示部152は、フレーム番号300のフレームをサムネイル画像として表示し、そのフレームに隠れるように、フレーム番号301乃至349の各フレームのサムネイル画像を配置するようにしてもよい。
次に、図30は、表示部132の表示画面の一例を示している。
この表示画面には、図30に示されるように、各チャプタのサムネイル画像が、チャプタ毎に設けられたチャプタ表示領域(チャプタ番号1,2,3,4,5がそれぞれ付加された横長の矩形)に、行状に表示される。
すなわち、1行目には、コンテンツの先頭から1番目のチャプタ1のサムネイル画像として、フレーム番号0,50,100,150,200,…の各フレームが、その順序で、図中左から右方向に配置される。
つまり、表示部132は、サムネイル画像を、チャプタ1の各シーンを代表する代表画像として表示する。
具体的には、例えば、表示部132は、フレーム番号0のフレームに対応するサムネイル画像を、フレーム番号0乃至49の各フレームから構成されるシーンを代表する代表画像として表示する。このことは、図30に示されるチャプタ2乃至5についても同様である。
また、2行目には、コンテンツの先頭から2番目のチャプタ2のサムネイル画像として、フレーム番号300,350,400,450,500,…の各フレームが、その順序で、図中左から右方向に配置される。
さらに、3行目には、コンテンツの先頭から3番目のチャプタ3のサムネイル画像として、フレーム番号720,770,820,870,920,…の各フレームが、その順序で、図中左から右方向に配置される。また4行目には、コンテンツの先頭から4番目のチャプタ4のサムネイル画像として、フレーム番号1115,1165,1215,1265,1315,…の各フレームが、その順序で、図中左から右方向に配置される。
また、5行目には、コンテンツの先頭から5番目のチャプタ5のサムネイル画像として、フレーム番号1431,1481,1531,1581,1631,…の各フレームが、その順序で、図中左から右方向に配置される。
なお、表示部132の表示画面には、図30に示されるように、スライダ171も表示させることができる。このスライダ171は、総分割数Dを設定する際に、図中左右方向に移動(スライド)されるものであり、スライダ171の位置に応じて、総分割数Dを変更させることができる。
すなわち、例えば、スライダ171が図中左方向に移動するほど、総分割数Dは減少し、スライダ171が図中右方向に移動するほど、総分割数Dは増加する。
したがって、例えば、ユーザが、操作部17を用いて、図30に示される表示画面のスライダ171を、図中左方向に移動させる操作を行うと、その操作に対応して、表示部132には、図31に示されるような表示画面が表示される。
なお、分割部151は、スライダ171を用いたユーザのスライド操作に応じて、そのスライド操作に対応する総分割数Dのチャプタポイントデータを生成し、生成したチャプタポイントデータを、提示部152に供給する。
提示部152は、分割部151からのチャプタポイントデータに基づいて、図31に示されるような表示画面を生成して、表示部132に表示させる。
また、分割部151は、ユーザのスライド操作が行われる毎に、そのスライド操作に対応する総分割数Dのチャプタポイントデータを生成するようにしてもよいし、複数の異なる総分割数D毎に、チャプタポイントデータを予め生成しておいてもよい。
分割部151は、複数の異なる総分割数D毎のチャプタポイントデータを、予め生成した場合、複数の異なる総分割数D毎のチャプタポイントデータを、提示部152に供給する。
この場合、提示部152は、分割部151から供給される、複数の異なる総分割数D毎のチャプタポイントデータのうち、スライダ171を用いたユーザのスライド操作に対応する総分割数Dのチャプタポイントを選択する。そして、提示部152は、選択したチャプタポイントデータに基づいて、表示部132に表示させる表示画面を生成し、表示部132に供給して表示させる。
次に、図31は、スライダ171を、総分割数Dが減少する方向に移動させたときに、表示部132に表示される表示画面の一例を示している。
図31に示される表示画面は、図30に示された表示画面と比較して、チャプタ数(総分割数D)が、5個から3個に減少していることがわかる。
その他、例えば、提示部152は、図20の特徴量抽出部112と同様にして、分割部151からのコンテンツから、特徴量時系列データを抽出するようにしてもよい。そして、提示部152は、抽出した特徴量時系列データの強度(大きさ)に応じて、表示部132に表示されるサムネイル画像を修飾するようにしてもよい。
次に、図32は、特徴量時系列データの強度に応じて修飾されたサムネイル画像が表示される、表示部132の表示画面の他の一例を示している。
なお、図32に示されるサムネイル画像には、適宜、そのサムネイル画像に対応するフレームを含むシーン(例えば、サムネイル画像に対応するフレームを先頭とする50フレーム)の特徴に応じて、帯表示が付加される。
帯表示191a乃至191fは、それぞれ、顔領域の割合が比較的高いシーンを代表するサムネイル画像に付加される。
いま、フレーム番号100,150,350,400,450,1581の各サムネイル画像に、帯表示191a乃至191fが付加されている。
また、帯表示192a乃至192dは、それぞれ、顔領域の割合が比較的高いとともに、音声パワーが比較的大きいシーンを代表するサムネイル画像に付加される。
さらに、帯表示193a及び193bは、それぞれ、音声パワーが比較的大きいシーンを代表するサムネイル画像に付加される。
なお、帯表示191a乃至191fは、例えば、シーンを構成する各フレームのうち、顔領域の割合が所定の閾値以上となるフレームの枚数が、予め決められた枚数閾値以上となる場合に、そのシーンを代表するサムネイル画像に付加される。
その他、例えば、帯表示191a乃至191fにおいて、例えば、シーンを構成する各フレームのうち、顔領域の割合が所定の閾値以上となるフレームの枚数が多くなるほどに、帯表示191a乃至191fの色を濃くするようにしてもよい。
これらのことは、帯表示192a乃至192d、並びに帯表示193a及び193bについても同様である。
また図32では、サムネイル画像に帯表示を付加するようにしたが、その他、例えば、帯表示191a乃至191fに代えて、人間の顔を付加するようにしてもよい。すなわち、シーンの特徴を表すようなものであれば、どのような表示方法で表示するようにしてもよい。
なお、図32は、各サムネイル画像を識別するために、フレーム番号を付すようにしているが、実際には、表示部132の表示画面は、例えば図33に示されるような表示とされる。
[提示部152の詳細]
次に、図34は、図26の提示部152の詳細な構成例を示している。
提示部152は、特徴量抽出部211、表示データ生成部212、及び表示制御部213から構成される。
特徴量抽出部211には、分割部151からコンテンツが供給される。特徴量抽出部211は、図20の特徴量抽出部112と同様にして、特徴量時系列データを抽出して、表示データ生成部212に供給する。
すなわち、例えば、特徴量抽出部211は、分割部151からのコンテンツから、顔領域時系列データ、音声パワー時系列データ、ズームイン強度時系列データ、又はズームアウト強度時系列データの少なくとも1つを抽出し、表示データ生成部212に供給する。
表示データ生成部212には、特徴量抽出部211からの特徴量時系列データの他、分割部151からチャプタポイントデータが供給される。
表示データ生成部212は、特徴量抽出部211からの特徴量時系列データと、分割部151からのチャプタポイントデータに基づいて、表示部132の表示画面に、図31乃至図33に示したような表示をさせるための表示データを生成し、表示制御部213に供給する。
表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132の表示画面に、図31乃至図33に示したような表示をさせる。
なお、表示データ生成部212は、ユーザの操作に応じた表示データを生成し、表示制御部213に供給する。
そして、表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132の表示画面を、ユーザの操作に応じて変化させる。
すなわち、表示制御部213が、コンテンツのチャプタの表示の制御を行うときの表示モードとしては、レイヤ0モード、レイヤ1モード、及びレイヤ2モードの3つのモードがある。
レイヤ0モードでは、表示部132は、図31乃至図33に示したような表示とされる。
次に、図35は、レイヤ0モードにおいて、ユーザが、表示部132の表示画面上の位置を指示したときの様子の一例を示している。
ここで、以下では、説明を分かり易くするために、操作部17として、例えばマウスが採用されていることとする。ユーザは、マウスとしての操作部17を用いて、例えば、シングルクリックやダブルクリックを行うことができる。なお、操作部17は、マウスに限定されない。
レイヤ0モードでは、ユーザが、マウスとしての操作部17を操作して、ポインタ(カーソル)231を、チャプタ4の、図35の左から5番目のサムネイル画像上に移動させたとき、表示制御部213は、表示部132の表示画面を、図35に示されるような表示とする。
すなわち、レイヤ0モードでは、ポインタ231により指示されるサムネイル画像232が、強調して表示される。図35の例では、ポインタ231により指示されたサムネイル画像232が、例えば、黒色の枠で囲まれた状態で、他のサムネイル画像よりも大きく表示されている。
これにより、ユーザは、ポインタ231により指示しているサムネイル画像232を、容易に把握できる。
次に、図36は、レイヤ0モードにおいて、ポインタ231でサムネイル画像232を指示した状態で、ダブルクリックをしたときの様子の一例を示している。
サムネイル画像232が、ポインタ231により指示されている状態で、ユーザがダブルクリックをした場合、サムネイル画像232に対応するフレームから、コンテンツが再生される。
すなわち、表示制御部213は、例えば、図36に示されるように、表示部132の表示画面において、図中左上にウインドウ233を配置させる。このウインドウ233には、サムネイル画像232に対応するフレームから再生されたコンテンツ233aが表示される。
また、ウインドウ233において、コンテンツ233aの上部には、図中左から右方向に、時計マーク233b、タイムラインバー233c、再生位置表示233d、及び音量ボタン233eが配置される。
時計マーク233bは、コンテンツ233aの総再生時間のうち、コンテンツ233aが再生されている再生位置(再生時刻)を、時計の針で表示するアイコンである。なお、時計マーク233bでは、コンテンツ233aの総再生時間が、例えば、時計の針の1周の時間(0分から60分までの1時間)に割り当てられている。
タイムラインバー233cは、横長のバーであり、時計マーク233bと同様に、コンテンツ233aの再生位置を表示するものである。なお、タイムラインバー233cには、コンテンツ233aの総再生時間が、タイムラインバー233cの左端から右端までに割り当てられており、コンテンツ233aの再生位置に応じた位置に、再生位置表示233dが配置される。
なお、図36において、再生位置表示233dを、スライダとして移動可能とするように構成することができる。この場合、ユーザは、操作部17を用いて、再生位置表示233dをスライダとして移動させる移動操作を行うことにより、移動後の再生位置表示233dの位置から、コンテンツ233aを再生させることができる。
音量ボタン233eは、再生中のコンテンツ233aの音量をミュート(消音)する際や、音量を変更する際に操作されるアイコンである。
すなわち、例えば、ユーザは、操作部17を用いて、ポインタ231を音量ボタン233e上に移動させ、シングルクリックをした場合、再生中のコンテンツ233aの音量はミュートされる。
また、例えば、ユーザは、操作部17を用いて、ポインタ231を音量ボタン233e上に移動させ、ダブルクリックをした場合、再生中のコンテンツ233aの音量を変更するためのウインドウが新たに表示される。
次に、図37は、レイヤ0モードにおいて、ポインタ231でサムネイル画像232を指示した状態で、シングルクリックをしたときの様子の一例を示している。
レイヤ0モードにおいて、ポインタ231でサムネイル画像232を指示した状態(図35)で、ユーザがシングルクリックをしたとき、表示制御部213は、表示モードを、レイヤ0モードからレイヤ1モードに移行する。
そして、表示制御部213は、例えば、図37に示されるように、表示部132の表示画面において、図中下側にウインドウ251を配置させる。このウインドウ251には、タイル画像251a、時計マーク251b、タイムラインバー251c、及び再生位置表示251dが配置される。
タイル画像251aは、サムネイル画像232に畳み込まれたサムネイル画像の一覧の画像(サムネイル画像232により代表されるシーンのサムネイル画像)を表す。
なお、例えば、サムネイル画像232が、フレーム番号300のフレームに対応するサムネイル画像である場合、サムネイル画像232には、図29に示されるように、フレーム番号301乃至349の各フレームに対応するサムネイル画像が畳み込まれている。
また、ウインドウ251に、サムネイル画像232に畳み込まれたサムネイル画像の一覧の画像全てを、タイル画像251aとして表示できない場合、例えば、一部のサムネイル画像が間引かれて表示される。
その他、例えば、ウインドウ251にスクロールバーが表示され、そのスクロールバーを移動させることにより、サムネイル画像232に畳み込まれたサムネイル画像の一覧の画像全てを見られるようにしてもよい。
時計マーク251bは、コンテンツ233aの総再生時間のうち、シングルクリックされたサムネイル画像232に対応するフレームが再生される再生位置を、時計の針で表示するアイコンであり、図36の時計マーク233bと同様に構成される。
タイムラインバー251cは、コンテンツ233aの総再生時間のうち、シングルクリックされたサムネイル画像232に対応するフレームが再生される再生位置を、再生位置表示251dで表示するものであり、図36のタイムラインバー233cと同様に構成される。
さらに、タイムラインバー251cは、タイル画像251aを構成するサムネイル画像(サムネイル画像232以外)にそれぞれ対応する各フレームの再生位置も、再生位置表示251dと同様の再生位置表示を用いて表示する。
図37では、図面が煩雑になるのをさけるため、サムネイル画像232の再生位置表示251dのみを記載し、他の再生位置表示は記載していない。
また、ユーザは、操作部17を用いて、タイル画像251aを構成する複数のサムネイル画像のうち、所定のサムネイル画像を、ポインタ231で指示するマウスオン操作を行うと、ポインタ231で指示された所定のサムネイル画像が強調して表示される。
すなわち、例えば、ユーザが、操作部17を用いて、タイル画像251a内のサムネイル画像271を、ポインタ231で指示するマウスオン操作を行うと、サムネイル画像271を強調したサムネイル画像271'が表示される。
このとき、タイムラインバー251cにおいて、サムネイル画像271'の再生位置表示は、サムネイル画像271'と同様に強調して表示される。すなわち、例えば、サムネイル画像271'の再生位置表示は、他の再生位置表示とは異なる色等とされ、強調して表示される。
また、タイムラインバー251cにおいて、強調して表示された再生位置表示を、スライダとして移動可能とするように構成することができる。
この場合、ユーザは、操作部17を用いて、強調して表示された再生位置表示をスライダとして移動させる移動操作を行うことにより、例えば、移動後の再生位置表示に対応するサムネイル画像により代表されるシーンを、タイル画像251aとして表示させることができる。
なお、サムネイル画像271は、強調されたサムネイル画像271'を表示する他、図35を参照して説明したサムネイル画像232と同様の方法で、強調して表示させるようにしてもよい。
ユーザは、強調表示されたサムネイル画像271'をポインタ231で指示した状態で、操作部17を用いたダブルクリックを行うと、図38に示されるように、サムネイル画像271'(271)に対応するフレームから、コンテンツ233aの再生が行われる。
次に、図38は、レイヤ1モードにおいて、ポインタ231でサムネイル画像271'を指示した状態で、ダブルルクリックをしたときの様子の一例を示している。
レイヤ1モードにおいて、ポインタ231でサムネイル画像271'を指示した状態(図37)で、ユーザがダブルクリックをしたとき、表示制御部213は、表示モードを、レイヤ1モードからレイヤ0モードに移行する。
そして、表示制御部213は、例えば、図38に示されるように、表示部132の表示画面において、図中左上にウインドウ233を配置させる。このウインドウ233には、サムネイル画像271'(271)に対応するフレームから再生されたコンテンツ233aが表示される。
次に、図39は、レイヤ1モードにおいて、ポインタ231でサムネイル画像271'を指示した状態で、シングルクリックをしたときの様子の一例を示している。
レイヤ1モードにおいて、ポインタ231でサムネイル画像271'を指示した状態(図37)で、ユーザがシングルクリックをしたとき、表示制御部213は、表示モードを、レイヤ1モードからレイヤ2モードに移行する。
そして、表示制御部213は、例えば、図39に示されるように、表示部132の表示画面において、ウインドウ291を配置させる。このウインドウ291には、タイル画像291a、時計マーク291b、及びタイムラインバー291cが配置される。
タイル画像291aは、サムネイル画像271'(271)に表示された表示内容と同様の表示内容とされたサムネイル画像の一覧を表す。
すなわち、タイル画像291aは、コンテンツ233aを構成する各フレームのうち、サムネイル画像271'に対応するフレームのシンボルと同一のシンボルを有するフレームのサムネイル画像の一覧である。
ここで、表示データ生成部212には、分割部151からのチャプタポイントデータの他、コンテンツ233aと、コンテンツ233aのシンボル列が供給される。
表示データ生成部212は、分割部151からのシンボル列に基づいて、サムネイル画像271'に対応するフレームのシンボルと同一のシンボルを有するフレームを、分割部151からのコンテンツ233aから抽出する。
そして、表示データ生成部212は、抽出した各フレームをそれぞれサムネイル画像とし、それらのサムネイル画像の一覧であるタイル画像291aを生成し、生成したタイル画像291aを含む表示データを、表示制御部213に供給する。
表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132を制御し、表示部132の表示画面に、タイル画像291aを含むウインドウ291を表示させる。
なお、ウインドウ291に、タイル画像291aを構成するサムネイル画像全てを表示できない場合、ウインドウ291にはスクロールバー等が追加される。その他、例えば、一部分のサムネイル画像を省略するようにして、ウインドウ291に、タイル画像291aが収まるようしてもよい。
時計マーク291bは、コンテンツ233aの総再生時間のうち、シングルクリックされたサムネイル画像271'に対応するフレームが再生される再生位置を、時計の針で表示するアイコンであり、図36の時計マーク233bと同様に構成される。
タイムラインバー291cは、コンテンツ233aの総再生時間のうち、タイル画像291aとしての複数のサムネイル画像に対応する各フレームが再生される再生位置を表示するものであり、図36のタイムラインバー233cと同様に構成される。
したがって、タイムラインバー291cには、例えば、タイル画像291aとしての複数のサムネイル画像の枚数と同じ個数だけ、再生位置が表示される。
また、ユーザは、操作部17を用いて、タイル画像291aを構成する複数のサムネイル画像のうち、所定のサムネイル画像を、ポインタ231で指示するマウスオン操作を行うと、ポインタ231で指示された所定のサムネイル画像が強調して表示される。
このとき、タイムラインバー291cでは、ポイント231で指示された所定のサムネイル画像の再生位置が、例えば、他の再生位置とは異なる色等とされることにより、強調して表示される。
図39では、例えば、サムネイル画像271をポインタ231で指示するマウスオン操作を行ったときに、強調されたサムネイル画像271'が表示される場合(図37)と同様にして、所定のサムネイル画像が強調して表示される。
そして、ユーザは、強調表示された所定のサムネイル画像をポインタ231で指示した状態で、操作部17を用いたダブルクリックを行うと、図38を参照して説明した場合と同様にして、所定のサムネイル画像に対応するフレームから、コンテンツ233aの再生が行われる。
[レコーダ131の動作説明]
次に、図40のフローチャートを参照して、図26のレコーダ131(特に提示部152)が行う提示処理について説明する。
ステップS221では、分割部151は、図1の分割部15と同様の処理を行う。また、分割部151は、図17の分割部71と同様にして、チャプタポイントデータ(チャプタID)を生成し、提示部152の表示データ生成部212に供給する。
さらに、分割部151は、シンボル列生成部14からのシンボル列における各シンボルを、対応する、コンテンツの各フレームに対応付けて、提示部152の表示データ生成部212に供給する。
また、分割部151は、コンテンツ記憶部11から読み出したコンテンツを、提示部152の特徴量抽出部211に供給する。
ステップS222では、特徴量抽出部211は、図20の特徴量抽出部112と同様にして、特徴量時系列データを抽出して、表示データ生成部212に供給する。
すなわち、例えば、特徴量抽出部211は、分割部151からのコンテンツから、顔領域時系列データ、音声パワー時系列データ、ズームイン強度時系列データ、又はズームアウト強度時系列データの少なくとも1つを抽出し、表示データ生成部212に供給する。
ステップS223では、表示データ生成部212は、特徴量抽出部211からの特徴量時系列データと、分割部151からのチャプタポイントデータに基づいて、例えば、図31乃至図33に示したような表示をさせるための表示データを生成し、表示制御部213に供給する。
また例えば、表示データ生成部212は、制御部16からの制御に従い、ユーザの操作に応じて、表示部132の表示画面に表示させるための表示データを生成し、表示制御部213に供給する。
すなわち、例えば、図39に示されるように、サムネイル画像271'がポイント231で指示された状態でシングルクリックが行われた場合、表示データ生成部212は、分割部151からのシンボルを用いて、タイル画像291aを含むウインドウ291を表示させるための表示データを生成し、表示制御部213に供給する。
ステップS224では、表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132の表示画面に、表示データに対応する表示をさせる。以上で、図40の提示処理は終了される。
以上説明したように、図40の提示処理によれば、表示制御部213が、表示部132の表示画面に、コンテンツを構成する各チャプタ毎に、サムネイル画像を表示させるようにした。
このため、ユーザは、表示部132の表示画面を参照することにより、所定のチャプタにおける所望の再生位置からコンテンツを再生することが可能となる。
さらに、例えば、図40の提示処理によれば、表示制御部213が、帯表示が付加されたサムネイル画像を表示させるようにした。このため、サムネイル画像に対応するシーンの特徴を、帯表示により容易に認識できるようになる。
特に、ユーザは、サムネイル画像から、音声についての情報を得ることができないため、音声が大であるとの特徴を表す帯表示が、サムネイル画像に付加されることにより、シーンを再生することなく、シーンの特徴を容易に認識できるようになる。
さらに図40の提示処理によれば、表示部132が、例えば、図37に示されるように、サムネイル画像232に代表されるシーンのサムネイル画像を、その再生位置とともに、タイル画像251aとして表示するようにした。
また、図40の提示処理によれば、表示制御部213が、例えば、図39に示されるように、サムネイル画像271'に対応するフレームのシンボルと同じシンボルとされた各フレームのサムネイル画像を、その再生位置とともに、タイル画像291aとして表示するようにした。
これにより、ユーザは、コンテンツ233aを構成する複数のフレームの中から、再生を開始したいフレームの再生位置を、容易に検索することが可能となる。よって、ユーザは、所望の開始位置から、コンテンツ233aを容易に再生することができる。
次に、図41は、表示部制御部213の表示モードが移行する様子の一例を示している。
ステップST1において、表示制御部213の表示モードは、レイヤ0モードである。このため、表示制御部213は、表示部132を制御し、表示部132の表示画面を、図33に示したような表示とする。
例えば、制御部16は、操作部17からの操作信号に基づいて、いずれのサムネイル画像もポインタ231で指示されていない状態で、ユーザにより操作部17を用いたダブルクリックが行われたと判別した場合、処理をステップST1からステップST2に進める。
そして、ステップST2では、制御部16は、コンテンツ233aを再生中のウインドウ233が存在する場合、表示データ生成部212を制御し、そのウインドウ233を前面に表示させるための表示データを生成させ、表示制御部213に供給させる。
表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132の表示画面を、ウインドウ233が前面に表示された表示画面に変更させ、処理はステップST2からステップST1に戻る。
また、ステップST1において、制御部16は、適宜、処理をステップST3に進める。
ステップST3では、制御部16は、操作部17からの操作信号に基づいて、ユーザにより、スライダ171をスライドさせるスライド操作等が行われたか否かを判別する。そして、制御部16は、操作部17からの操作信号に基づいて、ユーザによるスライド操作等が行われたと判別した場合、表示データ生成部212に、ユーザのスライド操作等に応じた表示データを生成させ、表示制御部213に供給する。
表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132の表示画面を、ユーザのスライド操作等に応じた表示画面に変更させる。これにより、表示部132の表示画面は、例えば、図30に示された表示画面から、図31に示された表示画面に変更する。その後、処理は、ステップST3からステップST1に戻る。
さらに、ステップST1において、制御部16は、適宜、処理をステップST4に進める。
ステップST4では、制御部16は、操作部17からの操作信号に基づいて、ポインタ231との距離が予め決められた閾値以下となるサムネイル画像232が存在するか否かを判別する。制御部16は、そのようなサムネイル画像232が存在しないと判別した場合、処理を、ステップST1に戻す。
また、ステップST4では、制御部16は、操作部17からの操作信号に基づいて、ポインタ231との距離が予め決められた閾値以下となるサムネイル画像232が存在すると判別した場合、処理を、ステップST5に進める。
ここで、ポインタ231とサムネイル画像232との距離とは、例えば、ポインタ231の重心(又は矢印としてのポインタ231の先端部分)と、サムネイル画像232の重心との距離を表す。
ステップST5では、制御部16は、表示データ生成部212に、サムネイル画像232を強調して表示させるための表示データを生成させ、表示制御部213に供給させる。
表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132の表示画面を、図35に示したような表示画面に変更させる。
また、ステップST5では、制御部16は、操作部17からの操作信号に基づいて、ポインタ231とサムネイル画像232との距離が閾値以下の状態で、ユーザによる操作部17を用いたダブルクリック又はシングルクリックの一方が行われたか否かを判別する。
なお、ステップST5では、制御部16は、操作部17からの操作信号に基づいて、ユーザによる操作部17を用いたダブルクリック及びシングルクリックのいずれも行われていないと判別した場合、適宜、処理をステップST4に戻す。
ステップST5では、制御部16は、操作部17からの操作信号に基づいて、ポインタ231とサムネイル画像232との距離が閾値以下の状態で、ユーザによる操作部17を用いたダブルクリックが行われたと判別した場合、処理を、ステップST6に進める。
ステップST6では、制御部16は、表示データ生成部212に、サムネイル画像232に対応するフレームの再生位置から、コンテンツ233aを再生させる際の表示データを生成させ、表示制御部213に供給させる。
表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132の表示画面を、図36に示したような表示画面に変更させ、処理はステップST1に戻る。
また、ステップST5では、制御部16は、操作部17からの操作信号に基づいて、ポインタ231とサムネイル画像232との距離が閾値以下の状態で、ユーザによる操作部17を用いたシングルクリックが行われたと判別した場合、処理を、ステップST7に進める。
ステップST7では、制御部16は、表示制御部213を制御し、表示制御部213の表示モードを、レイヤ0モードからレイヤ1モードに移行させる。また、表示制御部213は、制御部16からの制御に従い、表示部132の表示画面を、例えば、図33に示される表示画面に、図37のウインドウ251が追加された表示画面に変更させる。
また、ステップST7では、制御部16は、操作部17からの操作信号に基づいて、ユーザによる操作部17を用いたダブルクリックが行われたか否かを判別し、ユーザによるダブルクリックが行われたと判別した場合、処理をステップST8に進める。
ステップST8では、制御部16は、表示データ生成部212に、ポインタ231に最も近いサムネイル画像に対応するフレームの再生位置から、コンテンツ233aを再生させる際の表示データを生成させ、表示制御部213に供給させる。
表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132の表示画面を、図36に示したよう表示画面に表示させ、処理はステップST1に戻る。
さらに、ステップST7では、制御部16は、操作部17からの操作信号に基づいて、ユーザによる操作部17を用いたダブルクリックが行われていないと判別した場合、適宜、処理をステップST9に進める。
ステップST9では、制御部16は、操作部17からの操作信号に基づいて、例えば、ウインドウ251において、ポインタ231との距離が予め決められた閾値以下となるサムネイル画像271が存在するか否かを判別する。制御部16は、そのようなサムネイル画像271が存在しないと判別した場合、処理を、ステップST10に進める。
ステップST10では、制御部16は、操作部17からの操作信号に基づいて、レイヤ1モードで表示されるウインドウ251のエリア外に、ポインタ231が移動したか否かを判別し、ウインドウ251のエリア外に、ポインタ231が移動したと判別した場合、処理をステップST1に戻す。
ステップST1では、制御部16は、表示データ生成部212に、レイヤ0モードに対応する表示をさせるための表示データを生成させ、表示制御部213に供給させる。
表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132の表示画面を、例えば、図33に示されるような表示画面に変更させる。なお、この場合、表示制御部213は、表示モードを、レイヤ1モードからレイヤ0モードに移行する。
また、ステップST10では、制御部16は、操作部17からの操作信号に基づいて、ウインドウ251のエリア外に、ポインタ231が移動していないと判別した場合、処理をステップST7に戻す。
ステップST9では、制御部16は、操作部17からの操作信号に基づいて、例えば、ウインドウ251において、ポインタ231との距離が予め決められた閾値以下となるサムネイル画像271が存在すると判別した場合、処理を、ステップST11に進める。
ステップST11では、制御部16は、表示データ生成部212に、サムネイル画像271を強調して表示させるための表示データを生成させ、表示制御部213に供給させる。
表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132の表示画面を、図37に示したような、サムネイル画像271を強調したサムネイル画像271'が表示される表示画面に変更させる。
また、ステップST11では、制御部16は、操作部17からの操作信号に基づいて、ポインタ231とサムネイル画像271'との距離が閾値以下の状態で、ユーザによる操作部17を用いたダブルクリック又はシングルクリックの一方が行われたか否かを判別する。
なお、ステップST11では、制御部16は、操作部17からの操作信号に基づいて、ユーザによる操作部17を用いたダブルクリック及びシングルクリックのいずれも行われていないと判別した場合、適宜、処理をステップST9に戻す。
ステップST11では、制御部16は、操作部17からの操作信号に基づいて、ポインタ231とサムネイル画像271'との距離が閾値以下の状態で、ユーザによる操作部17を用いたダブルクリックが行われたと判別した場合、処理を、ステップST12に進める。
ステップST12では、制御部16は、表示データ生成部212に、サムネイル画像271'に対応するフレームの再生位置から、コンテンツ233aを再生させる際の表示データを生成させ、表示制御部213に供給させる。
表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132の表示画面を、図38に示したような表示画面に変更させ、処理はステップST7に戻る。
また、ステップST11では、制御部16は、操作部17からの操作信号に基づいて、ポインタ231とサムネイル画像271'との距離が閾値以下の状態で、ユーザによる操作部17を用いたシングルクリックが行われたと判別した場合、処理を、ステップST13に進める。
ステップST13では、制御部16は、表示制御部213を制御し、表示制御部213の表示モードを、レイヤ1モードからレイヤ2モードに移行させる。また、表示制御部213は、制御部16からの制御に従い、表示部132の表示画面を、例えば、図39に示されるような、ウインドウ291が表示される表示画面に変更させる。
また、ステップST13では、制御部16は、操作部17からの操作信号に基づいて、ユーザによる操作部17を用いたダブルクリックが行われたか否かを判別し、ユーザによるダブルクリックが行われたと判別した場合、処理をステップST14に進める。
ステップST14では、制御部16は、表示データ生成部212に、ポインタ231に最も近いサムネイル画像に対応するフレームの再生位置から、コンテンツ233aを再生させる際の表示データを生成させ、表示制御部213に供給させる。
表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132の表示画面を、図36に示したよう表示画面に表示させ、処理はステップST1に戻る。
さらに、ステップST13では、制御部16は、操作部17からの操作信号に基づいて、ユーザによる操作部17を用いたダブルクリックが行われていないと判別した場合、適宜、処理をステップST15に進める。
ステップST15では、制御部16は、操作部17からの操作信号に基づいて、例えば、ウインドウ291において、ポインタ231との距離が予め決められた閾値以下となる所定のサムネイル画像(タイル画像291aに含まれる画像)が存在するか否かを判別する。制御部16は、そのような所定のサムネイル画像が存在すると判別した場合、処理を、ステップST16に進める。
ステップST16では、制御部16は、表示データ生成部212に、ウインドウ291において、ポインタ231との距離が閾値以下となる所定のサムネイル画像を強調して表示させるための表示データを生成させ、表示制御部213に供給させる。
表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132の表示画面を、所定のサムネイル画像が強調して表示される表示画面に変更させる。
また、ステップST16では、制御部16は、操作部17からの操作信号に基づいて、ポインタ231とサムネイル画像との距離が閾値以下の状態で、ユーザによる操作部17を用いたダブルクリックが行われたか否かを判別する。そして、制御部16は、ダブルクリックが行われたと判定した場合、処理をステップST17に進める。
ステップST17では、制御部16は、表示データ生成部212に、サムネイル画像に対応するフレームの再生位置から、コンテンツ233aを再生させる際の表示データを生成させ、表示制御部213に供給させる。
表示制御部213は、表示データ生成部212からの表示データに基づいて、表示部132の表示画面を、図36に示したような表示画面に変更させ、処理はステップST1に戻る。
また、ステップST15では、制御部16は、操作部17からの操作信号に基づいて、例えば、ウインドウ291において、ポインタ231との距離が予め決められた閾値以下となる所定のサムネイル画像(タイル画像291aに含まれる画像)が存在しないと判定した場合、処理を、ステップST18に進める。
ステップST18では、制御部16は、操作部17からの操作信号に基づいて、レイヤ2モードで表示されるウインドウ291のエリア外に、ポインタ231が移動したか否かを判別し、ウインドウ291のエリア外に、ポインタ231が移動したと判別した場合、処理をステップST1に戻す。
ステップST1では、制御部16は、表示制御部213を制御し、表示モードを、レイヤ2モードからレイヤ0モードに移行させ、それ以降、同様の処理が行われる。
また、ステップST18では、制御部16は、操作部17からの操作信号に基づいて、レイヤ2モードで表示されるウインドウ291のエリア外に、ポインタ231が移動していないと判別した場合、処理をステップST13に戻し、それ以降同様の処理が行われる。
<4.変形例>
ところで、本技術は、以下の構成をとることができる。
(1)複数の静止画像により構成されるコンテンツを、複数のチャプタに区分するためのチャプタポイントデータを生成するチャプタポイント生成部と、前記チャプタポイントデータに基づいて、前記チャプタ毎に設けられたチャプタ表示領域に、前記チャプタの各シーンを代表する代表画像を表示させ、前記コンテンツを構成する前記複数の静止画像のうち、予め決められたユーザ操作で選択された静止画像に基づき指定される画像群を、前記コンテンツの総再生時間における、前記画像群を構成する各静止画像の再生位置とともに表示させる表示制御部とを含む表示制御装置。
(2)前記チャプタポイント生成部は、前記コンテンツを、ユーザの変更操作に応じて変更されるチャプタ数のチャプタに区分することにより得られる前記チャプタポイントデータを生成し、前記表示制御部は、前記チャプタ数からなるチャプタ毎に設けられたチャプタ表示領域に、前記チャプタの各シーンを代表する代表画像を表示させる前記(1)に記載の表示制御装置。
(3)前記表示制御部は、前記コンテンツを構成する前記複数の静止画像のうち、前記代表画像として表示された静止画像が選択されたことに対応して、選択された前記代表画像に代表されるシーンを構成する各静止画像を、前記再生位置とともに表示させる前記(1)又は(2)に記載の表示制御装置。
(4)前記表示制御部は、前記コンテンツを構成する前記複数の静止画像のうち、前記シーンを構成する静止画像として表示された静止画像が選択されたことに対応して、選択された前記静止画像と同様の表示内容とされた各静止画像を、前記再生位置とともに表示させる前記(1)乃至(3)に記載の表示制御装置。
(5)前記表示制御部は、注目されている静止画像の前記再生位置を強調して表示させる前記(1)乃至(4)に記載の表示制御装置。
(6)前記コンテンツに基づいて、前記コンテンツを構成する各静止画像の属性をそれぞれ表すシンボルを生成するシンボル列生成部をさらに含み、前記表示制御部は、前記コンテンツを構成する前記複数の静止画像のうち、前記シーンを構成する静止画像として表示された静止画像が選択されたことに対応して、選択された前記静止画像のシンボルと同一のシンボルに対応する各静止画像を、前記再生位置とともに表示させる前記(4)又は(5)に記載の表示制御装置。
(7)前記シンボル列生成部により生成される各シンボルの分散に基づいて、前記コンテンツを複数のチャプタに区分する区分部をさらに含む前記(1)乃至(6)に記載の表示制御装置。
(8)前記コンテンツから、前記コンテンツの特徴を表す特徴量を抽出する特徴量抽出部をさらに含み、前記表示制御部は、前記特徴量にも基づいて、前記チャプタ毎に設けられたチャプタ表示領域に、所定のシーンの特徴を表す特徴表示を、前記所定のシーンを代表する代表画像に付加して表示させる前記(1)乃至(7)に記載の表示制御装置。
(9)前記表示制御部は、前記静止画像を縮小して得られるサムネイル画像を表示させる前記(1)乃至(8)に記載の表示制御装置。
(10)画像を表示させる表示制御装置の表示制御方法において、前記表示制御装置による、複数の静止画像により構成されるコンテンツを、複数のチャプタに区分するためのチャプタポイントデータを生成するチャプタポイント生成ステップと、前記チャプタポイントデータに基づいて、前記チャプタ毎に設けられたチャプタ表示領域に、前記チャプタの各シーンを代表する代表画像を表示させ、前記コンテンツを構成する前記複数の静止画像のうち、予め決められたユーザ操作で選択された静止画像に基づき指定される画像群を、前記コンテンツの総再生時間における、前記画像群を構成する各静止画像の再生位置とともに表示させる表示制御ステップとを含む表示制御方法。
(11)コンピュータを、複数の静止画像により構成されるコンテンツを、複数のチャプタに区分するためのチャプタポイントデータを生成するチャプタポイント生成部と、前記チャプタポイントデータに基づいて、前記チャプタ毎に設けられたチャプタ表示領域に、前記チャプタの各シーンを代表する代表画像を表示させ、前記コンテンツを構成する前記複数の静止画像のうち、予め決められたユーザ操作で選択された静止画像に基づき指定される画像群を、前記コンテンツの総再生時間における、前記画像群を構成する各静止画像の再生位置とともに表示させる表示制御部として機能させるためのプログラム。
[本技術を適用したコンピュータの構成例]
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
そこで、図42は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク305やROM303に予め記録しておくことができる。
あるいはまた、プログラムは、ドライブ309に装着されるリムーバブル記録媒体311に格納(記録)しておくことができる。このようなリムーバブル記録媒体311は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体311としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
なお、プログラムは、上述したようなリムーバブル記録媒体311からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク305にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。
コンピュータは、CPU(Central Processing Unit)302を内蔵しており、CPU302には、バス301を介して、入出力インタフェース310が接続されている。
CPU302は、入出力インタフェース310を介して、ユーザによって、入力部307が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)303に格納されているプログラムを実行する。あるいは、CPU302は、ハードディスク305に格納されたプログラムを、RAM(Random Access Memory)304にロードして実行する。
これにより、CPU302は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU302は、その処理結果を、必要に応じて、例えば、入出力インタフェース310を介して、出力部306から出力、あるいは、通信部308から送信、さらには、ハードディスク305に記録等させる。
なお、入力部307は、キーボードや、マウス、マイク等で構成される。また、出力部306は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
1 レコーダ, 11 コンテンツ記憶部, 12 コンテンツモデル学習部, 13 モデル記憶部, 14 シンボル列生成部, 15 分割部, 16 制御部, 17 操作部, 21 学習用コンテンツ選択部, 22 特徴量抽出部, 23 フレーム分割部, 24 サブ領域特徴量抽出部, 25 結合部, 26 特徴量記憶部, 27 学習部, 31 コンテンツ選択部, 32 モデル選択部, 33 特徴量抽出部, 34 最尤状態系列推定部, 51 レコーダ, 71 分割部, 72 ダイジェスト生成部, 111 チャプタセグメント抽出部, 112 特徴量抽出部, 113 特徴ピークセグメント抽出部, 114 エフェクト追加部, 131 レコーダ, 132 表示部, 151 分割部, 152 提示部, 211 特徴量抽出部, 212 表示データ生成部, 213 表示制御部

Claims (11)

  1. 複数の静止画像により構成されるコンテンツを、複数のチャプタに区分するためのチャプタポイントデータを生成するチャプタポイント生成部と、
    前記チャプタポイントデータに基づいて、前記チャプタ毎に設けられたチャプタ表示領域に、前記チャプタの各シーンを代表する代表画像を表示させ、
    前記コンテンツを構成する前記複数の静止画像のうち、予め決められたユーザ操作で選択された静止画像に基づき指定される画像群を、前記コンテンツの総再生時間における、前記画像群を構成する各静止画像の再生位置とともに表示させる
    表示制御部と
    を含む表示制御装置。
  2. 前記チャプタポイント生成部は、前記コンテンツを、ユーザの変更操作に応じて変更されるチャプタ数のチャプタに区分することにより得られる前記チャプタポイントデータを生成し、
    前記表示制御部は、前記チャプタ数からなるチャプタ毎に設けられたチャプタ表示領域に、前記チャプタの各シーンを代表する代表画像を表示させる
    請求項1に記載の表示制御装置。
  3. 前記表示制御部は、前記コンテンツを構成する前記複数の静止画像のうち、前記代表画像として表示された静止画像が選択されたことに対応して、選択された前記代表画像に代表されるシーンを構成する各静止画像を、前記再生位置とともに表示させる
    請求項1に記載の表示制御装置。
  4. 前記表示制御部は、前記コンテンツを構成する前記複数の静止画像のうち、前記シーンを構成する静止画像として表示された静止画像が選択されたことに対応して、選択された前記静止画像と同様の表示内容とされた各静止画像を、前記再生位置とともに表示させる
    請求項3に記載の表示制御装置。
  5. 前記表示制御部は、注目されている静止画像の前記再生位置を強調して表示させる
    請求項4に記載の表示制御装置。
  6. 前記コンテンツに基づいて、前記コンテンツを構成する各静止画像の属性をそれぞれ表すシンボルを生成するシンボル列生成部をさらに含み、
    前記表示制御部は、前記コンテンツを構成する前記複数の静止画像のうち、前記シーンを構成する静止画像として表示された静止画像が選択されたことに対応して、選択された前記静止画像のシンボルと同一のシンボルに対応する各静止画像を、前記再生位置とともに表示させる
    請求項4に記載の表示制御装置。
  7. 前記シンボル列生成部により生成される各シンボルの分散に基づいて、前記コンテンツを複数のチャプタに区分する区分部を
    さらに含む請求項6に記載の表示制御装置。
  8. 前記コンテンツから、前記コンテンツの特徴を表す特徴量を抽出する特徴量抽出部をさらに含み、
    前記表示制御部は、前記特徴量にも基づいて、前記チャプタ毎に設けられたチャプタ表示領域に、所定のシーンの特徴を表す特徴表示を、前記所定のシーンを代表する代表画像に付加して表示させる
    請求項1に記載の表示制御装置。
  9. 前記表示制御部は、前記静止画像を縮小して得られるサムネイル画像を表示させる
    請求項1に記載の表示制御装置。
  10. 画像を表示させる表示制御装置の表示制御方法において、
    前記表示制御装置による、
    複数の静止画像により構成されるコンテンツを、複数のチャプタに区分するためのチャプタポイントデータを生成するチャプタポイント生成ステップと、
    前記チャプタポイントデータに基づいて、前記チャプタ毎に設けられたチャプタ表示領域に、前記チャプタの各シーンを代表する代表画像を表示させ、
    前記コンテンツを構成する前記複数の静止画像のうち、予め決められたユーザ操作で選択された静止画像に基づき指定される画像群を、前記コンテンツの総再生時間における、前記画像群を構成する各静止画像の再生位置とともに表示させる
    表示制御ステップと
    を含む表示制御方法。
  11. コンピュータを、
    複数の静止画像により構成されるコンテンツを、複数のチャプタに区分するためのチャプタポイントデータを生成するチャプタポイント生成部と、
    前記チャプタポイントデータに基づいて、前記チャプタ毎に設けられたチャプタ表示領域に、前記チャプタの各シーンを代表する代表画像を表示させ、
    前記コンテンツを構成する前記複数の静止画像のうち、予め決められたユーザ操作で選択された静止画像に基づき指定される画像群を、前記コンテンツの総再生時間における、前記画像群を構成する各静止画像の再生位置とともに表示させる
    表示制御部と
    して機能させるためのプログラム。
JP2012074114A 2012-03-28 2012-03-28 表示制御装置、表示制御方法、及びプログラム Pending JP2013207529A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012074114A JP2013207529A (ja) 2012-03-28 2012-03-28 表示制御装置、表示制御方法、及びプログラム
US13/777,726 US20130262998A1 (en) 2012-03-28 2013-02-26 Display control device, display control method, and program
CN2013100923727A CN103365942A (zh) 2012-03-28 2013-03-21 显示控制装置、显示控制方法和程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012074114A JP2013207529A (ja) 2012-03-28 2012-03-28 表示制御装置、表示制御方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2013207529A true JP2013207529A (ja) 2013-10-07

Family

ID=49236776

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012074114A Pending JP2013207529A (ja) 2012-03-28 2012-03-28 表示制御装置、表示制御方法、及びプログラム

Country Status (3)

Country Link
US (1) US20130262998A1 (ja)
JP (1) JP2013207529A (ja)
CN (1) CN103365942A (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013103733A1 (en) 2012-01-06 2013-07-11 Level 3 Communications, Llc Method and apparatus for generating and converting sales opportunities
USD757053S1 (en) 2013-01-04 2016-05-24 Level 3 Communications, Llc Display screen or portion thereof with graphical user interface
USD771079S1 (en) 2013-01-04 2016-11-08 Level 3 Communications, Llc Display screen or portion thereof with graphical user interface
USD771078S1 (en) * 2013-01-04 2016-11-08 Level 3 Communications, Llc Display screen or portion thereof with graphical user interface
USD742891S1 (en) * 2013-04-23 2015-11-10 Eidetics Corporation Display screen or portion thereof with a graphical user interface
CN105933772B (zh) * 2015-08-18 2019-06-21 盯盯拍(深圳)技术股份有限公司 交互方法、交互装置以及交互系统
JP7206492B2 (ja) * 2019-04-26 2023-01-18 富士通株式会社 最適化装置及び最適化装置の制御方法
CN111669304B (zh) * 2020-05-19 2022-03-15 广东好太太智能家居有限公司 基于边缘网关的智能家居场景控制方法、设备及存储介质
CN116414972B (zh) * 2023-03-08 2024-02-20 浙江方正印务有限公司 一种资讯内容自动播报和生成简讯的方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6571054B1 (en) * 1997-11-10 2003-05-27 Nippon Telegraph And Telephone Corporation Method for creating and utilizing electronic image book and recording medium having recorded therein a program for implementing the method
EP1909282A4 (en) * 2005-07-28 2009-12-02 Panasonic Corp RECORDING DEVICE AND REPRODUCTION DEVICE
US7421455B2 (en) * 2006-02-27 2008-09-02 Microsoft Corporation Video search and services
KR101494904B1 (ko) * 2007-09-04 2015-02-23 삼성전자주식회사 비디오 파일에 대한 썸네일을 생성하는 방법 및 장치
CN101588450B (zh) * 2008-05-19 2013-08-14 株式会社日立制作所 记录再现装置及方法
US8364698B2 (en) * 2008-07-11 2013-01-29 Videosurf, Inc. Apparatus and software system for and method of performing a visual-relevance-rank subsequent search
US8209396B1 (en) * 2008-12-10 2012-06-26 Howcast Media, Inc. Video player
US20100150520A1 (en) * 2008-12-17 2010-06-17 Dolby Laboratories Licensing Corporation Method and system for controlling playback of a video program including by providing visual feedback of program content at a target time
US8914826B2 (en) * 2008-12-23 2014-12-16 Verizon Patent And Licensing Inc. Method and system for creating a chapter menu for a video program
JP4625862B2 (ja) * 2008-12-24 2011-02-02 株式会社東芝 オーサリング装置およびオーサリング方法
US8363888B2 (en) * 2009-03-18 2013-01-29 Shutterfly, Inc. Proactive creation of photobooks
US8582952B2 (en) * 2009-09-15 2013-11-12 Apple Inc. Method and apparatus for identifying video transitions
US9595300B2 (en) * 2009-10-21 2017-03-14 Media Ip, Llc Contextual chapter navigation
US20110161818A1 (en) * 2009-12-29 2011-06-30 Nokia Corporation Method and apparatus for video chapter utilization in video player ui
US20120114307A1 (en) * 2010-11-09 2012-05-10 Jianchao Yang Aligning and annotating different photo streams
CN103959284B (zh) * 2011-11-24 2017-11-24 微软技术许可有限责任公司 使用置信图像样本进行重新排名

Also Published As

Publication number Publication date
US20130262998A1 (en) 2013-10-03
CN103365942A (zh) 2013-10-23

Similar Documents

Publication Publication Date Title
JP2013207529A (ja) 表示制御装置、表示制御方法、及びプログラム
JP4683031B2 (ja) 電子機器、コンテンツ分類方法及びそのプログラム
JP5533861B2 (ja) 表示制御装置、表示制御方法、及び、プログラム
US8326623B2 (en) Electronic apparatus and display process method
US8503770B2 (en) Information processing apparatus and method, and program
JP5691289B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
US20120057775A1 (en) Information processing device, information processing method, and program
US7986819B2 (en) Electronic apparatus and video display method
US7970257B2 (en) Image display method and electronic apparatus implementing the image display method
JP2013206104A (ja) 情報処理装置、情報処理方法、及びプログラム
US8166420B2 (en) Electronic apparatus and image display control method of the electronic apparatus
US8396332B2 (en) Electronic apparatus and face image display method
WO2012020667A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
JP5845801B2 (ja) 画像処理装置、画像処理方法、及び、プログラム
US20090089837A1 (en) Electronic Apparatus and Display Method
US8201105B2 (en) Electronic apparatus and image display control method of the electronic apparatus
US20110243529A1 (en) Electronic apparatus, content recommendation method, and program therefor
US20100092037A1 (en) Method and system for video indexing and video synopsis
US20090172545A1 (en) Electronic equipment and method for displaying images
JP2005210234A (ja) 映像内容認識装置、録画装置、映像内容認識方法、録画方法、映像内容認識プログラム、および録画プログラム
JP2004508757A (ja) カラースライダーバーを提供する再生装置
US20080320046A1 (en) Video data management apparatus
JP2013207530A (ja) 情報処理装置、情報処理方法、及びプログラム
JP2004295923A (ja) 動画像の特徴場面検出方法及び装置
JP2009246829A (ja) 動画像シーン分割装置および動画像シーン分割方法