以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は、以下の順序で行うものとする。
(1)第1の実施形態
(1−1)コミック表示の概要について
(1−2)情報処理装置の構成について
(1−3)情報処理方法について
(1−4)第1変形例
(2)第2の実施形態
(2−1)情報処理装置の構成について
(2−2)情報処理方法について
(3)第3の実施形態
(3−1)情報処理装置の構成について
(4)本発明の各実施形態に係る情報処理装置のハードウェア構成について
(5)まとめ
(第1の実施形態)
<コミック表示の概要について>
まず、本発明の第1の実施形態に係る情報処理装置および情報処理方法について詳細に説明するに先立ち、本実施形態に係る動画のコミック表示の概要について、図1を参照しながら説明する。図1は、本実施形態に係る動画のコミック表示について説明するための説明図である。
本実施形態に係る情報処理装置は、単一または複数の任意の動画データが指定されると、動画データに含まれる複数の画像の中から重要なシーンの画像を自動的に抽出する。情報処理装置は、例えば図1に示したように、抽出した画像をマンガ的に配置変換し、表示画面に表示する。
図1に示したような表示領域301を考える。この表示領域301は、通常のマンガにおけるページに該当するものである。表示領域301は、複数のコマ303にコマ割りされており、それぞれのコマには、動画データに含まれる画像(例えばサムネイル画像)305が配置される。
また、サムネイル画像305には、以下で説明する動画メタデータに基づいて、各種の吹き出し307や、集中線309、効果線311などの画面効果等が自動的に配置される。吹き出し307、集中線309、効果線311等は、通常の紙媒体におけるマンガのように、コマ303の内外に自由に配置される。
また、情報処理装置のユーザが、あるサムネイル画像305がどのようなシーンであるのかを把握したいと考える場合も生じうる。この際には、ユーザはマウスやキーボード等の情報処理装置に備えられた入力装置を操作して、マウスポインタ等の位置選択オブジェクト313を希望するサムネイル画像305まで移動させ、いわゆるマウスオーバーと呼ばれる状態にする。すると、情報処理装置は、位置選択オブジェクト313が重ねられたサムネイル画像305について、コマ内でサムネイル画像305を開始画像とするアニメーションを実行する。
図1では、表示領域301は1つのみ示しているが、表示画面等の大きさにより、表示領域301の大きさを変更することも可能であり、1つの表示画面内に複数の表示領域301を配置することも可能である。
情報処理装置は、動画を構成する画像を、各画像に関連付けられた時刻情報順に配置していくため、ユーザは、通常のマンガを読むのと同様にして、動画データの内容を容易に把握することが可能である。また、サムネイル画像に関連付けられた動画メタデータに応じて、吹き出し等の画面効果(以下、エフェクトとも称する。)が自動的に配置されるため、動画データを楽しみながら内容確認することができる。
<情報処理装置の構成について>
以下では、図2〜図22を参照しながら、上述のような動画のコミック表示を実現することが可能な情報処理装置の構成について、詳細に説明する。
[情報処理装置の全体構成について]
まず、図2を参照しながら、本実施形態に係る情報処理装置の全体構成について、詳細に説明する。図2は、本実施形態に係る情報処理装置の構成を説明するためのブロック図である。
本実施形態に係る情報処理装置10は、例えば図2に示したように、動画データ取得部101、動画解析部103、音声抽出部105、コミック表示変換部107、フレーム画像データ生成部109、コミック表示データ生成部111を備える。また、情報処理装置10は、更に、コミック表示実行部113、表示制御部115および記憶部117を備える。なお、情報処理装置10は、これらの各処理部以外にも、例えば任意の通信網を介して任意の装置との間で行なわれる通信を制御する通信制御部(図示せず。)等を有していても良い。
動画データ取得部101は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、通信装置等から構成されている。動画データ取得部101は、情報処理装置10に対してなされたユーザ操作に応じて、ユーザが指定した動画に対応する動画データを後述する記憶部117や、情報処理装置10に挿入された各種の記録媒体等から取得する。ここで、動画データとは、時刻情報が関連付けられた複数の画像および音声からなる動画のデータを意味する。また、動画データ取得部101は、情報処理装置10に接続された他の装置から動画データを取得したり、インターネット等の通信網を介して接続された各種のサーバから動画データを取得したりすることが可能である。動画データ取得部101は、取得した動画データを、動画解析部103と、音声抽出部105とにそれぞれ伝送する。
動画解析部103は、例えば、CPU、ROM、RAM等から構成されている。動画解析部103は、伝送された動画データを解析して、動画を特徴付ける特徴量を抽出する。また、動画解析部103は、抽出された特徴量を用いて、特徴量に関するメタデータである動画メタデータを生成する。特徴量の抽出は、動画データを構成する画像データと音声データの双方について行なわれ、生成される動画メタデータには、画像データに関する特徴量メタデータと、音声データに関する特徴量メタデータとが含まれる。動画解析部103は、生成した動画メタデータを、後述するコミック表示変換部107に伝送する。なお、動画解析部103は、動画を解析して生成される動画メタデータ以外にも、カムコーダなどの撮像装置上で取得可能なメタデータを、後述するコミック表示変換部107で用いられる動画メタデータとして利用することも可能である。ここで、撮像装置上で取得可能なメタデータとして、例えば、録画中の撮影、お気に入りボタン、ズームイン、ズームアウトボタン等の操作履歴等を挙げることができる。また、動画解析部103は、動画データ取得部101より伝送された動画データに含まれる画像データを、後述するフレーム画像データ生成部109に伝送する。
なお、この動画解析部103については、以下で改めて詳細に説明する。
音声抽出部105は、例えば、CPU、ROM、RAM等から構成されている。音声抽出部105は、動画データ取得部101から伝送された動画データの中から、音声データを抽出する。音声抽出部105は、音声データの抽出に際して、ROMや記憶部117等に格納されている動画データのフォーマット等に関するデータベース等を参照することが可能である。なお、音声抽出部105は、必要に応じて、抽出した音声データを圧縮するなどの変換処理を行ってもよい。音声抽出部105は、抽出した動画の音声データを、後述するコミック表示データ生成部111に伝送する。
コミック表示変換部107は、例えば、CPU、ROM、RAM等から構成されている。コミック表示変換部107は、動画メタデータに基づいて動画データの中から複数の画像を抽出するとともに、所定の表示領域をコマ割りして抽出した複数の画像をマンガ的に配置変換し、それぞれのコマに配置された画像に関する情報を含むコマ情報を生成する。コミック表示変換部107は、生成したコマ情報を、後述するフレーム画像データ生成部109およびコミック表示データ生成部111に伝送する。
なお、このコミック表示変換部107については、以下で改めて詳細に説明する。
フレーム画像データ生成部109は、例えば、CPU、ROM、RAM等から構成されている。フレーム画像データ生成部109は、動画解析部103から伝送された画像データと、コミック表示変換部107から伝送されたコマ情報とに基づいて、フレーム画像データを生成する。より詳細には、フレーム画像データ生成部109は、動画を構成する複数のフレーム画像の中からコマ情報に記載されているフレーム画像を抽出する。また、フレーム画像データ生成部109は、抽出したフレーム画像を、コマ情報に記載されている情報に基づいて拡大・縮小処理を行い、コマの大きさにあったサムネイル画像とする。さらに、フレーム画像データ生成部109は、アニメーション再生のための画像を、コマ情報に基づいて生成する。フレーム画像データ生成部109は、生成したフレーム画像データ(すなわち、サムネイル画像データと、アニメーション再生のための画像データ)を、コミック表示データ生成部111に伝送する。
コミック表示データ生成部111は、例えば、CPU、ROM、RAM等から構成されている。コミック表示データ生成部111は、音声抽出部105、コミック表示変換部107およびフレーム画像データ生成部109から伝送された各種情報と、記憶部117等から取得したエフェクトデータとを用いて、コミック表示データを生成する。コミック表示データは、例えば図3に示したように、例えばXML形式で記述されているコマ情報と、フレーム画像データと、音声データと、エフェクトデータとを少なくとも含むように構成されている。情報処理装置10や他の装置は、XML形式で記述されているコマ情報を読み込んで表示することで、様々なアプリケーションにおいてコミック表示画面を生成することができる。
例えば、Visual C++(登録商標)等を利用したスタンドアロンのネットワークアプリケーション、Java・Brew等の携帯アプリケーション、FlashやJavaScript等を利用したブラウザアプリケーション等でコミック表示を実現できる。例えば、Action Scriptを利用してFlash用のファイル(SWFファイル)を作成し、コミック画像の配置情報XMLであるコマ情報を読み込ませることで、一般的なWebブラウザを用いてコミック表示画面を閲覧することが可能である。
また、Flashによりコミック表示データを作成することで、よりインタラクティブなコンテンツ表現が可能となる。例えば、ボタンによってページをめくったり、マウスホイールによるスクロールによりページをめくったりするような実装が可能となる。また、コマを時系列順にアニメーション表示することにより、多くのコマが存在した場合であっても、迷うことなくスムーズに読み進めることが可能である。また、サムネイル画像をクリックして音声を再生した際に、クリックされたコマ以外の全てのコマの透明度を上昇させることにより、現在再生中のコマをより分かりやすく強調することができる。このように、コマ情報をXML形式のファイルとして出力することで、Flashをはじめとする様々なアプリケーションから参照可能となる。
コミック表示データ生成部111は、生成したコミック表示データをコミック表示実行部113に伝送する。また、コミック表示データ生成部111は、生成したコミック表示データを、CD−ROMやDVD−ROMといった各種の記録媒体や、インターネット等の通信網を介して、他の情報処理装置に提供することも可能である。
コミック表示実行部113は、例えば、CPU、ROM、RAM等から構成されている。コミック表示実行部113は、コミック表示データ生成部111から伝送されたコミック表示データを実行するためのアプリケーションを実行することで、例えば図1に示したようなコミック表示を実行する。コミック表示データを実行するためのアプリケーションは、コミック表示実行用の専用アプリケーションであってもよく、Webブラウザのような一般的なアプリケーションであってもよい。コミック表示実行部113は、コミック表示データを実行して、後述する表示制御部115を介してコミック表示を表示部(図示せず。)に表示させる。
表示制御部115は、例えば、CPU、ROM、RAM等から構成されている。表示制御部115は、記憶部117等に記録されている表示画面に表示すべき内容に対応するデータを取得して、表示画面に表示する。また、情報処理装置10に備えられた入力部から、マウスポインタ等の位置選択オブジェクトの移動を表す信号が伝送された場合には、伝送された信号にあわせて位置選択オブジェクトの移動を表示画面に表示させる。また、表示制御部115は、コミック表示実行部113から表示内容の変更を要請された場合には、コミック表示実行部113からの要請に基づいて表示画面に表示されている表示内容の変更を行なう。
記憶部117には、ビデオカメラや携帯電話等で撮影された動画データや、TVコンテンツ等の動画コンテンツ等の各種の動画データが格納されている。また、記憶部117には、表示画面に表示されるオブジェクトデータが格納されている。ここで言うオブジェクトデータには、例えば、アイコン、ボタン、サムネイル等のグラフィカルユーザインターフェース(GUI)を構成する任意のパーツ類が含まれる。
また、記憶部117には、本実施形態に係る情報処理装置10が、何らかの処理を行う際に保存する必要が生じた様々なパラメータや処理の途中経過等、または、各種のデータベース等が、適宜記録されてもよい。この記憶部117は、動画データ取得部101、動画解析部103、音声抽出部105、コミック表示変換部107、フレーム画像データ生成部109、コミック表示データ生成部111、コミック表示実行部113、表示制御部115等が自由に読み書きできる。
[動画解析部103の構成について]
続いて、図4〜図6を参照しながら、本実施形態に係る動画解析部103の構成について、詳細に説明する。図4は、本実施形態に係る動画解析部103の構成を説明するためのブロック図であり、図5および図6は、動画メタデータを説明するための説明図である。
動画解析部103は、例えば図4に示したように、動画データ分割部131と、顔検出部133と、シーン遷移検出部135と、カメラワーク検出部137と、音声解析部139と、動画メタデータ生成部141と、を主に備える。
動画データ分割部131は、例えば、CPU、ROM、RAM等から構成されている。動画データ分割部131は、動画データ取得部101から伝送された動画データを、画像データと、音声データとに分割する。動画データ分割部131は、得られた動画データを、フレーム画像生成部109、顔検出部133、シーン遷移検出部135、および、カメラワーク検出部137に伝送する。また、動画データ分割部131は、得られた音声データを、音声解析部139に伝送する。
顔検出部133は、例えば、CPU、ROM、RAM等から構成されている。顔検出部133は、動画を構成する全てのフレーム画像について、当該フレーム画像中に存在する人物の顔を検出する。また、顔検出部133は、フレーム画像中に人物の顔が存在している場合には、画像中に存在する顔の数、存在する顔が笑顔かどうか、顔の位置、顔が向いている方向、顔のズームアップがあるか、といった顔に関連する様々な情報について、更に検出を行なう。顔検出部133は、上述のような検出を行なうにあたって、例えば、記憶部117等に予め格納されている検出用データベース等を参照したり、検出用のプログラム等を実行したりすることが可能である。
上述のような検出結果のうち、顔の有無、笑顔か否か、ズームアップがあるかといった「あり・なし」の2値で結果を表すことが可能な場合には、顔検出部133は、「あり」の場合には値「1」を出力し、「なし」の場合には値「0」を出力する。また、顔が向いている方向や、画像中に存在する顔の数といったものについては、顔検出部133は、これらの検出結果そのものを出力してもよく、予め規定された変換方法に則って検出結果をある値へと変換したものを検出結果として出力してもよい。
顔検出部133は、これらの検出結果を、後述する動画メタデータ生成部141へと伝送する。
シーン遷移検出部135は、例えば、CPU、ROM、RAM等から構成されている。シーン遷移検出部135は、動画を構成する全てのフレーム画像について、シーンの移り変わりが生じているか否かを検出し、検出結果をシーンチェンジスコアという値として出力する。シーンチェンジスコアとは、現在着目しているフレーム画像が、一つ前のフレーム画像からどの程度異なっているかを表した数値である。換言すれば、シーンチェンジスコアとは、現在着目しているフレーム画像と一つ前のフレーム画像との類似度ともいえる。このシーンチェンジスコアは、例えば、色ヒストグラムによって定義することができる。シーン遷移検出部135は、上述のような検出を行なうにあたって、例えば、記憶部117等に予め格納されているシーン遷移検出用データベース等を参照したり、検出用のプログラム等を実行したりすることが可能である。
シーン遷移検出部135は、得られたシーンチェンジスコアを、後述する動画メタデータ生成部141に伝送する。
カメラワーク検出部137は、例えば、CPU、ROM、RAM等から構成されている。カメラワーク検出部137は、動画を構成する全てのフレーム画像について、動画を撮像する際にビデオカメラ等の撮像装置をどのように動かしたかを表すカメラワークを検出する。より具体的には、カメラワーク検出部137は、例えば、現在着目しているフレーム画像と、一つ前のフレーム画像とを比較して、撮像装置が移動した方向と距離とを検出する。この際に、カメラワーク検出部137は、シーン遷移検出部135の検出結果に基づいて、カメラワークの検出処理を行ってもよい。また、カメラワーク検出部137は、例えば、記憶部117等に予め格納されているカメラワーク検出用データベース等を参照したり、検出用のプログラム等を実行したりすることが可能である。
ここで、撮像装置が移動した距離は、例えば、フレーム間に移動する画像のピクセル数として表すことが可能である。このようにして検出されるカメラワークとして、例えば、フィックス、パン、ティルト、ロール、ズームイン・ズームアウト等がある。ここで、フィックスとは、撮像装置を固定して撮像したことを意味する。また、パン(Panoramic Viewing)は、撮像装置を水平方向に移動して撮像したことを意味し、ティルト(Tilt)は、撮像装置を垂直方向に振って撮像したことを意味する。また、ロールとは、ある軸を中心として撮像装置を回転させて撮像したことを意味する。
カメラワーク検出部137は、上述のようなカメラワークの検出結果を、後述する動画メタデータ生成部141に伝送する。
音声解析部139は、例えば、CPU、ROM、RAM等から構成されている。音声解析部139は、動画データ分割部131から伝送された音声データを解析し、動画に付随している音声データに関する特徴量を算出する。より具体的には、音声解析部139は、動画を構成する全てのフレーム画像に対応付けられた音声データの中に、以下のような音声が存在するか否かを解析する。すなわち、音声解析部139は、音声データが、会話なのか、笑い声なのか、「おおー」のような歓声なのか、「パーン」などといった破裂音(擬音語)なのか、拍手のような称賛を表す音なのか、音楽なのかなどといった、音声データの分類処理を行う。このような音声データの分類処理は、例えば、記憶部117等に予め格納されている音声解析用データベース等を参照したり、音声解析用のプログラム等を実行したりすることで実行可能である。
また、音声解析部139は、音声データの音量についても解析を行い、例えば音量を数値化して出力してもよい。また、音声解析部139は、音声データが会話や笑い声などのように、人間によって生じたものであれば、声を発した人物が、男性なのか、女性なのか、子供なのか、といった点についても解析を行うことが可能である。これらの解析は、例えば、音声を表したスペクトル等を参照して、該当する波形の振幅や、音声データの周波数等を解析することで行なうことが可能である。
音声解析部139は、上述のような解析結果を、動画メタデータ生成部141に伝送する。
動画メタデータ生成部141は、例えば、CPU、ROM、RAM等から構成されている。動画メタデータ生成部141は、顔検出部133、シーン遷移検出部135、カメラワーク検出部137、音声解析部139等から伝送されたそれぞれの検出結果や解析結果を取りまとめて、動画を特徴付ける特徴量に関する動画メタデータを生成する。
図5は、動画メタデータ生成部141により生成される動画メタデータに含まれる検出結果や解析結果の一例を図示したものである。図5に示したように、動画メタデータには、画像データから抽出された特徴量に関するメタデータと、音声データから抽出された特徴量に関するメタデータとが含まれる。図6は、動画メタデータに含まれる複数の特徴量のうち、「顔の有無」、「顔の多少」、「会話の有無」、「笑い声の有無」に関する特徴量について、図示したものである。図6では、各特徴量の値を、グラフで図示している。図6に示した各グラフにおいて、横軸は動画データに関連付けられた時刻、または、動画を構成するフレーム画像に便宜的に付与された番号を表し、縦軸は特徴量を現している。なお、図6においては、各特徴量が1または0である場合について図示しているが、各特徴量が0または1以外の連続値となる場合であっても、同様に適用することが可能である。
図6に示したように、動画メタデータには、動画を構成する全ての画像と、画像に対応付けられた音声について、各特徴量の値が時系列に沿って個別に記載されている。また、動画メタデータは、図6に示したようなグラフ状になっている必要はなく、動画を構成するフレーム画像に便宜的に付与された番号を見出し(カラム)として、表の形式で各特長量が記載されていてもよい。
動画メタデータ生成部141は、上述のようにして生成された動画メタデータを、コミック表示変換部107に伝送する。
なお、上述のような各処理部が行う解析方法はあくまでも一例であって、上述の例に限定されるわけではない。また、動画解析部103は、上述の処理部以外にも、生成したい動画メタデータに応じて、様々な解析部を更に備えても良い。
[コミック表示変換部107の構成について]
次に、図7〜22を参照しながら、本実施形態に係るコミック表示変換部107の構成について、詳細に説明する。まず、図7を参照しながら、コミック表示変換部107の全体構成について、詳細に説明する。図7は、本実施形態に係るコミック表示変換部107の構成を説明するためのブロック図である。
コミック表示変換部107は、例えば図7に示したように、ダイジェストスコア算出部151と、サムネイル枚数決定部153と、カメラワークメタデータ利用部155と、画像サイズ決定部157と、コマ画像配置部159と、エフェクト画像配置部161とを備える。また、コミック表示変換部107は、上述の処理部によって生成された各種の情報を取りまとめ、コマ情報を生成するコマ情報生成部163を更に備える。
ダイジェストスコア算出部151は、例えば、CPU、ROM、RAM等から構成されている。ダイジェストスコア算出部151は、伝送された動画メタデータに基づき、動画を構成する複数の画像それぞれに対して、複数の特徴量を重み付け加算した値であるダイジェストスコア(以下、DSと略記することもある。)を算出する。
例えば図8に示したように、ダイジェストスコアの算出に用いられる動画メタデータ中の特徴量に対して、予め重み付け係数が設定されている。図8では、顔の有無に関する特徴量Faceには、重み付け係数0.7が設定されており、顔の個数の多少に関する特徴量FaceCountsには、重み付け係数1.2が設定されている。また、顔のズームの有無に関する特徴量FaceZoomには、重み付け係数1.5が設定されており、笑顔の有無に関する特徴量FaceSmileには、重み付け係数1.0が設定されている。
また、上述のような画像データに関する動画メタデータだけでなく、音声データに関する動画メタデータに対しても、同様に重み付け係数が設定されている。例えば図8では、会話の有無に関する特徴量Speechには、重み付け係数1.0が設定されており、笑い声の有無に関する特徴量Laughterには、重み付け係数2.2が設定されている。また、歓声の有無に関する特徴量Cheeringには、重み付け係数3.6が設定されており、破裂音の有無に関する特徴量Clappingには、重み付け係数1.8が設定されている。また、称賛の有無に関する特徴量Applauseには、重み付け係数2.7が設定されており、音楽の有無に関する特徴量Musicには、重み付け係数1.2が設定されている。
これらの重み付け係数と、動画メタデータに含まれるそれぞれの特徴量とを用いて、ダイジェストスコアDSは、特徴量に当該特徴量に関する重み付け係数をかけたものを、DSの算出に用いられる特徴量全てについて足し合わせたものとして算出される。
ここで、図8に示した重み付け係数は、各特徴量が映像シーンでの盛上りにどれだけ寄与するかを示す係数である。図8の例では、顔のズームの有無に関する特徴量、笑い声の有無に関する特徴量、歓声の有無に関する特徴量、破裂音の有無に関する特徴量、称賛の有無に関する特徴量それぞれに対する重み付け係数が、相対的に大きな値に設定されている。これは、これらの音声がある映像シーンや、人がズームアップされている映像シーン等は、「面白い」または「盛り上がっている」ことが多いという経験則に基づくものである。また、統計的な学習によって求められたパラメータを重み付け係数として用いるようにしてもよく、ユーザがそれぞれの重み付け係数を自身で入力して設定するようにしてもよい。また、これらの重み付け係数は、ユーザからのフィードバックにより更新されるようにしてもよい。
このように、様々な動画メタデータに重み付けすることによって、多様な特徴が生じているシーンを盛り上がりシーンとして抽出することができ、盛り上がりシーンを、動画の特徴を反映させながら自動的に検出することが可能となる。
ダイジェストスコア算出部151は、このようにして算出されたダイジェストスコアDSを、後述するサムネイル枚数決定部153に伝送する。
サムネイル枚数決定部153は、例えば、CPU、ROM、RAM等から構成されている。サムネイル枚数決定部153は、伝送されたダイジェストスコアに基づいて動画データを構成する複数の画像の中からコマに配置するサムネイル画像を抽出し、当該サムネイル画像の枚数を決定する。以下、サムネイル画像の抽出方法について、図9を参照しながら、詳細に説明する。
上述のように、動画を構成する全てのフレーム画像に対して、ダイジェストスコア算出部151によりダイジェストスコアが算出されている。そこで、サムネイル枚数決定部153は、動画を構成する全てのフレーム画像について、ダイジェストスコアの分布と、着目している動画データにおけるダイジェストスコアの中央値(Median)を算出する。その後、サムネイル枚数決定部153は、例えば図9に示したように、算出した中央値以上のダイジェストスコアを有するフレーム画像を、サムネイル画像の候補として抽出する。このようにサムネイル画像の候補を抽出することで、ダイジェストスコアが低く、盛り上がっていないと思われるフレーム画像をカットしつつ、盛り上がりシーンを抽出することが可能となる。
以下に、サムネイル枚数決定部153が、ダイジェストスコアが中央値以上のフレーム画像の中でどのコマをサムネイル画像として採用するかを、順を追って具体的に説明する。この際、単純にダイジェストスコアが中央値以上のフレーム画像を全て採用してしまうと、同じような画像のコマが大量に並んでしまい、コマの配置が単調になってしまうという問題が生じる。また、単純にダイジェストスコアが大きい順に採用するだけでは、同じようなサイズの大きなコマが並ぶだけで、ダイナミックなコマ割りにならない。そのため、なるべくそのような状況を避けるように、以下のようにしてサムネイル画像を選択する。
まず、サムネイル枚数決定部153は、動画メタデータに含まれるシーンチェンジスコアが、所定の閾値以上であるかどうかを判断する。シーンチェンジスコアが大きい場合、シーンが切り替わって別のシーンになったものとして、シーン切り替えを検出することが可能である。ここで、サムネイル枚数決定部153は、シーンチェンジスコアが閾値より大きい場合、カメラが大きく動いたことによるぶれた画像であると考え、サムネイル画像には採用せずに除去する。特に、プライベートビデオコンテンツでは、カメラが急激に動く場合、シーンチェンジスコアが急激に高くなる。このときの画像は、ぶれてしまってうまく映っていないことが多いため、サムネイル画像には使用しない。
次に、サムネイル枚数決定部153は、ダイジェストスコアの分布及び中央値を算出する。中央値は、上述のように、フレーム画像をサムネイル画像に採用するか判断するために用いられる。
そして、サムネイル枚数決定部153は、サムネイル画像候補のフレーム画像数が所定の設定値m個以上ならば、閾値T=中央値とし、m個未満なら閾値T=ダイジェストスコアの最小値とする。ここで、上記設定値mは、例えば100程度に設定可能である。これは、再生時間が余りに短いビデオの場合に、表示フレーム数が極端に少なくなってしまうことを防止するための処理である。
次に、ダイジェストスコアがT未満か、同じ値が連続している候補については、サムネイル枚数決定部153は、採用しない。これは、ダイジェストスコアが高いフレームを盛り上がりシーンとして採用しており、さらに同じシーン内で盛り上がり度が同じフレームが連続して採用されてしまう状況を防ぐための処理である。盛り上がり度が同じフレームが連続してしまうと、同じ大きさの似たようなコマが連続して並んでしまい、単調な印象を与えるため、そのようなフレームは採用しない。
その後、サムネイル枚数決定部153は、採用されたフレーム画像の総数を計算し、この総数が所定の閾値以上の場合は、間引き処理を行う。この際の閾値は、表示したいページ数に応じて決定される。採用されたフレームのうち、ページに入り切る分のみをサムネイル画像に採用する。例えば、サムネイル枚数決定部153は、フレーム画像をダイジェストスコアの大きさ順にソートして、一定間隔で間引くようにしてもよい。これにより、ダイジェストスコアの分布を保持しつつ間引き処理を行うことが可能である。
最後に、サムネイル枚数決定部153は、ダイジェストスコアが小さいコマが連続する場合の間引き処理を行う。動画のコミック表示を行う際、小さな似たようなコマが連続してしまうと、コマ割りが整然としてしまい、とても単調な印象を受けてしまう。サイズが小さいコマはダイジェストスコアも小さいため、このような部分を優先的に間引くことによって、よりコミックらしいコマ割りが可能になる。このようにして残ったフレーム画像を、サムネイル枚数決定部153は、コミック表示におけるコマ(すなわちサムネイル画像)として採用する。以下、このサムネイル画像のことを、代表フレーム(または代表フレーム画像)とも称することとする。
また、サムネイル枚数決定部153は、上述のようにしてサムネイル画像として利用するフレーム画像を選択すると、続いて、コマ内におけるサムネイル画像のアニメーション用に利用する画像(以下、アニメーションフレーム画像とも称する。)を選択する。より詳細には、サムネイル枚数決定部153は、例えば図10に示したように、抽出されたサムネイル画像(代表フレーム画像)に時間的に連続する所定の時間分のフレーム画像を、アニメーションフレーム画像として抽出する。また、アニメーションフレーム画像の抽出に際しては、ダイジェストスコアの大きさには着目しない。抽出に利用される「所定の時間」は、任意の値に設定することが可能であるが、例えば、代表フレームとあわせてアニメーション時間が1秒程度となるような値に設定する。例えば、動画データのフレームレートが30FPS(Flames Per Second)である場合には、1秒分のフレーム画像の個数は、約30フレームとなる。
サムネイル枚数決定部153は、上述のようにして抽出したサムネイル画像(代表フレーム)およびサムネイル画像の枚数に関する情報と、アニメーションフレーム画像とに関する情報を、枚数情報とする。ここで、サムネイル画像およびサムネイル画像の枚数に関する情報には、例えば、動画フレームにおいて先頭から何番目に位置するフレーム画像がサムネイル画像として選択され、サムネイル画像の枚数が全体で何枚なのかといった情報が記載されている。サムネイル枚数決定部153は、この枚数情報を、後述する画像サイズ決定部157と、コマ情報生成部163とに伝送する。
また、上述の説明では、サムネイル枚数決定部153が、アニメーションフレーム画像を、予め設定された時間分となるように選択する場合について説明した。しかしながら、選択されるアニメーションフレーム画像の枚数を、動画メタデータに含まれるカメラワークに関する特徴量を用いて、動的に変化させることも可能である。この処理は、例えば、以下で説明するカメラワークメタデータ利用部155において実行される。
カメラワークメタデータ利用部155は、例えば、CPU、ROM、RAM等から構成されている。カメラワークメタデータ利用部155は、カメラワークに関する動画メタデータに基づいて、サムネイル枚数決定部153によりアニメーションフレーム画像として抽出される画像の枚数を決定する。
まず、カメラワークメタデータ利用部155の説明をするに先立ち、カメラワークを考慮しないでアニメーションフレーム画像を選択した場合に、どのような現象が生じるのかを簡単に説明する。
例えば図1に示したように、マウスポインタ等の位置選択オブジェクトを画像に重ねることによって開始されるアニメーション(サムネイルアニメーション)は、動画全体の内容把握に有用であり、動画内容のインデックスや要約として利用可能である。しかし、カメラワークを考慮せずに単純にアニメーションを再生した場合には、カメラが大きく動いて画面が大幅に切り替わると、画面(すなわちコマ)が小さいために見づらくなり、アニメーション自体が不自然に見えてしまう可能性がある。また、画像が急激に変化する場合(例えば、画面に映る人物が急に切り替わってしまう場合)には、動画内容の要約としてのアニメーションのストーリー自体が破綻する可能性もある。また、単純にアニメーションを再生するだけでは、アニメーションが単調に見える可能性もある。そのため、カメラが大きく動いている部分はアニメーションからカットし、シーンが切り替わったら再生も切り替えるといった工夫が必要となる。そこで、本実施形態では、以下で説明するようなカメラワークメタデータ利用部155を設けることで、カメラワークを考慮したアニメーションフレーム画像の選択が可能となる。
カメラワークメタデータ利用部155には、サムネイル枚数決定部153から枚数情報が伝送される。カメラワークメタデータ利用部155は、枚数情報に記載されているアニメーションフレーム画像に関する動画メタデータに記載されているカメラワークに関する特徴量に基づいて、カメラワークの積分値を算出する。ここで、カメラワークの積分値は、カメラワークの絶対値を積分して得られるものと、カメラワークの値そのものを(絶対値を考慮せずに)積分して得られるものの2種類が存在するが、本実施形態では、いずれの積分値も利用することが可能である。なお、カメラワークの絶対値の積分値は、カメラが移動した距離の総和を意味する。絶対値を考慮しない積分値を用いる場合には、カメラが移動元の位置・向きに戻ると、カメラワークの積分値は0となってしまい、初期位置からの相対値でしかカメラワーク量を評価できない。しかしながら、手振れやノイズによる影響に強いという特長がある。また、カメラワークの絶対値の積分値を用いる場合には、手振れやノイズによる影響を受ける場合があるものの、カメラがどのような方向に動いたとしても積分値は常に増加することとなり、カメラの総移動距離から容易に積分値を評価できるという特長がある。
カメラワークメタデータ利用部155は、算出したカメラワークの積分値と、予め設定されている閾値THとを用いて、アニメーションフレーム画像の枚数を決定する。以下では、図11を参照しながら、カメラワークメタデータ利用部155によるアニメーションフレーム画像の枚数の決定方法について、詳細に説明する。なお、図11は、カメラワークの絶対値の積分値を用いてアニメーションフレーム画像の枚数を決定する方法について図示している。絶対値を考慮しないカメラワークの積分値を用いる場合には、積分値が負の値となる可能性があるため、閾値THを正負両方に絶対値が等しくなるように設定する(すなわち、閾値+THと−THとを設定する)ことで、枚数を決定可能である。
カメラワークメタデータ利用部155は、例えば図11に示したように、カメラワークの絶対値の積分値が所定の閾値TH以上となるフレームiを検出し、区間0〜iを所定の設定値nでn等分する。その後、カメラワークメタデータ利用部155は、i/nの値を利用して、アニメーションフレーム画像を選択する。例えば図11において、原点0が代表フレームの位置であるとすると、(i/n)、2×(i/n)、・・・、n×(i/n)=iの値に一番近いフレーム番号を有するフレーム画像が、アニメーションフレーム画像として選択される。
ここで、設定値nは、カメラワークの積分値に応じて決定される、アニメーションフレーム画像の枚数に対応する値であり、例えば、n=2〜12とし、積分値の値に応じて、n=2、4、8、12などの値に設定される。より詳細には、カメラワークの積分値が大きい場合には、nの値を小さな値とし、カメラワークの積分値が小さい場合には、nの値が大きな値に設定する。設定値nは、カメラワークの積分値を用いて任意の方法で決定することが可能であるが、例えば、以下のような基準でnを決定することができる。なお、以下の表記で、FPSは動画データのフレームレートを表す。
(1)カメラワークの積分値>(0.1×FPS×2)の場合:n=2
(2)(0.1×FPS×2)≧カメラワークの積分値>(0.1×FPS×1)の場合:n=4
(3)(0.1×FPS×1)≧カメラワークの積分値>(0.1×FPS×0.5)の場合:n=8
(4)(0.1×FPS×0.5)≧カメラワークの積分値の場合:n=12
このように、アニメーションフレーム画像の枚数に相当する設定値nを決定することにより、カメラワークの大小に応じて、アニメーションフレーム画像を動的に決定することができる。すなわち、図11(a)に示したようにカメラワークが相対的に小さな場合には、カメラワークの積分値は、なかなか閾値THには達しない。そのため、カメラワークの積分値が閾値THに達した時点では、フレーム数は、30に近い値となる傾向にある。また、カメラワークの積分値が相対的に小さい場合には、設定値nは大きく設定されるため、相対的に広い区間0〜iから多くの画像が選択されることとなる。カメラワークが小さい画像は、画像自体があまり変化しないため、アニメーションフレーム画像の枚数を多くすることにより、より滑らかなアニメーション再生を行なうことができる。
また、図11(b)に示したようにカメラワークが相対的に大きな場合には、カメラワークの積分値は、容易に閾値THに達しうる。そのため、カメラワークの積分値が閾値THに達した時点では、値iは小さな値となる傾向にある。また、カメラワークの積分値が相対的に大きい場合には、設定値nは小さく設定されるため、相対的に狭い区間0〜iから選択される画像は少ない。カメラワークが大きな画像は、画像が大きく変化してしまうため、アニメーションの枚数nを小さくすることで、近接する(すなわち、類似度が高い)フレーム画像を選択することが可能となる。
また、カメラワークメタデータ利用部155は、カメラワークの積分値の大きさに応じて、サムネイル画像およびアニメーションフレーム画像からなるアニメーションの再生速度を設定する。より詳細には、カメラワークメタデータ利用部155は、選択されたアニメーションフレーム画像の枚数が多い場合には、再生速度を大きな値に設定して、アニメーションを速く再生する。また、カメラワークメタデータ利用部155は、選択されたアニメーションフレーム画像の枚数が少ない場合には、再生速度を小さな値に設定して、アニメーションをゆっくり再生する。具体的には、アニメーションの再生速度は、例えば以下のように設定される。
(1)アニメーション枚数(n)が2枚以下の場合:再生速度=1(FPS)
(2)アニメーション枚数(n)が2枚超過4枚以下の場合:再生速度=2(FPS)
(3)アニメーション枚数(n)が4枚超過8枚以下の場合:再生速度=8(FPS)
(4)アニメーション枚数(n)が8枚超過の場合:再生速度=24(FPS)
カメラワークメタデータ利用部155は、以上説明したような処理を行うことにより、複数のアニメーションフレーム画像の候補の中から類似するフレーム画像を採用することができ、急激なシーン切り替えを防止して自然なアニメーションを生成することができる。
次に、図7に戻って、画像サイズ決定部157について説明する。画像サイズ決定部157は、例えば、CPU、ROM、RAM等から構成されている。画像サイズ決定部157は、所定の表示領域に配置されるサムネイル画像の大きさを、ダイジェストスコアに基づいて決定する。
より詳細には、画像サイズ決定部157は、動画を構成する全ての画像について、例えば図12に示したように、ダイジェストスコア順にソートしなおす。その上で、画像サイズ決定部157は、ダイジェストスコアの上位数%(例えば、上位3%)は、外れ値(outlier)であるとして、画像サイズの決定には使用しない。その後、画像サイズ決定部157は、ダイジェストスコアが中央値以上かつ外れ値未満であるものを、ダイジェストスコアの大きさに応じてm分割し、画像のサイズをm段階生成する。ここで、設定値mの値は、画面上に表示させる表示領域の大きさ等に応じて任意の値に設定可能であるが、例えば、m=2,3程度とする。
図12には、画像のサイズを2段階に設定する場合について、図示している。ここで、図12における画像サイズBは、画像サイズAよりも小さい。画像サイズ決定部157は、サムネイル枚数決定部153から伝送された枚数情報に記載されているサムネイル画像について、当該画像のダイジェストスコアが、図12に示した画像サイズAの領域と、画像サイズBの領域のいずれに属しているかを判断する。画像サイズ決定部157は、この判断結果に応じて、枚数情報に記載されている全てのサムネイル画像について、画像サイズを決定する。このようにして画像サイズを決定することで、ダイジェストスコアが相対的に大きな画像は画像サイズが大きくなり、ダイジェストスコアが相対的に小さな画像は画像サイズが小さくなる。これにより、本実施形態に係る情報処理装置10では、盛り上がり度合いに応じて、画像サイズを自動的に決定することが可能である。
また、画像サイズ決定部157は、選択されたサムネイル画像に対して、画像中に顔が存在することを表す動画メタデータが存在している場合には、顔が表示されている領域である顔領域を拡大表示するように、画像サイズを設定する。また、画像中に複数の顔領域が存在する場合には、画像サイズ決定部157は、全ての顔領域を含むように画像データのサイズを拡大処理する。
例えば図13に示したように、顔領域が1つだけ存在するフレーム画像aがサムネイル画像として選択された場合には、画像サイズ決定部157は、顔領域を拡大表示するように、コミック表示画面における画像サイズを決定する。また、顔領域が2つ存在するフレーム画像bがサムネイル画像として選択された場合には、画像サイズ決定部157は、2つの顔領域を含むように画像を拡大処理する。
画像サイズ決定部157は、このようにして設定されたサムネイル画像のサイズ(ひいては、アニメーションフレーム画像のサイズ)に関する情報をコマ画像情報とし、後述するコマ画像配置部159およびコマ情報生成部163に伝送する。
続いて、図7に戻って、コマ画像配置部159について説明する。コマ画像配置部159は、例えば、CPU、ROM、RAM等から構成されている。コマ画像配置部159は、画像サイズが決定されたサムネイル画像を、所定の順序でコマに配置する。以下に、図14〜図17を参照しながら、コマ画像配置部159が行うコマ配置処理について、詳細に説明する。
上述のように、コマ画像配置部159は、画像サイズが決定されたサムネイル画像を、表示領域上に動的に配置していく。この際、コマ画像配置部159は、ビデオの時系列順にサムネイル画像を配置していくことで、ビデオの内容を反映したコマ割りを実現する。一般のコミックにおいては、基本的に1ページ中に複数の行が存在し、それぞれの行には、複数のコマが含まれている。コミックの読者は、一行中に含まれるコマを左右に読み進め、一番端まで読んだら次の行に進んで、コミックの内容を把握していく。本手法では、実際のコミックと同様に、サムネイル画像を一行ごとに左右に配置していき、この行を上から下に向けて配置していく。
なお、右綴じの本と同様のページめくり方向を実現する場合には、コマ画像配置部159は、ある行の中へサムネイル画像を配置していく際に、右側から左側へとサムネイル画像を配置していく。逆に、左綴じの本と同様のページめくり方向を実現する場合には、コマ画像配置部159は、ある行の中へサムネイル画像を配置していく際に、左側から右側へとサムネイル画像を配置していく。
図14は、サムネイル画像の配置例を示した説明図である。図14では、右綴じの本と同様のページめくり方向を想定し、表示領域301に16枚のサムネイル画像(図中では、Pic.1〜Pic.16で表記している。)が配置されている。なお、図14において、Pic.1〜Pic.16という番号付けは、動画の時系列に沿ったものであるとする。
この際、コマ画像配置部159は、サムネイル画像の最小の画像サイズの高さと同じ高さの領域を、配置単位枠501として設定する。この配置単位枠501が、サムネイル画像を配置する際の行となる。コマ画像配置部159は、この配置単位枠501を拡大しつつサムネイル画像を配置していくことで、図14に示したような画像配置を実現することが可能である。また、サムネイル画像を単純に配置しただけでは、画像と画像との間に隙間が生じてしまうことがある。そのため、そのような場合には、サムネイル画像を拡大表示して、コミックらしいコマ割りを実現する。
以下、図15〜図17を参照しながら、具体的に説明する。まず、コマ画像配置部159は、配置する画像の最小サイズ(最小の高さ)を基準として、配置単位枠501(以下、単位枠501とも称する。)を設定する。コマ画像配置部159は、この単位枠501を用いて、サムネイル画像を配置していく。
図15(a)に示したように、コマ画像配置部159は、単位枠501よりサムネイル画像が小さいかどうか確認し、時系列に沿った最初のサムネイル画像である画像Pic.1を配置する。次に、コマ画像配置部159は、次のサムネイル画像Pic.2を配置する際に、単位枠501の高さと、サムネイル画像Pic.2の高さとを比較し、画像が配置できるかどうか確認する。図15(a)に示した例では、サムネイル画像Pic.1の高さとPic.2の高さは同一であるため、コマ画像配置部159は、サムネイル画像Pic.2を、Pic.1の右隣に配置する。
次に、図15(b)に示したように、単位枠501よりも大きな高さを有するサムネイル画像Pic.3を配置する場合について説明する。コマ画像配置部159は、単位枠501の高さと、サムネイル画像Pic.3の高さとを比較する。この場合に、サムネイル画像の高さは、単位枠501の高さよりも高いため、コマ画像配置部159は、図15(c)に示したように、単位枠501の高さを広げ、再びその行の先頭からサムネイル画像を再配置していく。
コマ画像配置部159は、単位枠501よりサムネイル画像の高さが小さい場合は、サムネイル画像を配置できるかどうか確認する。サムネイル画像を配置可能な場合は、その場所に画像を配置し、配置した画像の一つ下の位置に配置位置を移動して、次のサムネイル画像を配置できるかどうか、確認する。その結果、図15(c)に示したように、Pic.1の下にPic.2が配置され、Pic.1およびPic.2の右隣に、Pic.3が配置されることとなる。
なお、図16(a)に示したように、サムネイル画像Pic.6を配置した場合に、単位枠501から下方向にはみ出す場合は、コマ画像配置部159は、単位枠501の大きさを変更して、変更した行のはじめからサムネイル画像を配置しなおす。この際、Pic.5の次に配置する画像Pic.6は画像サイズが大きいため、Pic.5の下方に配置しようとすると、単位枠501からはみ出してしまう。そのため、コマ画像配置部159は、サムネイル画像Pic.6をPic.5の右隣に配置する。このとき、図16(b)に示したように、一つ前の画像と現在の画像との間に隙間が生じてしまう場合には、コマ画像配置部159は、一つ前のサムネイル画像を拡大表示することで、隙間を埋める。すなわち、図16(b)に示したような場合には、図16(c)のようにPic.5を拡大表示することで、隙間を埋めるようにする。
また、図17(a)に示したように、画像を配置した場合に、表示領域301の右端を越えて右方向にはみ出す場合には、コマ画像配置部159は、現在の行は全て埋まったものとして、次の行に移る。コマ画像配置部159は、次の行において、上述のような方法で単位枠501の大きさを変更しながら、図17(b)に示したようにサムネイル画像Pic.4を配置する。この場合にも、図16の場合と同様に、一つ前の画像と現在の画像との間の隙間が生じた場合には、一つ前の画像の拡大表示によって隙間を埋める。図17に示した場合では、コマ画像配置部159は、図17(c)のように、Pic.3を拡大表示し、隙間が生じないようにする。
コマ画像配置部159は、上述の説明のような手順でサムネイル画像を配置していき、全てのサムネイル画像を配置したら、配置処理を終了する。
コマ画像配置部159は、サムネイル画像の配置が終了すると、どのサムネイル画像をどのような大きさでどこに配置したのかを表す情報であるコマ配置情報を、後述するエフェクト画像配置部161と、コマ情報生成部163とに伝送する。また、画像配置の際に生じた隙間を埋めるためにサムネイル画像の拡大処理を実施した場合には、コマ画像配置部159は、その旨を画像サイズ決定部157やコマ情報生成部163に通知し、コマ画像情報の修正を要請してもよい。
なお、画像サイズ決定部157によるサムネイル画像のサイズ決定と、コマ画像配置部159によるサムネイル画像の配置についても、カメラワークを考慮して行なってもよい。例えば図18に示したように、Pic.1〜Pic.3の3枚のサムネイル画像が存在し、それぞれの画像についてカメラワークの向きが水平方向である場合(すなわち、カメラワークがパンである場合)を考える。この場合に、画像サイズ決定部157は、各サムネイル画像の大きさと形状を、カメラワークの向きとカメラワーク速度に応じて決定してもよい。また、コマ画像配置部159は、各サムネイル画像を、カメラワークの向きに沿って配置してもよい。
図18に示した例では、カメラワークがパンであるため、コマ画像配置部159は、図18の下段に示したように、各サムネイル画像を横方向に配置する。また、画像サイズ決定部157は、各サムネイル画像を縦長となるように処理し、サムネイル画像の幅をカメラワーク速度に応じて決定する。すなわち、カメラワーク速度が遅い場合には、サムネイル画像の幅を広く設定し、カメラワーク速度が速い場合には、サムネイル画像の幅を狭く設定する。
また、図19に示したように、カメラワークがティルトである場合には、コマ画像配置部159は、各サムネイル画像を縦方向に配置してもよい。また、画像サイズ決定部157は、各サムネイル画像を横長となるように処理し、サムネイル画像の高さをカメラワーク速度に応じて決定してもよい。
このように、カメラワークの向きと速度に応じて、画像サイズ、画像の形状および画像の配置方向を変更することで、より漫画的なサムネイル画像の表示を行うことが可能となる。
再び図7に戻って、エフェクト画像配置部161について説明する。エフェクト画像配置部161は、例えば、CPU、ROM、RAM等から構成されている。エフェクト画像配置部161は、サムネイル画像が配置されたコマに対して、動画メタデータに基づいて吹き出しおよび画面効果の少なくとも何れかを配置する。例えば、エフェクト画像配置部161は、動画データに含まれる音声データに関する動画メタデータを利用して、吹き出しおよび画面効果の少なくとも何れかを配置する。
図20に、音声メタデータと吹き出しとの対応関係を示す。エフェクト画像配置部161は、図20に示したように、対応する音声メタデータを有するサムネイル画像が配置されたコマに対して吹き出しを配置する。これにより、本実施形態に係る情報処理装置10では、よりコミックらしい表現が可能になる。なお、吹き出しは、Web表示することを想定し、SWF形式などのベクターデータで実現してもよい。これにより、容量の節約と拡大縮小などのアニメーション処理を両立することが可能である。
また、サムネイル画像に、顔が存在する旨の動画メタデータが存在している場合には、エフェクト画像配置部161は、吹き出しが顔領域にかからないように配置する。これにより、よりコミックらしいコミック表示画像を作成することができる。こうすることで、その人の台詞を表しているように、所定の吹き出しを表現することが可能となる。具体的には、エフェクト画像配置部161は、まずコマの縦横比を比較し、コマが縦長であれば吹き出しを上下に配置し、横長であれば左右に配置する。このとき、エフェクト画像配置部161は、顔領域の中心座標とコマの中心座標とを比較し、顔が存在する位置とは逆方向に吹き出しを配置する。例えばコマが縦長で顔領域の中心座標がコマの中心座標より下側に存在する場合は、エフェクト画像配置部161は、吹き出しをコマの上側に配置する。
さらに、エフェクト画像配置部161は、音声メタデータの持続時間によって、吹き出しの大きさを変化させてもよい。例えば、持続時間が1秒以下、3秒以下、それ以上と3段階の大きさを設定し、音声が長く続けば続くほど、その音声メタデータの重要度は高いと判断することで、エフェクト画像配置部161は、より重要なシーンを強調して表現することが可能である。
また、エフェクト画像配置部161は、音声メタデータの種類に応じて、吹き出しの色を変化させることも可能である。例えば、会話音声のシーンには「Speech」というメタデータが付与されることになるが、「Speech」メタデータに対して更に「male」、「female」、「children」という3つの更なる区分を追加することができる。これはそれぞれ、男性・女性・子供の会話音声を抽出して付与されるメタデータである。エフェクト画像配置部161は、それぞれのメタデータに対して、例えば青色、赤色、黄色等の色を予め設定しておき、吹き出しの色を変化させることができる。これにより、色によって話者の違いをコミック中で表現することが可能になる。
また、エフェクト画像配置部161は、動画メタデータ中に含まれるカメラワークの特徴量に基づいて、集中線や効果線といった画面効果を配置することも可能である。ここで、効果線とは、水平方向に沿って配置された複数の平行な線であり、集中線とは、ある領域を中心とし、この中心から放射状に配置された複数の線である。エフェクト画像配置部161は、カメラワークの種類や向きに応じて、集中線または効果線を配置し、カメラワークの速度に応じて、集中線や効果線の密度や本数を増減させてもよい。
例えば図21に示したように、サムネイル画像に、顔領域が存在することを表す動画メタデータと、ズームインというカメラワークを行なったことを表す動画メタデータとが存在している場合には、顔領域の周りに複数の集中線309を配置する。このように集中線を配置したサムネイル画像に続けて、図21に示したような顔のアップのサムネイル画像が配置されることで、コミック表示画面はより漫画的なものとなる。また、集中線309の本数については、ズームインの速度が速い場合には多く配置され、ズームインの速度が遅い場合には少なく配置される。
また、カメラワークがパンであることを表す動画メタデータが存在するサムネイル画像では、エフェクト画像配置部161は、例えば図22に示したように、カメラワーク方向に沿って効果線を配置する。効果線の場合も、集中線の場合と同様に、カメラワーク速度が速い場合には多く配置され、カメラワーク速度が遅い場合には少なく配置される。
このように、カメラワークに応じて、集中線や効果線といった画面効果に関する画像を配置することで、コミック表示画面はより漫画的なものとなり、情報処理装置10のユーザは、動画の内容を視覚的に楽しみながら把握することが可能となる。
再び図7に戻って、コマ情報生成部163について説明する。コマ情報生成部163は、例えば、CPU、ROM、RAM等から構成されている。コマ情報生成部163は、サムネイル画像が配置されたそれぞれのコマに関するコマ情報を生成する。コマ情報は、枚数情報、コマ画像情報、コマ配置情報、エフェクト配置情報など、コミック表示変換部107が備える各処理部により生成された各種の情報を含む情報である。情報処理装置10は、このコマ情報を参照することにより、サムネイル画像をどこにどの大きさで配置し、かつ、どのようなエフェクトを配置すればよいか、といったコミック表示画面を生成するために必要となる情報を得ることができる。
以上、本実施形態に係る情報処理装置10の機能の一例を示した。上記の各構成要素は、汎用的な部材や回路を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。また、各構成要素の機能を、CPU等が全て行ってもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用する構成を変更することが可能である。
なお、上述のような本実施形態に係る情報処理装置の各機能を実現するためのコンピュータプログラムを作製し、パーソナルコンピュータ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリなどである。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信してもよい。
<情報処理方法について>
続いて、図23〜図29を参照しながら、本実施形態に係る情報処理方法(より具体的には、動画データのコミック表示方法)について、詳細に説明する。図23〜図29は、本実施形態に係る情報処理方法を説明するための流れ図である。
[情報処理方法の全体的な流れについて]
まず、図23を参照しながら、本実施形態に係る情報処理方法の全体的な流れについて、詳細に説明する。
本実施形態に係る情報処理装置10の動画データ取得部101は、まず、ユーザ操作に応じて、ユーザにより指定された動画に対応する動画データを取得する(ステップS101)。動画データ取得部101は、動画データを、自装置内の記憶部117等から取得してもよいし、自装置に装着された各種の記録媒体から取得してもよい。また、動画データ取得部101は、動画データを、無線または有線で接続された他の装置から取得してもよいし、インターネット等の通信網を介して接続された他の装置から取得してもよい。動画データ取得部101は、取得した動画データを、動画解析部103および音声抽出部105に伝送する。
音声抽出部105は、動画データ取得部101から伝送された動画データの中から、音声データを抽出し(ステップS103)、取得した音声データをコミック表示データ生成部111に伝送する。
他方、動画解析部103は、動画データ取得部101から伝送された動画データを解析して、伝送された動画データに対応する動画を特徴付ける特徴量に関するメタデータである動画メタデータを生成する(ステップS105)。動画解析部103は、生成した動画メタデータを、コミック表示変換部107に伝送する。
次に、コミック表示変換部107のダイジェストスコア算出部151は、伝送された動画メタデータに基づいて、動画を構成する全ての画像(フレーム画像)に対して、ダイジェストスコアを算出する。ダイジェストスコア算出部151は、算出したダイジェストスコアを、サムネイル枚数決定部153に伝送する。
続いて、サムネイル枚数決定部153は、伝送されたダイジェストスコアと動画メタデータとを用いて、サムネイル画像として利用される代表フレーム画像を選択する(ステップS107)。また、サムネイル枚数決定部153は、代表フレーム画像の選択が終了すると、サムネイルアニメーションに用いられるアニメーションフレーム画像を選択する。サムネイル枚数決定部153は、選択した代表フレーム画像を特定する情報や、代表フレーム画像の枚数に関する情報や、代表フレーム画像に関連するアニメーションフレーム画像に関する情報等を含む枚数情報を生成する。サムネイル枚数決定部153は、生成した枚数情報を、画像サイズ決定部157とコマ情報生成部163とに伝送する。
なお、アニメーションフレーム画像や、サムネイルアニメーションの再生速度の決定に際して、カメラワークメタデータ利用部155による解析結果を反映させることも可能である。
次に、画像サイズ決定部157は、伝送された枚数情報、動画メタデータ、ダイジェストスコア等に基づいて、選択された代表フレーム画像をコミック表示する際の画像サイズを決定する(ステップS109)。画像サイズ決定部157は、代表フレーム画像の画像サイズに関する情報を含むコマ画像情報を生成し、コマ画像配置部159と、コマ情報生成部163とに伝送する。
続いて、コマ画像配置部159は、伝送されたコマ画像情報および動画メタデータ等を用いて、代表フレーム画像を表示領域に自動的に配置していき、代表フレーム画像の配置を決定する(ステップS111)。コマ画像配置部159は、代表フレーム画像の配置を決定すると、どの代表フレーム画像をどの位置に配置したのかといった情報を含むコマ配置情報を生成し、エフェクト画像配置部161と、コマ情報生成部163とに伝送する。
次に、エフェクト画像配置部161は、伝送されたコマ配置情報および動画メタデータ等に基づいて、吹き出し等のエフェクト画像を配置する(ステップS113)。エフェクト画像配置部161は、エフェクト画像の配置が終了すると、どのエフェクトをどこに配置したのかといった情報を含むエフェクト配置情報を生成し、コマ情報生成部163に伝送する。
なお、画像サイズの決定、コマ画像の配置およびエフェクト画像の配置に際して、動画メタデータに含まれるカメラワークに関する特徴量を利用することが可能である。
続いて、コマ情報生成部163は、各処理部から伝送された枚数情報、コマ画像情報、コマ配置情報、エフェクト配置情報等に基づいて、コマ情報を生成する(ステップS115)。コマ情報生成部163は、生成したコマ情報を、フレーム画像データ生成部109と、コミック表示データ生成部111とに伝送する。
次に、フレーム画像データ生成部109は、画像データとコマ情報とに基づいて、コミック表示に利用されるフレーム画像の大きさや形状を調整する処理を行い、コミック表示に利用されるフレーム画像データを生成する(ステップS117)。フレーム画像データ生成部109は、生成したフレーム画像データを、コミック表示データ生成部111に伝送する。
コミック表示データ生成部111は、音声抽出部105から伝送された音声データと、コミック表示変換部107から伝送されたコマ情報とに基づいて、コミック表示に用いられる音声データを生成する。また、コミック表示データ生成部111は、コマ情報と、音声データと、フレーム画像データと、エフェクトデータとを用いて、コミック表示を実現するために必要なデータのセットであるコミック表示データを生成する(ステップS119)。
情報処理装置10は、生成されたコミック表示データを実行することで、表示画面上に、動画の内容を要約したものであるコミック表示を表示することができる。
[代表フレーム画像の選択方法について]
続いて、図24を参照しながら、代表フレーム画像の選択方法の流れについて、詳細に説明する。図24は、本実施形態に係る代表フレーム画像の選択方法を説明するための流れ図である。
まず、サムネイル枚数決定部153は、動画メタデータに含まれるシーンチェンジスコア(SCS)が、所定の閾値以上であるかどうかを判断する(ステップS201)。サムネイル枚数決定部153は、シーンチェンジスコアが閾値より大きい場合、カメラが大きく動いたことによるぶれた画像であると考え、代表フレーム画像として選択しない(ステップS203)。
次に、サムネイル枚数決定部153は、ダイジェストスコア(DS)の分布及び中央値を算出する(ステップS205)。中央値は、上述のように、フレーム画像を代表フレーム画像に選択するか判断するために用いられる。
そして、サムネイル枚数決定部153は、代表フレーム画像候補の有効フレーム数が所定の設定値N個以上か否かを判断する(ステップS207)。有効フレーム数がN個以上ならば、閾値T=中央値とし、N個未満なら閾値T=ダイジェストスコアの最小値とする。
次に、ダイジェストスコアがT未満か、同じ値が連続している候補については、サムネイル枚数決定部153は、代表フレーム画像として選択しない。また、ダイジェストスコアがT以上であり、かつ、同じ値が連続していない候補を、代表フレーム画像候補の中から選択していく。
続いて、サムネイル枚数決定部153は、全てのフレームについて、上述の処理を行ったか否かを判断する(ステップS211)。全てのフレームについて処理を行っていない場合には、ステップS207に戻って処理を行う。
全てのフレームについて処理が終了している場合には、サムネイル枚数決定部153は、採用されたフレーム画像の総数を計算し、この総数が所定の閾値以上か否かを判断する(ステップS213)。採用フレーム画像の枚数が所定の閾値以上である場合は、サムネイル枚数決定部153は、ダイジェストスコアの分布を残すように、一定間隔で間引き処理を行う(ステップS215)。
次に、サムネイル枚数決定部153は、ダイジェストスコアが小さいコマが連続する場合の間引き処理を行う(ステップS217)。このようにして残ったフレーム画像を、サムネイル枚数決定部153は、コミック表示におけるコマ(すなわち代表フレーム画像)として選択する(ステップS219)。
[カメラワークに応じたアニメーションフレーム画像の選択方法について]
次に、図25を参照しながら、カメラワークに応じたアニメーションフレーム画像の選択方法について、詳細に説明する。図25は、カメラワークに応じたアニメーションフレーム画像の選択方法を説明するための流れ図である。
カメラワークメタデータ利用部155は、まず、現在着目しているフレーム画像が、最終のフレーム画像を超過しているか否かを判断する(ステップS301)。着目しているフレーム画像が、最終のフレーム画像を超過している場合には、カメラワークメタデータ利用部155は、処理を終了する。また、最終のフレーム画像を超過していない場合には、カメラワークメタデータ利用部155は、以下の処理を実施する。
次に、カメラワークメタデータ利用部155は、現在着目しているフレーム画像が、表示する代表フレーム画像であるか否かを判断する(ステップS303)。現在着目しているフレームが表示する代表フレームではない場合には、カメラワークメタデータ利用部155は、次の代表フレームに対して処理を行う(ステップS305)。また、現在着目しているフレームが表示する代表フレームである場合には、カメラワークメタデータ利用部155は、動画メタデータに含まれるカメラワークに関する特徴量を参照する。より詳細には、カメラワークメタデータ利用部155は、パン、ティルト、ロール、ズームに関するカメラワークの絶対値を算出する(ステップS307)。
続いて、カメラワークメタデータ利用部155は、代表フレーム画像に関連して選択されたアニメーションフレーム画像について、カメラワークの絶対値を順に加算していくという積分処理を行う。カメラワークメタデータ利用部155は、一つのアニメーションフレーム画像の加算が終了するごとに、積分値が所定の閾値以上になったか否かを判断する(ステップS309)。積分値が所定の閾値以上となった場合には、カメラワークメタデータ利用部155は、後述するステップS313の処理を実施する。また、積分値が所定の閾値未満であった場合には、カメラワークメタデータ利用部155は、カメラワークに関する特徴量を、所定の時間(例えば1秒分)のフレーム以上加算したか否かを判断する(ステップS311)。所定の時間のフレーム以上を加算した場合には、カメラワークメタデータ利用部155は、現在着目しているフレーム数を保存する(ステップS313)。また、所定の時間のフレーム以上を加算していない場合には、カメラワークメタデータ利用部155は、次のアニメーションフレーム画像に着目し(ステップS317)、ステップS307に戻って処理を行う。
次に、カメラワークメタデータ利用部155は、カメラワークの積分値に応じて、アニメーションフレーム画像の枚数を決定する(ステップS315)。続いて、カメラワークメタデータ利用部155は、決定したアニメーションフレーム画像の枚数と、保存してあるフレームの番号とに基づいて、サムネイルアニメーションに用いるアニメーションフレーム画像を決定する。
上述のような処理を行うことで、本実施形態に係る情報処理方法では、カメラワークに応じた自然なサムネイルアニメーションを実施することが可能となる。
[代表フレーム画像の動的配置方法について]
続いて、図26Aおよび図26Bを参照しながら、本実施形態に係る代表フレーム画像の動的配置方法について、詳細に説明する。図26Aおよび図26Bは、本実施形態に係る代表フレーム画像の動的配置方法を説明するための流れ図である。
まず、コマ画像配置部159は、代表フレーム画像を配置していく際に用いる配置単位枠を作成する(ステップS401)。この際、コマ画像配置部159は、配置単位枠の高さを、画像サイズ決定部157により決定された最小の画像サイズの高さと同じにする。
次に、コマ画像配置部159は、配置しようとしている代表フレーム画像が、配置単位枠より小さいかどうかを判定する(ステップS403)。配置しようとしている代表フレーム画像の高さが配置単位枠の高さよりも大きい場合には、コマ画像配置部159は、後述するステップS405〜ステップS409の処理を行う。また、配置しようとしている代表フレーム画像の高さが配置単位枠の高さ以下である場合には、コマ画像配置部159は、後述するステップS411以降の処理を行う。
コマ画像配置部159は、配置しようとしている代表フレーム画像の高さが配置単位枠の高さよりも大きい場合、配置単位枠の高さを、配置しようとしている代表フレーム画像の高さまで拡大する(ステップS405)。次に、コマ画像配置部159は、行の先頭(すなわち、高さを拡大した配置単位枠内の先頭)に戻って(ステップS407)、行の先頭から画像の再配置を開始する(ステップS409)。
また、コマ画像配置部159は、配置しようとしている代表フレーム画像の高さが配置単位枠以下である場合、配置しようとしている代表フレーム画像を配置可能か否か判断する(ステップS411)。
配置しようとしている代表フレーム画像を配置可能である場合、コマ画像配置部159は、代表フレーム画像を該当箇所に配置する(ステップS413)。続いて、コマ画像配置部159は、画像を配置しようとするコマを隣のコマに移動させる(ステップS415)。ここで、ステップS413において配置した代表フレーム画像の高さが、配置単位枠の高さ未満であった場合には、コマ画像配置部159は、ステップS413において配置した画像の下側に位置するコマを、ステップS415における隣のコマとする。また、ステップS413において配置した代表フレーム画像の高さが、配置単位枠の高さと等しい場合には、コマ画像配置部159は、ステップS413において配置した画像の右側または左側に位置するコマを、ステップS415における隣のコマとする。
次に、コマ画像配置部159は、全ての代表フレーム画像を配置し終えたか否かを判断する(ステップS417)。全ての代表フレーム画像を配置し終えた場合には、コマ画像配置部159は、コマ配置処理を終了する。また、全ての代表フレーム画像を配置し終えていない場合には、コマ画像配置部159は、次の代表フレーム画像について、ステップS403以降の処理を行う。
また、ステップS411において、配置しようとしている代表フレーム画像が、配置単位枠の縦方向(高さ方向)にはみ出る場合には、コマ画像配置部159は、現在配置しようとしている画像の一つ前のコマに配置した画像を拡大する(ステップS419)。次に、コマ画像配置部159は、着目するコマを、横隣のコマに変更する(ステップS421)。その後、コマ画像配置部159は、行の先頭に戻って(ステップS423)、行の先頭から画像の再配置を開始する(ステップS425)。
また、ステップS411において、配置しようとしている代表フレーム画像が、配置単位枠の横方向(幅方向)にはみ出る場合には、コマ画像配置部159は、現在配置しようとしている画像の一つ前のコマに配置した画像を拡大する(ステップS427)。次に、コマ画像配置部159は、次の行へと移動して(ステップS429)、配置単位枠の大きさを元の大きさに設定しなおす(ステップS431)。その後、コマ画像配置部159は、ステップS401に戻って、代表フレーム画像の配置処理を再開する。
以上説明したような手順で、代表フレーム画像の配置処理を行なうことで、本実施形態に係る情報処理装置10では、代表フレーム画像を時系列に沿って動的に配置することが可能となる。
[カメラワークを考慮した代表フレーム画像の配置方法について]
続いて、図27を参照しながら、カメラワークを考慮した代表フレーム画像の配置方法について、詳細に説明する。図27は、カメラワークを考慮した代表フレーム画像の配置方法を説明するための流れ図である。
以下では、カメラワークを考慮した代表フレーム画像の配置処理が、例えば図26Aおよび図26Bを参照しながら説明した代表フレーム画像の配置が終了した後に実施される場合について説明する。しかしながら、図26Aおよび図26Bにおいて、カメラワークを考慮しながら、代表フレーム画像を配置していくことも可能である。
まず、コマ画像配置部159は、パンまたはティルトのカメラワークがなされたことを表す動画メタデータが存在するか否かを判定する(ステップS501)。カメラワークがパンまたはティルトではない場合には、コマ画像配置部159は、カメラワークを考慮した代表フレーム画像の再配置処理を終了する。また、カメラワークがパンまたはティルトである場合には、コマ画像配置部159は、該当する画像が、顔領域を抽出したものであるかどうかを判定する(ステップS503)。顔領域を含まない場合には、コマ画像配置部159は、カメラワークが存在するフレーム区間を等分割する(ステップS505)。
次に、コマ画像配置部159は、検出された顔領域とフレーム数とを、全て保存する(ステップS507)。
続いて、コマ画像配置部159は、該当する代表フレーム画像について、カメラワークがパンであるか否かを、動画メタデータに基づいて判定する(ステップS509)。カメラワークがパンである場合には、コマ画像配置部159は、代表フレーム画像(コマ画像)を縦長に設定し、カメラワーク方向に沿って該当する画像を横向きに配置する(ステップS511)。また、カメラワークがティルトである場合には、コマ画像配置部159は、代表フレーム画像(コマ画像)を横長に設定し、カメラワーク方向に沿って該当する画像を縦向きに配置する(ステップS513)。
次に、画像サイズ決定部157は、コマ画像配置部159から伝送された縦長または横長の指定と、動画メタデータから得られるカメラワーク速度とに応じて、代表フレーム画像(コマ画像)の大きさを決定する(ステップS515)。
続いて、コマ画像配置部159は、必要に応じて、他のコマの配置を修正する(ステップS617)。
以上説明したようなカメラワークを考慮した代表フレーム画像の配置処理を行うことで、コミック表示をより漫画的な表現に富んだものとすることが可能となる。
[カメラワークを考慮したエフェクト画像の配置方法について]
次に、図28を参照しながら、カメラワークを考慮したエフェクト画像の配置方法について、詳細に説明する。図28は、カメラワークを考慮したエフェクト画像の配置方法について説明するための流れ図である。
まず、エフェクト画像配置部161は、パンまたはティルトのカメラワークがなされたことを表す動画メタデータが存在するか否かを判定する(ステップS601)。カメラワークがパンまたはティルトである場合には、エフェクト画像配置部161は、効果線エフェクト画像の生成処理を行う(ステップS603)。また、カメラワークがパンまたはティルトではなく、例えばズーム等である場合には、エフェクト画像配置部161は、集中線エフェクト画像の生成処理を行う(ステップS605)。
以下では、まず、効果線エフェクト画像を生成する場合について説明する。エフェクト画像配置部161は、カメラワークが開始されたフレーム画像と、カメラワークが終了したフレーム画像とを検出する(ステップS607)。次に、エフェクト画像配置部161は、画像中に顔領域が存在するか否かを、動画メタデータに基づいて判定する(ステップS609)。
顔領域が存在する場合には、エフェクト画像配置部161は、画像の端部から顔領域の周辺まで、効果線エフェクト画像を生成する(ステップS611)。また、顔領域が存在しない場合には、エフェクト画像配置部161は、画像の周辺部に、効果線エフェクト画像を生成する(ステップS613)。なお、エフェクト画像配置部161は、効果線エフェクト画像の密度、長さ、本数等を、カメラワーク速度に応じて決定する。
効果線エフェクト画像の生成が終了すると、エフェクト画像配置部161は、効果線エフェクト画像のサイズと、どのフレーム画像に対して配置したのかを保存する(ステップS615)。
次に、集中線エフェクト画像を生成する場合について説明する。エフェクト画像配置部161は、カメラワークが開始されたフレーム画像と、カメラワークが終了したフレーム画像とを検出する(ステップS617)。次に、エフェクト画像配置部161は、画像中に顔領域が存在するか否かを、動画メタデータに基づいて判定する(ステップS619)。
顔領域が存在する場合には、エフェクト画像配置部161は、顔領域を中心として、周辺に集中線エフェクト画像を生成する(ステップS621)。また、顔領域が存在しない場合には、エフェクト画像配置部161は、画像の周辺部に、集中線エフェクト画像を生成する(ステップS623)。なお、エフェクト画像配置部161は、集中線エフェクト画像の密度、長さ、本数等を、カメラワーク速度に応じて決定する。
集中線エフェクト画像の生成が終了すると、エフェクト画像配置部161は、集中線エフェクト画像のサイズと、どのフレーム画像に対して配置したのかを保存する(ステップS615)。
以上説明したようなカメラワークを考慮したエフェクト画像の配置処理を行うことで、コミック表示をより漫画的な表現に富んだものとすることが可能となる。
[アニメーション再生速度の決定方法について]
次に、図29を参照しながら、サムネイルアニメーションの再生速度の決定方法について、詳細に説明する。図29は、サムネイルアニメーションの再生速度の決定方法を説明するための流れ図である。
上述の説明では、カメラワークメタデータ利用部155が予めアニメーションの再生速度を決定しておく場合について説明したが、以下で説明するように、アニメーションの再生時に、コミック表示実行部113が再生速度を決定することができる。
まず、コミック表示実行部113は、コミック表示データを参照して、エフェクト画像が存在するコマ(代表フレーム画像)であるか否かを判定する(ステップS701)。
エフェクト画像が存在するコマである場合には、コミック表示実行部113は、効果線エフェクトを、コミック表示データに基づいて再生し(ステップS703)、ステップS705に進む。また、エフェクト画像が存在しないコマである場合には、コミック表示実行部113は、以下で説明するステップS705の処理を実行する。
次に、コミック表示実行部113は、コミック表示データを参照して、サムネイルアニメーションに用いられる画像の枚数を取得する(ステップS405)。コミック表示実行部113は、アニメーションフレーム画像の枚数と、例えば以下に示したような基準とを用いて、アニメーションの再生速度を決定する(ステップS707)。
(1)アニメーション枚数(n)が2枚以下の場合:再生速度=1(FPS)
(2)アニメーション枚数(n)が2枚超過4枚以下の場合:再生速度=2(FPS)
(3)アニメーション枚数(n)が4枚超過8枚以下の場合:再生速度=8(FPS)
(4)アニメーション枚数(n)が8枚超過の場合:再生速度=24(FPS)
続いて、コミック表示実行部113は、決定した再生速度に基づいて、サムネイルアニメーションを再生する(ステップS709)。
このような処理を行うことにより、サムネイルアニメーションの再生時に、カメラワークを考慮した再生速度の決定を行なうことができる。
<第1変形例について>
続いて、本実施形態に係る情報処理装置10の第1変形例について、図30〜図32を参照しながら、詳細に説明する。
本変形例に係る情報処理装置10の動画解析部103は、第1の実施形態に係る動画解析部103の機能に加え、動画データの中から人物を検出したり、ユーザが着目した被写体を検出したり、ユーザが指定した物体を検出したり、といった更なる検出機能を有する。また、本変形例に係る情報処理装置10のコミック表示変換部107は、動画解析部103による検出結果に応じて、オクルージョンを避けたエフェクト画像の配置を行う機能を更に有する。
[動画解析部の構成について]
まず、本変形例に係る動画解析部103について、図30を参照しつつ詳細に説明する。図30は、本変形例に係る動画解析部103の構成について説明するためのブロック図である。
本変形例に係る動画解析部103は、動画データ分割部131、顔検出部133、シーン遷移検出部135、カメラワーク検出部137、音声解析部139および動画メタデータ生成部141に加えて、更に以下の処理部を有する。すなわち、本変形例に係る動画解析部103は、人物検出部171と、被写体検出部173と、物体検出部175と、を更に備える。
本変形例に係る動画データ分割部131、顔検出部133、シーン遷移検出部135、カメラワーク検出部137および音声解析部139は、本発明の第1の実施形態に係る各処理部と同様の構成を有し、同様の効果を奏するものである。よって、以下では、詳細な説明は省略する。
また、本変形例に係る動画メタデータ生成部141は、顔検出部133、シーン遷移検出部135、カメラワーク検出部137、人物検出部171、被写体検出部173および物体検出部175から出力された結果等に基づいて、動画メタデータを生成する。変形例に係る動画メタデータ生成部141のこれ以外の機能については、本発明の第1の実施形態に係る動画メタデータ生成部141と同様であり、また、本変形例ではほぼ同様の効果が得られるものであるため、以下では詳細な説明は省略する。
人物検出部171は、例えば、CPU、ROM、RAM等から構成されている。人物検出部171は、AdaBoost法などの統計学習処理を利用して予め生成されている識別器(Classifier)を利用して、伝送された画像データの中から人物に該当する部分を検出する。
この識別器は、例えば、服装識別器および輪郭識別器を統合することで生成される。服装識別器とは、統計学習によって生成された、複数の弱識別器からなる比較的強い識別器であり、人の服装の特徴を利用して、伝送された画像中に人の画像の領域が存在するか否かを識別する際に用いられる。また、輪郭識別器とは、統計学習によって生成された、複数の弱識別器からなる比較的強い識別器であり、人の輪郭を利用して、伝送された画像中に人の画像の領域が存在するか否かを識別する際に用いられる。
人物検出部171は、動画データ分割部131から画像データが伝送されると、伝送された画像データの中から、服装特徴点および輪郭特徴点を抽出する。人物検出部171は、抽出した各特徴点に基づいて、服装特徴量および輪郭特徴量を算出する。人物検出部171は、算出した服装特徴量および輪郭特徴量を識別器に代入して演算を行い、得られた演算結果に基づいて、人物が画像中で認識(検出)されたか否かの識別結果を出力する。
本変形例に係る人物検出部171は、人物の服装および輪郭という2種類の特徴量に着目している。これにより、人物検出部171は、伝送された画像から少なくとも一方の特徴量を充分に抽出することができれば、画像から人物を検出することができる。
人物検出部171は、伝送された画像中に人物が存在したか否かの検出結果を、動画メタデータ生成部141に伝送する。また、人物検出部171は、画像中に複数の人物が検出された場合には、検出された人物の個数(人数)を動画メタデータ生成部141に伝送してもよい。
なお、人物検出部171は、画像中に人物が存在した場合には、人物に該当する画素の位置を表す位置情報を、動画メタデータ生成部141に伝送してもよい。かかる位置情報が出力されることで、本変形例に係る他の処理部は、画像中のどの位置に人物が存在するのかを、容易に知ることができる。また、人物検出部171は、人物検出処理を行った画像の演算結果(識別器から出力されたスコア)を動画メタデータ生成部141に伝送してもよい。
被写体検出部173は、例えば、CPU、ROM、RAM等から構成されている。被写体検出部173は、伝送された画像の中から、ユーザが画像を一瞥した場合にユーザが注目すると推定される画像上の物体、すなわち、ユーザが目を向けると推定される物体を、被写体として検出する。
被写体検出部173は、被写体の検出を、例えば、伝送された画像のぼけ具合(ぼけの度合い)、露出の適正さの度合いおよびホワイトバランスの適正さの度合い等に着目して行う。被写体検出部173による被写体の検出処理をより具体的に説明すると、以下の通りである。
被写体検出部173は、動画データ分割部131から画像データが伝送されると、伝送された画像に基づいて、当該画像の各領域について、輝度に関する情報を示す輝度情報マップを生成する。また、被写体検出部173は、伝送された画像に基づいて、当該画像の各領域について、画像を構成する色に関する情報を示す色情報マップを生成する。また、被写体検出部173は、伝送された画像に基づいて、当該画像の各領域について、エッジに関する情報を示すエッジ情報マップを生成する。また、被写体検出部173は、伝送された画像に基づいて、当該画像の各領域について、被写体としての人の顔に関する情報を示す顔情報マップを生成する。また、被写体検出部173は、伝送された画像に基づいて、当該画像の各領域について、動きに関する情報を示す動き情報マップを生成する。
これらの情報マップに含まれる情報は、被写体の含まれる領域により多く含まれる特徴の特徴量を示す情報であり、その情報が伝送された画像の各領域に対応させて並べられたものが情報マップである。すなわち、情報マップは、伝送された画像の各領域における特徴量を示す情報である。なお、上述の各情報マップは、あくまでも一例であって、上述のもの以外の情報マップが生成されてもよく、上述の各情報マップのうち一部のみが生成されてもよい。
被写体検出部173は、生成した各情報マップを線形結合し、被写体マップを生成する。すなわち、上述の各情報マップの各領域の情報(特徴量)が、同じ位置にある領域ごとに重み付け加算され、被写体マップが生成される。
続いて、被写体検出部173は、伝送された画像と、生成した被写体マップとを用いて、伝送された画像における被写体の含まれる領域を処理対象として、被写体のぼけ具合を表す指数(焦点ぼけ指数)を生成する。また、被写体検出部173は、伝送された画像に基づいて、伝送画像全体における露出の適正さの度合いを表す指数(露出指数)を生成する。また、被写体検出部173は、伝送された画像に基づいて、伝送画像全体におけるホワイトバランスの適正さの度合いを表す指数(ホワイトバランス指数)を生成する。
被写体検出部173は、生成したこれらの指数を、予め設定された重みを用いて線形結合し、伝送された画像に対する被写体スコアとする。被写体検出部173は、例えば、算出した被写体スコアが所定の閾値以上となっている領域を、被写体として検出する。
被写体検出部173は、伝送された画像中に被写体が存在したか否かの検出結果を、動画メタデータ生成部141に伝送する。また、被写体検出部173は、画像中に複数の被写体が検出された場合には、検出された被写体の個数を動画メタデータ生成部141に伝送してもよい。
なお、被写体検出部173は、画像中に被写体が存在した場合には、被写体に該当する画素の位置を表す位置情報を、動画メタデータ生成部141に伝送してもよい。かかる位置情報が出力されることで、本変形例に係る他の処理部は、画像中のどの位置に被写体が存在するのかを、容易に知ることができる。また、被写体検出部173は、算出した被写体スコア、焦点ぼけ指数、露出指数、ホワイトバランス指数のいずれかまたは全てを動画メタデータ生成部141に伝送してもよい。
物体検出部175は、例えば、CPU、ROM、RAM等から構成されている。物体検出部175は、伝送された画像の中から、予めデータベースに登録されている物体を検出する。そのため、本変形例に係る情報処理装置10のユーザが、様々な物体を特徴付けるデータをデータベースに予め登録しておくことで、ユーザの嗜好を反映した物体を、画像の中から検出することが可能となる。
物体検出部175は、一般的な物体や情報処理装置10のユーザから指定された物体等を含む画像に対してエッジ検出処理を行い、エッジ画像を生成する。物体検出部175は、生成したエッジ画像上のエッジ点における局所特徴量と、このエッジ点をサポートする点とを抽出し、抽出した点を幾何学的位置関係と関連付けて、データベースに登録しておく。
物体検出部175は、動画データ分割部131から画像データが伝送されると、伝送された画像に対してエッジ検出処理を行い、エッジ画像を生成する。物体検出部175は、生成されたエッジ画像を用いて、エッジ画像上のエッジ点における局所特徴量を算出する。物体検出部175は、データベースに登録されている特徴量やエッジ点の幾何学的位置関係を検索し、生成した局所特徴量等に類似しているデータが登録されているか否かを判断する。予め登録されているデータが存在する場合には、対応する物体が画像中に存在したとして、物体検出部175は、検出結果を動画メタデータ生成部141に出力する。また、物体検出部175は、画像中に複数の物体が検出された場合には、検出された物体の種類および個数を動画メタデータ生成部141に伝送してもよい。
本変形例に係る動画解析部103は、かかる処理部を有することで、第1の実施形態に係る動画解析部103の機能に加え、動画の中から人物を検出したり、ユーザが着目した被写体を検出したり、ユーザが指定した物体を検出したりすることが可能となる。これにより、本変形例に係る動画解析部103は、動画の内容をより多くの観点から解析することが可能となる。その結果、本変形例に係る情報処理装置10は、動画の内容が反映された、より自然で迫力のあるコミック表示画面を生成することが可能となる。
なお、上述の説明における人物検出方法、被写体検出方法および物体検出方法はあくまでも一例であって、本変形例に係る動画解析部103が実行する各検出処理の詳細が、上述の例に限定されるわけではない。本変形例に係る動画解析部103では、上述の方法以外の処理を用いて、人物、被写体および物体の検出を行うことが可能である。
また、顔検出部133、人物検出部171、被写体検出部173および物体検出部175のそれぞれは、画像中で最初に検出された人(物)、検出精度の一番高い人(物)、所定の方向を向いている人(顔)、笑顔の人物等、所定の検出対象を優先して検出するようにしてもよい。
なお、上述の説明において、動画メタデータ生成部141に伝送される検出結果等はあくまでも一例である。上述の検出結果以外にも、動画を特徴付ける特徴量として利用可能な検出結果等が存在する場合には、これらの検出結果を動画メタデータとして利用可能である。
[エフェクト画像の配置処理について]
続いて、図31A〜図31Eおよび図32を参照しながら、本変形例に係るコミック表示変換部107が実施するエフェクト画像の配置処理について、詳細に説明する。図31A〜図31Eおよび図32は、本変形例に係るエフェクト画像の配置方法について説明するための説明図である。
コミック表示変換部107のエフェクト画像配置部161は、動画解析部103による動画の解析結果に応じて、以下で説明するような方針の基でエフェクト画像を配置してもよい。
例えば、エフェクト画像配置部161は、画像中に検出精度の高い顔領域が存在する場合には、図31Aに示したように、顔領域を含むコマ全体に対して、顔領域を強調するように集中線エフェクトを配置してもよい。ここで、検出精度の高い顔領域の例として、顔検出処理の際に算出される数値(スコア)が所定の閾値以上である領域を挙げることができる。その結果、図31Aに示したように、コマ全体がエフェクト画像の配置される領域であるエフェクト画像配置領域となり、エフェクト画像配置部161は、このエフェクト画像配置領域内に、集中線エフェクトを配置していくこととなる。
また、動画解析部103からコミック表示変換部107に対して、特定の領域(顔領域、人物領域、被写体領域、物体領域)等が検出されず、音声のみが検出されたという結果が通知される場合も生じうる。この際、エフェクト画像配置部161は、図31Bに示したように、コマ領域全体に対して音声が存在することを示す所定のエフェクト画像を配置してもよい。
また、動画解析部103からコミック表示変換部107に対して、検出精度の高くない領域が検出され、あわせて音声も検出されたという結果が通知される場合も生じうる。この際、エフェクト画像配置部161は、検出された領域(検出精度の高くない領域)を避けるようにエフェクト画像配置領域を設定し、このエフェクト画像配置領域に音声に対応する吹き出しエフェクト等を配置してもよい。この際、エフェクト画像配置部161は、検出された精度の高くない領域と、エフェクト画像配置領域との相対的な位置関係を考慮し、配置するエフェクト画像の方向を設定することが好ましい。ここで、設定されるエフェクト画像配置領域の大きさは、コマのアスペクト比等に応じて適宜決定される。
例えば図31Cに示したように、コマの右側に検出精度の高くない顔領域が検出され、あわせて音声も検出された場合、エフェクト画像配置部161は、検出された顔領域を避けるようにコマの左側にエフェクト画像配置領域を設定する。また、検出された音声は、検出された顔領域と関連がある場合が多いため、エフェクト画像配置部161は、配置する吹き出しエフェクトの向きを、顔領域の位置するコマの右側から左向きに設定する。
検出精度の高くない領域が検出された場合には、検出された領域を強調するようにエフェクト画像を配置してしまうと、検出が失敗していた際に誤った検出結果が強調されてしまうこととなる。そのため、図31Cに示したように、検出領域を避けてエフェクト画像を配置することで、誤った検出結果が出力されていた場合であっても、処理対象画像に対して自然なエフェクトを与えることができる可能性が高くなる。
また、動画解析部103からコミック表示変換部107に対して、複数の領域が検出され、あわせて音声も検出されたという結果が通知される場合も生じうる。この際、エフェクト画像配置部161は、複数の検出領域を包含するようなより大きな領域を設定する。エフェクト画像配置部161は、設定された領域を避けるようにエフェクト画像配置領域を設定し、このエフェクト画像配置領域に音声に対応する吹き出しエフェクト等を配置してもよい。この際、エフェクト画像配置部161は、設定されたより大きな領域と、エフェクト画像配置領域との相対的な位置関係を考慮し、配置するエフェクト画像の方向を設定することが好ましい。
また、人物や顔が検出された場合だけでなく、例えば図31Eに示したように、被写体として検出された物体や、一般的な物体が検出された場合であっても、エフェクト画像配置部161は、上述のようにしてエフェクト画像を配置することが可能である。
エフェクト画像配置部161は、エフェクト画像の方向を考慮しながらエフェクト画像の配置を行う場合、例えば図32に示したように、コマ全体の重心の位置と、検出された領域の重心の位置との相対的な位置関係を算出して、エフェクト画像の方向を決定する。これにより、エフェクト画像配置部161は、オクルージョンを避けながら、エフェクト画像と検出された領域との関連性をより高めて、効果的にエフェクト画像を配置することが可能である。
(第2の実施形態)
次に、図33〜図37を参照しながら、本発明の第2の実施形態に係る情報処理装置および情報処理方法について、詳細に説明する。本実施形態に係る情報処理装置および情報処理方法は、動画および静止画の解析結果を利用して、動画および静止画の内容を把握するために有効な画像を自動的に抽出し、抽出した画像を内容把握が容易なように表示する。これにより、あるイベントに関する記録が動画と静止画の双方を用いて行われた場合に、動画と静止画の区別を行うことなく、あるイベントの内容を容易に把握することができる。
<情報処理装置の構成について>
まず、図33〜図35を参照しながら、本実施形態に係る情報処理装置の構成について、詳細に説明する。図33は、本実施形態に係る情報処理装置の構成を説明するためのブロック図である。図34は、本実施形態に係る静止画解析部1003の構成を説明するためのブロック図であり、図35は、本実施形態に係るコミック表示変換部1005の構成を説明するためのブロック図である。
[情報処理装置の全体構成について]
本実施形態に係る情報処理装置10は、例えば図33に示したように、動画データ取得部101、動画解析部103、音声抽出部105、フレーム画像データ生成部109、コミック表示データ生成部111およびコミック表示実行部113を備える。また、情報処理装置10は、表示制御部115、記憶部117、静止画データ取得部1001、静止画解析部1003およびコミック表示変換部1005を更に備える。なお、情報処理装置10は、これらの各処理部以外にも、例えば任意の通信網を介して任意の装置との間で行なわれる通信を制御する通信制御部(図示せず。)等を有していても良い。
ここで、動画データ取得部101、動画解析部103、音声抽出部105、フレーム画像データ生成部109、コミック表示データ生成部111、コミック表示実行部113、表示制御部115および記憶部117は、第1の実施形態に係る各処理部と同様の構成を有し、ほぼ同様の効果を奏するため、以下では、詳細な説明は省略する。
静止画データ取得部1001は、例えば、CPU、ROM、RAM、通信装置等から構成されている。静止画データ取得部1001は、情報処理装置10に対してなされたユーザ操作に応じて、ユーザが指定した静止画に対応する静止画データを、記憶部117や、情報処理装置10に挿入された各種の記録媒体等から取得する。ここで、静止画データには、当該静止画データが生成された時刻に関する時刻情報が関連付けられているものとする。また、静止画データ取得部1001は、情報処理装置10に接続された他の装置から静止画データを取得したり、インターネット等の通信網を介して接続された各種のサーバから静止画データを取得したりすることが可能である。静止画データ取得部1001は、取得した静止画データを、静止画解析部1003と、フレーム画像データ生成部109とにそれぞれ伝送する。
静止画解析部1003は、例えば、CPU、ROM、RAM等から構成されている。静止画解析部1003は、伝送された静止画データを解析して、静止画を特徴付ける特徴量を抽出する。また、静止画解析部1003は、抽出された特徴量を用いて、特徴量に関するメタデータである静止画メタデータを生成する。静止画解析部1003は、生成した静止画メタデータを、後述するコミック表示変換部1005に伝送する。なお、静止画解析部1003は、静止画を解析して生成される静止画メタデータ以外にも、デジタルカメラなどの撮像装置上で取得可能なメタデータを、後述するコミック表示変換部1005で用いられる静止画メタデータとして利用することも可能である。ここで、撮像装置上で取得可能なメタデータとして、例えば、お気に入りボタン、ズームイン、ズームアウトボタン等の操作履歴等を挙げることができる。
なお、この静止画解析部1003については、以下で改めて詳細に説明する。
コミック表示変換部1005は、例えば、CPU、ROM、RAM等から構成されている。コミック表示変換部1005は、動画メタデータおよび静止画メタデータに基づいて動画データおよび静止画データの中から複数の画像を抽出する。また、コミック表示変換部1005は、所定の表示領域をコマ割りして抽出した複数の画像をマンガ的に配置変換し、それぞれのコマに配置された画像に関する情報を含むコマ情報を生成する。コミック表示変換部1005は、生成したコマ情報を、フレーム画像データ生成部109およびコミック表示データ生成部111に伝送する。
なお、このコミック表示変換部1005については、以下で改めて詳細に説明する。
[静止画解析部1003の構成について]
続いて、図34を参照しながら、本実施形態に係る静止画解析部1003の構成について、詳細に説明する。
本実施形態に係る静止画解析部1003は、例えば図34に示したように、顔検出部1011、人物検出部1013、被写体検出部1015、物体検出部1017、タイムスタンプ判定部1019および静止画メタデータ生成部1021を主に備える。
ここで、顔検出部1011、人物検出部1013、被写体検出部1015および物体検出部1017は、本発明の第1の実施形態および第1の実施形態の第1変形例に係る各処理部と同様の構成を有し、同様の効果を奏するため、以下では、詳細な説明は省略する。
タイムスタンプ判定部1019は、例えば、CPU、ROM、RAM等から構成されている。タイムスタンプ判定部1019は、静止画データ取得部1001から伝送された静止画データに関連付けられている時刻情報を参照して、静止画データがいつ生成されたものであるかを判定する。タイムスタンプ判定部1019は、静止画データのタイムスタンプを、後述する静止画メタデータ生成部1021に伝送する。
かかるタイムスタンプを静止画メタデータの一つとして静止画メタデータ生成部1021に伝送することで、情報処理装置10の他の処理部は、該当する静止画がいつ生成されたものかを特定することが可能となる。かかるタイムスタンプが特定されることで、コミック表示変換部1005のコマ画像配置部159は、抽出された静止画を、動画から選択された複数の画像のどの位置に挿入すればよいかを容易に判断することが可能となる。
静止画メタデータ生成部1021は、例えば、CPU、ROM、RAM等から構成されている。静止画メタデータ生成部1021は、顔検出部1011、人物検出部1013、被写体検出部1015、物体検出部1017およびタイムスタンプ判定部1019から伝送された検出結果等に基づき、静止画を特徴付ける特徴量に関する静止画メタデータを生成する。つまり、静止画メタデータには、画像データから抽出された特徴量に関するメタデータが含まれている。
静止画メタデータ生成部1021は、上述のようにして生成された静止画メタデータを、コミック表示変換部1005に伝送する。
以上、本実施形態に係る静止画解析部1003の構成について説明した。
なお、図34では、静止画解析部1003が、顔検出部1011、人物検出部1013、被写体検出部1015および物体検出部1017を備える場合について図示しているが、静止画解析部1003は、上述の処理部のうちいくつかを備えていてもよい。
また、本実施形態に係る情報処理装置10では、動画解析部103および静止画解析部1003のそれぞれが同様の機能を有する処理部(各検出部)を備えている場合について説明した。しかしながら、動画解析部103および静止画解析部1003により共用される各検出部が、情報処理装置10内に設けられていてもよい。
[コミック表示変換部1005の構成について]
次に、図35を参照しながら、本実施形態に係るコミック表示変換部1005の構成について、詳細に説明する。
コミック表示変換部1005は、ダイジェストスコア算出部151、サムネイル枚数決定部153、カメラワークメタデータ利用部155、コマ画像配置部159、エフェクト画像配置部161、コマ情報生成部163および画像サイズ決定部1031を主に備える。
ここで、ダイジェストスコア算出部151、サムネイル枚数決定部153、カメラワークメタデータ利用部155、コマ画像配置部159、エフェクト画像配置部161およびコマ情報生成部163は、本発明の第1の実施形態および第1の実施形態の第1変形例に係る各処理部と同様の構成を有し、ほぼ同様の効果を奏するため、以下では、詳細な説明は省略する。
画像サイズ決定部1031は、例えば、CPU、ROM、RAM等から構成されている。画像サイズ決定部1031は、第1の実施形態に係る画像サイズ決定部157と同様にして、所定の表示領域に配置される動画のサムネイル画像の大きさを、ダイジェストスコアに基づいて決定する。
画像サイズ決定部1031は、選択されたサムネイル画像に対して、画像中に顔が存在することを表す動画メタデータが存在している場合には、顔が表示されている領域である顔領域を拡大表示するように、画像サイズを設定する。また、画像中に複数の顔領域が存在する場合には、画像サイズ決定部1031は、全ての顔領域を含むように画像データのサイズを拡大処理する。
また、画像サイズ決定部1031は、所定の表示領域に配置される静止画のサムネイル画像の大きさを、静止画解析部1003から伝送された静止画メタデータに基づいて決定する。また、画像サイズ決定部1031は、情報処理装置10に入力された複数の静止画に関して、コミック表示に使用する静止画を、静止画メタデータおよび静止画サイズに基づいて選択することも可能である。例えば、画像サイズ決定部1031は、顔・人物・被写体等が検出されたことを表すメタデータを有する静止画を、優先的に選択してもよい。また、画像サイズ決定部1031は、以下で説明する画像サイズの決定方法により決定した静止画の画像サイズに基づき、画像サイズの大きなものを優先的に選択してもよい。なお、静止画メタデータに基づく静止画の画像サイズの決定方法については、以下で改めて詳細に説明する。
画像サイズ決定部1031は、このようにして設定された動画および静止画のサムネイル画像のサイズ(ひいては、アニメーションフレーム画像のサイズ)に関する情報をコマ画像情報とし、コマ画像配置部159およびコマ情報生成部163に伝送する。
以上、本実施形態に係る情報処理装置10の機能の一例を示した。上記の各構成要素は、汎用的な部材や回路を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。また、各構成要素の機能を、CPU等が全て行ってもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用する構成を変更することが可能である。
なお、上述のような本実施形態に係る情報処理装置の各機能を実現するためのコンピュータプログラムを作製し、パーソナルコンピュータ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリなどである。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信してもよい。
<情報処理方法について>
続いて、図36および図37を参照しながら、本実施形態に係る情報処理方法について、詳細に説明する。図36は、本実施形態に係る情報処理方法の全体的な流れを説明するための流れ図である。図37は、静止画の画像サイズの決定方法を説明するための流れ図である。
[情報処理方法の全体的な流れについて]
まず、図36を参照しながら、本実施形態に係る情報処理方法の全体的な流れについて、詳細に説明する。
本実施形態に係る情報処理装置10の動画データ取得部101は、まず、ユーザ操作に応じて、ユーザにより指定された動画に対応する動画データを取得する(ステップS1001)。動画データ取得部101は、動画データを、自装置内の記憶部117等から取得してもよいし、自装置に装着された各種の記録媒体から取得してもよい。また、動画データ取得部101は、動画データを、無線または有線で接続された他の装置から取得してもよいし、インターネット等の通信網を介して接続された他の装置から取得してもよい。動画データ取得部101は、取得した動画データを、動画解析部103および音声抽出部105に伝送する。
また、本実施形態に係る情報処理装置10の静止画データ取得部1001は、ユーザ操作に応じて、ユーザにより指定された静止画に対応する静止画データを取得する(ステップS1001)。静止画データ取得部1001は、静止画データを、自装置内の記憶部117等から取得してもよいし、自装置に装着された各種の記録媒体から取得してもよい。また、静止画データ取得部1001は、静止画データを、無線または有線で接続された他の装置から取得してもよいし、インターネット等の通信網を介して接続された他の装置から取得してもよい。静止画データ取得部1001は、取得した静止画データを、静止画解析部1003およびフレーム画像データ生成部109に伝送する。
動画解析部103は、動画データ取得部101から伝送された動画データを解析して、伝送された動画データに対応する動画を特徴付ける特徴量に関するメタデータである動画メタデータを生成する(ステップS1003)。動画解析部103は、生成した動画メタデータを、コミック表示変換部1005に伝送する。
また、音声抽出部105は、動画データ取得部101から伝送された動画データの中から、音声データを抽出し(ステップS1005)、取得した音声データをコミック表示データ生成部111に伝送する。
他方、静止画解析部1003は、静止画データ取得部1001から伝送された静止画データを解析して、伝送された静止画データに対応する静止画を特徴付ける特徴量に関するメタデータである静止画メタデータを生成する(ステップS1007)。静止画解析部1003は、生成した静止画メタデータを、コミック表示変換部1005に伝送する。
次に、コミック表示変換部1005のダイジェストスコア算出部151は、伝送された動画メタデータに基づいて、動画を構成する全ての画像(フレーム画像)に対して、ダイジェストスコアを算出する。ダイジェストスコア算出部151は、算出したダイジェストスコアを、サムネイル枚数決定部153に伝送する。
続いて、サムネイル枚数決定部153は、伝送されたダイジェストスコアと動画メタデータとを用いて、サムネイル画像として利用される代表フレーム画像を選択する(ステップS1009)。また、サムネイル枚数決定部153は、代表フレーム画像の選択が終了すると、サムネイルアニメーションに用いられるアニメーションフレーム画像を選択する。サムネイル枚数決定部153は、選択した代表フレーム画像を特定する情報や、代表フレーム画像の枚数に関する情報や、代表フレーム画像に関連するアニメーションフレーム画像に関する情報等を含む枚数情報を生成する。サムネイル枚数決定部153は、生成した枚数情報を、画像サイズ決定部1031とコマ情報生成部163とに伝送する。
なお、アニメーションフレーム画像や、サムネイルアニメーションの再生速度の決定に際して、カメラワークメタデータ利用部155による解析結果を反映させることも可能である。
次に、画像サイズ決定部1031は、伝送された枚数情報、動画メタデータ、ダイジェストスコア等に基づいて、選択された代表フレーム画像をコミック表示する際の画像サイズを決定する(ステップS1011)。また、画像サイズ決定部1031は、静止画解析部1003から伝送された静止画メタデータ等に基づいて、静止画の画像サイズを決定する(ステップS1013)。画像サイズ決定部1031は、代表フレーム画像の画像サイズに関する情報を含むコマ画像情報を生成し、コマ画像配置部159と、コマ情報生成部163とに伝送する。
なお、画像サイズ決定部1031は、情報処理装置10に入力された複数の静止画に関して、コミック表示に使用する静止画を、静止画メタデータおよび静止画サイズに基づいて選択することも可能である。例えば、画像サイズ決定部1031は、顔・人物・被写体等が検出されたことを表すメタデータを有する静止画を優先的に選択してもよい。また、画像サイズ決定部1031は、以下で説明する画像サイズの決定方法により決定した静止画の画像サイズに基づき、画像サイズの大きなものを優先的に選択してもよい。
続いて、コマ画像配置部159は、伝送されたコマ画像情報、動画メタデータおよび静止画メタデータ等を用いて、代表フレーム画像を表示領域に自動的に配置していき、代表フレーム画像の配置を決定する(ステップS1015)。コマ画像配置部159は、代表フレーム画像の配置を決定すると、どの代表フレーム画像をどの位置に配置したのかといった情報を含むコマ配置情報を生成し、エフェクト画像配置部161と、コマ情報生成部163とに伝送する。
次に、エフェクト画像配置部161は、伝送されたコマ配置情報、動画メタデータおよび静止画メタデータ等に基づいて、吹き出し等のエフェクト画像を配置する(ステップS1017)。この際、エフェクト画像配置部161は、本発明の第1の実施形態および第1の実施形態の第1変形例で説明したようなエフェクト画像の配置方法に基づいて、エフェクト画像を配置していく。エフェクト画像配置部161は、エフェクト画像の配置が終了すると、どのエフェクトをどこに配置したのかといった情報を含むエフェクト配置情報を生成し、コマ情報生成部163に伝送する。
なお、画像サイズの決定、コマ画像の配置およびエフェクト画像の配置に際して、動画メタデータに含まれるカメラワークに関する特徴量を利用することが可能である。
続いて、コマ情報生成部163は、各処理部から伝送された枚数情報、コマ画像情報、コマ配置情報、エフェクト配置情報等に基づいて、コマ情報を生成する(ステップS1019)。コマ情報生成部163は、生成したコマ情報を、フレーム画像データ生成部109と、コミック表示データ生成部111とに伝送する。
次に、フレーム画像データ生成部109は、画像データとコマ情報とに基づいて、コミック表示に利用されるフレーム画像の大きさや形状を調整する処理を行い、コミック表示に利用されるフレーム画像データを生成する(ステップS1021)。フレーム画像データ生成部109は、生成したフレーム画像データを、コミック表示データ生成部111に伝送する。
コミック表示データ生成部111は、音声抽出部105から伝送された音声データと、コミック表示変換部1005から伝送されたコマ情報とに基づいて、コミック表示に用いられる音声データを生成する。また、コミック表示データ生成部111は、コマ情報と、音声データと、フレーム画像データと、エフェクトデータとを用いて、コミック表示を実現するために必要なデータのセットであるコミック表示データを生成する(ステップS1023)。
情報処理装置10は、生成されたコミック表示データを実行することで、表示画面上に、動画の内容を要約したものであるコミック表示を表示することができる。
なお、静止画から生成されたコマ画像は、コミック生成後の閲覧時には、静止画1枚を動かすことでアニメーションを行うことが可能である。また、静止画から生成されたコマ画像では、静止画クラスタリングにより複数枚の静止画からアニメーションに用いる画像を選択して、選択した画像を用いてアニメーションを行うことも可能である。
[静止画の画像サイズの決定方法について]
続いて、図37を参照しながら、画像サイズ決定部1031で実施される静止画の画像サイズの決定方法について、詳細に説明する。
静止画の画像サイズを決定する際、画像サイズ決定部1031は、まず、静止画の画像サイズを表すパラメータを初期値に設定する(ステップS1101)。
続いて、画像サイズ決定部1031は、静止画解析部1003から伝送された静止画メタデータを参照し、処理中の静止画の中に顔領域が2以上検出されたか否かを判断する(ステップS1103)。顔領域が2以上検出されなかった場合には、画像サイズ決定部1031は、後述するステップS1111を実行する。また、顔領域が2以上検出された場合には、画像サイズ決定部1031は、画像サイズを表すパラメータを増加させる(ステップS1105)。次に、画像サイズ決定部1031は、検出された顔領域の大きさが80ピクセル以上であるか否かを判断する(ステップS1107)。顔領域の大きさが80ピクセル以上であった場合には、画像サイズ決定部1031は、画像サイズを表すパラメータを増加させる(ステップS1109)。また、顔領域の大きさが80ピクセル以上ではなかった場合には、画像サイズ決定部1031は、後述するステップS1111を実行する。
次に、画像サイズ決定部1031は、静止画メタデータを参照して、処理中の静止画の焦点ぼけ指数が50以上であるか否かを判断する(ステップS1111)。焦点ぼけ指数が50以上である場合には、画像がぼけている可能性があるため、画像サイズ決定部1031は、画像サイズを表すパラメータを減少させ(ステップS1113)、その後、後述するステップS1115を実行する。また、焦点ぼけ指数が50以上ではなかった場合には、画像サイズ決定部1031は、後述するステップS1117を実行する。
続いて、画像サイズ決定部1031は、(被写体として検出された領域の面積/画像中心からの距離)で定義される被写体領域スコアを算出し(ステップS1115)、算出した被写体領域スコアが0.75以上か否かを判断する(ステップS1117)。被写体領域スコアが0.75以上である場合には、画像サイズ決定部1031は、画像のサイズを表すパラメータを増加させ(ステップS1119)、後述するステップS1121を実行する。被写体領域スコアが0.75以上ではなかった場合には、画像サイズ決定部1031は、後述するステップS1121を実行する。
次に、画像サイズ決定部1031は、画像サイズを表すパラメータの最終的な値を参照し、パラメータの値に基づいて画像サイズを決定する(ステップS1121)。
画像サイズ決定部1031は、かかる手順で静止画メタデータに基づく処理を行うことにより、コミック表示に用いられる画像サイズを決定することができる。
なお、上述の説明中で示した各閾値はあくまでも一例であって、画像サイズ決定部1031が処理する静止画の撮影条件やサイズ等の様々な要因に応じて、任意の値に設定することが可能である。
(第3の実施形態)
次に、図38を参照しながら、本発明の第3の実施形態に係る情報処理装置について、詳細に説明する。本実施形態に係る情報処理装置は、静止画の解析結果を利用して、一連の静止画の内容を把握するために有効な画像を自動的に抽出し、抽出した画像を内容把握が容易なように表示する。
<情報処理装置の構成について>
図38は、本実施形態に係る情報処理装置の構成を説明するためのブロック図である。
本実施形態に係る情報処理装置10は、例えば図38に示したように、フレーム画像データ生成部109、コミック表示データ生成部111、コミック表示実行部113、表示制御部115および記憶部117を備える。また、本実施形態に係る情報処理装置10は、静止画データ取得部1001、静止画解析部1003およびコミック表示変換部1101を更に備える。
フレーム画像データ生成部109、コミック表示データ生成部111、コミック表示実行部113、表示制御部115および記憶部117は、第1の実施形態および第1変形例ならびに第2の実施形態に係る各処理部と同様の構成を有し、同様の効果を奏する。そのため、以下では、詳細な説明は省略する。
また、静止画データ取得部1001および静止画解析部1003は、第2の実施形態に係る静止画データ取得部1001および静止画解析部1003と同様の構成を有し、同様の効果を奏するため、以下では、詳細な説明は省略する。
コミック表示変換部1101は、例えば、CPU、ROM、RAM等から構成されている。コミック表示変換部1101は、静止画解析部1003から伝送された静止画メタデータに基づいて、所定の表示領域をコマ割りし、複数の静止画像をマンガ的に配置変換し、それぞれのコマに配置された画像に関する情報を含むコマ情報を生成する。コミック表示変換部1101は、生成したコマ情報を、フレーム画像データ生成部109およびコミック表示データ生成部111に伝送する。
かかるコミック表示変換部1101の詳細な構成は、本発明の第2の実施形態に係るコミック表示変換部1005の詳細な構成と類似しているため、以下では、詳細な説明は省略する。
本実施形態に係る情報処理装置10の静止画データ取得部1001は、ユーザ操作に応じて、ユーザにより指定された静止画に対応する静止画データを取得し、静止画解析部1003に伝送する。静止画解析部1003は、静止画データ取得部1001から伝送された静止画データを解析して、伝送された静止画データに対応する静止画を特徴付ける特徴量に関するメタデータである静止画メタデータを生成する。静止画解析部1003は、生成した静止画メタデータを、コミック表示変換部1101に伝送する。
コミック表示変換部1101の画像サイズ決定部1031は、静止画解析部1003から伝送された静止画メタデータ等に基づいて、静止画の画像サイズを決定する。画像サイズ決定部1031は、代表フレーム画像の画像サイズに関する情報を含むコマ画像情報を生成し、コミック表示変換部1101のコマ画像配置部159およびコマ情報生成部163に伝送する。
コミック表示変換部1101のコマ画像配置部159は、伝送されたコマ画像情報および静止画メタデータ等を用いて、代表フレーム画像を表示領域に自動的に配置していき、代表フレーム画像の配置を決定する。コマ画像配置部159は、代表フレーム画像の配置を決定すると、どの代表フレーム画像をどの位置に配置したのかといった情報を含むコマ配置情報を生成し、コミック表示変換部1101のエフェクト画像配置部161およびコマ情報生成部163に伝送する。
次に、コミック表示変換部1101のエフェクト画像配置部161は、伝送されたコマ配置情報および静止画メタデータ等に基づいて、吹き出し等のエフェクト画像を配置する。この際、エフェクト画像配置部161は、本発明の第1の実施形態および第1の実施形態の第1変形例で説明したようなエフェクト画像の配置方法に基づいて、エフェクト画像を配置していく。エフェクト画像配置部161は、エフェクト画像の配置が終了すると、どのエフェクトをどこに配置したのかといった情報を含むエフェクト配置情報を生成し、コマ情報生成部163に伝送する。
続いて、コミック表示変換部1101のコマ情報生成部163は、各処理部から伝送されたコマ画像情報、コマ配置情報、エフェクト配置情報等に基づいて、コマ情報を生成する。コマ情報生成部163は、生成したコマ情報を、フレーム画像データ生成部109と、コミック表示データ生成部111とに伝送する。
次に、フレーム画像データ生成部109は、画像データとコマ情報とに基づいて、コミック表示に利用されるフレーム画像の大きさや形状を調整する処理を行い、コミック表示に利用されるフレーム画像データを生成する。フレーム画像データ生成部109は、生成したフレーム画像データを、コミック表示データ生成部111に伝送する。
コミック表示データ生成部111は、コマ情報と、フレーム画像データと、エフェクトデータとを用いて、コミック表示を実現するために必要なデータのセットであるコミック表示データを生成する。
情報処理装置10は、生成されたコミック表示データを実行することで、表示画面上に、動画の内容を要約したものであるコミック表示を表示することができる。
以上、本実施形態に係る情報処理装置10の機能の一例を示した。上記の各構成要素は、汎用的な部材や回路を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。また、各構成要素の機能を、CPU等が全て行ってもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用する構成を変更することが可能である。
なお、上述のような本実施形態に係る情報処理装置の各機能を実現するためのコンピュータプログラムを作製し、パーソナルコンピュータ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリなどである。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信してもよい。
(ハードウェア構成について)
次に、図39を参照しながら、本発明の各実施形態に係る情報処理装置10のハードウェア構成について、詳細に説明する。図39は、本発明の各実施形態に係る情報処理装置10のハードウェア構成を説明するためのブロック図である。
情報処理装置10は、主に、CPU901と、ROM903と、RAM905と、を備える。また、情報処理装置10は、更に、ホストバス907と、ブリッジ909と、外部バス911と、インターフェース913と、入力装置915と、出力装置917と、ストレージ装置919と、ドライブ921と、接続ポート923と、通信装置925とを備える。
CPU901は、演算処理装置および制御装置として機能し、ROM903、RAM905、ストレージ装置919、またはリムーバブル記録媒体927に記録された各種プログラムに従って、情報処理装置10内の動作全般またはその一部を制御する。ROM903は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM905は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一次記憶する。これらはCPUバス等の内部バスにより構成されるホストバス907により相互に接続されている。
ホストバス907は、ブリッジ909を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス911に接続されている。
入力装置915は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなどユーザが操作する操作手段である。また、入力装置915は、例えば、赤外線やその他の電波を利用したリモートコントロール手段(いわゆる、リモコン)であってもよいし、情報処理装置10の操作に対応した携帯電話やPDA等の外部接続機器929であってもよい。さらに、入力装置915は、例えば、上記の操作手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路などから構成されている。情報処理装置10のユーザは、この入力装置915を操作することにより、情報処理装置10に対して各種のデータを入力したり処理動作を指示したりすることができる。
出力装置917は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置およびランプなどの表示装置や、スピーカおよびヘッドホンなどの音声出力装置や、プリンタ装置、携帯電話、ファクシミリなどがある。出力装置917は、例えば、情報処理装置10が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置10が行った各種処理により得られた結果を、テキストまたはイメージで表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して出力する。
ストレージ装置919は、情報処理装置10の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置919は、例えば、HDD(Hard Disk Drive)等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイス等により構成される。このストレージ装置919は、CPU901が実行するプログラムや各種データ、および外部から取得した音響信号データや画像信号データなどを格納する。
ドライブ921は、記録媒体用リーダライタであり、情報処理装置10に内蔵、あるいは外付けされる。ドライブ921は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体927に記録されている情報を読み出して、RAM905に出力する。また、ドライブ921は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体927に記録を書き込むことも可能である。リムーバブル記録媒体927は、例えば、DVDメディア、HD−DVDメディア、Blu−ray(登録商標)メディア等である。また、リムーバブル記録媒体927は、コンパクトフラッシュ(登録商標)(CompactFlash:CF)、メモリースティック、または、SDメモリカード(Secure Digital memory card)等であってもよい。また、リムーバブル記録媒体927は、例えば、非接触型ICチップを搭載したICカード(Integrated Circuit card)または電子機器等であってもよい。
接続ポート923は、機器を情報処理装置10に直接接続するためのポートである。接続ポート923の一例として、USB(Universal Serial Bus)ポート、i.Link等のIEEE1394ポート、SCSI(Small Computer System Interface)ポート等がある。接続ポート923の別の例として、RS−232Cポート、光オーディオ端子、HDMI(High−Definition Multimedia Interface)ポート等がある。この接続ポート923に外部接続機器929を接続することで、情報処理装置10は、外部接続機器929から直接音響信号データや画像信号データを取得したり、外部接続機器929に音響信号データや画像信号データを提供したりする。
通信装置925は、例えば、通信網931に接続するための通信デバイス等で構成された通信インターフェースである。通信装置925は、例えば、有線または無線LAN(Local Area Network)、Bluetooth、またはWUSB(Wireless USB)用の通信カード等である。また、通信装置925は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデム等であってもよい。この通信装置925は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。また、通信装置925に接続される通信網931は、有線または無線によって接続されたネットワーク等により構成され、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信等であってもよい。
以上、本発明の各実施形態に係る情報処理装置10の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。
<まとめ>
以上説明したように、本手法を用いることで、様々なイベント(例えば、飲み会、旅行など)のプライベートビデオを、漫画のように表示することが可能である。長さ数分程度のプライベートビデオも、コマの大きさにもよるが数ページ程度で表現することができるため、より手短に閲覧することが可能である。また、Flashなどのコンテンツとしてコミック表示データを生成することで、Webブラウザ上などでページをめくりつつ、指定したコマの音声を再生しながら閲覧するようなことも可能である。
また、本手法では、動画解析部により動画データを解析することで、動画メタデータを抽出しているが、動画がTVコンテンツである場合、字幕データやEPGデータなどの情報を利用することも可能である。これにより、例えば吹き出し中に、人物の台詞などを表示させることも可能となる。
このように、本手法によれば、動画の内容を一見して理解できるように、動画の内容を要約することができる。これにより、動画を全て再生する時間を節約でき、重要なシーンを見逃さず、おおまかに全体を閲覧することができる。また、盛り上がりシーンをコマの大きさに反映させることで、効果的に表現することができる。また、動画の一覧性が向上しているため、大量の動画から、特定の動画を検索することが容易となる。
また、本手法によれば、コマ割りや吹き出しなど、動画を見たくなるような多様なコミック表現が可能となる。これにより、盛り上がりシーンの抽出が、そのまま動的なコマ割りとなり、コミックの面白さとして役立つこととなる。また、顔抽出機能により、顔がうまく映ったコマを吹き出しで隠さずにコミックに採用することができる。また、音声データの分類機能により、音声の台詞に応じたふきだしを生成可能である。また、多様な吹き出しによって、動画のシーンをより容易に理解することが可能となる。また、動画を撮影したものの、撮ったまま面倒になって見なくなってしまうといった現象を防止することができ、動画への興味を喚起することができる。また、動画をコミック画像にして表現することで、プライベートビデオの間延び感を和らげることもできる。
また、本手法におけるコミック表示データは、Flash、JavaScript、Java/BREWなど、多様なScriptや言語で記述可能である。例えばFlash等を用いた場合、ページをめくったり音声を再生したりと、インタラクティブなコンテンツを作成可能である。また、一般のWebブラウザでの閲覧が可能となるため、専用アプリケーションのインストール等の繁雑さを除去することができる。また、動画内容を一覧表示できるため、動画共有サイト等の表現・利便性を向上させることができる。これにより、コミック表示データをネットワーク上にアップロードし、他者との動画の共有を促進することができる。また、本手法は、一覧性が高く表現も面白いため、ホームページやブログへの貼り付けなどとの親和性を向上させることができる。
また、顔領域の検出結果に限らず、人物検出、被写体検出および物体検出といった様々な認識および検出技術を利用することで、コンテンツの内容理解に役立つ様々な画像を抽出することが可能となり、より容易にコンテンツの内容把握を行うことが可能となる。
また、検出された領域の検出精度や検出された領域の位置等に応じて、エフェクト画像の配置位置等を変更することで、画像中の重要な対象を強調して表示することが可能となり、重要なオブジェクトをエフェクト画像が隠してしまうことを防止可能である。
また、動画コンテンツだけでなく静止画コンテンツといった、ユーザの多様なメディアコンテンツを一まとめにしてコミック表示へと変換することができるため、ユーザは、手軽に複数のメディアのダイジェストを楽しく閲覧することができる。
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
なお、以下のような構成も本発明の技術的範囲に属する。
(1)
画像データを解析し、当該画像を特徴付ける特徴量に関するメタデータである画像メタデータを生成する画像解析部と、
前記画像メタデータに基づいて前記画像データの中から複数の画像を抽出するとともに、抽出した複数の画像を配置するためのコマに関するコマ情報を決定するコマ情報決定部と、
前記コマ情報と、前記抽出された画像のデータとを少なくとも含む画像表示データを生成する画像表示データ生成部と、
を備える、情報処理装置。
(2)
前記画像データには、時刻情報が関連付けられており、
前記コマ情報決定部は、当該時刻情報に基づいて前記画像データを時間順に抽出する、(1)に記載の情報処理装置。
(3)
前記コマ情報決定部は、前記コマを前記画像の大きさに応じて自動的に調整し、抽出した前記画像を漫画的に配置変換する、(1)または(2)に記載の情報処理装置。
(4)
前記コマ情報決定部は、生成された前記画像メタデータに基づいて、それぞれの前記コマに配置される複数の前記画像の大きさを決定する、(1)〜(3)のいずれか1つに記載の情報処理装置。
(5)
前記コマ情報決定部は、
前記画像メタデータに基づき、前記画像データに対して前記特徴量を重み付け加算した値であるダイジェストスコアを算出するダイジェストスコア算出部と、
前記ダイジェストスコアに基づいて前記画像データの中から前記コマに配置するサムネイル画像を抽出し、当該サムネイル画像の枚数を決定するサムネイル枚数決定部と、
所定の表示領域に配置されるサムネイル画像の大きさを、前記ダイジェストスコアに基づいて決定する画像サイズ決定部と、
画像サイズが決定された前記サムネイル画像を所定の順序で前記コマに配置するコマ画像配置部と、
サムネイル画像が配置されたコマに関する前記コマ情報を生成するコマ情報生成部と、
を更に備える、(1)〜(4)のいずれか1つに記載の情報処理装置。
(6)
前記サムネイル枚数決定部は、抽出された前記サムネイル画像に連続する所定の時間分の複数の画像をアニメーション用の画像として更に抽出する、(5)に記載の情報処理装置。
(7)
前記画像メタデータは、前記画像を撮像する際のカメラワークに関する画像メタデータを含み、
前記コマ情報決定部は、前記カメラワークに関する画像メタデータに基づいて、前記サムネイル枚数決定部により前記アニメーション用の画像として抽出される画像の枚数を決定するカメラワークメタデータ利用部を更に備える、(5)または(6)に記載の情報処理装置。
(8)
前記カメラワークメタデータ利用部は、抽出された前記サムネイル画像から前記カメラワークの積分値が所定の閾値となった時点に対応する画像までの間に存在する複数の画像の中から、前記アニメーション用の画像を選択する、(7)に記載の情報処理装置。
(9)
前記カメラワークメタデータ利用部は、前記カメラワークの積分値の大きさに応じて、前記サムネイル画像および前記アニメーション用の画像からなるアニメーションの再生速度を設定する、(8)に記載の情報処理装置。
(10)
前記コマ情報決定部は、前記サムネイル画像が配置されたコマに対して、前記画像メタデータに基づいて吹き出しおよび画面効果の少なくとも何れかを配置するエフェクト画像配置部を更に備える、(5)〜(9)のいずれか1つに記載の情報処理装置。
(11)
前記エフェクト画像配置部は、前記画像データに含まれる音声データに関する前記画像メタデータを利用して、前記吹き出しおよび前記画面効果の少なくとも何れかを配置する、(10)に記載の情報処理装置。
(12)
前記エフェクト画像配置部は、前記画像を撮像する際のカメラワークに関する画像メタデータを利用して、前記サムネイル画像に対して前記画面効果を配置する、(10)または(11)に記載の情報処理装置。
(13)
前記画像サイズ決定部は、画像中に顔が存在することを表す前記画像メタデータが存在する画像について、顔が表示されている領域である顔領域を拡大して前記サムネイル画像とする、(5)〜(12)のいずれか1つに記載の情報処理装置。
(14)
前記画像メタデータは、画像中に人物が存在することを表す画像メタデータ、画像中に存在する被写体に関する画像メタデータおよび画像中に存在する予め登録された物体に関する画像メタデータの少なくともいずれかを更に含み、
前記エフェクト画像配置部は、前記画像中に人物が存在することを表す画像メタデータ、前記画像中に存在する被写体に関する画像メタデータまたは前記画像中に存在する予め登録された物体に関する画像メタデータに基づいて、前記画面効果を配置する、(10)〜(13)のいずれか1つに記載の情報処理装置。
(15)
前記エフェクト画像配置部は、前記サムネイル画像のうち所定のオブジェクトが検出された領域の重心と前記所定の表示領域の重心との相対的な位置関係に基づいて、前記所定のオブジェクトが検出された領域以外の領域に前記画面効果を配置する、(10)〜(14)のいずれか1つに記載の情報処理装置。
(16)
前記画像サイズ決定部は、画像中に複数の前記顔領域が存在する場合には、全ての前記顔領域を含むように拡大処理を行い前記サムネイル画像とする、(13)〜(15)のいずれか1つに記載の情報処理装置。
(17)
画像データを解析し、当該画像を特徴付ける特徴量に関するメタデータである画像メタデータを生成することと、
前記画像メタデータに基づいて前記画像データの中から複数の画像を抽出するとともに、抽出した複数の画像を配置するためのコマに関するコマ情報を決定することと、
前記コマ情報と、前記抽出された画像のデータとを少なくとも含む画像表示データを生成することと、
を含む、情報処理方法。
(18)
コンピュータに、
画像データを解析し、当該画像を特徴付ける特徴量に関するメタデータである画像メタデータを生成する画像解析機能と、
前記画像メタデータに基づいて前記画像データの中から複数の画像を抽出するとともに、抽出した複数の画像を配置するためのコマに関するコマ情報を決定するコマ情報決定機能と、
前記コマ情報と、前記抽出された画像のデータとを少なくとも含む画像表示データを生成する画像表示データ生成機能と、
を実現させるためのプログラム。