JP5326910B2

JP5326910B2 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP5326910B2
Application number: JP2009177877A
Authority: JP
Inventors: 浩司佐藤; 康隆福本; 崇小形
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-01-20
Filing date: 2009-07-30
Publication date: 2013-10-30
Anticipated expiration: 2029-07-30
Also published as: CN101783886A; US8416332B2; US20100182501A1; JP2010191934A; CN101783886B

Description

本発明は、情報処理装置、情報処理方法およびプログラムに関する。

情報処理技術の発達に伴い、デジタルスチルカメラやデジタルビデオカメラ等のデジタル撮像装置が普及しつつある。これらのデジタル撮像装置に関して、撮像時の利便性を向上させるための技術と、撮像したデータをユーザに表示する際に用いられる技術との双方について、盛んに技術開発が行なわれている。

撮像時の利便性を向上させるための技術の一例として、例えば以下の特許文献１には、被写体である人物の顔領域を検出し、顔領域の大きさの変化や移動速度に着目して被写体ぶれの発生可能性を検証する技術が開示されている。

また、撮像したデータをユーザに表示する際に用いられる技術の一例として、例えば以下の特許文献２に開示されている技術がある。この技術は、ユーザが体験したイベントに関するサムネイル画像を表示画面に表示するとともに、イベントを代表する重要度の高いサムネイル画像に対して、イベントに応じて作成されたセリフを吹き出しとして表示する技術である。

特開２００８−２２３００号公報特開２００５−１４１２９７号公報

ところで、デジタルビデオカメラ等の動画撮影が可能な撮像装置において生成された動画データの内容を把握するためには、技術の発展に伴い撮影可能時間が増加したことで、膨大な時間が必要となる。この際に、上記特許文献２に記載の技術のような、サムネイル画像を複数表示し、重要度の高いサムネイル画像に対しては吹き出しを表示する技術を用いたとしても、吹き出しのついた画像と他の画像との関連性を把握することが困難となる場合も生じうる。そのため、ある動画の内容を把握するために有効な画像を自動的に抽出し、内容把握が容易なように表示する技術が求められていた。

そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、ある動画の内容を把握するために有効な画像を自動的に抽出し、内容把握が容易なように表示することが可能な、新規かつ改良された情報処理装置、情報処理方法およびプログラムを提供することにある。

上記課題を解決するために、本発明のある観点によれば、時刻情報が関連づけられた複数の画像および音声からなる動画のデータである動画データを解析し、当該動画を特徴付ける複数の特徴量に関するメタデータである動画メタデータを生成する動画解析部と、前記動画メタデータに基づいて前記動画データの中から複数の画像を抽出するとともに、所定の表示領域をコマ割りして抽出した複数の画像を漫画的に配置変換し、それぞれのコマに配置された画像に関する情報を含むコマ情報を生成するコミック表示変換部と、前記コマ情報と、前記抽出された画像のデータと、動画の音声のデータと、を少なくとも含むコミック表示データを生成するコミック表示データ生成部と、を備える、情報処理装置が提供される。

かかる構成によれば、動画解析部は、時刻情報が関連づけられた複数の画像からなる動画のデータである動画データを解析し、当該動画を特徴付ける複数の特徴量に関するメタデータである動画メタデータを生成する。また、コミック表示変換部は、動画メタデータに基づいて動画データの中から複数の画像を抽出するとともに、所定の表示領域をコマ割りして抽出した複数の画像を漫画的に配置変換し、それぞれのコマに配置された画像に関する情報を含むコマ情報を生成する。また、コミック表示データ生成部は、コマ情報と、抽出された画像のデータと、動画の音声のデータと、を少なくとも含むコミック表示データを生成する。

前記コミック表示変換部は、前記動画メタデータに基づき、前記動画データを構成する複数の画像それぞれに対して前記複数の特徴量を重み付け加算した値であるダイジェストスコアを算出するダイジェストスコア算出部と、前記ダイジェストスコアに基づいて前記動画データを構成する複数の画像の中から前記コマに配置するサムネイル画像を抽出し、当該サムネイル画像の枚数を決定するサムネイル枚数決定部と、前記所定の表示領域に配置されるサムネイル画像の大きさを、前記ダイジェストスコアに基づいて決定する画像サイズ決定部と、画像サイズが決定された前記サムネイル画像を所定の順序で前記コマに配置するコマ画像配置部と、サムネイル画像が配置されたコマに関する前記コマ情報を生成するコマ情報生成部と、を更に備えてもよい。

前記サムネイル枚数決定部は、抽出された前記サムネイル画像に連続する所定の時間分の複数の画像をアニメーション用の画像として更に抽出してもよい。

前記動画メタデータは、前記動画を撮像する際のカメラワークに関する動画メタデータを含み、前記コミック表示変換部は、前記カメラワークに関する動画メタデータに基づいて、前記サムネイル枚数決定部により前記アニメーション用の画像として抽出される画像の枚数を決定するカメラワークメタデータ利用部を更に備えてもよい。

前記カメラワークメタデータ利用部は、抽出された前記サムネイル画像から前記カメラワークの積分値が所定の閾値となった時点に対応する画像までの間に存在する複数の画像の中から、前記アニメーション用の画像を選択してもよい。

前記カメラワークメタデータ利用部は、前記カメラワークの積分値の大きさに応じて、前記サムネイル画像および前記アニメーション用の画像からなるアニメーションの再生速度を設定してもよい。

前記情報処理装置は、静止画に対応するデータである静止画データを解析し、当該静止画を特徴付ける複数の特徴量に関するメタデータである静止画メタデータを生成する静止画解析部を更に備え、前記画像サイズ決定部は、前記静止画メタデータに基づいて、前記所定の表示領域に配置される前記静止画の大きさを決定してもよい。

前記コマ画像配置部は、前記静止画データに関連付けられた当該静止画データの生成された時刻情報に基づいて、前記静止画の配置順序を決定してもよい。

前記コミック表示変換部は、前記サムネイル画像が配置されたコマに対して、前記動画メタデータに基づいて吹き出しおよび画面効果の少なくとも何れかを配置するエフェクト画像配置部を更に備えてもよい。

前記エフェクト画像配置部は、前記動画データに含まれる音声データに関する前記動画メタデータを利用して、前記吹き出しおよび前記画面効果の少なくとも何れかを配置してもよい。

前記エフェクト画像配置部は、前記カメラワークに関する動画メタデータを利用して、前記サムネイル画像に対して前記画面効果を配置してもよい。

前記画像サイズ決定部は、画像中に顔が存在することを表す前記動画メタデータが存在する画像について、顔が表示されている領域である顔領域を拡大して前記サムネイル画像としてもよい。

前記動画メタデータは、画像中に人物が存在することを表す動画メタデータ、画像中に存在する被写体に関する動画メタデータおよび画像中に存在する予め登録された物体に関する動画メタデータの少なくともいずれかを更に含み、前記エフェクト画像配置部は、前記画像中に人物が存在することを表す動画メタデータ、前記画像中に存在する被写体に関する動画メタデータまたは前記画像中に存在する予め登録された物体に関する動画メタデータに基づいて、前記画面効果を配置してもよい。

前記静止画メタデータは、画像中に顔が存在することを表す静止画メタデータ、画像中に人物が存在することを表す静止画メタデータ、画像中に存在する被写体に関する静止画メタデータおよび画像中に存在する予め登録された物体に関する静止画メタデータの少なくともいずれかを含み、前記エフェクト画像配置部は、前記画像中に顔が存在することを表す静止画メタデータ、前記画像中に人物が存在することを表す静止画メタデータ、前記画像中に存在する被写体に関する静止画メタデータまたは前記画像中に存在する予め登録された物体に関する静止画メタデータに基づいて、前記画面効果を配置してもよい。

前記エフェクト画像配置部は、前記サムネイル画像のうち所定のオブジェクトが検出された領域の重心と前記所定の表示領域の重心との相対的な位置関係に基づいて、前記所定のオブジェクトが検出された領域以外の領域に前記画面効果を配置してもよい。

前記画像サイズ決定部は、画像中に複数の前記顔領域が存在する場合には、全ての前記顔領域を含むように拡大処理を行い前記サムネイル画像としてもよい。

また、上記課題を解決するために、本発明の別の観点によれば、時刻情報が関連づけられた複数の画像および音声からなる動画のデータである動画データを解析し、当該動画を特徴付ける特徴量に関するメタデータである動画メタデータを生成するステップと、前記動画メタデータに基づいて前記動画データの中から複数の画像を抽出するとともに、所定の表示領域をコマ割りして抽出した複数の画像を漫画的に配置変換し、それぞれのコマに配置された画像に関する情報を含むコマ情報を生成するステップと、前記コマ情報と、前記抽出された画像のデータと、前記動画の音声のデータと、を少なくとも含むコミック表示データを生成するステップと、を含む、情報処理方法が提供される。

また、上記課題を解決するために、本発明の更に別の観点によれば、コンピュータに、時刻情報が関連づけられた複数の画像および音声からなる動画のデータである動画データを解析し、当該動画を特徴付ける特徴量に関するメタデータである動画メタデータを生成する動画解析機能と、前記動画メタデータに基づいて前記動画データの中から複数の画像を抽出するとともに、所定の表示領域をコマ割りして抽出した複数の画像を漫画的に配置変換し、それぞれのコマに配置された画像に関する情報を含むコマ情報を生成するコミック表示変換機能と、前記コマ情報と、前記抽出された画像のデータと、前記動画の音声のデータと、を少なくとも含むコミック表示データを生成するコミック表示データ生成機能と、を実現させるためのプログラムが提供される。

以上説明したように本発明によれば、動画を特徴付ける特徴量に関する動画メタデータに基づいて動画の中から複数の画像を抽出し、漫画的に配置して表示させることで、動画の内容を把握するために有効な画像を自動的に抽出し、内容把握が容易なように表示することが可能となる。

本発明の第１の実施形態に係る動画のコミック表示について説明するための説明図である。同実施形態にかかる情報処理装置の構成について説明するためのブロック図である。コミック表示データについて説明するための説明図である。同実施形態に係る動画解析部の構成について説明するためのブロック図である。動画メタデータを説明するための説明図である。動画メタデータを説明するための説明図である。同実施形態に係るコミック表示変換部の構成について説明するためのブロック図である。同実施形態に係るダイジェストスコアの算出方法について説明するための説明図である。同実施形態に係る代表フレーム画像の抽出方法について説明するための説明図である。同実施形態に係るアニメーションフレーム画像について説明するための説明図である。同実施形態に係るカメラワークメタデータ利用部について説明するための説明図である。同実施形態に係る画像サイズ決定部について説明するための説明図である。同実施形態に係る画像サイズ決定部について説明するための説明図である。同実施形態に係るコマ画像配置部について説明するための説明図である。同実施形態に係るコマ画像配置部について説明するための説明図である。同実施形態に係るコマ画像配置部について説明するための説明図である。同実施形態に係るコマ画像配置部について説明するための説明図である。カメラワークを考慮した画像配置について説明するための説明図である。カメラワークを考慮した画像配置について説明するための説明図である。同実施形態に係るエフェクト画像配置部について説明するための説明図である。同実施形態に係るエフェクト画像配置部について説明するための説明図である。同実施形態に係るエフェクト画像配置部について説明するための説明図である。同実施形態に係る情報処理方法の全体的な流れを説明するための流れ図である。同実施形態に係る代表フレーム画像の選択方法を説明するための流れ図である。カメラワークに応じたアニメーションフレーム画像の選択方法を説明するための流れ図である。同実施形態に係る代表フレーム画像の動的配置方法を説明するための流れ図である。同実施形態に係る代表フレーム画像の動的配置方法を説明するための流れ図である。カメラワークを考慮した代表フレーム画像の配置方法を説明するための流れ図である。カメラワークを考慮したエフェクト画像の配置方法を説明するための流れ図である。サムネイルアニメーションの再生速度の決定方法を説明するための流れ図である。同実施形態に係る動画解析部の第１変形例について説明するためのブロック図である。同変形例に係るエフェクト画像の配置方法について説明するための説明図である。同変形例に係るエフェクト画像の配置方法について説明するための説明図である。同変形例に係るエフェクト画像の配置方法について説明するための説明図である。同変形例に係るエフェクト画像の配置方法について説明するための説明図である。同変形例に係るエフェクト画像の配置方法について説明するための説明図である。同変形例に係るエフェクト画像の配置方法について説明するための説明図である。本発明の第２の実施形態に係る情報処理装置の構成について説明するためのブロック図である。同実施形態に係る静止画解析部の構成について説明するための説明図である。同実施形態に係るコミック表示変換部の構成について説明するための説明図である。同実施形態に係る情報処理方法の全体的な流れを説明するための流れ図である。静止画の画像サイズの決定方法を説明するための流れ図である。本発明の第３の実施形態に係る情報処理方法の構成について説明するためのブロック図である。本発明の各実施形態に係る情報処理装置のハードウェア構成を説明するためのブロック図である。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は、以下の順序で行うものとする。
（１）第１の実施形態
（１−１）コミック表示の概要について
（１−２）情報処理装置の構成について
（１−３）情報処理方法について
（１−４）第１変形例
（２）第２の実施形態
（２−１）情報処理装置の構成について
（２−２）情報処理方法について
（３）第３の実施形態
（３−１）情報処理装置の構成について
（４）本発明の各実施形態に係る情報処理装置のハードウェア構成について
（５）まとめ

（第１の実施形態）
＜コミック表示の概要について＞
まず、本発明の第１の実施形態に係る情報処理装置および情報処理方法について詳細に説明するに先立ち、本実施形態に係る動画のコミック表示の概要について、図１を参照しながら説明する。図１は、本実施形態に係る動画のコミック表示について説明するための説明図である。

本実施形態に係る情報処理装置は、単一または複数の任意の動画データが指定されると、動画データに含まれる複数の画像の中から重要なシーンの画像を自動的に抽出する。情報処理装置は、例えば図１に示したように、抽出した画像をマンガ的に配置変換し、表示画面に表示する。

図１に示したような表示領域３０１を考える。この表示領域３０１は、通常のマンガにおけるページに該当するものである。表示領域３０１は、複数のコマ３０３にコマ割りされており、それぞれのコマには、動画データに含まれる画像（例えばサムネイル画像）３０５が配置される。

また、サムネイル画像３０５には、以下で説明する動画メタデータに基づいて、各種の吹き出し３０７や、集中線３０９、効果線３１１などの画面効果等が自動的に配置される。吹き出し３０７、集中線３０９、効果線３１１等は、通常の紙媒体におけるマンガのように、コマ３０３の内外に自由に配置される。

また、情報処理装置のユーザが、あるサムネイル画像３０５がどのようなシーンであるのかを把握したいと考える場合も生じうる。この際には、ユーザはマウスやキーボード等の情報処理装置に備えられた入力装置を操作して、マウスポインタ等の位置選択オブジェクト３１３を希望するサムネイル画像３０５まで移動させ、いわゆるマウスオーバーと呼ばれる状態にする。すると、情報処理装置は、位置選択オブジェクト３１３が重ねられたサムネイル画像３０５について、コマ内でサムネイル画像３０５を開始画像とするアニメーションを実行する。

図１では、表示領域３０１は１つのみ示しているが、表示画面等の大きさにより、表示領域３０１の大きさを変更することも可能であり、１つの表示画面内に複数の表示領域３０１を配置することも可能である。

情報処理装置は、動画を構成する画像を、各画像に関連付けられた時刻情報順に配置していくため、ユーザは、通常のマンガを読むのと同様にして、動画データの内容を容易に把握することが可能である。また、サムネイル画像に関連付けられた動画メタデータに応じて、吹き出し等の画面効果（以下、エフェクトとも称する。）が自動的に配置されるため、動画データを楽しみながら内容確認することができる。

＜情報処理装置の構成について＞
以下では、図２〜図２２を参照しながら、上述のような動画のコミック表示を実現することが可能な情報処理装置の構成について、詳細に説明する。

［情報処理装置の全体構成について］
まず、図２を参照しながら、本実施形態に係る情報処理装置の全体構成について、詳細に説明する。図２は、本実施形態に係る情報処理装置の構成を説明するためのブロック図である。

本実施形態に係る情報処理装置１０は、例えば図２に示したように、動画データ取得部１０１、動画解析部１０３、音声抽出部１０５、コミック表示変換部１０７、フレーム画像データ生成部１０９、コミック表示データ生成部１１１を備える。また、情報処理装置１０は、更に、コミック表示実行部１１３、表示制御部１１５および記憶部１１７を備える。なお、情報処理装置１０は、これらの各処理部以外にも、例えば任意の通信網を介して任意の装置との間で行なわれる通信を制御する通信制御部（図示せず。）等を有していても良い。

動画データ取得部１０１は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、通信装置等から構成されている。動画データ取得部１０１は、情報処理装置１０に対してなされたユーザ操作に応じて、ユーザが指定した動画に対応する動画データを後述する記憶部１１７や、情報処理装置１０に挿入された各種の記録媒体等から取得する。ここで、動画データとは、時刻情報が関連付けられた複数の画像および音声からなる動画のデータを意味する。また、動画データ取得部１０１は、情報処理装置１０に接続された他の装置から動画データを取得したり、インターネット等の通信網を介して接続された各種のサーバから動画データを取得したりすることが可能である。動画データ取得部１０１は、取得した動画データを、動画解析部１０３と、音声抽出部１０５とにそれぞれ伝送する。

動画解析部１０３は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等から構成されている。動画解析部１０３は、伝送された動画データを解析して、動画を特徴付ける特徴量を抽出する。また、動画解析部１０３は、抽出された特徴量を用いて、特徴量に関するメタデータである動画メタデータを生成する。特徴量の抽出は、動画データを構成する画像データと音声データの双方について行なわれ、生成される動画メタデータには、画像データに関する特徴量メタデータと、音声データに関する特徴量メタデータとが含まれる。動画解析部１０３は、生成した動画メタデータを、後述するコミック表示変換部１０７に伝送する。なお、動画解析部１０３は、動画を解析して生成される動画メタデータ以外にも、カムコーダなどの撮像装置上で取得可能なメタデータを、後述するコミック表示変換部１０７で用いられる動画メタデータとして利用することも可能である。ここで、撮像装置上で取得可能なメタデータとして、例えば、録画中の撮影、お気に入りボタン、ズームイン、ズームアウトボタン等の操作履歴等を挙げることができる。また、動画解析部１０３は、動画データ取得部１０１より伝送された動画データに含まれる画像データを、後述するフレーム画像データ生成部１０９に伝送する。

なお、この動画解析部１０３については、以下で改めて詳細に説明する。

音声抽出部１０５は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等から構成されている。音声抽出部１０５は、動画データ取得部１０１から伝送された動画データの中から、音声データを抽出する。音声抽出部１０５は、音声データの抽出に際して、ＲＯＭや記憶部１１７等に格納されている動画データのフォーマット等に関するデータベース等を参照することが可能である。なお、音声抽出部１０５は、必要に応じて、抽出した音声データを圧縮するなどの変換処理を行ってもよい。音声抽出部１０５は、抽出した動画の音声データを、後述するコミック表示データ生成部１１１に伝送する。

コミック表示変換部１０７は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等から構成されている。コミック表示変換部１０７は、動画メタデータに基づいて動画データの中から複数の画像を抽出するとともに、所定の表示領域をコマ割りして抽出した複数の画像をマンガ的に配置変換し、それぞれのコマに配置された画像に関する情報を含むコマ情報を生成する。コミック表示変換部１０７は、生成したコマ情報を、後述するフレーム画像データ生成部１０９およびコミック表示データ生成部１１１に伝送する。

なお、このコミック表示変換部１０７については、以下で改めて詳細に説明する。

フレーム画像データ生成部１０９は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等から構成されている。フレーム画像データ生成部１０９は、動画解析部１０３から伝送された画像データと、コミック表示変換部１０７から伝送されたコマ情報とに基づいて、フレーム画像データを生成する。より詳細には、フレーム画像データ生成部１０９は、動画を構成する複数のフレーム画像の中からコマ情報に記載されているフレーム画像を抽出する。また、フレーム画像データ生成部１０９は、抽出したフレーム画像を、コマ情報に記載されている情報に基づいて拡大・縮小処理を行い、コマの大きさにあったサムネイル画像とする。さらに、フレーム画像データ生成部１０９は、アニメーション再生のための画像を、コマ情報に基づいて生成する。フレーム画像データ生成部１０９は、生成したフレーム画像データ（すなわち、サムネイル画像データと、アニメーション再生のための画像データ）を、コミック表示データ生成部１１１に伝送する。

コミック表示データ生成部１１１は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等から構成されている。コミック表示データ生成部１１１は、音声抽出部１０５、コミック表示変換部１０７およびフレーム画像データ生成部１０９から伝送された各種情報と、記憶部１１７等から取得したエフェクトデータとを用いて、コミック表示データを生成する。コミック表示データは、例えば図３に示したように、例えばＸＭＬ形式で記述されているコマ情報と、フレーム画像データと、音声データと、エフェクトデータとを少なくとも含むように構成されている。情報処理装置１０や他の装置は、ＸＭＬ形式で記述されているコマ情報を読み込んで表示することで、様々なアプリケーションにおいてコミック表示画面を生成することができる。

例えば、ＶｉｓｕａｌＣ＋＋（登録商標）等を利用したスタンドアロンのネットワークアプリケーション、Ｊａｖａ・Ｂｒｅｗ等の携帯アプリケーション、ＦｌａｓｈやＪａｖａＳｃｒｉｐｔ等を利用したブラウザアプリケーション等でコミック表示を実現できる。例えば、ＡｃｔｉｏｎＳｃｒｉｐｔを利用してＦｌａｓｈ用のファイル（ＳＷＦファイル）を作成し、コミック画像の配置情報ＸＭＬであるコマ情報を読み込ませることで、一般的なＷｅｂブラウザを用いてコミック表示画面を閲覧することが可能である。

また、Ｆｌａｓｈによりコミック表示データを作成することで、よりインタラクティブなコンテンツ表現が可能となる。例えば、ボタンによってページをめくったり、マウスホイールによるスクロールによりページをめくったりするような実装が可能となる。また、コマを時系列順にアニメーション表示することにより、多くのコマが存在した場合であっても、迷うことなくスムーズに読み進めることが可能である。また、サムネイル画像をクリックして音声を再生した際に、クリックされたコマ以外の全てのコマの透明度を上昇させることにより、現在再生中のコマをより分かりやすく強調することができる。このように、コマ情報をＸＭＬ形式のファイルとして出力することで、Ｆｌａｓｈをはじめとする様々なアプリケーションから参照可能となる。

コミック表示データ生成部１１１は、生成したコミック表示データをコミック表示実行部１１３に伝送する。また、コミック表示データ生成部１１１は、生成したコミック表示データを、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭといった各種の記録媒体や、インターネット等の通信網を介して、他の情報処理装置に提供することも可能である。

コミック表示実行部１１３は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等から構成されている。コミック表示実行部１１３は、コミック表示データ生成部１１１から伝送されたコミック表示データを実行するためのアプリケーションを実行することで、例えば図１に示したようなコミック表示を実行する。コミック表示データを実行するためのアプリケーションは、コミック表示実行用の専用アプリケーションであってもよく、Ｗｅｂブラウザのような一般的なアプリケーションであってもよい。コミック表示実行部１１３は、コミック表示データを実行して、後述する表示制御部１１５を介してコミック表示を表示部（図示せず。）に表示させる。

表示制御部１１５は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等から構成されている。表示制御部１１５は、記憶部１１７等に記録されている表示画面に表示すべき内容に対応するデータを取得して、表示画面に表示する。また、情報処理装置１０に備えられた入力部から、マウスポインタ等の位置選択オブジェクトの移動を表す信号が伝送された場合には、伝送された信号にあわせて位置選択オブジェクトの移動を表示画面に表示させる。また、表示制御部１１５は、コミック表示実行部１１３から表示内容の変更を要請された場合には、コミック表示実行部１１３からの要請に基づいて表示画面に表示されている表示内容の変更を行なう。

記憶部１１７には、ビデオカメラや携帯電話等で撮影された動画データや、ＴＶコンテンツ等の動画コンテンツ等の各種の動画データが格納されている。また、記憶部１１７には、表示画面に表示されるオブジェクトデータが格納されている。ここで言うオブジェクトデータには、例えば、アイコン、ボタン、サムネイル等のグラフィカルユーザインターフェース（ＧＵＩ）を構成する任意のパーツ類が含まれる。

また、記憶部１１７には、本実施形態に係る情報処理装置１０が、何らかの処理を行う際に保存する必要が生じた様々なパラメータや処理の途中経過等、または、各種のデータベース等が、適宜記録されてもよい。この記憶部１１７は、動画データ取得部１０１、動画解析部１０３、音声抽出部１０５、コミック表示変換部１０７、フレーム画像データ生成部１０９、コミック表示データ生成部１１１、コミック表示実行部１１３、表示制御部１１５等が自由に読み書きできる。

［動画解析部１０３の構成について］
続いて、図４〜図６を参照しながら、本実施形態に係る動画解析部１０３の構成について、詳細に説明する。図４は、本実施形態に係る動画解析部１０３の構成を説明するためのブロック図であり、図５および図６は、動画メタデータを説明するための説明図である。

動画解析部１０３は、例えば図４に示したように、動画データ分割部１３１と、顔検出部１３３と、シーン遷移検出部１３５と、カメラワーク検出部１３７と、音声解析部１３９と、動画メタデータ生成部１４１と、を主に備える。

動画データ分割部１３１は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等から構成されている。動画データ分割部１３１は、動画データ取得部１０１から伝送された動画データを、画像データと、音声データとに分割する。動画データ分割部１３１は、得られた動画データを、フレーム画像生成部１０９、顔検出部１３３、シーン遷移検出部１３５、および、カメラワーク検出部１３７に伝送する。また、動画データ分割部１３１は、得られた音声データを、音声解析部１３９に伝送する。

顔検出部１３３は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等から構成されている。顔検出部１３３は、動画を構成する全てのフレーム画像について、当該フレーム画像中に存在する人物の顔を検出する。また、顔検出部１３３は、フレーム画像中に人物の顔が存在している場合には、画像中に存在する顔の数、存在する顔が笑顔かどうか、顔の位置、顔が向いている方向、顔のズームアップがあるか、といった顔に関連する様々な情報について、更に検出を行なう。顔検出部１３３は、上述のような検出を行なうにあたって、例えば、記憶部１１７等に予め格納されている検出用データベース等を参照したり、検出用のプログラム等を実行したりすることが可能である。

上述のような検出結果のうち、顔の有無、笑顔か否か、ズームアップがあるかといった「あり・なし」の２値で結果を表すことが可能な場合には、顔検出部１３３は、「あり」の場合には値「１」を出力し、「なし」の場合には値「０」を出力する。また、顔が向いている方向や、画像中に存在する顔の数といったものについては、顔検出部１３３は、これらの検出結果そのものを出力してもよく、予め規定された変換方法に則って検出結果をある値へと変換したものを検出結果として出力してもよい。

顔検出部１３３は、これらの検出結果を、後述する動画メタデータ生成部１４１へと伝送する。

シーン遷移検出部１３５は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等から構成されている。シーン遷移検出部１３５は、動画を構成する全てのフレーム画像について、シーンの移り変わりが生じているか否かを検出し、検出結果をシーンチェンジスコアという値として出力する。シーンチェンジスコアとは、現在着目しているフレーム画像が、一つ前のフレーム画像からどの程度異なっているかを表した数値である。換言すれば、シーンチェンジスコアとは、現在着目しているフレーム画像と一つ前のフレーム画像との類似度ともいえる。このシーンチェンジスコアは、例えば、色ヒストグラムによって定義することができる。シーン遷移検出部１３５は、上述のような検出を行なうにあたって、例えば、記憶部１１７等に予め格納されているシーン遷移検出用データベース等を参照したり、検出用のプログラム等を実行したりすることが可能である。

シーン遷移検出部１３５は、得られたシーンチェンジスコアを、後述する動画メタデータ生成部１４１に伝送する。

カメラワーク検出部１３７は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等から構成されている。カメラワーク検出部１３７は、動画を構成する全てのフレーム画像について、動画を撮像する際にビデオカメラ等の撮像装置をどのように動かしたかを表すカメラワークを検出する。より具体的には、カメラワーク検出部１３７は、例えば、現在着目しているフレーム画像と、一つ前のフレーム画像とを比較して、撮像装置が移動した方向と距離とを検出する。この際に、カメラワーク検出部１３７は、シーン遷移検出部１３５の検出結果に基づいて、カメラワークの検出処理を行ってもよい。また、カメラワーク検出部１３７は、例えば、記憶部１１７等に予め格納されているカメラワーク検出用データベース等を参照したり、検出用のプログラム等を実行したりすることが可能である。

ここで、撮像装置が移動した距離は、例えば、フレーム間に移動する画像のピクセル数として表すことが可能である。このようにして検出されるカメラワークとして、例えば、フィックス、パン、ティルト、ロール、ズームイン・ズームアウト等がある。ここで、フィックスとは、撮像装置を固定して撮像したことを意味する。また、パン（ＰａｎｏｒａｍｉｃＶｉｅｗｉｎｇ）は、撮像装置を水平方向に移動して撮像したことを意味し、ティルト（Ｔｉｌｔ）は、撮像装置を垂直方向に振って撮像したことを意味する。また、ロールとは、ある軸を中心として撮像装置を回転させて撮像したことを意味する。

カメラワーク検出部１３７は、上述のようなカメラワークの検出結果を、後述する動画メタデータ生成部１４１に伝送する。

音声解析部１３９は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等から構成されている。音声解析部１３９は、動画データ分割部１３１から伝送された音声データを解析し、動画に付随している音声データに関する特徴量を算出する。より具体的には、音声解析部１３９は、動画を構成する全てのフレーム画像に対応付けられた音声データの中に、以下のような音声が存在するか否かを解析する。すなわち、音声解析部１３９は、音声データが、会話なのか、笑い声なのか、「おおー」のような歓声なのか、「パーン」などといった破裂音（擬音語）なのか、拍手のような称賛を表す音なのか、音楽なのかなどといった、音声データの分類処理を行う。このような音声データの分類処理は、例えば、記憶部１１７等に予め格納されている音声解析用データベース等を参照したり、音声解析用のプログラム等を実行したりすることで実行可能である。

また、音声解析部１３９は、音声データの音量についても解析を行い、例えば音量を数値化して出力してもよい。また、音声解析部１３９は、音声データが会話や笑い声などのように、人間によって生じたものであれば、声を発した人物が、男性なのか、女性なのか、子供なのか、といった点についても解析を行うことが可能である。これらの解析は、例えば、音声を表したスペクトル等を参照して、該当する波形の振幅や、音声データの周波数等を解析することで行なうことが可能である。

音声解析部１３９は、上述のような解析結果を、動画メタデータ生成部１４１に伝送する。

動画メタデータ生成部１４１は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等から構成されている。動画メタデータ生成部１４１は、顔検出部１３３、シーン遷移検出部１３５、カメラワーク検出部１３７、音声解析部１３９等から伝送されたそれぞれの検出結果や解析結果を取りまとめて、動画を特徴付ける特徴量に関する動画メタデータを生成する。

図５は、動画メタデータ生成部１４１により生成される動画メタデータに含まれる検出結果や解析結果の一例を図示したものである。図５に示したように、動画メタデータには、画像データから抽出された特徴量に関するメタデータと、音声データから抽出された特徴量に関するメタデータとが含まれる。図６は、動画メタデータに含まれる複数の特徴量のうち、「顔の有無」、「顔の多少」、「会話の有無」、「笑い声の有無」に関する特徴量について、図示したものである。図６では、各特徴量の値を、グラフで図示している。図６に示した各グラフにおいて、横軸は動画データに関連付けられた時刻、または、動画を構成するフレーム画像に便宜的に付与された番号を表し、縦軸は特徴量を現している。なお、図６においては、各特徴量が１または０である場合について図示しているが、各特徴量が０または１以外の連続値となる場合であっても、同様に適用することが可能である。

図６に示したように、動画メタデータには、動画を構成する全ての画像と、画像に対応付けられた音声について、各特徴量の値が時系列に沿って個別に記載されている。また、動画メタデータは、図６に示したようなグラフ状になっている必要はなく、動画を構成するフレーム画像に便宜的に付与された番号を見出し（カラム）として、表の形式で各特長量が記載されていてもよい。

動画メタデータ生成部１４１は、上述のようにして生成された動画メタデータを、コミック表示変換部１０７に伝送する。

なお、上述のような各処理部が行う解析方法はあくまでも一例であって、上述の例に限定されるわけではない。また、動画解析部１０３は、上述の処理部以外にも、生成したい動画メタデータに応じて、様々な解析部を更に備えても良い。

［コミック表示変換部１０７の構成について］
次に、図７〜２２を参照しながら、本実施形態に係るコミック表示変換部１０７の構成について、詳細に説明する。まず、図７を参照しながら、コミック表示変換部１０７の全体構成について、詳細に説明する。図７は、本実施形態に係るコミック表示変換部１０７の構成を説明するためのブロック図である。

コミック表示変換部１０７は、例えば図７に示したように、ダイジェストスコア算出部１５１と、サムネイル枚数決定部１５３と、カメラワークメタデータ利用部１５５と、画像サイズ決定部１５７と、コマ画像配置部１５９と、エフェクト画像配置部１６１とを備える。また、コミック表示変換部１０７は、上述の処理部によって生成された各種の情報を取りまとめ、コマ情報を生成するコマ情報生成部１６３を更に備える。

ダイジェストスコア算出部１５１は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等から構成されている。ダイジェストスコア算出部１５１は、伝送された動画メタデータに基づき、動画を構成する複数の画像それぞれに対して、複数の特徴量を重み付け加算した値であるダイジェストスコア（以下、ＤＳと略記することもある。）を算出する。

例えば図８に示したように、ダイジェストスコアの算出に用いられる動画メタデータ中の特徴量に対して、予め重み付け係数が設定されている。図８では、顔の有無に関する特徴量Ｆａｃｅには、重み付け係数０．７が設定されており、顔の個数の多少に関する特徴量ＦａｃｅＣｏｕｎｔｓには、重み付け係数１．２が設定されている。また、顔のズームの有無に関する特徴量ＦａｃｅＺｏｏｍには、重み付け係数１．５が設定されており、笑顔の有無に関する特徴量ＦａｃｅＳｍｉｌｅには、重み付け係数１．０が設定されている。

また、上述のような画像データに関する動画メタデータだけでなく、音声データに関する動画メタデータに対しても、同様に重み付け係数が設定されている。例えば図８では、会話の有無に関する特徴量Ｓｐｅｅｃｈには、重み付け係数１．０が設定されており、笑い声の有無に関する特徴量Ｌａｕｇｈｔｅｒには、重み付け係数２．２が設定されている。また、歓声の有無に関する特徴量Ｃｈｅｅｒｉｎｇには、重み付け係数３．６が設定されており、破裂音の有無に関する特徴量Ｃｌａｐｐｉｎｇには、重み付け係数１．８が設定されている。また、称賛の有無に関する特徴量Ａｐｐｌａｕｓｅには、重み付け係数２．７が設定されており、音楽の有無に関する特徴量Ｍｕｓｉｃには、重み付け係数１．２が設定されている。

これらの重み付け係数と、動画メタデータに含まれるそれぞれの特徴量とを用いて、ダイジェストスコアＤＳは、特徴量に当該特徴量に関する重み付け係数をかけたものを、ＤＳの算出に用いられる特徴量全てについて足し合わせたものとして算出される。

ここで、図８に示した重み付け係数は、各特徴量が映像シーンでの盛上りにどれだけ寄与するかを示す係数である。図８の例では、顔のズームの有無に関する特徴量、笑い声の有無に関する特徴量、歓声の有無に関する特徴量、破裂音の有無に関する特徴量、称賛の有無に関する特徴量それぞれに対する重み付け係数が、相対的に大きな値に設定されている。これは、これらの音声がある映像シーンや、人がズームアップされている映像シーン等は、「面白い」または「盛り上がっている」ことが多いという経験則に基づくものである。また、統計的な学習によって求められたパラメータを重み付け係数として用いるようにしてもよく、ユーザがそれぞれの重み付け係数を自身で入力して設定するようにしてもよい。また、これらの重み付け係数は、ユーザからのフィードバックにより更新されるようにしてもよい。

このように、様々な動画メタデータに重み付けすることによって、多様な特徴が生じているシーンを盛り上がりシーンとして抽出することができ、盛り上がりシーンを、動画の特徴を反映させながら自動的に検出することが可能となる。

ダイジェストスコア算出部１５１は、このようにして算出されたダイジェストスコアＤＳを、後述するサムネイル枚数決定部１５３に伝送する。

サムネイル枚数決定部１５３は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等から構成されている。サムネイル枚数決定部１５３は、伝送されたダイジェストスコアに基づいて動画データを構成する複数の画像の中からコマに配置するサムネイル画像を抽出し、当該サムネイル画像の枚数を決定する。以下、サムネイル画像の抽出方法について、図９を参照しながら、詳細に説明する。

上述のように、動画を構成する全てのフレーム画像に対して、ダイジェストスコア算出部１５１によりダイジェストスコアが算出されている。そこで、サムネイル枚数決定部１５３は、動画を構成する全てのフレーム画像について、ダイジェストスコアの分布と、着目している動画データにおけるダイジェストスコアの中央値（Ｍｅｄｉａｎ）を算出する。その後、サムネイル枚数決定部１５３は、例えば図９に示したように、算出した中央値以上のダイジェストスコアを有するフレーム画像を、サムネイル画像の候補として抽出する。このようにサムネイル画像の候補を抽出することで、ダイジェストスコアが低く、盛り上がっていないと思われるフレーム画像をカットしつつ、盛り上がりシーンを抽出することが可能となる。

以下に、サムネイル枚数決定部１５３が、ダイジェストスコアが中央値以上のフレーム画像の中でどのコマをサムネイル画像として採用するかを、順を追って具体的に説明する。この際、単純にダイジェストスコアが中央値以上のフレーム画像を全て採用してしまうと、同じような画像のコマが大量に並んでしまい、コマの配置が単調になってしまうという問題が生じる。また、単純にダイジェストスコアが大きい順に採用するだけでは、同じようなサイズの大きなコマが並ぶだけで、ダイナミックなコマ割りにならない。そのため、なるべくそのような状況を避けるように、以下のようにしてサムネイル画像を選択する。

まず、サムネイル枚数決定部１５３は、動画メタデータに含まれるシーンチェンジスコアが、所定の閾値以上であるかどうかを判断する。シーンチェンジスコアが大きい場合、シーンが切り替わって別のシーンになったものとして、シーン切り替えを検出することが可能である。ここで、サムネイル枚数決定部１５３は、シーンチェンジスコアが閾値より大きい場合、カメラが大きく動いたことによるぶれた画像であると考え、サムネイル画像には採用せずに除去する。特に、プライベートビデオコンテンツでは、カメラが急激に動く場合、シーンチェンジスコアが急激に高くなる。このときの画像は、ぶれてしまってうまく映っていないことが多いため、サムネイル画像には使用しない。

次に、サムネイル枚数決定部１５３は、ダイジェストスコアの分布及び中央値を算出する。中央値は、上述のように、フレーム画像をサムネイル画像に採用するか判断するために用いられる。

そして、サムネイル枚数決定部１５３は、サムネイル画像候補のフレーム画像数が所定の設定値ｍ個以上ならば、閾値Ｔ＝中央値とし、ｍ個未満なら閾値Ｔ＝ダイジェストスコアの最小値とする。ここで、上記設定値ｍは、例えば１００程度に設定可能である。これは、再生時間が余りに短いビデオの場合に、表示フレーム数が極端に少なくなってしまうことを防止するための処理である。

次に、ダイジェストスコアがＴ未満か、同じ値が連続している候補については、サムネイル枚数決定部１５３は、採用しない。これは、ダイジェストスコアが高いフレームを盛り上がりシーンとして採用しており、さらに同じシーン内で盛り上がり度が同じフレームが連続して採用されてしまう状況を防ぐための処理である。盛り上がり度が同じフレームが連続してしまうと、同じ大きさの似たようなコマが連続して並んでしまい、単調な印象を与えるため、そのようなフレームは採用しない。

その後、サムネイル枚数決定部１５３は、採用されたフレーム画像の総数を計算し、この総数が所定の閾値以上の場合は、間引き処理を行う。この際の閾値は、表示したいページ数に応じて決定される。採用されたフレームのうち、ページに入り切る分のみをサムネイル画像に採用する。例えば、サムネイル枚数決定部１５３は、フレーム画像をダイジェストスコアの大きさ順にソートして、一定間隔で間引くようにしてもよい。これにより、ダイジェストスコアの分布を保持しつつ間引き処理を行うことが可能である。

最後に、サムネイル枚数決定部１５３は、ダイジェストスコアが小さいコマが連続する場合の間引き処理を行う。動画のコミック表示を行う際、小さな似たようなコマが連続してしまうと、コマ割りが整然としてしまい、とても単調な印象を受けてしまう。サイズが小さいコマはダイジェストスコアも小さいため、このような部分を優先的に間引くことによって、よりコミックらしいコマ割りが可能になる。このようにして残ったフレーム画像を、サムネイル枚数決定部１５３は、コミック表示におけるコマ（すなわちサムネイル画像）として採用する。以下、このサムネイル画像のことを、代表フレーム（または代表フレーム画像）とも称することとする。

また、サムネイル枚数決定部１５３は、上述のようにしてサムネイル画像として利用するフレーム画像を選択すると、続いて、コマ内におけるサムネイル画像のアニメーション用に利用する画像（以下、アニメーションフレーム画像とも称する。）を選択する。より詳細には、サムネイル枚数決定部１５３は、例えば図１０に示したように、抽出されたサムネイル画像（代表フレーム画像）に時間的に連続する所定の時間分のフレーム画像を、アニメーションフレーム画像として抽出する。また、アニメーションフレーム画像の抽出に際しては、ダイジェストスコアの大きさには着目しない。抽出に利用される「所定の時間」は、任意の値に設定することが可能であるが、例えば、代表フレームとあわせてアニメーション時間が１秒程度となるような値に設定する。例えば、動画データのフレームレートが３０ＦＰＳ（ＦｌａｍｅｓＰｅｒＳｅｃｏｎｄ）である場合には、１秒分のフレーム画像の個数は、約３０フレームとなる。

サムネイル枚数決定部１５３は、上述のようにして抽出したサムネイル画像（代表フレーム）およびサムネイル画像の枚数に関する情報と、アニメーションフレーム画像とに関する情報を、枚数情報とする。ここで、サムネイル画像およびサムネイル画像の枚数に関する情報には、例えば、動画フレームにおいて先頭から何番目に位置するフレーム画像がサムネイル画像として選択され、サムネイル画像の枚数が全体で何枚なのかといった情報が記載されている。サムネイル枚数決定部１５３は、この枚数情報を、後述する画像サイズ決定部１５７と、コマ情報生成部１６３とに伝送する。

また、上述の説明では、サムネイル枚数決定部１５３が、アニメーションフレーム画像を、予め設定された時間分となるように選択する場合について説明した。しかしながら、選択されるアニメーションフレーム画像の枚数を、動画メタデータに含まれるカメラワークに関する特徴量を用いて、動的に変化させることも可能である。この処理は、例えば、以下で説明するカメラワークメタデータ利用部１５５において実行される。

カメラワークメタデータ利用部１５５は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等から構成されている。カメラワークメタデータ利用部１５５は、カメラワークに関する動画メタデータに基づいて、サムネイル枚数決定部１５３によりアニメーションフレーム画像として抽出される画像の枚数を決定する。

まず、カメラワークメタデータ利用部１５５の説明をするに先立ち、カメラワークを考慮しないでアニメーションフレーム画像を選択した場合に、どのような現象が生じるのかを簡単に説明する。

例えば図１に示したように、マウスポインタ等の位置選択オブジェクトを画像に重ねることによって開始されるアニメーション（サムネイルアニメーション）は、動画全体の内容把握に有用であり、動画内容のインデックスや要約として利用可能である。しかし、カメラワークを考慮せずに単純にアニメーションを再生した場合には、カメラが大きく動いて画面が大幅に切り替わると、画面（すなわちコマ）が小さいために見づらくなり、アニメーション自体が不自然に見えてしまう可能性がある。また、画像が急激に変化する場合（例えば、画面に映る人物が急に切り替わってしまう場合）には、動画内容の要約としてのアニメーションのストーリー自体が破綻する可能性もある。また、単純にアニメーションを再生するだけでは、アニメーションが単調に見える可能性もある。そのため、カメラが大きく動いている部分はアニメーションからカットし、シーンが切り替わったら再生も切り替えるといった工夫が必要となる。そこで、本実施形態では、以下で説明するようなカメラワークメタデータ利用部１５５を設けることで、カメラワークを考慮したアニメーションフレーム画像の選択が可能となる。

カメラワークメタデータ利用部１５５には、サムネイル枚数決定部１５３から枚数情報が伝送される。カメラワークメタデータ利用部１５５は、枚数情報に記載されているアニメーションフレーム画像に関する動画メタデータに記載されているカメラワークに関する特徴量に基づいて、カメラワークの積分値を算出する。ここで、カメラワークの積分値は、カメラワークの絶対値を積分して得られるものと、カメラワークの値そのものを（絶対値を考慮せずに）積分して得られるものの２種類が存在するが、本実施形態では、いずれの積分値も利用することが可能である。なお、カメラワークの絶対値の積分値は、カメラが移動した距離の総和を意味する。絶対値を考慮しない積分値を用いる場合には、カメラが移動元の位置・向きに戻ると、カメラワークの積分値は０となってしまい、初期位置からの相対値でしかカメラワーク量を評価できない。しかしながら、手振れやノイズによる影響に強いという特長がある。また、カメラワークの絶対値の積分値を用いる場合には、手振れやノイズによる影響を受ける場合があるものの、カメラがどのような方向に動いたとしても積分値は常に増加することとなり、カメラの総移動距離から容易に積分値を評価できるという特長がある。

カメラワークメタデータ利用部１５５は、算出したカメラワークの積分値と、予め設定されている閾値ＴＨとを用いて、アニメーションフレーム画像の枚数を決定する。以下では、図１１を参照しながら、カメラワークメタデータ利用部１５５によるアニメーションフレーム画像の枚数の決定方法について、詳細に説明する。なお、図１１は、カメラワークの絶対値の積分値を用いてアニメーションフレーム画像の枚数を決定する方法について図示している。絶対値を考慮しないカメラワークの積分値を用いる場合には、積分値が負の値となる可能性があるため、閾値ＴＨを正負両方に絶対値が等しくなるように設定する（すなわち、閾値＋ＴＨと−ＴＨとを設定する）ことで、枚数を決定可能である。

カメラワークメタデータ利用部１５５は、例えば図１１に示したように、カメラワークの絶対値の積分値が所定の閾値ＴＨ以上となるフレームｉを検出し、区間０〜ｉを所定の設定値ｎでｎ等分する。その後、カメラワークメタデータ利用部１５５は、ｉ／ｎの値を利用して、アニメーションフレーム画像を選択する。例えば図１１において、原点０が代表フレームの位置であるとすると、（ｉ／ｎ）、２×（ｉ／ｎ）、・・・、ｎ×（ｉ／ｎ）＝ｉの値に一番近いフレーム番号を有するフレーム画像が、アニメーションフレーム画像として選択される。

ここで、設定値ｎは、カメラワークの積分値に応じて決定される、アニメーションフレーム画像の枚数に対応する値であり、例えば、ｎ＝２〜１２とし、積分値の値に応じて、ｎ＝２、４、８、１２などの値に設定される。より詳細には、カメラワークの積分値が大きい場合には、ｎの値を小さな値とし、カメラワークの積分値が小さい場合には、ｎの値が大きな値に設定する。設定値ｎは、カメラワークの積分値を用いて任意の方法で決定することが可能であるが、例えば、以下のような基準でｎを決定することができる。なお、以下の表記で、ＦＰＳは動画データのフレームレートを表す。

（１）カメラワークの積分値＞（０．１×ＦＰＳ×２）の場合：ｎ＝２
（２）（０．１×ＦＰＳ×２）≧カメラワークの積分値＞（０．１×ＦＰＳ×１）の場合：ｎ＝４
（３）（０．１×ＦＰＳ×１）≧カメラワークの積分値＞（０．１×ＦＰＳ×０．５）の場合：ｎ＝８
（４）（０．１×ＦＰＳ×０．５）≧カメラワークの積分値の場合：ｎ＝１２

このように、アニメーションフレーム画像の枚数に相当する設定値ｎを決定することにより、カメラワークの大小に応じて、アニメーションフレーム画像を動的に決定することができる。すなわち、図１１（ａ）に示したようにカメラワークが相対的に小さな場合には、カメラワークの積分値は、なかなか閾値ＴＨには達しない。そのため、カメラワークの積分値が閾値ＴＨに達した時点では、フレーム数は、３０に近い値となる傾向にある。また、カメラワークの積分値が相対的に小さい場合には、設定値ｎは大きく設定されるため、相対的に広い区間０〜ｉから多くの画像が選択されることとなる。カメラワークが小さい画像は、画像自体があまり変化しないため、アニメーションフレーム画像の枚数を多くすることにより、より滑らかなアニメーション再生を行なうことができる。

また、図１１（ｂ）に示したようにカメラワークが相対的に大きな場合には、カメラワークの積分値は、容易に閾値ＴＨに達しうる。そのため、カメラワークの積分値が閾値ＴＨに達した時点では、値ｉは小さな値となる傾向にある。また、カメラワークの積分値が相対的に大きい場合には、設定値ｎは小さく設定されるため、相対的に狭い区間０〜ｉから選択される画像は少ない。カメラワークが大きな画像は、画像が大きく変化してしまうため、アニメーションの枚数ｎを小さくすることで、近接する（すなわち、類似度が高い）フレーム画像を選択することが可能となる。

また、カメラワークメタデータ利用部１５５は、カメラワークの積分値の大きさに応じて、サムネイル画像およびアニメーションフレーム画像からなるアニメーションの再生速度を設定する。より詳細には、カメラワークメタデータ利用部１５５は、選択されたアニメーションフレーム画像の枚数が多い場合には、再生速度を大きな値に設定して、アニメーションを速く再生する。また、カメラワークメタデータ利用部１５５は、選択されたアニメーションフレーム画像の枚数が少ない場合には、再生速度を小さな値に設定して、アニメーションをゆっくり再生する。具体的には、アニメーションの再生速度は、例えば以下のように設定される。

（１）アニメーション枚数（ｎ）が２枚以下の場合：再生速度＝１（ＦＰＳ）
（２）アニメーション枚数（ｎ）が２枚超過４枚以下の場合：再生速度＝２（ＦＰＳ）
（３）アニメーション枚数（ｎ）が４枚超過８枚以下の場合：再生速度＝８（ＦＰＳ）
（４）アニメーション枚数（ｎ）が８枚超過の場合：再生速度＝２４（ＦＰＳ）

カメラワークメタデータ利用部１５５は、以上説明したような処理を行うことにより、複数のアニメーションフレーム画像の候補の中から類似するフレーム画像を採用することができ、急激なシーン切り替えを防止して自然なアニメーションを生成することができる。

次に、図７に戻って、画像サイズ決定部１５７について説明する。画像サイズ決定部１５７は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等から構成されている。画像サイズ決定部１５７は、所定の表示領域に配置されるサムネイル画像の大きさを、ダイジェストスコアに基づいて決定する。

より詳細には、画像サイズ決定部１５７は、動画を構成する全ての画像について、例えば図１２に示したように、ダイジェストスコア順にソートしなおす。その上で、画像サイズ決定部１５７は、ダイジェストスコアの上位数％（例えば、上位３％）は、外れ値（ｏｕｔｌｉｅｒ）であるとして、画像サイズの決定には使用しない。その後、画像サイズ決定部１５７は、ダイジェストスコアが中央値以上かつ外れ値未満であるものを、ダイジェストスコアの大きさに応じてｍ分割し、画像のサイズをｍ段階生成する。ここで、設定値ｍの値は、画面上に表示させる表示領域の大きさ等に応じて任意の値に設定可能であるが、例えば、ｍ＝２，３程度とする。

図１２には、画像のサイズを２段階に設定する場合について、図示している。ここで、図１２における画像サイズＢは、画像サイズＡよりも小さい。画像サイズ決定部１５７は、サムネイル枚数決定部１５３から伝送された枚数情報に記載されているサムネイル画像について、当該画像のダイジェストスコアが、図１２に示した画像サイズＡの領域と、画像サイズＢの領域のいずれに属しているかを判断する。画像サイズ決定部１５７は、この判断結果に応じて、枚数情報に記載されている全てのサムネイル画像について、画像サイズを決定する。このようにして画像サイズを決定することで、ダイジェストスコアが相対的に大きな画像は画像サイズが大きくなり、ダイジェストスコアが相対的に小さな画像は画像サイズが小さくなる。これにより、本実施形態に係る情報処理装置１０では、盛り上がり度合いに応じて、画像サイズを自動的に決定することが可能である。

また、画像サイズ決定部１５７は、選択されたサムネイル画像に対して、画像中に顔が存在することを表す動画メタデータが存在している場合には、顔が表示されている領域である顔領域を拡大表示するように、画像サイズを設定する。また、画像中に複数の顔領域が存在する場合には、画像サイズ決定部１５７は、全ての顔領域を含むように画像データのサイズを拡大処理する。

例えば図１３に示したように、顔領域が１つだけ存在するフレーム画像ａがサムネイル画像として選択された場合には、画像サイズ決定部１５７は、顔領域を拡大表示するように、コミック表示画面における画像サイズを決定する。また、顔領域が２つ存在するフレーム画像ｂがサムネイル画像として選択された場合には、画像サイズ決定部１５７は、２つの顔領域を含むように画像を拡大処理する。

画像サイズ決定部１５７は、このようにして設定されたサムネイル画像のサイズ（ひいては、アニメーションフレーム画像のサイズ）に関する情報をコマ画像情報とし、後述するコマ画像配置部１５９およびコマ情報生成部１６３に伝送する。

続いて、図７に戻って、コマ画像配置部１５９について説明する。コマ画像配置部１５９は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等から構成されている。コマ画像配置部１５９は、画像サイズが決定されたサムネイル画像を、所定の順序でコマに配置する。以下に、図１４〜図１７を参照しながら、コマ画像配置部１５９が行うコマ配置処理について、詳細に説明する。

上述のように、コマ画像配置部１５９は、画像サイズが決定されたサムネイル画像を、表示領域上に動的に配置していく。この際、コマ画像配置部１５９は、ビデオの時系列順にサムネイル画像を配置していくことで、ビデオの内容を反映したコマ割りを実現する。一般のコミックにおいては、基本的に１ページ中に複数の行が存在し、それぞれの行には、複数のコマが含まれている。コミックの読者は、一行中に含まれるコマを左右に読み進め、一番端まで読んだら次の行に進んで、コミックの内容を把握していく。本手法では、実際のコミックと同様に、サムネイル画像を一行ごとに左右に配置していき、この行を上から下に向けて配置していく。

なお、右綴じの本と同様のページめくり方向を実現する場合には、コマ画像配置部１５９は、ある行の中へサムネイル画像を配置していく際に、右側から左側へとサムネイル画像を配置していく。逆に、左綴じの本と同様のページめくり方向を実現する場合には、コマ画像配置部１５９は、ある行の中へサムネイル画像を配置していく際に、左側から右側へとサムネイル画像を配置していく。

図１４は、サムネイル画像の配置例を示した説明図である。図１４では、右綴じの本と同様のページめくり方向を想定し、表示領域３０１に１６枚のサムネイル画像（図中では、Ｐｉｃ．１〜Ｐｉｃ．１６で表記している。）が配置されている。なお、図１４において、Ｐｉｃ．１〜Ｐｉｃ．１６という番号付けは、動画の時系列に沿ったものであるとする。

この際、コマ画像配置部１５９は、サムネイル画像の最小の画像サイズの高さと同じ高さの領域を、配置単位枠５０１として設定する。この配置単位枠５０１が、サムネイル画像を配置する際の行となる。コマ画像配置部１５９は、この配置単位枠５０１を拡大しつつサムネイル画像を配置していくことで、図１４に示したような画像配置を実現することが可能である。また、サムネイル画像を単純に配置しただけでは、画像と画像との間に隙間が生じてしまうことがある。そのため、そのような場合には、サムネイル画像を拡大表示して、コミックらしいコマ割りを実現する。

以下、図１５〜図１７を参照しながら、具体的に説明する。まず、コマ画像配置部１５９は、配置する画像の最小サイズ（最小の高さ）を基準として、配置単位枠５０１（以下、単位枠５０１とも称する。）を設定する。コマ画像配置部１５９は、この単位枠５０１を用いて、サムネイル画像を配置していく。

図１５（ａ）に示したように、コマ画像配置部１５９は、単位枠５０１よりサムネイル画像が小さいかどうか確認し、時系列に沿った最初のサムネイル画像である画像Ｐｉｃ．１を配置する。次に、コマ画像配置部１５９は、次のサムネイル画像Ｐｉｃ．２を配置する際に、単位枠５０１の高さと、サムネイル画像Ｐｉｃ．２の高さとを比較し、画像が配置できるかどうか確認する。図１５（ａ）に示した例では、サムネイル画像Ｐｉｃ．１の高さとＰｉｃ．２の高さは同一であるため、コマ画像配置部１５９は、サムネイル画像Ｐｉｃ．２を、Ｐｉｃ．１の右隣に配置する。

次に、図１５（ｂ）に示したように、単位枠５０１よりも大きな高さを有するサムネイル画像Ｐｉｃ．３を配置する場合について説明する。コマ画像配置部１５９は、単位枠５０１の高さと、サムネイル画像Ｐｉｃ．３の高さとを比較する。この場合に、サムネイル画像の高さは、単位枠５０１の高さよりも高いため、コマ画像配置部１５９は、図１５（ｃ）に示したように、単位枠５０１の高さを広げ、再びその行の先頭からサムネイル画像を再配置していく。

コマ画像配置部１５９は、単位枠５０１よりサムネイル画像の高さが小さい場合は、サムネイル画像を配置できるかどうか確認する。サムネイル画像を配置可能な場合は、その場所に画像を配置し、配置した画像の一つ下の位置に配置位置を移動して、次のサムネイル画像を配置できるかどうか、確認する。その結果、図１５（ｃ）に示したように、Ｐｉｃ．１の下にＰｉｃ．２が配置され、Ｐｉｃ．１およびＰｉｃ．２の右隣に、Ｐｉｃ．３が配置されることとなる。

なお、図１６（ａ）に示したように、サムネイル画像Ｐｉｃ．６を配置した場合に、単位枠５０１から下方向にはみ出す場合は、コマ画像配置部１５９は、単位枠５０１の大きさを変更して、変更した行のはじめからサムネイル画像を配置しなおす。この際、Ｐｉｃ．５の次に配置する画像Ｐｉｃ．６は画像サイズが大きいため、Ｐｉｃ．５の下方に配置しようとすると、単位枠５０１からはみ出してしまう。そのため、コマ画像配置部１５９は、サムネイル画像Ｐｉｃ．６をＰｉｃ．５の右隣に配置する。このとき、図１６（ｂ）に示したように、一つ前の画像と現在の画像との間に隙間が生じてしまう場合には、コマ画像配置部１５９は、一つ前のサムネイル画像を拡大表示することで、隙間を埋める。すなわち、図１６（ｂ）に示したような場合には、図１６（ｃ）のようにＰｉｃ．５を拡大表示することで、隙間を埋めるようにする。

また、図１７（ａ）に示したように、画像を配置した場合に、表示領域３０１の右端を越えて右方向にはみ出す場合には、コマ画像配置部１５９は、現在の行は全て埋まったものとして、次の行に移る。コマ画像配置部１５９は、次の行において、上述のような方法で単位枠５０１の大きさを変更しながら、図１７（ｂ）に示したようにサムネイル画像Ｐｉｃ．４を配置する。この場合にも、図１６の場合と同様に、一つ前の画像と現在の画像との間の隙間が生じた場合には、一つ前の画像の拡大表示によって隙間を埋める。図１７に示した場合では、コマ画像配置部１５９は、図１７（ｃ）のように、Ｐｉｃ．３を拡大表示し、隙間が生じないようにする。

コマ画像配置部１５９は、上述の説明のような手順でサムネイル画像を配置していき、全てのサムネイル画像を配置したら、配置処理を終了する。

コマ画像配置部１５９は、サムネイル画像の配置が終了すると、どのサムネイル画像をどのような大きさでどこに配置したのかを表す情報であるコマ配置情報を、後述するエフェクト画像配置部１６１と、コマ情報生成部１６３とに伝送する。また、画像配置の際に生じた隙間を埋めるためにサムネイル画像の拡大処理を実施した場合には、コマ画像配置部１５９は、その旨を画像サイズ決定部１５７やコマ情報生成部１６３に通知し、コマ画像情報の修正を要請してもよい。

なお、画像サイズ決定部１５７によるサムネイル画像のサイズ決定と、コマ画像配置部１５９によるサムネイル画像の配置についても、カメラワークを考慮して行なってもよい。例えば図１８に示したように、Ｐｉｃ．１〜Ｐｉｃ．３の３枚のサムネイル画像が存在し、それぞれの画像についてカメラワークの向きが水平方向である場合（すなわち、カメラワークがパンである場合）を考える。この場合に、画像サイズ決定部１５７は、各サムネイル画像の大きさと形状を、カメラワークの向きとカメラワーク速度に応じて決定してもよい。また、コマ画像配置部１５９は、各サムネイル画像を、カメラワークの向きに沿って配置してもよい。

図１８に示した例では、カメラワークがパンであるため、コマ画像配置部１５９は、図１８の下段に示したように、各サムネイル画像を横方向に配置する。また、画像サイズ決定部１５７は、各サムネイル画像を縦長となるように処理し、サムネイル画像の幅をカメラワーク速度に応じて決定する。すなわち、カメラワーク速度が遅い場合には、サムネイル画像の幅を広く設定し、カメラワーク速度が速い場合には、サムネイル画像の幅を狭く設定する。

また、図１９に示したように、カメラワークがティルトである場合には、コマ画像配置部１５９は、各サムネイル画像を縦方向に配置してもよい。また、画像サイズ決定部１５７は、各サムネイル画像を横長となるように処理し、サムネイル画像の高さをカメラワーク速度に応じて決定してもよい。

このように、カメラワークの向きと速度に応じて、画像サイズ、画像の形状および画像の配置方向を変更することで、より漫画的なサムネイル画像の表示を行うことが可能となる。

再び図７に戻って、エフェクト画像配置部１６１について説明する。エフェクト画像配置部１６１は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等から構成されている。エフェクト画像配置部１６１は、サムネイル画像が配置されたコマに対して、動画メタデータに基づいて吹き出しおよび画面効果の少なくとも何れかを配置する。例えば、エフェクト画像配置部１６１は、動画データに含まれる音声データに関する動画メタデータを利用して、吹き出しおよび画面効果の少なくとも何れかを配置する。

図２０に、音声メタデータと吹き出しとの対応関係を示す。エフェクト画像配置部１６１は、図２０に示したように、対応する音声メタデータを有するサムネイル画像が配置されたコマに対して吹き出しを配置する。これにより、本実施形態に係る情報処理装置１０では、よりコミックらしい表現が可能になる。なお、吹き出しは、Ｗｅｂ表示することを想定し、ＳＷＦ形式などのベクターデータで実現してもよい。これにより、容量の節約と拡大縮小などのアニメーション処理を両立することが可能である。

また、サムネイル画像に、顔が存在する旨の動画メタデータが存在している場合には、エフェクト画像配置部１６１は、吹き出しが顔領域にかからないように配置する。これにより、よりコミックらしいコミック表示画像を作成することができる。こうすることで、その人の台詞を表しているように、所定の吹き出しを表現することが可能となる。具体的には、エフェクト画像配置部１６１は、まずコマの縦横比を比較し、コマが縦長であれば吹き出しを上下に配置し、横長であれば左右に配置する。このとき、エフェクト画像配置部１６１は、顔領域の中心座標とコマの中心座標とを比較し、顔が存在する位置とは逆方向に吹き出しを配置する。例えばコマが縦長で顔領域の中心座標がコマの中心座標より下側に存在する場合は、エフェクト画像配置部１６１は、吹き出しをコマの上側に配置する。

さらに、エフェクト画像配置部１６１は、音声メタデータの持続時間によって、吹き出しの大きさを変化させてもよい。例えば、持続時間が１秒以下、３秒以下、それ以上と３段階の大きさを設定し、音声が長く続けば続くほど、その音声メタデータの重要度は高いと判断することで、エフェクト画像配置部１６１は、より重要なシーンを強調して表現することが可能である。

また、エフェクト画像配置部１６１は、音声メタデータの種類に応じて、吹き出しの色を変化させることも可能である。例えば、会話音声のシーンには「Ｓｐｅｅｃｈ」というメタデータが付与されることになるが、「Ｓｐｅｅｃｈ」メタデータに対して更に「ｍａｌｅ」、「ｆｅｍａｌｅ」、「ｃｈｉｌｄｒｅｎ」という３つの更なる区分を追加することができる。これはそれぞれ、男性・女性・子供の会話音声を抽出して付与されるメタデータである。エフェクト画像配置部１６１は、それぞれのメタデータに対して、例えば青色、赤色、黄色等の色を予め設定しておき、吹き出しの色を変化させることができる。これにより、色によって話者の違いをコミック中で表現することが可能になる。

また、エフェクト画像配置部１６１は、動画メタデータ中に含まれるカメラワークの特徴量に基づいて、集中線や効果線といった画面効果を配置することも可能である。ここで、効果線とは、水平方向に沿って配置された複数の平行な線であり、集中線とは、ある領域を中心とし、この中心から放射状に配置された複数の線である。エフェクト画像配置部１６１は、カメラワークの種類や向きに応じて、集中線または効果線を配置し、カメラワークの速度に応じて、集中線や効果線の密度や本数を増減させてもよい。

例えば図２１に示したように、サムネイル画像に、顔領域が存在することを表す動画メタデータと、ズームインというカメラワークを行なったことを表す動画メタデータとが存在している場合には、顔領域の周りに複数の集中線３０９を配置する。このように集中線を配置したサムネイル画像に続けて、図２１に示したような顔のアップのサムネイル画像が配置されることで、コミック表示画面はより漫画的なものとなる。また、集中線３０９の本数については、ズームインの速度が速い場合には多く配置され、ズームインの速度が遅い場合には少なく配置される。

また、カメラワークがパンであることを表す動画メタデータが存在するサムネイル画像では、エフェクト画像配置部１６１は、例えば図２２に示したように、カメラワーク方向に沿って効果線を配置する。効果線の場合も、集中線の場合と同様に、カメラワーク速度が速い場合には多く配置され、カメラワーク速度が遅い場合には少なく配置される。

このように、カメラワークに応じて、集中線や効果線といった画面効果に関する画像を配置することで、コミック表示画面はより漫画的なものとなり、情報処理装置１０のユーザは、動画の内容を視覚的に楽しみながら把握することが可能となる。

再び図７に戻って、コマ情報生成部１６３について説明する。コマ情報生成部１６３は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等から構成されている。コマ情報生成部１６３は、サムネイル画像が配置されたそれぞれのコマに関するコマ情報を生成する。コマ情報は、枚数情報、コマ画像情報、コマ配置情報、エフェクト配置情報など、コミック表示変換部１０７が備える各処理部により生成された各種の情報を含む情報である。情報処理装置１０は、このコマ情報を参照することにより、サムネイル画像をどこにどの大きさで配置し、かつ、どのようなエフェクトを配置すればよいか、といったコミック表示画面を生成するために必要となる情報を得ることができる。

以上、本実施形態に係る情報処理装置１０の機能の一例を示した。上記の各構成要素は、汎用的な部材や回路を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。また、各構成要素の機能を、ＣＰＵ等が全て行ってもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用する構成を変更することが可能である。

なお、上述のような本実施形態に係る情報処理装置の各機能を実現するためのコンピュータプログラムを作製し、パーソナルコンピュータ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリなどである。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信してもよい。

＜情報処理方法について＞
続いて、図２３〜図２９を参照しながら、本実施形態に係る情報処理方法（より具体的には、動画データのコミック表示方法）について、詳細に説明する。図２３〜図２９は、本実施形態に係る情報処理方法を説明するための流れ図である。

［情報処理方法の全体的な流れについて］
まず、図２３を参照しながら、本実施形態に係る情報処理方法の全体的な流れについて、詳細に説明する。

本実施形態に係る情報処理装置１０の動画データ取得部１０１は、まず、ユーザ操作に応じて、ユーザにより指定された動画に対応する動画データを取得する（ステップＳ１０１）。動画データ取得部１０１は、動画データを、自装置内の記憶部１１７等から取得してもよいし、自装置に装着された各種の記録媒体から取得してもよい。また、動画データ取得部１０１は、動画データを、無線または有線で接続された他の装置から取得してもよいし、インターネット等の通信網を介して接続された他の装置から取得してもよい。動画データ取得部１０１は、取得した動画データを、動画解析部１０３および音声抽出部１０５に伝送する。

音声抽出部１０５は、動画データ取得部１０１から伝送された動画データの中から、音声データを抽出し（ステップＳ１０３）、取得した音声データをコミック表示データ生成部１１１に伝送する。

他方、動画解析部１０３は、動画データ取得部１０１から伝送された動画データを解析して、伝送された動画データに対応する動画を特徴付ける特徴量に関するメタデータである動画メタデータを生成する（ステップＳ１０５）。動画解析部１０３は、生成した動画メタデータを、コミック表示変換部１０７に伝送する。

次に、コミック表示変換部１０７のダイジェストスコア算出部１５１は、伝送された動画メタデータに基づいて、動画を構成する全ての画像（フレーム画像）に対して、ダイジェストスコアを算出する。ダイジェストスコア算出部１５１は、算出したダイジェストスコアを、サムネイル枚数決定部１５３に伝送する。

続いて、サムネイル枚数決定部１５３は、伝送されたダイジェストスコアと動画メタデータとを用いて、サムネイル画像として利用される代表フレーム画像を選択する（ステップＳ１０７）。また、サムネイル枚数決定部１５３は、代表フレーム画像の選択が終了すると、サムネイルアニメーションに用いられるアニメーションフレーム画像を選択する。サムネイル枚数決定部１５３は、選択した代表フレーム画像を特定する情報や、代表フレーム画像の枚数に関する情報や、代表フレーム画像に関連するアニメーションフレーム画像に関する情報等を含む枚数情報を生成する。サムネイル枚数決定部１５３は、生成した枚数情報を、画像サイズ決定部１５７とコマ情報生成部１６３とに伝送する。

なお、アニメーションフレーム画像や、サムネイルアニメーションの再生速度の決定に際して、カメラワークメタデータ利用部１５５による解析結果を反映させることも可能である。

次に、画像サイズ決定部１５７は、伝送された枚数情報、動画メタデータ、ダイジェストスコア等に基づいて、選択された代表フレーム画像をコミック表示する際の画像サイズを決定する（ステップＳ１０９）。画像サイズ決定部１５７は、代表フレーム画像の画像サイズに関する情報を含むコマ画像情報を生成し、コマ画像配置部１５９と、コマ情報生成部１６３とに伝送する。

続いて、コマ画像配置部１５９は、伝送されたコマ画像情報および動画メタデータ等を用いて、代表フレーム画像を表示領域に自動的に配置していき、代表フレーム画像の配置を決定する（ステップＳ１１１）。コマ画像配置部１５９は、代表フレーム画像の配置を決定すると、どの代表フレーム画像をどの位置に配置したのかといった情報を含むコマ配置情報を生成し、エフェクト画像配置部１６１と、コマ情報生成部１６３とに伝送する。

次に、エフェクト画像配置部１６１は、伝送されたコマ配置情報および動画メタデータ等に基づいて、吹き出し等のエフェクト画像を配置する（ステップＳ１１３）。エフェクト画像配置部１６１は、エフェクト画像の配置が終了すると、どのエフェクトをどこに配置したのかといった情報を含むエフェクト配置情報を生成し、コマ情報生成部１６３に伝送する。

なお、画像サイズの決定、コマ画像の配置およびエフェクト画像の配置に際して、動画メタデータに含まれるカメラワークに関する特徴量を利用することが可能である。

続いて、コマ情報生成部１６３は、各処理部から伝送された枚数情報、コマ画像情報、コマ配置情報、エフェクト配置情報等に基づいて、コマ情報を生成する（ステップＳ１１５）。コマ情報生成部１６３は、生成したコマ情報を、フレーム画像データ生成部１０９と、コミック表示データ生成部１１１とに伝送する。

次に、フレーム画像データ生成部１０９は、画像データとコマ情報とに基づいて、コミック表示に利用されるフレーム画像の大きさや形状を調整する処理を行い、コミック表示に利用されるフレーム画像データを生成する（ステップＳ１１７）。フレーム画像データ生成部１０９は、生成したフレーム画像データを、コミック表示データ生成部１１１に伝送する。

コミック表示データ生成部１１１は、音声抽出部１０５から伝送された音声データと、コミック表示変換部１０７から伝送されたコマ情報とに基づいて、コミック表示に用いられる音声データを生成する。また、コミック表示データ生成部１１１は、コマ情報と、音声データと、フレーム画像データと、エフェクトデータとを用いて、コミック表示を実現するために必要なデータのセットであるコミック表示データを生成する（ステップＳ１１９）。

情報処理装置１０は、生成されたコミック表示データを実行することで、表示画面上に、動画の内容を要約したものであるコミック表示を表示することができる。

［代表フレーム画像の選択方法について］
続いて、図２４を参照しながら、代表フレーム画像の選択方法の流れについて、詳細に説明する。図２４は、本実施形態に係る代表フレーム画像の選択方法を説明するための流れ図である。

まず、サムネイル枚数決定部１５３は、動画メタデータに含まれるシーンチェンジスコア（ＳＣＳ）が、所定の閾値以上であるかどうかを判断する（ステップＳ２０１）。サムネイル枚数決定部１５３は、シーンチェンジスコアが閾値より大きい場合、カメラが大きく動いたことによるぶれた画像であると考え、代表フレーム画像として選択しない（ステップＳ２０３）。

次に、サムネイル枚数決定部１５３は、ダイジェストスコア（ＤＳ）の分布及び中央値を算出する（ステップＳ２０５）。中央値は、上述のように、フレーム画像を代表フレーム画像に選択するか判断するために用いられる。

そして、サムネイル枚数決定部１５３は、代表フレーム画像候補の有効フレーム数が所定の設定値Ｎ個以上か否かを判断する（ステップＳ２０７）。有効フレーム数がＮ個以上ならば、閾値Ｔ＝中央値とし、Ｎ個未満なら閾値Ｔ＝ダイジェストスコアの最小値とする。

次に、ダイジェストスコアがＴ未満か、同じ値が連続している候補については、サムネイル枚数決定部１５３は、代表フレーム画像として選択しない。また、ダイジェストスコアがＴ以上であり、かつ、同じ値が連続していない候補を、代表フレーム画像候補の中から選択していく。

続いて、サムネイル枚数決定部１５３は、全てのフレームについて、上述の処理を行ったか否かを判断する（ステップＳ２１１）。全てのフレームについて処理を行っていない場合には、ステップＳ２０７に戻って処理を行う。

全てのフレームについて処理が終了している場合には、サムネイル枚数決定部１５３は、採用されたフレーム画像の総数を計算し、この総数が所定の閾値以上か否かを判断する（ステップＳ２１３）。採用フレーム画像の枚数が所定の閾値以上である場合は、サムネイル枚数決定部１５３は、ダイジェストスコアの分布を残すように、一定間隔で間引き処理を行う（ステップＳ２１５）。

次に、サムネイル枚数決定部１５３は、ダイジェストスコアが小さいコマが連続する場合の間引き処理を行う（ステップＳ２１７）。このようにして残ったフレーム画像を、サムネイル枚数決定部１５３は、コミック表示におけるコマ（すなわち代表フレーム画像）として選択する（ステップＳ２１９）。

［カメラワークに応じたアニメーションフレーム画像の選択方法について］
次に、図２５を参照しながら、カメラワークに応じたアニメーションフレーム画像の選択方法について、詳細に説明する。図２５は、カメラワークに応じたアニメーションフレーム画像の選択方法を説明するための流れ図である。

カメラワークメタデータ利用部１５５は、まず、現在着目しているフレーム画像が、最終のフレーム画像を超過しているか否かを判断する（ステップＳ３０１）。着目しているフレーム画像が、最終のフレーム画像を超過している場合には、カメラワークメタデータ利用部１５５は、処理を終了する。また、最終のフレーム画像を超過していない場合には、カメラワークメタデータ利用部１５５は、以下の処理を実施する。

次に、カメラワークメタデータ利用部１５５は、現在着目しているフレーム画像が、表示する代表フレーム画像であるか否かを判断する（ステップＳ３０３）。現在着目しているフレームが表示する代表フレームではない場合には、カメラワークメタデータ利用部１５５は、次の代表フレームに対して処理を行う（ステップＳ３０５）。また、現在着目しているフレームが表示する代表フレームである場合には、カメラワークメタデータ利用部１５５は、動画メタデータに含まれるカメラワークに関する特徴量を参照する。より詳細には、カメラワークメタデータ利用部１５５は、パン、ティルト、ロール、ズームに関するカメラワークの絶対値を算出する（ステップＳ３０７）。

続いて、カメラワークメタデータ利用部１５５は、代表フレーム画像に関連して選択されたアニメーションフレーム画像について、カメラワークの絶対値を順に加算していくという積分処理を行う。カメラワークメタデータ利用部１５５は、一つのアニメーションフレーム画像の加算が終了するごとに、積分値が所定の閾値以上になったか否かを判断する（ステップＳ３０９）。積分値が所定の閾値以上となった場合には、カメラワークメタデータ利用部１５５は、後述するステップＳ３１３の処理を実施する。また、積分値が所定の閾値未満であった場合には、カメラワークメタデータ利用部１５５は、カメラワークに関する特徴量を、所定の時間（例えば１秒分）のフレーム以上加算したか否かを判断する（ステップＳ３１１）。所定の時間のフレーム以上を加算した場合には、カメラワークメタデータ利用部１５５は、現在着目しているフレーム数を保存する（ステップＳ３１３）。また、所定の時間のフレーム以上を加算していない場合には、カメラワークメタデータ利用部１５５は、次のアニメーションフレーム画像に着目し（ステップＳ３１７）、ステップＳ３０７に戻って処理を行う。

次に、カメラワークメタデータ利用部１５５は、カメラワークの積分値に応じて、アニメーションフレーム画像の枚数を決定する（ステップＳ３１５）。続いて、カメラワークメタデータ利用部１５５は、決定したアニメーションフレーム画像の枚数と、保存してあるフレームの番号とに基づいて、サムネイルアニメーションに用いるアニメーションフレーム画像を決定する。

上述のような処理を行うことで、本実施形態に係る情報処理方法では、カメラワークに応じた自然なサムネイルアニメーションを実施することが可能となる。

［代表フレーム画像の動的配置方法について］
続いて、図２６Ａおよび図２６Ｂを参照しながら、本実施形態に係る代表フレーム画像の動的配置方法について、詳細に説明する。図２６Ａおよび図２６Ｂは、本実施形態に係る代表フレーム画像の動的配置方法を説明するための流れ図である。

まず、コマ画像配置部１５９は、代表フレーム画像を配置していく際に用いる配置単位枠を作成する（ステップＳ４０１）。この際、コマ画像配置部１５９は、配置単位枠の高さを、画像サイズ決定部１５７により決定された最小の画像サイズの高さと同じにする。

次に、コマ画像配置部１５９は、配置しようとしている代表フレーム画像が、配置単位枠より小さいかどうかを判定する（ステップＳ４０３）。配置しようとしている代表フレーム画像の高さが配置単位枠の高さよりも大きい場合には、コマ画像配置部１５９は、後述するステップＳ４０５〜ステップＳ４０９の処理を行う。また、配置しようとしている代表フレーム画像の高さが配置単位枠の高さ以下である場合には、コマ画像配置部１５９は、後述するステップＳ４１１以降の処理を行う。

コマ画像配置部１５９は、配置しようとしている代表フレーム画像の高さが配置単位枠の高さよりも大きい場合、配置単位枠の高さを、配置しようとしている代表フレーム画像の高さまで拡大する（ステップＳ４０５）。次に、コマ画像配置部１５９は、行の先頭（すなわち、高さを拡大した配置単位枠内の先頭）に戻って（ステップＳ４０７）、行の先頭から画像の再配置を開始する（ステップＳ４０９）。

また、コマ画像配置部１５９は、配置しようとしている代表フレーム画像の高さが配置単位枠以下である場合、配置しようとしている代表フレーム画像を配置可能か否か判断する（ステップＳ４１１）。

配置しようとしている代表フレーム画像を配置可能である場合、コマ画像配置部１５９は、代表フレーム画像を該当箇所に配置する（ステップＳ４１３）。続いて、コマ画像配置部１５９は、画像を配置しようとするコマを隣のコマに移動させる（ステップＳ４１５）。ここで、ステップＳ４１３において配置した代表フレーム画像の高さが、配置単位枠の高さ未満であった場合には、コマ画像配置部１５９は、ステップＳ４１３において配置した画像の下側に位置するコマを、ステップＳ４１５における隣のコマとする。また、ステップＳ４１３において配置した代表フレーム画像の高さが、配置単位枠の高さと等しい場合には、コマ画像配置部１５９は、ステップＳ４１３において配置した画像の右側または左側に位置するコマを、ステップＳ４１５における隣のコマとする。

次に、コマ画像配置部１５９は、全ての代表フレーム画像を配置し終えたか否かを判断する（ステップＳ４１７）。全ての代表フレーム画像を配置し終えた場合には、コマ画像配置部１５９は、コマ配置処理を終了する。また、全ての代表フレーム画像を配置し終えていない場合には、コマ画像配置部１５９は、次の代表フレーム画像について、ステップＳ４０３以降の処理を行う。

また、ステップＳ４１１において、配置しようとしている代表フレーム画像が、配置単位枠の縦方向（高さ方向）にはみ出る場合には、コマ画像配置部１５９は、現在配置しようとしている画像の一つ前のコマに配置した画像を拡大する（ステップＳ４１９）。次に、コマ画像配置部１５９は、着目するコマを、横隣のコマに変更する（ステップＳ４２１）。その後、コマ画像配置部１５９は、行の先頭に戻って（ステップＳ４２３）、行の先頭から画像の再配置を開始する（ステップＳ４２５）。

また、ステップＳ４１１において、配置しようとしている代表フレーム画像が、配置単位枠の横方向（幅方向）にはみ出る場合には、コマ画像配置部１５９は、現在配置しようとしている画像の一つ前のコマに配置した画像を拡大する（ステップＳ４２７）。次に、コマ画像配置部１５９は、次の行へと移動して（ステップＳ４２９）、配置単位枠の大きさを元の大きさに設定しなおす（ステップＳ４３１）。その後、コマ画像配置部１５９は、ステップＳ４０１に戻って、代表フレーム画像の配置処理を再開する。

以上説明したような手順で、代表フレーム画像の配置処理を行なうことで、本実施形態に係る情報処理装置１０では、代表フレーム画像を時系列に沿って動的に配置することが可能となる。

［カメラワークを考慮した代表フレーム画像の配置方法について］
続いて、図２７を参照しながら、カメラワークを考慮した代表フレーム画像の配置方法について、詳細に説明する。図２７は、カメラワークを考慮した代表フレーム画像の配置方法を説明するための流れ図である。

以下では、カメラワークを考慮した代表フレーム画像の配置処理が、例えば図２６Ａおよび図２６Ｂを参照しながら説明した代表フレーム画像の配置が終了した後に実施される場合について説明する。しかしながら、図２６Ａおよび図２６Ｂにおいて、カメラワークを考慮しながら、代表フレーム画像を配置していくことも可能である。

まず、コマ画像配置部１５９は、パンまたはティルトのカメラワークがなされたことを表す動画メタデータが存在するか否かを判定する（ステップＳ５０１）。カメラワークがパンまたはティルトではない場合には、コマ画像配置部１５９は、カメラワークを考慮した代表フレーム画像の再配置処理を終了する。また、カメラワークがパンまたはティルトである場合には、コマ画像配置部１５９は、該当する画像が、顔領域を抽出したものであるかどうかを判定する（ステップＳ５０３）。顔領域を含まない場合には、コマ画像配置部１５９は、カメラワークが存在するフレーム区間を等分割する（ステップＳ５０５）。

次に、コマ画像配置部１５９は、検出された顔領域とフレーム数とを、全て保存する（ステップＳ５０７）。

続いて、コマ画像配置部１５９は、該当する代表フレーム画像について、カメラワークがパンであるか否かを、動画メタデータに基づいて判定する（ステップＳ５０９）。カメラワークがパンである場合には、コマ画像配置部１５９は、代表フレーム画像（コマ画像）を縦長に設定し、カメラワーク方向に沿って該当する画像を横向きに配置する（ステップＳ５１１）。また、カメラワークがティルトである場合には、コマ画像配置部１５９は、代表フレーム画像（コマ画像）を横長に設定し、カメラワーク方向に沿って該当する画像を縦向きに配置する（ステップＳ５１３）。

次に、画像サイズ決定部１５７は、コマ画像配置部１５９から伝送された縦長または横長の指定と、動画メタデータから得られるカメラワーク速度とに応じて、代表フレーム画像（コマ画像）の大きさを決定する（ステップＳ５１５）。

続いて、コマ画像配置部１５９は、必要に応じて、他のコマの配置を修正する（ステップＳ６１７）。

以上説明したようなカメラワークを考慮した代表フレーム画像の配置処理を行うことで、コミック表示をより漫画的な表現に富んだものとすることが可能となる。

［カメラワークを考慮したエフェクト画像の配置方法について］
次に、図２８を参照しながら、カメラワークを考慮したエフェクト画像の配置方法について、詳細に説明する。図２８は、カメラワークを考慮したエフェクト画像の配置方法について説明するための流れ図である。

まず、エフェクト画像配置部１６１は、パンまたはティルトのカメラワークがなされたことを表す動画メタデータが存在するか否かを判定する（ステップＳ６０１）。カメラワークがパンまたはティルトである場合には、エフェクト画像配置部１６１は、効果線エフェクト画像の生成処理を行う（ステップＳ６０３）。また、カメラワークがパンまたはティルトではなく、例えばズーム等である場合には、エフェクト画像配置部１６１は、集中線エフェクト画像の生成処理を行う（ステップＳ６０５）。

以下では、まず、効果線エフェクト画像を生成する場合について説明する。エフェクト画像配置部１６１は、カメラワークが開始されたフレーム画像と、カメラワークが終了したフレーム画像とを検出する（ステップＳ６０７）。次に、エフェクト画像配置部１６１は、画像中に顔領域が存在するか否かを、動画メタデータに基づいて判定する（ステップＳ６０９）。

顔領域が存在する場合には、エフェクト画像配置部１６１は、画像の端部から顔領域の周辺まで、効果線エフェクト画像を生成する（ステップＳ６１１）。また、顔領域が存在しない場合には、エフェクト画像配置部１６１は、画像の周辺部に、効果線エフェクト画像を生成する（ステップＳ６１３）。なお、エフェクト画像配置部１６１は、効果線エフェクト画像の密度、長さ、本数等を、カメラワーク速度に応じて決定する。

効果線エフェクト画像の生成が終了すると、エフェクト画像配置部１６１は、効果線エフェクト画像のサイズと、どのフレーム画像に対して配置したのかを保存する（ステップＳ６１５）。

次に、集中線エフェクト画像を生成する場合について説明する。エフェクト画像配置部１６１は、カメラワークが開始されたフレーム画像と、カメラワークが終了したフレーム画像とを検出する（ステップＳ６１７）。次に、エフェクト画像配置部１６１は、画像中に顔領域が存在するか否かを、動画メタデータに基づいて判定する（ステップＳ６１９）。

顔領域が存在する場合には、エフェクト画像配置部１６１は、顔領域を中心として、周辺に集中線エフェクト画像を生成する（ステップＳ６２１）。また、顔領域が存在しない場合には、エフェクト画像配置部１６１は、画像の周辺部に、集中線エフェクト画像を生成する（ステップＳ６２３）。なお、エフェクト画像配置部１６１は、集中線エフェクト画像の密度、長さ、本数等を、カメラワーク速度に応じて決定する。

集中線エフェクト画像の生成が終了すると、エフェクト画像配置部１６１は、集中線エフェクト画像のサイズと、どのフレーム画像に対して配置したのかを保存する（ステップＳ６１５）。

以上説明したようなカメラワークを考慮したエフェクト画像の配置処理を行うことで、コミック表示をより漫画的な表現に富んだものとすることが可能となる。

［アニメーション再生速度の決定方法について］
次に、図２９を参照しながら、サムネイルアニメーションの再生速度の決定方法について、詳細に説明する。図２９は、サムネイルアニメーションの再生速度の決定方法を説明するための流れ図である。

上述の説明では、カメラワークメタデータ利用部１５５が予めアニメーションの再生速度を決定しておく場合について説明したが、以下で説明するように、アニメーションの再生時に、コミック表示実行部１１３が再生速度を決定することができる。

まず、コミック表示実行部１１３は、コミック表示データを参照して、エフェクト画像が存在するコマ（代表フレーム画像）であるか否かを判定する（ステップＳ７０１）。

エフェクト画像が存在するコマである場合には、コミック表示実行部１１３は、効果線エフェクトを、コミック表示データに基づいて再生し（ステップＳ７０３）、ステップＳ７０５に進む。また、エフェクト画像が存在しないコマである場合には、コミック表示実行部１１３は、以下で説明するステップＳ７０５の処理を実行する。

次に、コミック表示実行部１１３は、コミック表示データを参照して、サムネイルアニメーションに用いられる画像の枚数を取得する（ステップＳ４０５）。コミック表示実行部１１３は、アニメーションフレーム画像の枚数と、例えば以下に示したような基準とを用いて、アニメーションの再生速度を決定する（ステップＳ７０７）。

続いて、コミック表示実行部１１３は、決定した再生速度に基づいて、サムネイルアニメーションを再生する（ステップＳ７０９）。

このような処理を行うことにより、サムネイルアニメーションの再生時に、カメラワークを考慮した再生速度の決定を行なうことができる。

＜第１変形例について＞
続いて、本実施形態に係る情報処理装置１０の第１変形例について、図３０〜図３２を参照しながら、詳細に説明する。

本変形例に係る情報処理装置１０の動画解析部１０３は、第１の実施形態に係る動画解析部１０３の機能に加え、動画データの中から人物を検出したり、ユーザが着目した被写体を検出したり、ユーザが指定した物体を検出したり、といった更なる検出機能を有する。また、本変形例に係る情報処理装置１０のコミック表示変換部１０７は、動画解析部１０３による検出結果に応じて、オクルージョンを避けたエフェクト画像の配置を行う機能を更に有する。

［動画解析部の構成について］
まず、本変形例に係る動画解析部１０３について、図３０を参照しつつ詳細に説明する。図３０は、本変形例に係る動画解析部１０３の構成について説明するためのブロック図である。

本変形例に係る動画解析部１０３は、動画データ分割部１３１、顔検出部１３３、シーン遷移検出部１３５、カメラワーク検出部１３７、音声解析部１３９および動画メタデータ生成部１４１に加えて、更に以下の処理部を有する。すなわち、本変形例に係る動画解析部１０３は、人物検出部１７１と、被写体検出部１７３と、物体検出部１７５と、を更に備える。

本変形例に係る動画データ分割部１３１、顔検出部１３３、シーン遷移検出部１３５、カメラワーク検出部１３７および音声解析部１３９は、本発明の第１の実施形態に係る各処理部と同様の構成を有し、同様の効果を奏するものである。よって、以下では、詳細な説明は省略する。

また、本変形例に係る動画メタデータ生成部１４１は、顔検出部１３３、シーン遷移検出部１３５、カメラワーク検出部１３７、人物検出部１７１、被写体検出部１７３および物体検出部１７５から出力された結果等に基づいて、動画メタデータを生成する。変形例に係る動画メタデータ生成部１４１のこれ以外の機能については、本発明の第１の実施形態に係る動画メタデータ生成部１４１と同様であり、また、本変形例ではほぼ同様の効果が得られるものであるため、以下では詳細な説明は省略する。

人物検出部１７１は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等から構成されている。人物検出部１７１は、ＡｄａＢｏｏｓｔ法などの統計学習処理を利用して予め生成されている識別器（Ｃｌａｓｓｉｆｉｅｒ）を利用して、伝送された画像データの中から人物に該当する部分を検出する。

この識別器は、例えば、服装識別器および輪郭識別器を統合することで生成される。服装識別器とは、統計学習によって生成された、複数の弱識別器からなる比較的強い識別器であり、人の服装の特徴を利用して、伝送された画像中に人の画像の領域が存在するか否かを識別する際に用いられる。また、輪郭識別器とは、統計学習によって生成された、複数の弱識別器からなる比較的強い識別器であり、人の輪郭を利用して、伝送された画像中に人の画像の領域が存在するか否かを識別する際に用いられる。

人物検出部１７１は、動画データ分割部１３１から画像データが伝送されると、伝送された画像データの中から、服装特徴点および輪郭特徴点を抽出する。人物検出部１７１は、抽出した各特徴点に基づいて、服装特徴量および輪郭特徴量を算出する。人物検出部１７１は、算出した服装特徴量および輪郭特徴量を識別器に代入して演算を行い、得られた演算結果に基づいて、人物が画像中で認識（検出）されたか否かの識別結果を出力する。

本変形例に係る人物検出部１７１は、人物の服装および輪郭という２種類の特徴量に着目している。これにより、人物検出部１７１は、伝送された画像から少なくとも一方の特徴量を充分に抽出することができれば、画像から人物を検出することができる。

人物検出部１７１は、伝送された画像中に人物が存在したか否かの検出結果を、動画メタデータ生成部１４１に伝送する。また、人物検出部１７１は、画像中に複数の人物が検出された場合には、検出された人物の個数（人数）を動画メタデータ生成部１４１に伝送してもよい。

なお、人物検出部１７１は、画像中に人物が存在した場合には、人物に該当する画素の位置を表す位置情報を、動画メタデータ生成部１４１に伝送してもよい。かかる位置情報が出力されることで、本変形例に係る他の処理部は、画像中のどの位置に人物が存在するのかを、容易に知ることができる。また、人物検出部１７１は、人物検出処理を行った画像の演算結果（識別器から出力されたスコア）を動画メタデータ生成部１４１に伝送してもよい。

被写体検出部１７３は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等から構成されている。被写体検出部１７３は、伝送された画像の中から、ユーザが画像を一瞥した場合にユーザが注目すると推定される画像上の物体、すなわち、ユーザが目を向けると推定される物体を、被写体として検出する。

被写体検出部１７３は、被写体の検出を、例えば、伝送された画像のぼけ具合（ぼけの度合い）、露出の適正さの度合いおよびホワイトバランスの適正さの度合い等に着目して行う。被写体検出部１７３による被写体の検出処理をより具体的に説明すると、以下の通りである。

被写体検出部１７３は、動画データ分割部１３１から画像データが伝送されると、伝送された画像に基づいて、当該画像の各領域について、輝度に関する情報を示す輝度情報マップを生成する。また、被写体検出部１７３は、伝送された画像に基づいて、当該画像の各領域について、画像を構成する色に関する情報を示す色情報マップを生成する。また、被写体検出部１７３は、伝送された画像に基づいて、当該画像の各領域について、エッジに関する情報を示すエッジ情報マップを生成する。また、被写体検出部１７３は、伝送された画像に基づいて、当該画像の各領域について、被写体としての人の顔に関する情報を示す顔情報マップを生成する。また、被写体検出部１７３は、伝送された画像に基づいて、当該画像の各領域について、動きに関する情報を示す動き情報マップを生成する。

これらの情報マップに含まれる情報は、被写体の含まれる領域により多く含まれる特徴の特徴量を示す情報であり、その情報が伝送された画像の各領域に対応させて並べられたものが情報マップである。すなわち、情報マップは、伝送された画像の各領域における特徴量を示す情報である。なお、上述の各情報マップは、あくまでも一例であって、上述のもの以外の情報マップが生成されてもよく、上述の各情報マップのうち一部のみが生成されてもよい。

被写体検出部１７３は、生成した各情報マップを線形結合し、被写体マップを生成する。すなわち、上述の各情報マップの各領域の情報（特徴量）が、同じ位置にある領域ごとに重み付け加算され、被写体マップが生成される。

続いて、被写体検出部１７３は、伝送された画像と、生成した被写体マップとを用いて、伝送された画像における被写体の含まれる領域を処理対象として、被写体のぼけ具合を表す指数（焦点ぼけ指数）を生成する。また、被写体検出部１７３は、伝送された画像に基づいて、伝送画像全体における露出の適正さの度合いを表す指数（露出指数）を生成する。また、被写体検出部１７３は、伝送された画像に基づいて、伝送画像全体におけるホワイトバランスの適正さの度合いを表す指数（ホワイトバランス指数）を生成する。

被写体検出部１７３は、生成したこれらの指数を、予め設定された重みを用いて線形結合し、伝送された画像に対する被写体スコアとする。被写体検出部１７３は、例えば、算出した被写体スコアが所定の閾値以上となっている領域を、被写体として検出する。

被写体検出部１７３は、伝送された画像中に被写体が存在したか否かの検出結果を、動画メタデータ生成部１４１に伝送する。また、被写体検出部１７３は、画像中に複数の被写体が検出された場合には、検出された被写体の個数を動画メタデータ生成部１４１に伝送してもよい。

なお、被写体検出部１７３は、画像中に被写体が存在した場合には、被写体に該当する画素の位置を表す位置情報を、動画メタデータ生成部１４１に伝送してもよい。かかる位置情報が出力されることで、本変形例に係る他の処理部は、画像中のどの位置に被写体が存在するのかを、容易に知ることができる。また、被写体検出部１７３は、算出した被写体スコア、焦点ぼけ指数、露出指数、ホワイトバランス指数のいずれかまたは全てを動画メタデータ生成部１４１に伝送してもよい。

物体検出部１７５は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等から構成されている。物体検出部１７５は、伝送された画像の中から、予めデータベースに登録されている物体を検出する。そのため、本変形例に係る情報処理装置１０のユーザが、様々な物体を特徴付けるデータをデータベースに予め登録しておくことで、ユーザの嗜好を反映した物体を、画像の中から検出することが可能となる。

物体検出部１７５は、一般的な物体や情報処理装置１０のユーザから指定された物体等を含む画像に対してエッジ検出処理を行い、エッジ画像を生成する。物体検出部１７５は、生成したエッジ画像上のエッジ点における局所特徴量と、このエッジ点をサポートする点とを抽出し、抽出した点を幾何学的位置関係と関連付けて、データベースに登録しておく。

物体検出部１７５は、動画データ分割部１３１から画像データが伝送されると、伝送された画像に対してエッジ検出処理を行い、エッジ画像を生成する。物体検出部１７５は、生成されたエッジ画像を用いて、エッジ画像上のエッジ点における局所特徴量を算出する。物体検出部１７５は、データベースに登録されている特徴量やエッジ点の幾何学的位置関係を検索し、生成した局所特徴量等に類似しているデータが登録されているか否かを判断する。予め登録されているデータが存在する場合には、対応する物体が画像中に存在したとして、物体検出部１７５は、検出結果を動画メタデータ生成部１４１に出力する。また、物体検出部１７５は、画像中に複数の物体が検出された場合には、検出された物体の種類および個数を動画メタデータ生成部１４１に伝送してもよい。

本変形例に係る動画解析部１０３は、かかる処理部を有することで、第１の実施形態に係る動画解析部１０３の機能に加え、動画の中から人物を検出したり、ユーザが着目した被写体を検出したり、ユーザが指定した物体を検出したりすることが可能となる。これにより、本変形例に係る動画解析部１０３は、動画の内容をより多くの観点から解析することが可能となる。その結果、本変形例に係る情報処理装置１０は、動画の内容が反映された、より自然で迫力のあるコミック表示画面を生成することが可能となる。

なお、上述の説明における人物検出方法、被写体検出方法および物体検出方法はあくまでも一例であって、本変形例に係る動画解析部１０３が実行する各検出処理の詳細が、上述の例に限定されるわけではない。本変形例に係る動画解析部１０３では、上述の方法以外の処理を用いて、人物、被写体および物体の検出を行うことが可能である。

また、顔検出部１３３、人物検出部１７１、被写体検出部１７３および物体検出部１７５のそれぞれは、画像中で最初に検出された人（物）、検出精度の一番高い人（物）、所定の方向を向いている人（顔）、笑顔の人物等、所定の検出対象を優先して検出するようにしてもよい。

なお、上述の説明において、動画メタデータ生成部１４１に伝送される検出結果等はあくまでも一例である。上述の検出結果以外にも、動画を特徴付ける特徴量として利用可能な検出結果等が存在する場合には、これらの検出結果を動画メタデータとして利用可能である。

［エフェクト画像の配置処理について］
続いて、図３１Ａ〜図３１Ｅおよび図３２を参照しながら、本変形例に係るコミック表示変換部１０７が実施するエフェクト画像の配置処理について、詳細に説明する。図３１Ａ〜図３１Ｅおよび図３２は、本変形例に係るエフェクト画像の配置方法について説明するための説明図である。

コミック表示変換部１０７のエフェクト画像配置部１６１は、動画解析部１０３による動画の解析結果に応じて、以下で説明するような方針の基でエフェクト画像を配置してもよい。

例えば、エフェクト画像配置部１６１は、画像中に検出精度の高い顔領域が存在する場合には、図３１Ａに示したように、顔領域を含むコマ全体に対して、顔領域を強調するように集中線エフェクトを配置してもよい。ここで、検出精度の高い顔領域の例として、顔検出処理の際に算出される数値（スコア）が所定の閾値以上である領域を挙げることができる。その結果、図３１Ａに示したように、コマ全体がエフェクト画像の配置される領域であるエフェクト画像配置領域となり、エフェクト画像配置部１６１は、このエフェクト画像配置領域内に、集中線エフェクトを配置していくこととなる。

また、動画解析部１０３からコミック表示変換部１０７に対して、特定の領域（顔領域、人物領域、被写体領域、物体領域）等が検出されず、音声のみが検出されたという結果が通知される場合も生じうる。この際、エフェクト画像配置部１６１は、図３１Ｂに示したように、コマ領域全体に対して音声が存在することを示す所定のエフェクト画像を配置してもよい。

また、動画解析部１０３からコミック表示変換部１０７に対して、検出精度の高くない領域が検出され、あわせて音声も検出されたという結果が通知される場合も生じうる。この際、エフェクト画像配置部１６１は、検出された領域（検出精度の高くない領域）を避けるようにエフェクト画像配置領域を設定し、このエフェクト画像配置領域に音声に対応する吹き出しエフェクト等を配置してもよい。この際、エフェクト画像配置部１６１は、検出された精度の高くない領域と、エフェクト画像配置領域との相対的な位置関係を考慮し、配置するエフェクト画像の方向を設定することが好ましい。ここで、設定されるエフェクト画像配置領域の大きさは、コマのアスペクト比等に応じて適宜決定される。

例えば図３１Ｃに示したように、コマの右側に検出精度の高くない顔領域が検出され、あわせて音声も検出された場合、エフェクト画像配置部１６１は、検出された顔領域を避けるようにコマの左側にエフェクト画像配置領域を設定する。また、検出された音声は、検出された顔領域と関連がある場合が多いため、エフェクト画像配置部１６１は、配置する吹き出しエフェクトの向きを、顔領域の位置するコマの右側から左向きに設定する。

検出精度の高くない領域が検出された場合には、検出された領域を強調するようにエフェクト画像を配置してしまうと、検出が失敗していた際に誤った検出結果が強調されてしまうこととなる。そのため、図３１Ｃに示したように、検出領域を避けてエフェクト画像を配置することで、誤った検出結果が出力されていた場合であっても、処理対象画像に対して自然なエフェクトを与えることができる可能性が高くなる。

また、動画解析部１０３からコミック表示変換部１０７に対して、複数の領域が検出され、あわせて音声も検出されたという結果が通知される場合も生じうる。この際、エフェクト画像配置部１６１は、複数の検出領域を包含するようなより大きな領域を設定する。エフェクト画像配置部１６１は、設定された領域を避けるようにエフェクト画像配置領域を設定し、このエフェクト画像配置領域に音声に対応する吹き出しエフェクト等を配置してもよい。この際、エフェクト画像配置部１６１は、設定されたより大きな領域と、エフェクト画像配置領域との相対的な位置関係を考慮し、配置するエフェクト画像の方向を設定することが好ましい。

また、人物や顔が検出された場合だけでなく、例えば図３１Ｅに示したように、被写体として検出された物体や、一般的な物体が検出された場合であっても、エフェクト画像配置部１６１は、上述のようにしてエフェクト画像を配置することが可能である。

エフェクト画像配置部１６１は、エフェクト画像の方向を考慮しながらエフェクト画像の配置を行う場合、例えば図３２に示したように、コマ全体の重心の位置と、検出された領域の重心の位置との相対的な位置関係を算出して、エフェクト画像の方向を決定する。これにより、エフェクト画像配置部１６１は、オクルージョンを避けながら、エフェクト画像と検出された領域との関連性をより高めて、効果的にエフェクト画像を配置することが可能である。

（第２の実施形態）
次に、図３３〜図３７を参照しながら、本発明の第２の実施形態に係る情報処理装置および情報処理方法について、詳細に説明する。本実施形態に係る情報処理装置および情報処理方法は、動画および静止画の解析結果を利用して、動画および静止画の内容を把握するために有効な画像を自動的に抽出し、抽出した画像を内容把握が容易なように表示する。これにより、あるイベントに関する記録が動画と静止画の双方を用いて行われた場合に、動画と静止画の区別を行うことなく、あるイベントの内容を容易に把握することができる。

＜情報処理装置の構成について＞
まず、図３３〜図３５を参照しながら、本実施形態に係る情報処理装置の構成について、詳細に説明する。図３３は、本実施形態に係る情報処理装置の構成を説明するためのブロック図である。図３４は、本実施形態に係る静止画解析部１００３の構成を説明するためのブロック図であり、図３５は、本実施形態に係るコミック表示変換部１００５の構成を説明するためのブロック図である。

［情報処理装置の全体構成について］
本実施形態に係る情報処理装置１０は、例えば図３３に示したように、動画データ取得部１０１、動画解析部１０３、音声抽出部１０５、フレーム画像データ生成部１０９、コミック表示データ生成部１１１およびコミック表示実行部１１３を備える。また、情報処理装置１０は、表示制御部１１５、記憶部１１７、静止画データ取得部１００１、静止画解析部１００３およびコミック表示変換部１００５を更に備える。なお、情報処理装置１０は、これらの各処理部以外にも、例えば任意の通信網を介して任意の装置との間で行なわれる通信を制御する通信制御部（図示せず。）等を有していても良い。

ここで、動画データ取得部１０１、動画解析部１０３、音声抽出部１０５、フレーム画像データ生成部１０９、コミック表示データ生成部１１１、コミック表示実行部１１３、表示制御部１１５および記憶部１１７は、第１の実施形態に係る各処理部と同様の構成を有し、ほぼ同様の効果を奏するため、以下では、詳細な説明は省略する。

静止画データ取得部１００１は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ、通信装置等から構成されている。静止画データ取得部１００１は、情報処理装置１０に対してなされたユーザ操作に応じて、ユーザが指定した静止画に対応する静止画データを、記憶部１１７や、情報処理装置１０に挿入された各種の記録媒体等から取得する。ここで、静止画データには、当該静止画データが生成された時刻に関する時刻情報が関連付けられているものとする。また、静止画データ取得部１００１は、情報処理装置１０に接続された他の装置から静止画データを取得したり、インターネット等の通信網を介して接続された各種のサーバから静止画データを取得したりすることが可能である。静止画データ取得部１００１は、取得した静止画データを、静止画解析部１００３と、フレーム画像データ生成部１０９とにそれぞれ伝送する。

静止画解析部１００３は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等から構成されている。静止画解析部１００３は、伝送された静止画データを解析して、静止画を特徴付ける特徴量を抽出する。また、静止画解析部１００３は、抽出された特徴量を用いて、特徴量に関するメタデータである静止画メタデータを生成する。静止画解析部１００３は、生成した静止画メタデータを、後述するコミック表示変換部１００５に伝送する。なお、静止画解析部１００３は、静止画を解析して生成される静止画メタデータ以外にも、デジタルカメラなどの撮像装置上で取得可能なメタデータを、後述するコミック表示変換部１００５で用いられる静止画メタデータとして利用することも可能である。ここで、撮像装置上で取得可能なメタデータとして、例えば、お気に入りボタン、ズームイン、ズームアウトボタン等の操作履歴等を挙げることができる。

なお、この静止画解析部１００３については、以下で改めて詳細に説明する。

コミック表示変換部１００５は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等から構成されている。コミック表示変換部１００５は、動画メタデータおよび静止画メタデータに基づいて動画データおよび静止画データの中から複数の画像を抽出する。また、コミック表示変換部１００５は、所定の表示領域をコマ割りして抽出した複数の画像をマンガ的に配置変換し、それぞれのコマに配置された画像に関する情報を含むコマ情報を生成する。コミック表示変換部１００５は、生成したコマ情報を、フレーム画像データ生成部１０９およびコミック表示データ生成部１１１に伝送する。

なお、このコミック表示変換部１００５については、以下で改めて詳細に説明する。

［静止画解析部１００３の構成について］
続いて、図３４を参照しながら、本実施形態に係る静止画解析部１００３の構成について、詳細に説明する。

本実施形態に係る静止画解析部１００３は、例えば図３４に示したように、顔検出部１０１１、人物検出部１０１３、被写体検出部１０１５、物体検出部１０１７、タイムスタンプ判定部１０１９および静止画メタデータ生成部１０２１を主に備える。

ここで、顔検出部１０１１、人物検出部１０１３、被写体検出部１０１５および物体検出部１０１７は、本発明の第１の実施形態および第１の実施形態の第１変形例に係る各処理部と同様の構成を有し、同様の効果を奏するため、以下では、詳細な説明は省略する。

タイムスタンプ判定部１０１９は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等から構成されている。タイムスタンプ判定部１０１９は、静止画データ取得部１００１から伝送された静止画データに関連付けられている時刻情報を参照して、静止画データがいつ生成されたものであるかを判定する。タイムスタンプ判定部１０１９は、静止画データのタイムスタンプを、後述する静止画メタデータ生成部１０２１に伝送する。

かかるタイムスタンプを静止画メタデータの一つとして静止画メタデータ生成部１０２１に伝送することで、情報処理装置１０の他の処理部は、該当する静止画がいつ生成されたものかを特定することが可能となる。かかるタイムスタンプが特定されることで、コミック表示変換部１００５のコマ画像配置部１５９は、抽出された静止画を、動画から選択された複数の画像のどの位置に挿入すればよいかを容易に判断することが可能となる。

静止画メタデータ生成部１０２１は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等から構成されている。静止画メタデータ生成部１０２１は、顔検出部１０１１、人物検出部１０１３、被写体検出部１０１５、物体検出部１０１７およびタイムスタンプ判定部１０１９から伝送された検出結果等に基づき、静止画を特徴付ける特徴量に関する静止画メタデータを生成する。つまり、静止画メタデータには、画像データから抽出された特徴量に関するメタデータが含まれている。

静止画メタデータ生成部１０２１は、上述のようにして生成された静止画メタデータを、コミック表示変換部１００５に伝送する。

以上、本実施形態に係る静止画解析部１００３の構成について説明した。
なお、図３４では、静止画解析部１００３が、顔検出部１０１１、人物検出部１０１３、被写体検出部１０１５および物体検出部１０１７を備える場合について図示しているが、静止画解析部１００３は、上述の処理部のうちいくつかを備えていてもよい。

また、本実施形態に係る情報処理装置１０では、動画解析部１０３および静止画解析部１００３のそれぞれが同様の機能を有する処理部（各検出部）を備えている場合について説明した。しかしながら、動画解析部１０３および静止画解析部１００３により共用される各検出部が、情報処理装置１０内に設けられていてもよい。

［コミック表示変換部１００５の構成について］
次に、図３５を参照しながら、本実施形態に係るコミック表示変換部１００５の構成について、詳細に説明する。

コミック表示変換部１００５は、ダイジェストスコア算出部１５１、サムネイル枚数決定部１５３、カメラワークメタデータ利用部１５５、コマ画像配置部１５９、エフェクト画像配置部１６１、コマ情報生成部１６３および画像サイズ決定部１０３１を主に備える。

ここで、ダイジェストスコア算出部１５１、サムネイル枚数決定部１５３、カメラワークメタデータ利用部１５５、コマ画像配置部１５９、エフェクト画像配置部１６１およびコマ情報生成部１６３は、本発明の第１の実施形態および第１の実施形態の第１変形例に係る各処理部と同様の構成を有し、ほぼ同様の効果を奏するため、以下では、詳細な説明は省略する。

画像サイズ決定部１０３１は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等から構成されている。画像サイズ決定部１０３１は、第１の実施形態に係る画像サイズ決定部１５７と同様にして、所定の表示領域に配置される動画のサムネイル画像の大きさを、ダイジェストスコアに基づいて決定する。

画像サイズ決定部１０３１は、選択されたサムネイル画像に対して、画像中に顔が存在することを表す動画メタデータが存在している場合には、顔が表示されている領域である顔領域を拡大表示するように、画像サイズを設定する。また、画像中に複数の顔領域が存在する場合には、画像サイズ決定部１０３１は、全ての顔領域を含むように画像データのサイズを拡大処理する。

また、画像サイズ決定部１０３１は、所定の表示領域に配置される静止画のサムネイル画像の大きさを、静止画解析部１００３から伝送された静止画メタデータに基づいて決定する。また、画像サイズ決定部１０３１は、情報処理装置１０に入力された複数の静止画に関して、コミック表示に使用する静止画を、静止画メタデータおよび静止画サイズに基づいて選択することも可能である。例えば、画像サイズ決定部１０３１は、顔・人物・被写体等が検出されたことを表すメタデータを有する静止画を、優先的に選択してもよい。また、画像サイズ決定部１０３１は、以下で説明する画像サイズの決定方法により決定した静止画の画像サイズに基づき、画像サイズの大きなものを優先的に選択してもよい。なお、静止画メタデータに基づく静止画の画像サイズの決定方法については、以下で改めて詳細に説明する。

画像サイズ決定部１０３１は、このようにして設定された動画および静止画のサムネイル画像のサイズ（ひいては、アニメーションフレーム画像のサイズ）に関する情報をコマ画像情報とし、コマ画像配置部１５９およびコマ情報生成部１６３に伝送する。

＜情報処理方法について＞
続いて、図３６および図３７を参照しながら、本実施形態に係る情報処理方法について、詳細に説明する。図３６は、本実施形態に係る情報処理方法の全体的な流れを説明するための流れ図である。図３７は、静止画の画像サイズの決定方法を説明するための流れ図である。

［情報処理方法の全体的な流れについて］
まず、図３６を参照しながら、本実施形態に係る情報処理方法の全体的な流れについて、詳細に説明する。

本実施形態に係る情報処理装置１０の動画データ取得部１０１は、まず、ユーザ操作に応じて、ユーザにより指定された動画に対応する動画データを取得する（ステップＳ１００１）。動画データ取得部１０１は、動画データを、自装置内の記憶部１１７等から取得してもよいし、自装置に装着された各種の記録媒体から取得してもよい。また、動画データ取得部１０１は、動画データを、無線または有線で接続された他の装置から取得してもよいし、インターネット等の通信網を介して接続された他の装置から取得してもよい。動画データ取得部１０１は、取得した動画データを、動画解析部１０３および音声抽出部１０５に伝送する。

また、本実施形態に係る情報処理装置１０の静止画データ取得部１００１は、ユーザ操作に応じて、ユーザにより指定された静止画に対応する静止画データを取得する（ステップＳ１００１）。静止画データ取得部１００１は、静止画データを、自装置内の記憶部１１７等から取得してもよいし、自装置に装着された各種の記録媒体から取得してもよい。また、静止画データ取得部１００１は、静止画データを、無線または有線で接続された他の装置から取得してもよいし、インターネット等の通信網を介して接続された他の装置から取得してもよい。静止画データ取得部１００１は、取得した静止画データを、静止画解析部１００３およびフレーム画像データ生成部１０９に伝送する。

動画解析部１０３は、動画データ取得部１０１から伝送された動画データを解析して、伝送された動画データに対応する動画を特徴付ける特徴量に関するメタデータである動画メタデータを生成する（ステップＳ１００３）。動画解析部１０３は、生成した動画メタデータを、コミック表示変換部１００５に伝送する。

また、音声抽出部１０５は、動画データ取得部１０１から伝送された動画データの中から、音声データを抽出し（ステップＳ１００５）、取得した音声データをコミック表示データ生成部１１１に伝送する。

他方、静止画解析部１００３は、静止画データ取得部１００１から伝送された静止画データを解析して、伝送された静止画データに対応する静止画を特徴付ける特徴量に関するメタデータである静止画メタデータを生成する（ステップＳ１００７）。静止画解析部１００３は、生成した静止画メタデータを、コミック表示変換部１００５に伝送する。

次に、コミック表示変換部１００５のダイジェストスコア算出部１５１は、伝送された動画メタデータに基づいて、動画を構成する全ての画像（フレーム画像）に対して、ダイジェストスコアを算出する。ダイジェストスコア算出部１５１は、算出したダイジェストスコアを、サムネイル枚数決定部１５３に伝送する。

続いて、サムネイル枚数決定部１５３は、伝送されたダイジェストスコアと動画メタデータとを用いて、サムネイル画像として利用される代表フレーム画像を選択する（ステップＳ１００９）。また、サムネイル枚数決定部１５３は、代表フレーム画像の選択が終了すると、サムネイルアニメーションに用いられるアニメーションフレーム画像を選択する。サムネイル枚数決定部１５３は、選択した代表フレーム画像を特定する情報や、代表フレーム画像の枚数に関する情報や、代表フレーム画像に関連するアニメーションフレーム画像に関する情報等を含む枚数情報を生成する。サムネイル枚数決定部１５３は、生成した枚数情報を、画像サイズ決定部１０３１とコマ情報生成部１６３とに伝送する。

次に、画像サイズ決定部１０３１は、伝送された枚数情報、動画メタデータ、ダイジェストスコア等に基づいて、選択された代表フレーム画像をコミック表示する際の画像サイズを決定する（ステップＳ１０１１）。また、画像サイズ決定部１０３１は、静止画解析部１００３から伝送された静止画メタデータ等に基づいて、静止画の画像サイズを決定する（ステップＳ１０１３）。画像サイズ決定部１０３１は、代表フレーム画像の画像サイズに関する情報を含むコマ画像情報を生成し、コマ画像配置部１５９と、コマ情報生成部１６３とに伝送する。

なお、画像サイズ決定部１０３１は、情報処理装置１０に入力された複数の静止画に関して、コミック表示に使用する静止画を、静止画メタデータおよび静止画サイズに基づいて選択することも可能である。例えば、画像サイズ決定部１０３１は、顔・人物・被写体等が検出されたことを表すメタデータを有する静止画を優先的に選択してもよい。また、画像サイズ決定部１０３１は、以下で説明する画像サイズの決定方法により決定した静止画の画像サイズに基づき、画像サイズの大きなものを優先的に選択してもよい。

続いて、コマ画像配置部１５９は、伝送されたコマ画像情報、動画メタデータおよび静止画メタデータ等を用いて、代表フレーム画像を表示領域に自動的に配置していき、代表フレーム画像の配置を決定する（ステップＳ１０１５）。コマ画像配置部１５９は、代表フレーム画像の配置を決定すると、どの代表フレーム画像をどの位置に配置したのかといった情報を含むコマ配置情報を生成し、エフェクト画像配置部１６１と、コマ情報生成部１６３とに伝送する。

次に、エフェクト画像配置部１６１は、伝送されたコマ配置情報、動画メタデータおよび静止画メタデータ等に基づいて、吹き出し等のエフェクト画像を配置する（ステップＳ１０１７）。この際、エフェクト画像配置部１６１は、本発明の第１の実施形態および第１の実施形態の第１変形例で説明したようなエフェクト画像の配置方法に基づいて、エフェクト画像を配置していく。エフェクト画像配置部１６１は、エフェクト画像の配置が終了すると、どのエフェクトをどこに配置したのかといった情報を含むエフェクト配置情報を生成し、コマ情報生成部１６３に伝送する。

続いて、コマ情報生成部１６３は、各処理部から伝送された枚数情報、コマ画像情報、コマ配置情報、エフェクト配置情報等に基づいて、コマ情報を生成する（ステップＳ１０１９）。コマ情報生成部１６３は、生成したコマ情報を、フレーム画像データ生成部１０９と、コミック表示データ生成部１１１とに伝送する。

次に、フレーム画像データ生成部１０９は、画像データとコマ情報とに基づいて、コミック表示に利用されるフレーム画像の大きさや形状を調整する処理を行い、コミック表示に利用されるフレーム画像データを生成する（ステップＳ１０２１）。フレーム画像データ生成部１０９は、生成したフレーム画像データを、コミック表示データ生成部１１１に伝送する。

コミック表示データ生成部１１１は、音声抽出部１０５から伝送された音声データと、コミック表示変換部１００５から伝送されたコマ情報とに基づいて、コミック表示に用いられる音声データを生成する。また、コミック表示データ生成部１１１は、コマ情報と、音声データと、フレーム画像データと、エフェクトデータとを用いて、コミック表示を実現するために必要なデータのセットであるコミック表示データを生成する（ステップＳ１０２３）。

なお、静止画から生成されたコマ画像は、コミック生成後の閲覧時には、静止画１枚を動かすことでアニメーションを行うことが可能である。また、静止画から生成されたコマ画像では、静止画クラスタリングにより複数枚の静止画からアニメーションに用いる画像を選択して、選択した画像を用いてアニメーションを行うことも可能である。

［静止画の画像サイズの決定方法について］
続いて、図３７を参照しながら、画像サイズ決定部１０３１で実施される静止画の画像サイズの決定方法について、詳細に説明する。

静止画の画像サイズを決定する際、画像サイズ決定部１０３１は、まず、静止画の画像サイズを表すパラメータを初期値に設定する（ステップＳ１１０１）。

続いて、画像サイズ決定部１０３１は、静止画解析部１００３から伝送された静止画メタデータを参照し、処理中の静止画の中に顔領域が２以上検出されたか否かを判断する（ステップＳ１１０３）。顔領域が２以上検出されなかった場合には、画像サイズ決定部１０３１は、後述するステップＳ１１１１を実行する。また、顔領域が２以上検出された場合には、画像サイズ決定部１０３１は、画像サイズを表すパラメータを増加させる（ステップＳ１１０５）。次に、画像サイズ決定部１０３１は、検出された顔領域の大きさが８０ピクセル以上であるか否かを判断する（ステップＳ１１０７）。顔領域の大きさが８０ピクセル以上であった場合には、画像サイズ決定部１０３１は、画像サイズを表すパラメータを増加させる（ステップＳ１１０９）。また、顔領域の大きさが８０ピクセル以上ではなかった場合には、画像サイズ決定部１０３１は、後述するステップＳ１１１１を実行する。

次に、画像サイズ決定部１０３１は、静止画メタデータを参照して、処理中の静止画の焦点ぼけ指数が５０以上であるか否かを判断する（ステップＳ１１１１）。焦点ぼけ指数が５０以上である場合には、画像がぼけている可能性があるため、画像サイズ決定部１０３１は、画像サイズを表すパラメータを減少させ（ステップＳ１１１３）、その後、後述するステップＳ１１１５を実行する。また、焦点ぼけ指数が５０以上ではなかった場合には、画像サイズ決定部１０３１は、後述するステップＳ１１１７を実行する。

続いて、画像サイズ決定部１０３１は、（被写体として検出された領域の面積／画像中心からの距離）で定義される被写体領域スコアを算出し（ステップＳ１１１５）、算出した被写体領域スコアが０．７５以上か否かを判断する（ステップＳ１１１７）。被写体領域スコアが０．７５以上である場合には、画像サイズ決定部１０３１は、画像のサイズを表すパラメータを増加させ（ステップＳ１１１９）、後述するステップＳ１１２１を実行する。被写体領域スコアが０．７５以上ではなかった場合には、画像サイズ決定部１０３１は、後述するステップＳ１１２１を実行する。

次に、画像サイズ決定部１０３１は、画像サイズを表すパラメータの最終的な値を参照し、パラメータの値に基づいて画像サイズを決定する（ステップＳ１１２１）。

画像サイズ決定部１０３１は、かかる手順で静止画メタデータに基づく処理を行うことにより、コミック表示に用いられる画像サイズを決定することができる。

なお、上述の説明中で示した各閾値はあくまでも一例であって、画像サイズ決定部１０３１が処理する静止画の撮影条件やサイズ等の様々な要因に応じて、任意の値に設定することが可能である。

（第３の実施形態）
次に、図３８を参照しながら、本発明の第３の実施形態に係る情報処理装置について、詳細に説明する。本実施形態に係る情報処理装置は、静止画の解析結果を利用して、一連の静止画の内容を把握するために有効な画像を自動的に抽出し、抽出した画像を内容把握が容易なように表示する。

＜情報処理装置の構成について＞
図３８は、本実施形態に係る情報処理装置の構成を説明するためのブロック図である。
本実施形態に係る情報処理装置１０は、例えば図３８に示したように、フレーム画像データ生成部１０９、コミック表示データ生成部１１１、コミック表示実行部１１３、表示制御部１１５および記憶部１１７を備える。また、本実施形態に係る情報処理装置１０は、静止画データ取得部１００１、静止画解析部１００３およびコミック表示変換部１１０１を更に備える。

フレーム画像データ生成部１０９、コミック表示データ生成部１１１、コミック表示実行部１１３、表示制御部１１５および記憶部１１７は、第１の実施形態および第１変形例ならびに第２の実施形態に係る各処理部と同様の構成を有し、同様の効果を奏する。そのため、以下では、詳細な説明は省略する。

また、静止画データ取得部１００１および静止画解析部１００３は、第２の実施形態に係る静止画データ取得部１００１および静止画解析部１００３と同様の構成を有し、同様の効果を奏するため、以下では、詳細な説明は省略する。

コミック表示変換部１１０１は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等から構成されている。コミック表示変換部１１０１は、静止画解析部１００３から伝送された静止画メタデータに基づいて、所定の表示領域をコマ割りし、複数の静止画像をマンガ的に配置変換し、それぞれのコマに配置された画像に関する情報を含むコマ情報を生成する。コミック表示変換部１１０１は、生成したコマ情報を、フレーム画像データ生成部１０９およびコミック表示データ生成部１１１に伝送する。

かかるコミック表示変換部１１０１の詳細な構成は、本発明の第２の実施形態に係るコミック表示変換部１００５の詳細な構成と類似しているため、以下では、詳細な説明は省略する。

本実施形態に係る情報処理装置１０の静止画データ取得部１００１は、ユーザ操作に応じて、ユーザにより指定された静止画に対応する静止画データを取得し、静止画解析部１００３に伝送する。静止画解析部１００３は、静止画データ取得部１００１から伝送された静止画データを解析して、伝送された静止画データに対応する静止画を特徴付ける特徴量に関するメタデータである静止画メタデータを生成する。静止画解析部１００３は、生成した静止画メタデータを、コミック表示変換部１１０１に伝送する。

コミック表示変換部１１０１の画像サイズ決定部１０３１は、静止画解析部１００３から伝送された静止画メタデータ等に基づいて、静止画の画像サイズを決定する。画像サイズ決定部１０３１は、代表フレーム画像の画像サイズに関する情報を含むコマ画像情報を生成し、コミック表示変換部１１０１のコマ画像配置部１５９およびコマ情報生成部１６３に伝送する。

コミック表示変換部１１０１のコマ画像配置部１５９は、伝送されたコマ画像情報および静止画メタデータ等を用いて、代表フレーム画像を表示領域に自動的に配置していき、代表フレーム画像の配置を決定する。コマ画像配置部１５９は、代表フレーム画像の配置を決定すると、どの代表フレーム画像をどの位置に配置したのかといった情報を含むコマ配置情報を生成し、コミック表示変換部１１０１のエフェクト画像配置部１６１およびコマ情報生成部１６３に伝送する。

次に、コミック表示変換部１１０１のエフェクト画像配置部１６１は、伝送されたコマ配置情報および静止画メタデータ等に基づいて、吹き出し等のエフェクト画像を配置する。この際、エフェクト画像配置部１６１は、本発明の第１の実施形態および第１の実施形態の第１変形例で説明したようなエフェクト画像の配置方法に基づいて、エフェクト画像を配置していく。エフェクト画像配置部１６１は、エフェクト画像の配置が終了すると、どのエフェクトをどこに配置したのかといった情報を含むエフェクト配置情報を生成し、コマ情報生成部１６３に伝送する。

続いて、コミック表示変換部１１０１のコマ情報生成部１６３は、各処理部から伝送されたコマ画像情報、コマ配置情報、エフェクト配置情報等に基づいて、コマ情報を生成する。コマ情報生成部１６３は、生成したコマ情報を、フレーム画像データ生成部１０９と、コミック表示データ生成部１１１とに伝送する。

次に、フレーム画像データ生成部１０９は、画像データとコマ情報とに基づいて、コミック表示に利用されるフレーム画像の大きさや形状を調整する処理を行い、コミック表示に利用されるフレーム画像データを生成する。フレーム画像データ生成部１０９は、生成したフレーム画像データを、コミック表示データ生成部１１１に伝送する。

コミック表示データ生成部１１１は、コマ情報と、フレーム画像データと、エフェクトデータとを用いて、コミック表示を実現するために必要なデータのセットであるコミック表示データを生成する。

（ハードウェア構成について）
次に、図３９を参照しながら、本発明の各実施形態に係る情報処理装置１０のハードウェア構成について、詳細に説明する。図３９は、本発明の各実施形態に係る情報処理装置１０のハードウェア構成を説明するためのブロック図である。

情報処理装置１０は、主に、ＣＰＵ９０１と、ＲＯＭ９０３と、ＲＡＭ９０５と、を備える。また、情報処理装置１０は、更に、ホストバス９０７と、ブリッジ９０９と、外部バス９１１と、インターフェース９１３と、入力装置９１５と、出力装置９１７と、ストレージ装置９１９と、ドライブ９２１と、接続ポート９２３と、通信装置９２５とを備える。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、ＲＯＭ９０３、ＲＡＭ９０５、ストレージ装置９１９、またはリムーバブル記録媒体９２７に記録された各種プログラムに従って、情報処理装置１０内の動作全般またはその一部を制御する。ＲＯＭ９０３は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０５は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一次記憶する。これらはＣＰＵバス等の内部バスにより構成されるホストバス９０７により相互に接続されている。

ホストバス９０７は、ブリッジ９０９を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９１１に接続されている。

入力装置９１５は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなどユーザが操作する操作手段である。また、入力装置９１５は、例えば、赤外線やその他の電波を利用したリモートコントロール手段（いわゆる、リモコン）であってもよいし、情報処理装置１０の操作に対応した携帯電話やＰＤＡ等の外部接続機器９２９であってもよい。さらに、入力装置９１５は、例えば、上記の操作手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路などから構成されている。情報処理装置１０のユーザは、この入力装置９１５を操作することにより、情報処理装置１０に対して各種のデータを入力したり処理動作を指示したりすることができる。

出力装置９１７は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。このような装置として、ＣＲＴディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ＥＬディスプレイ装置およびランプなどの表示装置や、スピーカおよびヘッドホンなどの音声出力装置や、プリンタ装置、携帯電話、ファクシミリなどがある。出力装置９１７は、例えば、情報処理装置１０が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置１０が行った各種処理により得られた結果を、テキストまたはイメージで表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して出力する。

ストレージ装置９１９は、情報処理装置１０の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置９１９は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイス等により構成される。このストレージ装置９１９は、ＣＰＵ９０１が実行するプログラムや各種データ、および外部から取得した音響信号データや画像信号データなどを格納する。

ドライブ９２１は、記録媒体用リーダライタであり、情報処理装置１０に内蔵、あるいは外付けされる。ドライブ９２１は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体９２７に記録されている情報を読み出して、ＲＡＭ９０５に出力する。また、ドライブ９２１は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体９２７に記録を書き込むことも可能である。リムーバブル記録媒体９２７は、例えば、ＤＶＤメディア、ＨＤ−ＤＶＤメディア、Ｂｌｕ−ｒａｙメディア等である。また、リムーバブル記録媒体９２７は、コンパクトフラッシュ（登録商標）（ＣｏｍｐａｃｔＦｌａｓｈ：ＣＦ）、メモリースティック、または、ＳＤメモリカード（ＳｅｃｕｒｅＤｉｇｉｔａｌｍｅｍｏｒｙｃａｒｄ）等であってもよい。また、リムーバブル記録媒体９２７は、例えば、非接触型ＩＣチップを搭載したＩＣカード（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｃａｒｄ）または電子機器等であってもよい。

接続ポート９２３は、機器を情報処理装置１０に直接接続するためのポートである。接続ポート９２３の一例として、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポート、ｉ．Ｌｉｎｋ等のＩＥＥＥ１３９４ポート、ＳＣＳＩ（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）ポート等がある。接続ポート９２３の別の例として、ＲＳ−２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（Ｈｉｇｈ−ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）ポート等がある。この接続ポート９２３に外部接続機器９２９を接続することで、情報処理装置１０は、外部接続機器９２９から直接音響信号データや画像信号データを取得したり、外部接続機器９２９に音響信号データや画像信号データを提供したりする。

通信装置９２５は、例えば、通信網９３１に接続するための通信デバイス等で構成された通信インターフェースである。通信装置９２５は、例えば、有線または無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、Ｂｌｕｅｔｏｏｔｈ、またはＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カード等である。また、通信装置９２５は、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ、または、各種通信用のモデム等であってもよい。この通信装置９２５は、例えば、インターネットや他の通信機器との間で、例えばＴＣＰ／ＩＰ等の所定のプロトコルに則して信号等を送受信することができる。また、通信装置９２５に接続される通信網９３１は、有線または無線によって接続されたネットワーク等により構成され、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信または衛星通信等であってもよい。

以上、本発明の各実施形態に係る情報処理装置１０の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。

＜まとめ＞
以上説明したように、本手法を用いることで、様々なイベント(例えば、飲み会、旅行など)のプライベートビデオを、漫画のように表示することが可能である。長さ数分程度のプライベートビデオも、コマの大きさにもよるが数ページ程度で表現することができるため、より手短に閲覧することが可能である。また、Ｆｌａｓｈなどのコンテンツとしてコミック表示データを生成することで、Ｗｅｂブラウザ上などでページをめくりつつ、指定したコマの音声を再生しながら閲覧するようなことも可能である。

また、本手法では、動画解析部により動画データを解析することで、動画メタデータを抽出しているが、動画がＴＶコンテンツである場合、字幕データやＥＰＧデータなどの情報を利用することも可能である。これにより、例えば吹き出し中に、人物の台詞などを表示させることも可能となる。

このように、本手法によれば、動画の内容を一見して理解できるように、動画の内容を要約することができる。これにより、動画を全て再生する時間を節約でき、重要なシーンを見逃さず、おおまかに全体を閲覧することができる。また、盛り上がりシーンをコマの大きさに反映させることで、効果的に表現することができる。また、動画の一覧性が向上しているため、大量の動画から、特定の動画を検索することが容易となる。

また、本手法によれば、コマ割りや吹き出しなど、動画を見たくなるような多様なコミック表現が可能となる。これにより、盛り上がりシーンの抽出が、そのまま動的なコマ割りとなり、コミックの面白さとして役立つこととなる。また、顔抽出機能により、顔がうまく映ったコマを吹き出しで隠さずにコミックに採用することができる。また、音声データの分類機能により、音声の台詞に応じたふきだしを生成可能である。また、多様な吹き出しによって、動画のシーンをより容易に理解することが可能となる。また、動画を撮影したものの、撮ったまま面倒になって見なくなってしまうといった現象を防止することができ、動画への興味を喚起することができる。また、動画をコミック画像にして表現することで、プライベートビデオの間延び感を和らげることもできる。

また、本手法におけるコミック表示データは、Ｆｌａｓｈ、ＪａｖａＳｃｒｉｐｔ、Ｊａｖａ／ＢＲＥＷなど、多様なＳｃｒｉｐｔや言語で記述可能である。例えばＦｌａｓｈ等を用いた場合、ページをめくったり音声を再生したりと、インタラクティブなコンテンツを作成可能である。また、一般のＷｅｂブラウザでの閲覧が可能となるため、専用アプリケーションのインストール等の繁雑さを除去することができる。また、動画内容を一覧表示できるため、動画共有サイト等の表現・利便性を向上させることができる。これにより、コミック表示データをネットワーク上にアップロードし、他者との動画の共有を促進することができる。また、本手法は、一覧性が高く表現も面白いため、ホームページやブログへの貼り付けなどとの親和性を向上させることができる。

また、顔領域の検出結果に限らず、人物検出、被写体検出および物体検出といった様々な認識および検出技術を利用することで、コンテンツの内容理解に役立つ様々な画像を抽出することが可能となり、より容易にコンテンツの内容把握を行うことが可能となる。

また、検出された領域の検出精度や検出された領域の位置等に応じて、エフェクト画像の配置位置等を変更することで、画像中の重要な対象を強調して表示することが可能となり、重要なオブジェクトをエフェクト画像が隠してしまうことを防止可能である。

また、動画コンテンツだけでなく静止画コンテンツといった、ユーザの多様なメディアコンテンツを一まとめにしてコミック表示へと変換することができるため、ユーザは、手軽に複数のメディアのダイジェストを楽しく閲覧することができる。

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

１０情報処理装置
１０１動画データ取得部
１０３動画解析部
１０５音声抽出部
１０７，１００５，１１０１コミック表示変換部
１０９フレーム画像データ生成部
１１１コミック表示データ生成部
１１３コミック表示実行部
１１５表示制御部
１１７記憶部
１３１動画データ分割部
１３３，１０１１顔検出部
１３５シーン遷移検出部
１３７カメラワーク検出部
１３９音声解析部
１４１動画メタデータ生成部
１５１ダイジェストスコア算出部
１５３サムネイル枚数決定部
１５５カメラワークメタデータ利用部
１５７，１０３１画像サイズ決定部
１５９コマ画像配置部
１６１エフェクト画像配置部
１６３コマ情報生成部
１００１静止画データ取得部
１００３静止画解析部
１７１，１０１３人物検出部
１７３，１０１５被写体検出部
１７５，１０１７物体検出部
１０１９タイムスタンプ判定部
１０２１静止画メタデータ生成部

Claims

時刻情報が関連づけられた複数の画像および音声からなる動画のデータである動画データを解析し、当該動画を特徴付ける複数の特徴量に関するメタデータである動画メタデータを生成する動画解析部と、
前記動画メタデータに基づいて前記動画データの中から複数の静止画像を抽出するとともに、所定の表示領域をコマ割りして抽出した複数の静止画像を漫画的に配置変換し、それぞれのコマに配置された静止画像に関する情報を含むコマ情報を生成するコミック表示変換部と、
前記コマ情報と、前記抽出されたそれぞれの静止画像のデータと、前記動画の音声のデータとを少なくとも含むコミック表示データを生成するコミック表示データ生成部と、
を備える、情報処理装置。
前記コミック表示変換部は、生成された前記動画メタデータに基づいて、前記それぞれのコマに配置される前記複数の静止画像の大きさを決定する、請求項１に記載の情報処理装置。
前記コミック表示変換部は、
前記動画メタデータに基づき、前記動画データを構成する複数の画像それぞれに対して前記複数の特徴量を重み付け加算した値であるダイジェストスコアを算出するダイジェストスコア算出部と、
前記ダイジェストスコアに基づいて前記動画データを構成する複数の画像の中から前記コマに配置するサムネイル画像を抽出し、当該サムネイル画像の枚数を決定するサムネイル枚数決定部と、
前記所定の表示領域に配置されるサムネイル画像の大きさを、前記ダイジェストスコアに基づいて決定する画像サイズ決定部と、
画像サイズが決定された前記サムネイル画像を所定の順序で前記コマに配置するコマ画像配置部と、
サムネイル画像が配置されたコマに関する前記コマ情報を生成するコマ情報生成部と、
を更に備える、請求項２に記載の情報処理装置。
前記サムネイル枚数決定部は、抽出された前記サムネイル画像に連続する所定の時間分の複数の画像をアニメーション用の画像として更に抽出する、請求項３に記載の情報処理装置。
前記動画メタデータは、前記動画を撮像する際のカメラワークに関する動画メタデータを含み、
前記コミック表示変換部は、前記カメラワークに関する動画メタデータに基づいて、前記サムネイル枚数決定部により前記アニメーション用の画像として抽出される画像の枚数を決定するカメラワークメタデータ利用部を更に備える、請求項４に記載の情報処理装置。
前記カメラワークメタデータ利用部は、抽出された前記サムネイル画像から前記カメラワークの積分値が所定の閾値となった時点に対応する画像までの間に存在する複数の画像の中から、前記アニメーション用の画像を選択する、請求項５に記載の情報処理装置。
前記カメラワークメタデータ利用部は、前記カメラワークの積分値の大きさに応じて、前記サムネイル画像および前記アニメーション用の画像からなるアニメーションの再生速度を設定する、請求項６に記載の情報処理装置。
前記情報処理装置は、静止画に対応するデータである静止画データを解析し、当該静止画を特徴付ける複数の特徴量に関するメタデータである静止画メタデータを生成する静止画解析部を更に備え、
前記画像サイズ決定部は、前記静止画メタデータに基づいて、前記所定の表示領域に配置される前記静止画の大きさを決定する、請求項３に記載の情報処理装置。
前記コマ画像配置部は、前記静止画データに関連付けられた当該静止画データの生成された時刻情報に基づいて、前記静止画の配置順序を決定する、請求項８に記載の情報処理装置。
前記コミック表示変換部は、前記サムネイル画像が配置されたコマに対して、前記動画メタデータに基づいて吹き出しおよび画面効果の少なくとも何れかを配置するエフェクト画像配置部を更に備える、請求項５に記載の情報処理装置。
前記エフェクト画像配置部は、前記動画データに含まれる音声データに関する前記動画メタデータを利用して、前記吹き出しおよび前記画面効果の少なくとも何れかを配置する、請求項１０に記載の情報処理装置。
前記エフェクト画像配置部は、前記カメラワークに関する動画メタデータを利用して、前記サムネイル画像に対して前記画面効果を配置する、請求項１１に記載の情報処理装置。
前記画像サイズ決定部は、画像中に顔が存在することを表す前記動画メタデータが存在する画像について、顔が表示されている領域である顔領域を拡大して前記サムネイル画像とする、請求項３に記載の情報処理装置。
前記動画メタデータは、画像中に人物が存在することを表す動画メタデータ、画像中に存在する被写体に関する動画メタデータおよび画像中に存在する予め登録された物体に関する動画メタデータの少なくともいずれかを更に含み、
前記エフェクト画像配置部は、前記画像中に人物が存在することを表す動画メタデータ、前記画像中に存在する被写体に関する動画メタデータまたは前記画像中に存在する予め登録された物体に関する動画メタデータに基づいて、前記画面効果を配置する、請求項１０に記載の情報処理装置。
前記情報処理装置は、静止画に対応するデータである静止画データを解析し、当該静止画を特徴付ける複数の特徴量に関するメタデータである静止画メタデータを生成する静止画解析部を更に備え、
前記静止画メタデータは、画像中に顔が存在することを表す静止画メタデータ、画像中に人物が存在することを表す静止画メタデータ、画像中に存在する被写体に関する静止画メタデータおよび画像中に存在する予め登録された物体に関する静止画メタデータの少なくともいずれかを含み、
前記エフェクト画像配置部は、前記画像中に顔が存在することを表す静止画メタデータ、前記画像中に人物が存在することを表す静止画メタデータ、前記画像中に存在する被写体に関する静止画メタデータまたは前記画像中に存在する予め登録された物体に関する静止画メタデータに基づいて、前記画面効果を配置する、請求項１０に記載の情報処理装置。
前記エフェクト画像配置部は、前記サムネイル画像のうち所定のオブジェクトが検出された領域の重心と前記所定の表示領域の重心との相対的な位置関係に基づいて、前記所定のオブジェクトが検出された領域以外の領域に前記画面効果を配置する、請求項１０に記載の情報処理装置。
前記画像サイズ決定部は、画像中に複数の前記顔領域が存在する場合には、全ての前記顔領域を含むように拡大処理を行い前記サムネイル画像とする、請求項１３に記載の情報処理装置。
時刻情報が関連づけられた複数の画像および音声からなる動画のデータである動画データを解析し、当該動画を特徴付ける特徴量に関するメタデータである動画メタデータを生成するステップと、
前記動画メタデータに基づいて前記動画データの中から複数の静止画像を抽出するとともに、所定の表示領域をコマ割りして抽出した複数の静止画像を漫画的に配置変換し、それぞれのコマに配置された静止画像に関する情報を含むコマ情報を生成するステップと、
前記コマ情報と、前記抽出されたそれぞれの静止画像のデータと、前記動画の音声のデータとを少なくとも含むコミック表示データを生成するステップと、
を含む、情報処理方法。
コンピュータに、
時刻情報が関連づけられた複数の画像および音声からなる動画のデータである動画データを解析し、当該動画を特徴付ける特徴量に関するメタデータである動画メタデータを生成する動画解析機能と、
前記動画メタデータに基づいて前記動画データの中から複数の静止画像を抽出するとともに、所定の表示領域をコマ割りして抽出した複数の静止画像を漫画的に配置変換し、それぞれのコマに配置された静止画像に関する情報を含むコマ情報を生成するコミック表示変換機能と、
前記コマ情報と、前記抽出されたそれぞれの静止画像のデータと、前記動画の音声のデータとを少なくとも含むコミック表示データを生成するコミック表示データ生成機能と、
を実現させるためのプログラム。