JP2010206609A

JP2010206609A - 画像再生装置、画像再生装置の制御方法、及びプログラム

Info

Publication number: JP2010206609A
Application number: JP2009050753A
Authority: JP
Inventors: Hidefumi Takeda; 英史竹田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2009-03-04
Filing date: 2009-03-04
Publication date: 2010-09-16

Abstract

【課題】動画像データのより快適な編集作業を実現することができる画像再生装置を提供する。
【解決手段】画像再生装置は、動画像データの顔認識領域情報を取得する認識情報取得部１０４と、動画像データの合焦領域の情報を取得する合焦情報取得部１０５と、認識情報取得部１０４で取得された領域情報と合焦情報取得部１０４で取得された領域情報とが一致する画像が連続して検出されたか否かを判定する判定部１０６と、該判定部１０６により一致画像が連続して検出されたと判定された場合に、該一致画像の再生位置へアクセスするための情報を含むマーク情報を生成するマーク情報生成部１０７と、生成したマーク情報を用いて動画像データの編集処理を行うマーク情報管理制御部１０９とを備える。
【選択図】図１

Description

本発明は、動画像データから視聴に適したシーンのみを再生するプレイリストを作成する画像再生装置、画像再生装置の制御方法、及びプログラムに関する。

従来、ビデオカメラ等の撮像装置で撮影して記録媒体に記録した動画像データからユーザの視聴に適したシーンを検出してプレイリストを作成する技術が開示されている。

例えば、ボタン操作、音声の有無、人物の有無、背景の歓声の大きさあるいはトーンの変化等に基づいてプレイリスト編集用マークを設定する技術が提案されている（特許文献１）。

また、撮影画面での動きベクトル、音声の変化量、撮影者の発汗量、α波、まばたき回数などの生理変化の情報に基づいてプレイリスト編集用マークを設定する技術が提案されている（特許文献２）。

更に、撮影画面でのシーンチェンジ、カメラモーション、指定領域の輝度および色、テロップ、音声からの特徴抽出を行い、該特徴情報に基づいてプレイリストを作成する技術が提案されている（特許文献３）。

更に、撮影日時、露出、シャッタースピード、撮影モード、カメラ名、レンズ名といったカメラ情報のメタデータ変化点に基づいてプレイリストを作成する技術が提案されている（特許文献４）。

特開２００７−８２０８８号公報特開２００６−１５７８９３号公報特開２００３−２９８９８１号公報特開２００３−２５７１５８号公報

上記特許文献１〜４では、いずれも視聴に適したシーンのみを再生するプレイリストを自動作成する技術であるが、動画像データの編集作業の快適性については十分ではなく、改善する余地がある。

そこで、本発明は、動画像データのより快適な編集作業を実現することができる画像再生装置、画像再生装置の制御方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明の画像再生装置は、動画像データを再生して表示部に表示する画像再生装置であって、前記動画像データの特徴部位を認識するための領域情報を取得する認識情報取得手段と、前記動画像データの合焦領域の情報を取得する合焦情報取得手段と、前記認識情報取得手段より取得された領域情報と前記合焦情報取得手段より取得された領域情報とが一致する画像を検出する検出手段と、該検出手段により連続して一致画像が検出された場合に、該一致画像の再生位置へアクセスするための情報を含むマーク情報を生成するマーク情報生成手段と、該マーク情報生成手段により生成したマーク情報を用いて前記動画像データの編集処理を行う編集手段と、を備えることを特徴とする。

本発明の画像再生装置の制御方法は、動画像データを再生して表示部に表示する画像再生装置の制御方法であって、前記動画像データの特徴部位を認識するための領域情報を取得する認識情報取得ステップと、前記動画像データの合焦領域の情報を取得する合焦情報取得ステップと、前記認識情報取得ステップで取得された領域情報と前記合焦情報取得ステップで取得された領域情報とが一致する画像を検出する検出ステップと、該検出ステップで連続して一致画像が検出された場合に、該一致画像の再生位置へアクセスするための情報を含むマーク情報を生成するマーク情報生成ステップと、該マーク情報生成ステップで生成したマーク情報を用いて前記動画像データの編集処理を行う編集ステップと、を備えることを特徴とする。

本発明のプログラムは、動画像データを再生して表示部に表示する画像再生装置を制御するプログラムであって、前記動画像データの特徴部位を認識するための領域情報を取得する認識情報取得ステップと、前記動画像データの合焦領域の情報を取得する合焦情報取得ステップと、前記認識情報取得ステップで取得された領域情報と前記合焦情報取得ステップで取得された領域情報とが一致する画像を検出する検出ステップと、該検出ステップで連続して一致画像が検出された場合に、該一致画像の再生位置へアクセスするための情報を含むマーク情報を生成するマーク情報生成ステップと、該マーク情報生成ステップで生成したマーク情報を用いて前記動画像データの編集処理を行う編集ステップと、をコンピュータに実行させることを特徴とする。

本発明によれば、動画像データにおいて顔認識領域と合焦領域とが一致する画像を連続して検出したとき、該検出位置近傍の再生画像がコンテンツにおける重要なシーンや特徴点であると判断してマーク情報を生成する。従って、マーク情報を用いて編集処理を行うことで、編集ポイントの検索や再生順の入れ替え、不要なシーンの削除等の編集処理を容易に行うことが可能になる。これにより、動画像データのより快適な編集作業を実現することができる。

本発明の実施形態の一例である画像再生装置を説明するための機能ブロック図である。動画像データにおける一致画像の検出処理、及び一致画像の連続検出回数の算出処理を説明するためのタイミング図である。一致画像判定対象の再生画像を示す図である。判定対象の再生画像における合焦領域と顔認識領域の位置情報としての座標値を示す図である。パン合焦撮影時などに合焦領域（実線枠）に複数の顔認識領域（破線枠）が存在する場合の再生画像の一例を示す図である。図５に対応する合焦領域と顔認識領域を座標値として示す図である。被写界深度が浅く、人物などをアップで撮影した場合に、顔の一部だけにピントが合って合焦している例を示す図である。データ再生制御部、顔認識情報取得部、合焦情報取得部、及び一致シーン画像判定部での処理例について説明するためのフローチャート図である。マーク情報生成部が一致画像の連続検出回数情報に基づいて編集用のマーク情報を生成するか否かを判定する処理について説明するための説明図である。編集マーク情報の生成が許可された場合に、マーク情報生成部により登録されるマーク情報の一例を示す図である。マーク情報の動画像データ上での対応関係を説明するための図である。サムネイル生成部により生成される各マーク位置に対応した再生画像のサムネイル画像の一例を示す図である。マーク情報位置と動画像データを一連のシーンで区切った再生アイテム情報との関係を示す図である。プレイリスト再生情報テーブルの一例を示す図である。（ａ）は編集前の表示部での編集画面例を示す図、（ｂ）は編集前のプレイリスト再生情報テーブルを示す図である。（ａ）は編集後の表示部での編集画面例を示す図、（ｂ）は編集後のプレイリスト再生情報テーブルを示す図である。マーク情報生成部により登録されるマーク情報の一例を示す図である。マーク情報の動画像データ上での対応関係を説明するための図である。

以下、本発明の実施形態の一例を図面を参照して説明する。

図１は、本発明の実施形態の一例である画像再生装置を説明するための機能ブロック図である。

図１において、記録媒体１０１は、ハードディスク等の磁気ディスクであり、記録媒体１０２は、ＤＶＤやブルーレイディスク等の光ディスクであり、いずれも動画像データが記録される。

データ再生制御部１０３は、記録媒体１０１，１０２から動画像データを読み出し、エラー訂正や圧縮画像データの復号処理を行う。

顔認識情報取得部１０４は、データ再生制御部１０３で復号した画像データから被写体の特徴部位の一例である顔部分の領域を認識するための顔認識領域情報を取得する。

本実施形態では、ビデオカメラ等の撮像装置において、撮影時に撮影フレーム画像の被写体に顔部が存在するか否かの顔検出判定を行った後、顔認識領域情報を画像データへのメタデータとして、または動画像データとは独立した管理情報ファイルとして保存する。

ただし、記録媒体１０１，１０２からの動画像データの再生処理時における、復号画像に対して上記顔検出判定を行った後、顔認識領域情報を作成する手順でも良く、前記顔認識領域情報を持っていない画像データについても本発明は適用可能である。

なお、顔検出の判定アルゴリズムは、画面内のエッジ検出、肌色などの特定の色相検出、さらには、顔形状のパターンマッチングなど公知の技術を適用するものとする。

合焦情報取得部１０５は、データ再生制御部１０３で復号した画像データからピントが合った合焦領域情報を取得する。合焦情報取得部１０５は、撮像時に合焦制御のために使用した駆動パラメータから撮像画像データのどこにピントが合っているかを検出し、画面のピントが合っている領域を表す合焦領域情報を生成する。そして、合焦情報取得部１０５は、生成した合焦位置情報をカメラ情報メタデータとして、データ再生制御部１０３での符号化処理によって圧縮処理された画像データに埋め込む。

一致シーン画像判定部１０６は、顔認識情報取得部１０４及び合焦領域取得部１０５により取得した領域情報を基に一致画像であるか否かを判定する。なお、一致画像の判定処理については後述するが、一致画像判定部１０６は、予め定めた再生区間に一致画像が連続して所定回数以上あると判定した場合には、一致画像が検出された再生位置近傍はコンテンツの編集処理に適した特徴的なシーン画像であると判断する。

マーク情報生成部１０７は、一致画像判定部１０６によりコンテンツの編集処理に適したシーンであると判定した場合に、一致画像が格納されている動画像データの再生位置と該一致画像を縮小処理したサムネイル画像とを関連付けた編集用のマーク情報を生成する。

サムネイル画像生成部１０８は、一致画像判定部１０６の判定結果に基づき、一致画像を縮小処理したサムネイル画像を生成する。ここでの縮小処理は、バイキュービック法など公知技術を用いたものでよい。

マーク情報管理制御部１０９は、マーク情報生成部１０７により生成されたマーク情報とサムネイル画像生成部１０８により生成されたサムネイル画像とを関連付けて管理する。そして、マーク情報管理制御部１０９は、動画像データの編集処理（プレイリスト生成処理、編集処理等）時には、マーク情報を参照して、記録媒体１０１，１０２へのアクセス読み出し制御を行う。

なお、上記各ブロックでの各処理は、不図示のＲＯＭやハードディスク等に記憶された制御プログラムがＲＡＭにロードされて、ＣＰＵにより実行される。

次に、図２を参照して、一致シーン画像判定部１０６における判定処理について詳細に説明する。

図２は、動画像データにおける一致画像の検出処理、及び一致画像の連続検出回数の算出処理を説明するためのタイミング図である。

図２に示すように、記録媒体１０１，１０２にファイル名「clip001.mov」で管理された動画像データファイルがあった場合、領域Ｓ１について、再生画像から顔認識領域情報と合焦領域情報を取得した結果、IMG001〜IMG005の再生画像が得られたものとする。なお、図２では、再生画像については、取得した合焦領域を実線で、顔認識領域を破線で画像に重ねて表示している。

本実施形態では、前記領域情報のメタデータに記述されている合焦情報は、撮影した画面内でピントが合っている領域、いわゆる合焦領域を座標値として有していることが望ましい。または、合焦領域と同じ領域情報を導出できるカメラ情報（例えば、焦点距離、画角や被写界深度等）を有していても良いものとする。

図２の例では、各領域情報が異なることを図示により説明しやすくするため、便宜上、検出された合焦領域を太い実線で囲まれた矩形枠として表示し、顔認識領域を破線で囲まれた矩形枠として表示している。

本実施形態では再生画像について、顔認識領域と合焦領域とが重なる面積の比率割合が、予め定めた合焦領域の閾値以上の場合に、一致画像であると判定する。

この判定方法を数式として表現すると、合焦領域の面積がSf[pixel^２]、顔認識領域と合焦領域の重ね領域の面積がSo[pixel^２]としたとき、重み付け係数となる閾値が８０％とすると、次式（１）を満足するＳｏの値を持つ再生画像を一致画像であると判定する。

So [pixel^２] ≧ Sf [pixel^２]×0.8 …（１）
図３及び図４は、顔認識領域と合焦領域の重ね領域の面積を用いた一致画像の判定方法の具体例を説明するための説明図である。

図３は、一致画像判定対象の再生画像を示す図、図４は、判定対象の再生画像における合焦領域と顔認識領域の位置情報としての座標値を示す図である。

判定対象となる再生画像は、水平方向１９２０ピクセル、垂直ライン数１０８０ラインの画像データとし、画像データの合焦領域と顔認識領域を左上の頂点を原点として、それぞれの領域の左上と右下の対角成分を画像データの読み込み時に取得するものとする。

図４において、各座標値が、As(100, 100)、Ae(500, 500)、Bs(200, 200)、Be(550, 600)となることから、合焦領域の面積Sfは、次式（２）で表される
Sf = (550 - 200) * (600 - 200) = 350 * 400 = 14*10^４ [pixel^２] …（２）
図４の斜線部で示した顔認識領域と合焦領域の重なり領域の面積Soは、次式（３）で表される。

So = (500 - 200) * (500 - 200) = 300 * 300 = 9*10⁴ [pixel^２] …（３）
ここで、一致画像判定のための重み付け係数（閾値）を８０％とすると、次式（４）となり、上式（１）を満たさない。

9*10⁴ [pixel^２] < 14*10⁴ * 0.8 = 11.2*10⁴ [pixel^２] …（４）
となり、式（１）を満たさない。

従って、図３の再生画像については、一致画像ではないと判定する。

図２の例では、上記の一致画像判定結果として、５の再生画像うち、ＩＭＧ００１、ＩＭＧ００２、ＩＭＧ００４の３つの画像が顔認識領域と合焦領域が一致した画像であると判定される。

なお、上述した一致画像判定のための閾値をどのような値に設定するかによって、高精細な代表画像に絞り込むのか、多くの候補画像を選べるようにするのかを適応的に選択できるようにしてもよい。

また、撮影するシーンによっては、図２のように被写体を撮影したシーンだけではなく、図５〜図７に示すシーンも想定される。

図５は、パン合焦撮影時などに合焦領域（実線枠）に複数の顔認識領域（破線枠）が存在する場合の再生画像の一例を示す図である。

図５の例では、合焦領域内に５つの顔認識領域が検出されており、このような再生画像においても一致画像として判定されることが望ましいが、上式（１）を用いた判定処理では一致画像と判定できなくなってしまう。

そこで、本実施形態では、合焦領域に顔認識領域がすべて内包される場合についても、一致画像であると判定する。

具体的には、顔認識領域の座標情報と合焦領域の座標情報を用い、４つの頂点で囲まれる合焦領域の座標内に顔認識領域の座標値が存在するか否かを算出することによって合焦領域に顔認識領域がすべて内包されているか否かを判断する。

図６は、図５に対応する合焦領域と顔認識領域を座標値として示す図であり、座標値は、矩形枠の左上の頂点を始点とし、右下の頂点を終点としている。

例えば、水平解像度１２８０ピクセル、垂直ライン数９６０ラインの再生画像について、左上の頂点を０点としてマッピングした場合、図６に示す値が得られたものとする。

図６より、再生画像の合焦領域は、FocusStart(10,10)〜FocusEnd(1270, 950)が対角線として結ばれる実線の矩形枠に相当する。

また、再生画像の顔認識領域は、Face1Start(20, 10)〜Face1End(300,310)、Face2Start(320, 20)〜Face2End(620, 320)、Face3Start(700, 30)〜Face3End(1100, 400)、Face4Start(200, 310)〜Face4End(350, 460)の対角線として結ばれる破線の矩形枠に相当する。更に、再生画像の顔認識領域は、Face5Start(600, 300)〜Face5End(760, 460)の対角線として結ばれる破線の矩形枠に相当する。

そして、上記５人分の顔認識領域の各座標の水平方向成分、及び垂直方向成分の値が、合焦領域の始点FocusStartと終点FocusEndの座標値内に存在するかを判定する。

すなわち、顔認識領域の始点または終点の座標値をFaceX(a, b)としたとき、顔認識領域の始点と終点とが共に次式（５）及び（６）を満たしていれば、合焦領域内に顔検出領域が含まれていると判断される。

FocusStartの水平方向成分値 ≦ a ≦ FocusEndの水平方向成分値 …（５）
FocusStartの垂直方向成分値 ≦ b ≦ FocusEndの垂直方向成分値 …（６）
上述の例では、５人分の顔検出エリアがあるので、上式（５）及び（６）を５人分の顔認識領域の座標Face1StartからFace5Endまですべて比較して合焦領域内に顔認識領域が内包されているか判断する必要がある。

上式による判定結果としては、
水平方向：10 ≦ 20/300/320/620/700/1100/200/350/600/760 ≦ 1270
垂直方向：10 ≦ 10/310/20/320/30/400/310/460/300/460 ≦ 950
となるため、一致画像として判定される。

一方、図７は、被写界深度が浅く、人物などをアップで撮影した場合に、顔の一部だけ（図７では鼻の部分だけ）にピントが合って合焦している例を示す図である。

このように顔認識領域に合焦領域が含まれる場合、上式（１）を用いた判定方法では結一致画像と判定されるがが、合焦領域の大きさや合焦位置によっては識別不可能なボケ画像を抽出してしまう可能性がある。

しかし、ソフト合焦等の撮影効果としての画像データもある。このため、実際にはユーザによる設定又はレンズ性能などを考慮した上で、上式（１）による顔認識領域と合焦領域の一致画像の判定処理の前処理として、再生画像を占める合焦領域の最小面積を予め導出し、適用可能か否かを判断することが望ましい。

次に、図８を参照して、データ再生制御部１０３、顔認識情報取得部１０４、合焦情報取得部１０５、及び一致シーン画像判定部１０６での処理例について説明する。図８での各処理は、ＲＯＭやハードディスク等に記憶された制御プログラムがＲＡＭにロードされて、ＣＰＵにより実行される。

ステップＳ１では、ＣＰＵは、対象となる動画像データの最終フレームまで抽出処理が完了したかを判断し、完了している場合には、一致画像の抽出処理を終了し、完了していない場合は、ステップＳ２に進む。

ステップＳ２では、ＣＰＵは、データ再生制御１０３を制御して、記録媒体１０１，１０２からの動画像データの読み込みを行い、圧縮画像データの復号処理を施して、ステップＳ３に進む。

ステップＳ３では、ＣＰＵは、合焦情報取得部１０５を制御して、データ再生制御部１０３で復号した画像データからピントが合った合焦領域情報を取得し、ステップＳ４に進む。

ステップＳ４では、ＣＰＵは、顔認識情報取得部１０４を制御して、データ再生制御部１０３で復号した画像データから顔認識領域情報を取得し、ステップＳ５に進む。

ステップＳ５では、ＣＰＵは、一致シーン画像判定部１０６を制御して、ステップＳ３及びステップＳ４で取得した合焦領域と顔認識領域の重ね領域の面積Ｓｏを算出し、ステップＳ６に進む。

ステップＳ６では、ＣＰＵは、一致シーン画像判定部１０６を制御して、ステップＳ５で算出した重ね領域の面積Ｓｏが（合焦領域の面積Ｓｆ×閾値）以上であるか否かを上式（１）を用いて判断する。そして、ＣＰＵは、重ね領域の面積Ｓｏが（合焦領域の面積Ｓｆ×閾値）以上である場合は、一致画像であると判定し、ステップＳ７に進み、重ね領域の面積Ｓｏが（合焦領域の面積Ｓｆ×閾値）未満である場合は、ステップＳ１に戻り、上記処理を繰り返す。

ステップＳ７では、ＣＰＵは、一致シーン画像判定部１０６を制御して、再生画像を不図示の表示部に出力し、ステップＳ１に戻って上記処理を繰り返す。

ここで、上述した一致画像の判定結果として、図２の例では、５つの再生画像中に一致画像と判定されたフレーム画像が、ＩＭＧ００１，ＩＭＧ００２，ＩＭＧ００４の３つの画像であったとする。

この場合、本実施形態では、一致画像検出信号あるいはフラグ情報を有効とし、時間方向に連続して一致画像が検出された回数、すなわち一致画像検出信号あるいはフラグ情報が有効状態であったフレーム期間を加算する。また、一致画像と判定されなかった場合、一致画像検出信号あるいはフラグ情報を無効化し、同時に一致画像の連続検出回数情報もゼロに初期化する。

次に、図９を参照して、上記一致画像の判定処理を動画像データ全体に対して、さらには複数の動画像データに対して行い、マーク情報生成部１０７が一致画像の連続検出回数情報に基づいて編集用のマーク情報を生成するか否かを判定する処理について説明する。

図９の例では、記録媒体１０１又は１０２にファイル名「clip001.mov」と「clip002.mov」の２つの動画像データファイルが記録されている。

そして、この２つの動画データファイルについて、図２で説明した一致画像の判定処理を行った結果として、一致画像の検出信号（フラグ）の有効、無効状態を図９の中段に示している。

本実施形態では、マーク情報生成部１０７は、一致画像の連続検出回数情報も合わせた検出信号の状態を一致シーン画像判定部１０６から受信して、受信情報に基づいて編集マーク情報の生成の可否を判定する。

編集マーク情報生成可否の判定処理は、予め設定した所定期間Ｔmarkを閾値とし、該閾値と前記一致画像の検出フラグが有効状態である連続検出回数とを比較し、連続検出回数が閾値以上の場合に、マーク設定実行信号あるいはフラグ情報を有効とする。

例えば、Tmarkを１０フレーム期間とした場合、連続検出回数のカウント値が１０まで加算された時点でマーク設定許可信号を有効にする。そして、マーク設定許可信号は、次のフレーム期間には無効にする。

図９の例では、再生時間方向に上述した編集マーク情報生成可否の判定処理を行った結果、２つの動画像データファイルについて、Ｍａｒｋ１〜Ｍａｒｋ４まで４つの編集マーク設定フラグ情報が有効になった場合を示している。

なお、上述した図９の例では連続して一致画像を検出した場合に、瞬時に検出信号を有効化し、未検出だった瞬間に検出信号を無効化している。このため、動画像データの内容によっては、編集マークを設定する連続検出回数のカウント値が閾値Ｔmarkを一度も満たさないか、あるいはチャタリング現象のように頻繁にマーク設定をしてしまうおそれがある。

そのため、一致画像検出フラグの有効化のための連続検出期間、または一致画像検出フラグの無効化のために連続未検出期間などに遅延時間を設けることによって、一致検出フラグの応答性を柔軟に調節できることが望ましい。

次に、図１０〜図１２を参照して、上述した編集マーク情報生成可否の判定処理で編集マーク情報の生成が許可された場合における、マーク情報生成部１０７の処理について説明する。

図１０は、編集マーク情報の生成が許可された場合に、マーク情報生成部１０７が不図示の記憶部に登録するマーク情報の一例を示す図である。

マーク情報は、前記編集マーク許可信号が検出された動画像データのファイル名、検出位置近傍の再生位置に相当する動画像データ先頭からのオフセット時間、検出位置の再生画像のサムネイル画像又はサムネイル画像へのポインタアドレスを単位として構成される。そして、マーク情報生成部１０７は、マーク情報にマークＩＤ（識別子）を付与したものを管理情報として登録する。

なお、マークＩＤは、編集マークが検出された項番でも良い。また、マーク位置（再生位置）にランダムアクセスするための情報を、オフセット時間という時間単位で管理しているが、アドレス情報であっても良いものとする。

また、オフセット再生位置又はオフセット再生時間は、検出フレーム位置ではなく、画面内符号化の画像データからフレーム参照しないで復号できるフレーム位置であり、かつ論理セクタ等、記録媒体へのアクセス単位を満たすアドレス位置に相当するのが望ましい。具体的には、ＭＰＥＧ−２規格におけるＧＯＰ境界等が例示できる。

図１１は、マーク情報の動画像データ上での対応関係を説明するための図である。

図１０のマーク情報から、２つの動画像データ「clip001.mov」と「clip002.mov」において、マークＩＤがMID001〜MID004までの４つのマーク情報が存在する。図１１において、MID001〜MID004は再生位置を示し、この再生位置で顔認識領域と合焦領域の一致画像が連続して検出された特徴的なシーンが存在することになる。再生位置は、各マーク情報より、「clip001.mov」の先頭から１０秒経過後、「clio001.mov」の先頭から５分３０秒経過後、「clip002.mov」の先頭から３分経過後、「clip002.mov」の先頭から４分経過後である。

また、図１２に示すように、各マーク位置に対応した再生画像のサムネイル画像（THUM001〜THUM004）をマーク情報生成処理と同時にサムネイル生成部１０８にて生成する。そして、マーク情報管理制御部１０９でサムネイル画像とマーク情報とを関連付けることによって、高速な画像出力が可能となる。

なお、本実施形態では、図１０に示すマーク情報にサムネイル画像データ格納先のポインタ情報を採用しているが、サムネイル画像データを不図示の記憶部に記憶して直接アクセスできるようにしてもよい。

また、サムネイル画像のデータ容量が多くなりＳＲＡＭやＤＲＡＭなどの内蔵メモリに格納しきれない場合は、サムネイル画像データのみを管理した専用のデータファイルを作成し、記録媒体に記録するようにしても良い。

以上のように、マーク情報生成部１０７で編集マーク情報を生成し、生成した編集マーク情報に基づいて記録媒体１０１又は１０２にアクセスすることによって、後述する再生機能をユーザに提供できるようになる。

次に、図１３及び図１４を参照して、マーク情報生成部１０７で生成した編集マーク情報を基に、マーク情報管理制御部１０９が、動画像データのシーン並べ替えやシーン再生順の変更を可能とするプレイリスト再生情報を生成する処理について説明する。

図１３は、マーク情報位置と動画像データを一連のシーンで区切った再生アイテム情報との関係を示す図である。図１４は、プレイリスト再生情報テーブルの一例を示す図である。

図１３においては、動画像データ「clip001.mov」にMark1〜Mark4の４つの編集マークが検出されて編集マーク情報が生成されたものとする。

ここで、動画像データ先頭から編集マークMark1までの再生区間をplayitem1、編集マークMark1からMark2までの再生区間をplay item2、編集マークMark2からMark3までの再生区間をplay item3とする。また、編集マークMark3からMark4までの再生区間をplay item4、編集マークMark4から動画像データ終端までの再生区間をplay_item5とする。このように、本実施形態では、編集マーク情報を用い、動画像データのコンテンツが５つの再生シーンによって構成されるものとして扱う。

初期設定時の状態としては、動画像データを先頭から終端に向かう順に再生し、上記のような再生シーン毎の再生制御を行うための情報を、プレイリスト再生情報テーブルとして図示したものが図１４となる。

図１４に示すプレイリスト再生情報は、該当シーンの再生順、再生シーンのアイテム名、そして該当シーンの存在する動画像データファイル名、動画像データファイルにおける該当シーンの開始時刻と終了時刻を記述したデータで構成される。

このプレイリスト再生情報を参照して、シーン再生順で、所望のシーン、クリップ、再生位置へとアクセスして再生することで、プレイリスト再生機能を実現することが可能となる。

図１４のプレイリスト再生情報の例では、再生アイテムplay item1を３０秒間再生、playitem2を２分間再生、play item3を１分３０秒間再生、play item4を１分間再生、play item5を３０秒間再生して終了するシーケンスとなる。

このように、顔認識領域と合焦領域の一致画像検出に基づく特徴的なシーン間をひとつの再生アイテムとして取り扱い、自動的にプレイリスト再生情報によって管理することによって、編集作業における編集ポイント検索等の作業が快適に行えるようになる。

次に、図１５及び図１６を参照して、マーク情報管理制御部１０９における、プレイリスト再生情報に基づく編集処理について説明する。

図１５（ａ）は編集前の表示部での編集画面例を示す図、図１５（ｂ）は編集前のプレイリスト再生情報テーブルを示す図である。図１６（ａ）は編集後の表示部での編集画面例を示す図、図１６（ｂ）は編集後のプレイリスト再生情報テーブルを示す図である。なお、図１５（ａ）及び図１６（ａ）での編集画面は、各再生アイテムの代表画像をサムネイル画像として表示している。

ここでの編集処理例では、プレイリスト再生情報の再生順の３番目と５番目を入れ替える並べ替え処理を行う。編集処理要求は、図１５（ａ）の編集画面で所望のシーンのサムネイル画像を選択することによって発生する。

この編集処理要求に基づいて、プレイリスト再生情報では、図１６（ａ）及び図１６（ｂ）に示すように、play item3の再生順が３から５に変更され、play item5の再生順が５から３に変更される。この編集処理は、選択画面で該当するサムネイル画像の描画位置を変更するだけでよい。

このように、再生順の並び替え処理は、プレイリスト再生情報の再生順を更新するという簡単な操作で実現できる。

なお、再生シーンの数が多く、また並べ替えの回数が多く発生する場合には、リスト情報すべてを昇順となるようソートしなおすなど、最適なソートアルゴリズムを適用することが望ましい。また、図示は省略するが、並び替え処理以外のシーン削除処理、分割処理、結合処理についても、同様にプレイリスト再生情報を更新することによって行うものとし、基本的に動画像データ自体を直接編集することはしないものとする。

次に、図１７及び図１８を参照して、マーク情報管理制御部１０９における、一致画像の検出位置の再生画像を一定期間静止画として再生するスライドショーの再生処理について説明する。

図１７は、マーク情報生成部１０７が不図示の記憶部に登録するマーク情報の一例を示す図であり、図１０のマーク情報に対してサムネイル画像へのポインタ情報が静止時間（Ｔslide）に変更されている。図１８は、マーク情報の動画像データ上での対応関係を説明するための図である。

なお、静止時間が図１７のように一定である場合は、画像再生装置として出画制御タイミングを一定に保持するだけでよいため、特に静止時間の項目は必須ではなくいてもよい。

図１８の例では、動画像データ「clip001.mov」と「clip002.mov」の２つの動画像データファイルについて、３つの一致画像による編集マークの検出が行われた場合を示す。

それぞれの編集マーク情報は、一つ目のマークが「clip001.mov」の先頭から１０秒の再生時間位置、二つ目のマークが「clip001.mov」の先頭から５分３０秒の再生時間位置、三つ目のマークが「clip002.mov」の先頭から３分の再生時間位置にあるとする。

本実施形態でのスライドショー再生処理は、マーク位置における再生画像を復号再生し、Ｔslideで設定される時間、図の例では３秒間、順次静止画を出力する機能である。

なお、静止画状態から次の再生画像へ切り替わる際に、ワイプやフェードイン、フェードアウトなどの画像遷移効果を持たせても良い。また、静止画出力に合わせて、事前に登録したＢＧＭ等を同期再生するようにしても良い。

このように、顔認識領域と合焦領域が一致した視認性の高いフレーム画像のみをダイジェストとして見るだけで、ユーザは再生コンテンツのあらすじを把握しやすくなる利点がある。

また、このようなスライドショー再生処理をユーザが選択可能な再生モードして提供することで、通常の動画再生モードだけでなく、フォトアルバムとしての再生コンテンツを視聴することが可能となる。

なお、本発明は、上記実施形態に例示したものに限定されるものではなく、本発明の要旨を逸脱しない範囲において適宜変更可能である。

また、本発明の目的は、以下の処理を実行することによっても達成される。即ち、上述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）が記憶媒体に格納されたプログラムコードを読み出す処理である。

この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施の形態の機能を実現することになり、そのプログラムコード及び該プログラムコードを記憶した記憶媒体は本発明を構成することになる。

また、プログラムコードを供給するための記憶媒体としては、次のものを用いることができる。例えば、フロッピー（登録商標）ディスク、ハードディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＤＶＤ−ＲＷ、ＤＶＤ＋ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ等である。または、プログラムコードをネットワークを介してダウンロードしてもよい。

また、コンピュータが読み出したプログラムコードを実行することにより、上記実施の形態の機能が実現される場合も本発明に含まれる。加えて、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳ（オペレーティングシステム）等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。

更に、前述した実施形態の機能が以下の処理によって実現される場合も本発明に含まれる。即ち、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれる。その後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵ等が実際の処理の一部または全部を行う場合である。

１０１記録媒体
１０２記録媒体
１０３データ再生制御部
１０４顔認識情報取得部
１０５合焦情報取得部
１０６一致シーン画像判定部
１０７マーク情報生成部
１０８サムネイル画像生成部
１０９マーク情報管理制御部

Claims

動画像データを再生して表示部に表示する画像再生装置であって、
前記動画像データの特徴部位を認識するための領域情報を取得する認識情報取得手段と、
前記動画像データの合焦領域の情報を取得する合焦情報取得手段と、
前記認識情報取得手段より取得された領域情報と前記合焦情報取得手段より取得された領域情報とが一致する画像を検出する検出手段と、
該検出手段により連続して一致画像が検出された場合に、該一致画像の再生位置へアクセスするための情報を含むマーク情報を生成するマーク情報生成手段と、
該マーク情報生成手段により生成したマーク情報を用いて前記動画像データの編集処理を行う編集手段と、を備えることを特徴とする画像再生装置。
前記マーク情報生成手段は、前記検出手段により予め定めた再生区間で連続して前記一致画像が検出されたとき、該検出位置近傍に存在するランダムアクセスが可能な再生位置に対応した位置情報をマーク情報として設定する、ことを特徴とする請求項１に記載の画像再生装置。
前記編集手段により前記マーク情報と関連づけられるサムネイル画像データを生成するサムネイル生成手段を備えることを特徴とする請求項１又は２に記載の画像再生装置。
前記マーク情報は、前記一致画像の再生位置であることを示すマーク位置の識別子と、前記動画像データのランダムアクセスが可能な再生位置を示すアドレス情報と、該再生位置に対応した画像データのサムネイル画像データ、または該サムネイル画像データ格納先のポインタ情報と、によって構成される、ことを特徴とする請求項３に記載の画像再生装置。
前記編集手段は、前記マーク情報を用いて、前記動画像データにおける、マーク位置から次のマーク位置までの再生区間をひとつの再生シーンとして編集する、ことを特徴とする請求項４に記載の画像再生装置。
前記編集手段は、前記マーク情報の数に応じて、該マーク情報の再生位置に対応した画像データを所定の時間、静止画として出力するスライドショー再生処理を行う、ことを特徴とする請求項１〜５のいずれか一項に記載の画像再生装置。
動画像データを再生して表示部に表示する画像再生装置の制御方法であって、
前記動画像データの特徴部位を認識するための領域情報を取得する認識情報取得ステップと、
前記動画像データの合焦領域の情報を取得する合焦情報取得ステップと、
前記認識情報取得ステップで取得された領域情報と前記合焦情報取得ステップで取得された領域情報とが一致する画像を検出する検出ステップと、
該検出ステップで連続して一致画像が検出された場合に、該一致画像の再生位置へアクセスするための情報を含むマーク情報を生成するマーク情報生成ステップと、
該マーク情報生成ステップで生成したマーク情報を用いて前記動画像データの編集処理を行う編集ステップと、を備えることを特徴とする画像再生装置の制御方法。
動画像データを再生して表示部に表示する画像再生装置を制御するプログラムであって、
前記動画像データの特徴部位を認識するための領域情報を取得する認識情報取得ステップと、
前記動画像データの合焦領域の情報を取得する合焦情報取得ステップと、
前記認識情報取得ステップで取得された領域情報と前記合焦情報取得ステップで取得された領域情報とが一致する画像を検出する検出ステップと、
該検出ステップで連続して一致画像が検出された場合に、該一致画像の再生位置へアクセスするための情報を含むマーク情報を生成するマーク情報生成ステップと、
該マーク情報生成ステップで生成したマーク情報を用いて前記動画像データの編集処理を行う編集ステップと、をコンピュータに実行させる、ことを特徴とするプログラム。