以下、本発明の実施の形態について、図面を参照しながら詳しく説明する。
(実施の形態)
図1は本発明の実施の形態におけるコンテンツ撮影装置のシステムモデルの構成を概略的に示すブロック図、図2は本発明の実施の形態におけるコンテンツ撮影装置の内部構成を概略的に示すブロック図、図3は本発明の実施の形態におけるコンテンツ撮影装置で作成されるメタデータの分類例を示す図、図4は本発明の実施の形態におけるコンテンツ撮影装置におけるメタデータからシーン情報を生成する手順を流れ図的に説明するブロック図である。
図1を参照しながら、本発明の第1の実施の形態に係るコンテンツ撮影装置の動作について説明する。すなわち、コンテンツ撮影装置であるカメラ101の内部の記録媒体(またはバッファメモリ)上に映像データと音声データとメタデータを生成して、メタデータを参照してダイジェスト再生機能などを提供するシステムモデルの一例について説明する。
図1において、本発明の実施の形態におけるコンテンツ撮影装置のシステムでは、レンズ部102およびマイク103を備えた映像コンテンツ作成のためのカメラ101が、撮影対象104を撮影してカメラ撮影データ105を取り込む。なお、撮影対象104とは、例えば、風景、人、ペットなどの動物、車、建造物などである。カメラ撮影データ105には、AVストリームデータファイル106および撮影条件データやこの撮影条件データから撮影シーンが有効シーンであるか無効シーンであるか、あるいは重要シーンであるかなどの判定結果であるインデックスなどからなるメタデータ107が含まれる。撮影条件データから上記有効シーン、無効シーン、重要シーンなどを判定する方法の詳しい説明については後述する。なお、カメラ101に用いられる撮像素子は、好ましくはCCDやC−MOSなどの半導体素子で構成される。
なお、撮影シーンとは、連続した時空間において特定の意味をもつ映像音声の撮影期間のことである。すなわち、撮影シーンとは、映像編集で使用される時空間が連続した映像の最小単位であり、カメラを固定して撮影するフィックス期間の撮影シーンや、水平方向にパンする撮影シーンなどがある。
カメラ撮影データ105は、カメラ101で撮影されたデータシーケンスにしたがい、時間軸上に映像データと音声データとからなるAVストリームデータファイル106、およびメタデータ107が配置されている。メタデータ107はテキスト形式の文字データとして扱うが、バイナリィ形式のデータとしてもよい。そして、カメラ101で撮影されたカメラ撮影データ105は、カメラ101に接続可能なテレビなどの外部表示装置111に、後述するような不要部を削除したコンテンツやダイジェスト(また、要約コンテンツ)の形で表示可能である。このとき、カメラ101から外部表示装置111に信号を送る信号接続ケーブル112と外部表示装置111からカメラ101に信号を送る信号接続ケーブル113を用いるが、ユーザは、カメラ101から離れた場所でリモコン109を操作して、信号接続ケーブル112、113を経由してカメラ撮影データ105を視聴確認する。カメラで撮影され記録メディアに記録されたデータシーケンス114は、例えば3つのクリップCP#1、CP#2、CP#3から構成されており、それぞれの3つのクリップには有効シーン#1、有効シーン#2、有効シーン#3が存在するとする。この場合、撮影後の編集で、この3つの有効シーンのみを集めてデータシーケンス115を作成して再生すれば「いいとこ撮り再生」が可能となる。このデータシーケンス115のように撮影コンテンツの中で再生したいシーンの開始位置(時刻)と終了位置(時刻)のデータを集めたものは一般にプレイリストと呼ばれる。図1に示した例では、外部表示装置111の表示画面では時間の経過を横軸に取って、それぞれのクリップを構成するシーンの有効部(有効なシーン)と無効部(失敗または無効なシーン)のうちの有効部の代表画像TM#1、TM#2、TM#3が表示されている。
有効部は、例えば、
・パンやズーム後のフィックスシーン、および
・歓声や拍手などの音声で特徴付けられるシーンなどからなる。
一方、無効部は、例えば、
・カメラの揺れによる画像のぶれ(一般に、「グラグラ」)が大きいシーン、
・ピンボケのシーン、パン/ティルト/ズームが早すぎるシーン、
・逆光になって画面が真っ黒になっているシーン、
・ハウリングがあるシーン、
・地面を撮影しているシーン、および、
・カメラのキャップが閉まっているシーン
などからなる。
図1に示した例では、外部表示装置111のカメラ撮影データ105の表示において、例えば3つのクリップCP#1、CP#2、CP#3にある有効部#1、#2、#3のそれぞれのクリップを代表するフレーム(『フレーム』に代えて『シーン』という用語を用いることもある)を代表サムネイルTM#1、TM#2、TM#3として画面上に表示している。この代表フレームは、それぞれのクリップの有効部の先頭フレームであってもよいし、有効部分の途中にある代表フレームで、あってもよい。また、それぞれの有効部#1、#2、#3には、それぞれ優先度が付与されていて、特定の優先度のシーンだけを選択してダイジェストを生成することもできる。
カメラ撮影データ105にはカメラ101が備えるマイク103で記録した音声信号データが含まれるが、音声信号データは図示していないほかの内蔵されているマイクや外部接続マイクを用いて記録することもできる。外部接続マイクは、マイク103および内蔵されているマイクがカメラ101に直接取り付けられてカメラ101の近傍の音声を収録するのに対して、ケーブルなどでカメラ101に接続されてカメラ101のメタデータとして入力される遠方の音声を収録するのに用いられる。外部接続マイクの代わりに光センサを用いてメタデータを入力することもできる。
メタデータ107はクリップのタイムコード(例えば、27MHzのクロック周波数において32bitで表現されるタイムコード)に関連付けられる。そして、タイムコードに関連付けられたメタデータ107により、有効シーンのみ集めた「いいとこ撮り再生」や重要シーンのみ集めたダイジェスト再生がタイムコードに連動して可能となる。
ここで、本明細書においては、撮影開始から撮影終了までの期間、または撮影開始から撮影ポーズまでの期間に撮影されたコンテンツをクリップと定義する。ユーザは、カメラで撮影した素材のシーケンスに基づいて、各クリップの開始位置(時刻)と終了位置(時刻)、または長さを指定して、クリップを並べ替えることができる。また、各クリップをTVモニタなどの外部表示装置111に表示する場合、そのクリップの先頭または先頭以降から最後尾に至るフレーム(またはフィールド)映像や、パンやズームの前後などにおけるフィックス画像など、あるクリップで最も特徴的なフレームを、図1に示した代表サムネイルTM#1、TM#2、TM#3のように、そのクリップを代表する映像として指定できる。
次に、図2を参照しながらカメラ101の内部構成と動作について説明する。カメラ101の内部には、ズーム制御部201、フォーカス制御部202、露出制御部203、撮像素子204、シャッタ速度制御部205、カメラマイコン206、絶対傾きセンサ207、角速度センサ208、前後/左右/垂直の加速度センサ209、ユーザ入力系210、カメラ信号処理部211、音声処理系212、AV信号、インデックスおよびプレイリストの記録手段213、記録メディア214、および出力インタフェース215が備えられている。
なお、カメラマイコン206は、不要シーンや重要シーンの検出を行うシーン情報生成手段(インデックス生成手段)を備える。不要シーンや重要シーンの検出は、撮像装置のパン、ティルト、ズーム、フォーカス、手ぶれ、照度、音声入力レベルなどの撮影条件データに関して、それぞれに特定の演算を行うことにより実現される。
すなわち、カメラマイコン206は、撮影モード設定部、タイムコード発生部、撮影条件データ取得部、判定基準値設定部、比較部、インデックス優先度設定部、インデックス生成部、プレイリスト生成部、プレイリスト検証部をソフトウエアのアルゴリズムとして内蔵している。
ここで、撮影モード設定部はユーザ入力系210より入力されるノーマルモード、ローライトモード、スポーツモード、ポートレートモード、スポットライトモード、サーフ&スノーモードなどの撮影モードを設定する。これらの撮影モードは、松下電器産業株式会社製、ムービー、HDC−SD5などに搭載されており、周知の撮影モードである。
また、タイムコード発生部は27MHzクロックで、32ビットのタイムコードを発生する。
撮影条件データ取得部は、図2におけるCW1からCW8までのカメラデータを取得し、事前に設定された演算による結果と判定基準値設定部で設定された閾値とを、比較部にて比較する。
この比較の結果の正誤によりインデックスを生成する。そして、インデックス優先度設定部において各インデックスに優先度を付加する。さらに、インデックス生成部において、複数のインデックスを発生した時系列順に入力し、代表インデックスにマージする。
そしてプレイリスト生成部は、この代表インデックスを用いてプレイリストを生成する。また、プレイリスト検証部はプレイリストに含まれるデータフォーマットの論理検証を行う。
なお、図2においては、紙面の都合上、撮影モード設定部は「OPD」と表示され、タイムコード発生部は「TCG」と表示され、撮影条件データ取得部は「CWI」と表示され、判定基準値設定部は「ATS」と表示され、比較部は「CMP」と表示され、インデックス優先度設定部は「IPR」と表示され、インデックス生成部は「SIG」と表示されている。
また、図2においては、撮影モードは「CMM」と表示され、撮影条件データは「CWD」と表示され、判定基準値は「JDS」と表示され、インデックスは「IDX」と表示され、プレイリストは「PL」と表示されている。
インデックス生成部(SIG)は、撮像装置のパン、ティルト、ズーム、フォーカス、および音声入力レベルなどの撮影条件データ(CWD)に特定の演算を行うことによって無効シーンや重要シーンの検出を行い、シーンのインデックスを生成する。
なお、撮影モードの設定は撮影者が手動で行うこともできるし、撮影状況を自動で判別する自動シーンモード設定、自動露出、オートフォーカスを搭載し、自動的に撮影モード情報を設定することもできる。
ズーム制御部201はレンズ部102のズーム動作を制御する。フォーカス制御部202は、レンズ部102のフォーカス動作を制御する。露出制御部203はレンズ部102の露出調整動作を制御する。シャッタ速度制御部205は撮像素子204のシャッタ速度調整動作を制御する。絶対傾きセンサ207はカメラ101の水平/垂直方向の絶対傾きを検出する。角速度センサ208は、カメラ101の水平/垂直方向の角速度を検出する。加速度センサ209はカメラ101の前後/左右/垂直の加速度を検出する。
ユーザ入力系210は、ボタンなどでユーザの操作を受け付けて指示信号を生成する。音声処理系212は、内蔵マイク、外部マイクとともにマイク103からの入力を受け付ける。
撮像素子204の動作パラメータとして、3原色点の色度空間情報、白色の座標、および3原色のうち少なくとも2つのゲイン情報、色温度情報、ΔUV(デルタuv)、および3原色または輝度信号のガンマ情報の少なくとも1つの撮像素子動作データなどがメタデータとして取り扱われる。
レンズのズーム情報、レンズのフォーカス情報、レンズの露出情報、撮像素子のシャッタ速度情報、水平/垂直方向の絶対傾き情報、水平/垂直方向の角速度情報、前後/左右/垂直の加速度情報、3原色点の色度空間情報、3原色のうちR(赤)とB(青)のゲイン情報、およびG(緑)のガンマカーブ情報は、カメラマイコン206においてメタデータ107(カメラメタと呼ぶ)として取り扱われる。
撮像素子204で撮影された情報(画像のデータ)は、カメラ信号処理部211による画素単位あるいは複数の画素により構成されるブロック単位で画素欠陥補正やガンマ補正などの処理を経て、H.264方式エンコーダ213で圧縮された後に、前述のカメラメタとともに記録メディア214に蓄積される。また、H.264方式エンコーダ213のAV出力と、カメラマイコン206のカメラメタ出力は、出力インタフェース215より、それぞれ出力される。
次に、図3を参照しながらムービーカメラにおいて作成されるメタデータについて説明する。H.264ストリームのSEIにマッピングされるリアルタイムメタデータの例としては、例えば、ムービーなどのカメラで撮影したAVコンテンツに関連付けたメタデータなどがある。カメラで撮影したAVコンテンツに関連付けたメタデータとして、例えば、
・撮影条件データ
があるが、この撮影条件データには、撮像素子の動作モード、逆光補正、絞り・露出情報、フォーカス、シャッタ速度情報、色温度、ホワイトバランス、ズーム、仰角、地面撮影、グラグラした揺れ、グラグラ、パン/ティルト/ズーム(PTZと略す)の状態、ハウリングの状態、カメラのキャップ閉まり状態、およびカメラの姿勢状態(水平/垂直方向の絶対傾き情報、水平/垂直方向の角速度情報、前後/左右/垂直の加速度情報など)が含まれる。
ほかに、リアルタイムメタデータとしては、
・タイムコード(映像フレーム、音声フレーム)
・撮影フレームレート、記録フレームレートなどの映像や音声のフォーマット情報
などがある。
次に、図4を参照しながら、実施の一形態として映像圧縮方式(H.264/AVC方式)および音声圧縮方式(AAC方式)における以下の3つの方法について説明する。
・リアルタイムメタデータのマッピング方法
・リアルタイムメタデータから不要シーン検出
・重要シーンの検出を行い、そのシーン情報(シーンのインデックス、タグ、または、メタデータと呼ばれる)のマッピング方法
図4は、図1におけるカメラ101内部のAV信号圧縮記録制御部における映像と音声の圧縮エンジンとその周辺処理手段のより詳細な説明図である。図4において、映像と音声の圧縮エンジンの主要部は映像符号化部401、VCL(Video Coding Layer)−NAL(Network Abstraction Layer)ユニットバッファ402、シーン情報のメタデータ生成手段409、AAC方式による音声符号化部403、non−VCL−NALユニットバッファ407などから構成されている。これらに加えて、PS(Parameter Set)バッファ404、VUI(Video Usability Information)バッファ405、SEI(Supplemental Enhamcement Information)バッファ406、顔・人物検出手段408が含まれるほか、シーン情報のメタデータ生成手段409は、内部にハウリング検出手段410、不要シーン検出手段411、重要シーン検出手段412、リアルタイムデータ/選択マッピング手段413およびカメラワーク統計処理手段414を含んでおり、Play List415が出力される。
図4に示すように、映像信号は映像符号化部401によってVCL−NALユニット形式のデータに変換された後に、VCL−NALユニットバッファ402によって一時保持される。音声信号、外部入力PSデータおよび外部入力VUIデータは、音声符号化部403、PSバッファ404、およびVUIバッファ405によってそれぞれnon−VCL−NALユニット形式のデータに変換された後に、non−VCL−NALユニットバッファ407で一時保持される。同様に、撮像装置のパン、ティルト、ズーム、フォーカス、音声入力レベル(指定chの一定期間における入力レベルの最大値)などのリアルタイム系メタデータは、H.264/AVCのSEIのuser data unregistered SEI messageにマッピングされた後に、さらにSEIバッファ406によって、non−VCL−NALユニット形式のデータに変換され、non−VCL−NALユニットバッファ407で一時保持される。
映像信号(4a)は映像符号化部401、および顔・人物検出手段408に入力される。顔・人物検出手段408は、人の顔の位置/大きさ/数を検出して検出データ(4q)をシーン情報のメタデータ生成手段409に出力する。音声信号(4b)は、音声符号化部403、および、シーン情報のメタデータ生成手段409に入力される。また、外部入力PSデータ(4c)、外部入力VUIデータ(4d)、タイムコード(4e)、撮影/記録フレームレート(4f)、ユーザが操作ボタンを押した時刻データ(4g)、逆光補正/絞りデータ(4h)、色温度/ホワイトバランスデータ(4i)、フォーカスデータ(4j)、ズームデータ(4k)、ジャイロセンサのヨー/ロール/ピッチのデータ(4m)、仰角/地面撮り検出データ(4n)、カメラのレンズキャップの閉まり具合の状態データ(4p)が、それぞれ、シーン情報のメタデータ生成手段409に入力される。
シーン情報のメタデータ生成手段409は内部にハウリング検出手段410、不要シーン検出手段411、重要シーン検出手段412、リアルタイムデータ選択/マッピング手段413を備えている。ハウリング検出手段410は音声信号(4b)に基づいて、ハウリングを検出する。
次に、図1〜図4を用いて説明したコンテンツ撮影装置で撮影したカメラ撮影データにおける不要シーン検出例について説明する。図4に示したようにシーン情報のメタデータ生成手段409に含まれる不要シーン検出手段411は、図5に例を示すように、不要シーンのメタデータ(UA、UB、UC、UD、UE、UF、UG)を検出することができる。この不要シーンのメタデータをここでは不要シーンインデックスと呼ぶ。
ここで、それぞれの不要シーンインデックスには、以下に示すものがあり、
UAは、カメラのキャップが閉まっている状態を表し、
UBは、カメラの揺れ、グラグラが大きい状態を表し、
UCは、フォーカスが合わないで、ピンボケになっている状態を表し、
UDは、パン/ティルト/ズームが早すぎる状態を表し、
UEは、逆光になっている状態を表し、
UFは、低照度である状態を表し、そして
UGは、地面を撮影している状態
をそれぞれ表す。
上述の不要シーンインデックスは撮影時に取得した撮影条件データをあらかじめ定めた閾値と比較して決定する。例えば、照度を例に説明すると、撮影前にあらかじめ照度の閾値を、例えば20ルクスと決めておき、撮影時に検出された照度が20ルクスよりも低い場合は、異常な画像と判定して不要シーンインデックスを設定する。一方、撮影時の照度が20ルクス以上であれば成功画像と判定して不要シーンインデックスは設定しない。
不要シーンインデックスが表す異常状態の画像は、一般常識的な感性や感情をもった人であれば、ほぼ万国共通に不要シーンと認識されるものである。これは、受け入れがたいものに対する価値観は、一般に人の生理的な知覚、認知メカニズムに基づくところが多く、ほぼ万国共通である。具体的には、メタデータUA、UB、UC、UD、UE、UF、およびUGは、それぞれ、優先度(ポイント)として、例えば、UA(50点)、UB(40点)、UC(25点)、UD(20点)、UE(40点)、UF(35点)、UG(25点)のように重み付けをして扱われる。
図5において、不要シーンの選択アルゴリズムとしては、単一で扱うだけでなく、複数の不要シーンの間隔が映像フレームで60フレーム以内の場合には1つの連続した不要シーン(統合不要シーンと呼ぶ場合もある)としてまとめて扱うアルゴリズムを用いる。すなわち、「不要シーン区間の定義式」として、(単一不要シーン区間)+(間隔が60フレーム以内の複数の不要シーン区間)が規定できる。
なお、複数の不要シーンの間隔が60フレーム以内の場合に、これらの複数の不要シーンを1つの不要シーン、すなわち統合不要シーンとして扱う理由は、60フレーム以内で途切れ途切れの映像を繋げると、忙しくて落ち着かない映像になるからである。
なお、不要シーンの数はクリップ長やコンテンツ長に応じて、あらかじめ決めておくこともできる。例えば不要シーンは、1クリップあたり3個と決めることができる。このように1クリップあたりの不要シーン数に制限がある場合には、不要シーンがこの制限を超えた場合に、不要シーンの数をこの制限数に絞り込むためのルールが必要となる。
ここで、この不要シーン絞込みルールについて説明する。それぞれの不要シーンについて総合得点SBを定義する。この総合得点SBは上述した個別の不要シーンごとにその持続期間と優先度の積を統合不要シーン期間に含まれる全不要シーンにわたって積算したものとする。すなわち、例えば、図5においては1クリップの中に統合不要シーン1〜4の4つの統合不要シーンが存在するが、例えば、統合不要シーン1の総合得点SB1は下記の式で表される。
SB1=50×TA+40×TE+30×TB+20×TD (式1)
上記の方法ですべての統合不要シーンの総合得点を計算することにより、統合不要シーンの順番を付けることができる。(式1)において、TA、TE、TB、TDは統合不要シーン1内の不要シーンインデックスUA、UE、UB、UDに対応する個別不要シーンの持続期間である。この総合得点順にしたがって、例えば上位3個の統合不要シーンを選択して、残りの不要シーン3をコンテンツプレイリストから外すことが可能となる。なお、不要シーンの持続時間については、実際の持続時間の代わりに図6に示すような持続時間に対応した係数を用いてもよい。
ところで、デジタルカメラやムービーカメラには撮影環境が変わっても、その環境に最適な条件で撮影をするために、撮影モードを撮影時ごとに設定できるようにしてある。例えば、昼間のように照度が十分な状態で撮影する場合は通常撮影モードを使用し、夜間のように照度が不足する場合は絞りを通常より開いたり、シャッタ速度を遅くしたりして周囲の照度不足を補うために設けたローライト撮影モードを使用するなどである。
本発明の特徴は、例えば、不要シーンか否かを判定する条件を上記撮影モードによって変更することである。この判定条件の変更は2つのステップで実施される。
まず、不要シーン判定のための上記閾値を撮影モードによって変更することである。例えば、上述した例で言えば照度に関する不要シーンの判定基準(閾値)をローライト撮影モードの場合は、通常撮影モードの場合より低く設定する。これは、夜間撮影の場合は、多少暗くても成功画像として判定する必要があるためである。図7は撮影モードと閾値の関係を照度を例にして示したものである。図7に示すように、低照度として不要シーンと判定する閾値として、通常撮影モードは20ルクスとするが、ローライト撮影モードの閾値は10ルクスとしている。このように、閾値を変更することにより、それぞれの撮影モードごとに不要シーンの判定を最適に行うことができる。
次は、不要シーンごとの優先度(ポイント)の変更である。図8に、撮影モードが通常撮影モード、ローライト撮影モードにおける撮影コンテンツの不要シーンの総合得点を計算するのに用いられる、不要シーンインデックスUA、UB、UC、UD、UE、UF、UGに対する優先度(ポイント)の例を示す。図8において、例えば手ぶれ(UB)、ピンボケ(UC)、パン/ティルト(UD)、低照度(UF)の各項目でローライト撮影モードの方が通常撮影モードより優先度が低い値になっている。まず、手ぶれに関しては、ローライト撮影モードでは露光時間を長くするためにある程度の手ぶれは避けられないためである。また、ピンボケやパン/ティルトの早すぎに関しては、全体に画像が暗くなり、多少のボケや動きは目立たないからである。さらに低照度に関しては、もともとローライト撮影モードは夜間撮影の場合に設定される撮影モードであり、ある程度明るさを犠牲にせざるを得ないなどの理由からである。
このように、撮影モード(撮影環境)ごとに撮影条件データの閾値および不要シーンインデックスの優先度を変更することにより、最適な条件で不要シーンを判定でき、コンテンツプレイリストの作成が可能となる。
なお、上記低照度の閾値の付近で撮影モード変更の警告を出し、低照度による失敗撮影を回避することができる。例えば、
(1)通常モードで撮影中に、照度が100ルクス(LA)に下がった場合に、撮影モードをローライト撮影モードに変更するような警告を出す。
(2)通常モードで撮影中に、照度が50ルクス(LB)に下がった場合に、低照度のため、撮影が失敗状態である判定する。
(3)また、ローライト撮影モードで撮影中に、照度が40ルクス(LC)に下がった場合に、撮影環境が暗いためライト点灯の警告を出す。
(4)また、ローライト撮影モードで撮影中に、照度が20ルクス(LD)に下がった場合に、撮影環境が暗いため、撮影が失敗状態である判定する。
(5)また、ローライト撮影モードで撮影中に、照度が150ルクス(LE)に以上に上がった場合に、撮影環境が暗いため、撮影が失敗状態である判定する。
のような動作モードを導入することにより、撮影を失敗する前に撮影モードを切り替えることがきるのでカメラの使い勝手が向上する。
さらに、上記(1)のLAと(5)のLEのように、撮影モード変更の値にヒステリシスをもたせてもよい。
次に、重要シーン検出例について説明する。図4に示したシーン情報のメタデータ生成手段409に備わる重要シーン検出手段412は、図9に示す重要シーンのメタデータ(A、B、C、D、E、F)を以下に説明するように検出する。
メタデータ(A)に関しては、クリップのはじめ(CLIP−IN)、または、クリップのおわり(CLIP−OUT)における、1〜3秒のフィックス部分を重要部分として抽出するアルゴリズムを作成できる。例えば、これを100点とする。
メタデータ(B)に関しては、音検出のメタデータ107(メインマイクやサブマイクらの音声、ピストル発射昔、歓声などの入力を検出したメタデータ部分)を重要部分として抽出するアルゴリズムを作成でき、例えば、これを70点とする。
メタデータ(C)に関しては、ジャイロの出力よりカメラのパン、ティルト後のフィックス(静止)シーンを検出することができる。フィックスシーン(カメラマンが興味をもって固定映像を撮影している部分、Interest部分)を、例えば、40点とする。
メタデータ(D)に関しては、カメラのズーム値の時間変化をモニタして、ズームアップ、ズームダウンした部分を検出することができる。より詳細には、ズームアップ、ズーダウンの前後における1〜3秒のフィックス部分を重要部分として抽出するアルゴリズムを作成できる。例えば、これを30点とする。
メタデータ(E)に関しては、ジャイロの出力によりカメラのパン、ティルトを検出することができる。例えば、これを25点とする。
図9に例示はしていないが、メタデータ(F)に関しては、撮像素子から得られる撮影映像を複数のブロックに分割し、各ブロックの色相、色度が、あらかじめ決めた色相、色度の範囲内にあるかどうかの情報を検出できる。例えば、これを検出ブロックの大きさと形状、および肌色度から人の顔を検出することができる。さらに、パン、ティルトやズームの後のフィックス映像の検出ブロックの形状および肌色度から人の顔をより精度良く検出することができる。例えば、これを50点とする。
注意すべき点は、上述の状態は一般的な感性・感情をもった人でも、撮影の初心者と撮影のカメラワークに慣れた人では重要シーンとして認識するレベルが人によって少し異なる場合があり得ることである。すなわち、撮影に慣れた人には映像撮影技法に準拠したカメラワークを意識して撮影するが、初心者はそのような知識がないのでカメラワークを考えないで被写体を撮影することが往々にしてあるからである。ただ、初心者も撮影しているうちに、アドバイスを受けたり、自分できづいたりしながら、次第に一般に良いとされるカメラワークを習熟していくことが通例である。
A、B、C、D、E、Fはそれぞれ優先度(それぞれ、ポイントをもつ)であり、重み付けを行う。図9において重要シーンは、A、B、C、D、E、Fのメタデータのいずれかで表される重要シーン、もしくは、映像フレームで、Nを整数として、(N)フレームの窓内に存在する複数の重要シーンの中で最も優先度の高いメタデータを代表させる。
例えば、300フレーム幅の窓を用いた場合、この窓内に存在する複数の重要シーンから、「優先度ポイントの算出式」としては、
(300フレーム区間の窓内で最大優先度のシーンの優先度)+(そのほかの優先シーンの優先度に一定の係数で重み付けをした値)を定義して、「複数の重要シーンの優先度」を計算することができる。最優先シーン以外の優先シーンの優先度の重み付けは、例えば0.2とする。
図9に示した例では、重要シーンの検出窓に、D(30点)、C(40点)、E(25点)、E(25点)が含まれる。そのために、優先度合計値は、
0.2×30+40+0.2×25+0.2×25=6+40+5+5
=56
となる。
なお、重要シーンのシーン情報としては、重要シーンを構成する最も優先度の高いメタデータ(A、B、C、D、E、F)の種別と、重要シーンの時刻と期間(重要シーンの長さ)がシーン情報の詳細記述としてプレイリストのマーカー情報(マーカースキップに使用できる)や、マーカー情報と関連付けた補助データなどに使用される。ここで、重要シーンの数はコンテンツ長に応じて、あらかじめ決めておくこともできる。また、重要シーンによるコンテンツの縮小率もあらかじめ決めておくこともできる。
例えば、図9の例では、一定期間の窓WIの中で最大の優先度をもったメタデータを、ダイジェスト生成のために用いる第2のメタデータとして設定される。この場合、約800フレームに存在する、フィックス状態を表すInterestメタデータCを選択する。このとき、事前に決めた規則により、このメタデータにイベントの種別、イベントの優先度、および、イベントの開始時刻と終了時期と代表時刻とをアトリビュートとして付加する。これによって、第2のメタデータとそのアトリビュートであるイベントの開始時刻と終了時刻と代表時刻を参照することにより、例えばズームアップ(3秒間)からフィックス(2秒間)までの5秒間の撮影シーンを1つのメタデータで表現することができる。そこで、このメタデータの優先度の順、あるいは、メタデータのイベントの種別を指定することによりダイジェスト映像を生成することができる。
また、このメタデータの優先度の順、あるいは、メタデータのイベントの種別(例えば、ズームアップした部分)を指定して、メタデータ位置を参照することにより、撮影コンテンツ内の意味のある部分(例えば、ズームアップした部分)へと、スキップ再生(メタデータによるスキップ再生)ができる。
なお、図9において、一定期間の窓の中で優先度をもったメタデータの合計値が、あらかじめ設定した値(例えば、250)を超えた場合にのみ、第2のメタデータの選択を行うように設定するモードを追加することもできる。
また、高優先度シーンの選別は、まず低優先度シーンを除外したコンテンツよりも高優先度シーンを選別することにより、より安定したシーンの選別が可能となる。例えば、ズームアップ後のフィックス部で高優先度シーンとしては有効であっても、ピンボケになっている場合があり、そのような低優先度シーンを優先的に除外できる。
同様に、ズームアップ後のフィックス部で高優先度シーンとしては有効であっても、逆光になって画面が真っ黒になっている場合があり、そのような低優先度シーンを優先的に除外できる。また、運動会のカケッコにおけるピストルの発射音が検出できていて高優先度シーンとしては有効であっても、ズームアップが早すぎたり、パンが早すぎたりして見るに耐えないシーンなどは、低優先度シーンを優先的に除外できる。
上述のように、まず第1段階として、低優先度シーンを除外した安定的に撮影されているシーンにより構成されるプレイリストを生成する。次に、第2段階として安定したシーンより高優先度シーンを選別する。例えば、第1段階で作成したプレイリストに高優先度シーンを追加して不要部のないコンテンツから重要シーンを選別する。以上の段階を経ることにより、揺れピンボケなどのない、視覚的にもより安定した、重要シーンの選別が可能となる。
なお、不要シーンのメタデータ(UA、UB、UC、UD、UE、UF、UG)は、不要というマイナスの意味をもつことから、符号にマイナスを付けて処理してもよい。ただこの場合でも、前述した不要シーンの計算アルゴリズム(複数の不要シーンを1つの不要シーンにたばねる処理)と、重要シーンの計算アルゴリズム(複数の重要シーンから代表シーンを決め、代表シーンの優先度を計算する処理)は異なる処理であり、同じアルゴリズムで実現することはできない。なお、高優先度のシーン(重要シーン)と低優先度のシーン(不要シーン)の中間の値をもつシーンは普通のシーン(一般的なシーン)であると取り扱える。
図4に示したシーン情報のメタデータ生成手段409に含まれるリアルタイムデータ選択/マッピング手段413は、前述したリアルタイムメタデータをSEIにマッピングすることにより、以後、パソコンなど別の再生機器でも、このデータから不要シーンや重要シーンのシーン情報を再計算することができる。不要シーンや重要シーンのシーン情報を再計算するアルゴリズムが更新された場合に有効である。
また、図4に示したシーン情報のメタデータ生成手段409に含まれるカメラワーク統計処理手段414は、パン、ズーム、フィックスなどユーザのカメラワークモニタ、あるいは記録している。過去の一定時間、例えば過去5分間の撮影カメラワークを記録していてズームアップばかりであると、ズームダウンして全体の映像を撮影すべきことをカメラのビューファインダに表示して撮影者に知らせる。すなわちバランスのとれた撮影ができるように撮影者をアシストする。これにより、撮影コンテンツのダイジェストを生成する場合にも、ダイジェストを構成するシーンの内容を、ズームアップばかりや、パンばかり、あるいはフィックスばかりに偏らない、よりバランスの良い撮影コンテンツにできる。
ここで、図10を参照しながら図4におけるH.264/AVCのストリームの構成、すなわちH.264/AVC方式によるMPEG−TSデータ圧縮処理について簡単に説明する。図10(A)は、H.264/AVCストリームのGOP構造を示している。図10(B)は、各ピクチャがVCLおよびNon−VCLのNALユニットによって構成されていることを示す。NAL(video)は映像のNALユニットであり、NAL(Audio)は音声のNALユニットであり、NAL(SEI)はSEIのNALユニットである。NAL(SEI)には前述したリアルタイムメタデータを挿入できる。
なお、実験の結果から、撮像装置のパン、ティルト、レンズのズーム情報、レンズのフォーカス情報などは、GOP構造における全ピクチャに挿入する必要はなく、2フレームごとに間引いた場合でも、タイムコードを復元できれば、通常視聴に適した速さのパン、ティルト、ズーム、フォーカスなどのカメラワークを復元できるという知見が得られている。
図10(C)はPESパケットの構造を示し、図10(B)に示したピクチャデータにPESパケットヘッダが付加されている。なお、PESパケットヘッダには、ヘッダオプションとしてMPEGのPTS/DTSを含めることができる。H.264の観点よりは、PESパケットを1AU(Access Unit)として扱う。本例では、図10(D)に示すように、PESパケットを188バイトごとに分割して、MPEG−TSパケットを生成する。図10(E)は、MPEG−TSパケットにタイムコードを含む4バイトのヘッダが付加して、ATSパケットを構成することを示している。
上述したようなH.264/AVCのストリームの構成により、VCL−NALユニットバッファ402から出力されたVCL−NALユニット形式のデータと、non−VCL−NALユニットバッファ407から出力されたnon−VCL−NALユニット形式のデータに基づいて、図10(C)に示すようなMPEG−PESパケットを生成し、図10(D)に示すような188バイト長のMPEG−TSを生成する。次に、MPEG−TSのそれぞれにタイムスタンプを含む4バイトのヘッダを付加して、図10(E)に示すような192バイトのATSパケットを生成する。
このタイムスタンプは、例えば、各MPEG−TSパケットがATSパケットを生成する処理ブロックに到着した時刻を示す。一般に、タイムスタンプのクロックは27MHzであり、4バイトすべてをタイムスタンプとして用いる場合や、4バイトのうちの30ビットをタイムスタンプとし、残りの2ビットはコンテンツ保護のためのフラグなどに用いる場合がある。
また、ストリームが包含する各GOP(Group of Picture)の先頭ピクチャのPTS(Presentation Time Stamp)、および各GOPの先頭ピクチャにおける先頭ATSの連番をペアで、EP−MAPとして出力する。なおPTSやDTS(Decode Time Stamp)はPESパケットのヘッダに含まれるので抽出は容易である。
また、各GOPの先頭ピクチャにおける先頭ATSの連番とは、ストリーム先頭のATSの連番を1とし、ストリーム先頭からのATSの個数を順次数えた番号である。各GOPの先頭ピクチャのPTSとATS連番のペアとして定義されるEP−MAPは、プレイリストを用いた再生やストリーム編集の際に用いる。
次に、図11を参照しながら、H.264/AVCのファイル構成例について説明する。左側の四角枠はディレクトリ構成、右側の四角枠はファイル構成であり、SDカードやDVD−R、DVD−RAM、BD−REなどの情報記録メディア上に構成される。
そして、左側の四角枠のディレクトリ構成において、root下には、参照ファイル(refx.file)と、「Play List」、「CLIP」、および、「STREAM」ディレクトリが存在する。「Play List」ディレクトリ下には、プレイリスト(ファイル)である「*.pls」ファイルが存在する。また、「CLIP」(クリップ)ディレクトリには、クリップファイルである「*.clp」ファイルが存在する。「STREAM」ディレクトリ下にはATS(192バイト)により構成されるストリームファイルである「*.ats」ファイルが存在する。
次に、右側の四角枠はファイル構成について説明する。インデックスファイルである参照ファイルrefx.fileでは、コンテンツのタイトル情報を管理し、複数のチャプタ情報(C#1、C#2、C#3、・・・)を管理する。プレイリストは、複数の再生パート情報(Play Item#(n)、nは自然数)を管理する。また、クリップファイルは、EPマップをもつ。EPマップはPTSとストリームファイルを構成するATSパケットのATS連番の相互対照マップテーブルであり、タイムコードとデータ位置の相互変換を行うものであり、プレイリスト再生やストリームファイル編集において不可欠なものである。上述したように、タイトルはプレイリストファイル、プレイリストファイルはクリップファイル、そして、クリップファイルはATSパケットによるストリームファイルと、それぞれ関連付けられる。
既に図3を参照しながら説明したリアルタイムメタデータは、SEIにマッピングされた後、ATSのストリームファイルに変換される。また、リアルタイムのメタデータから演算して生成したメタデータをクリップのシーン情報として、プレイリストのパート情報(上述した(Play Item#(n))や補助エリアに付加情報としてマッピングする。すなわち、優先度をもったリストを撮影コンテンツの再生時に参照するプレイリストファイルの補助データとしてマッピングする。これにより、プレイリストファイルのデータを見るだけで、クリップのシーン情報メタデータを参照できるという大きな特徴をもつ。上記補助エリアは図11においてプレイリストの最後のエリアAAである。
そこで、コンテンツの再生機器でプレイリストの付加情報を参照して不要シーンや重要シーンなど撮影コンテンツ中のイベントの開始点または代表点に即座にアクセス(スキップ)できる。また、再生時に参照するプレイリストファイルの補助データであるメタデータのリストを参照することにより、指定したイベント区間(イベントの開始点から終了点までを参照して生成したイベント区間)を順番に再生できる。
重要シーンにより構成されるダイジェストを生成する場合には、シーンの優先度の指定、またはシーン種別の指定、またはダイジェスト時間長の指定、またはダイジェストへの縮小率指定を入力するダイジェスト方式指定手段や、プレイリストの補助データであるシーンのリストを参照して、新たなプレイリストファイルを生成することもできる。
さらに、プレイリストを参照することにより、重要シーンとして指定される区間は通常再生を行い、それ以外のシーンは高速速度で再生することもできる。また、プレイリスト参照することにより、不要シーンとして指定される区間は高速再生を行い、それ以外のシーンは通常速度で再生することもできる。また、プレイリストを参照することにより、不要シーンとして指定される区間は検出した代表シーンやあらかじめ撮影して登録した静止画を3秒ずつ表示する再生を行い、それ以外のシーンは通常速度で再生することもできる。
特に、子供の音楽会などの撮影コンテンツに対しては、揺れていたりピンボケになっていたりする不要な映像は見たくないが、ピアノや合唱などの演奏は連続して聞きたいというような要望を考慮して、再生する映像は代表シーンやあらかじめ撮影して登録してある映像(青空、建物、花、子供の顔など)に切り替えて、音声のみ連続再生することもできる。
プレイリストを参照することにより、不要シーンとして指定される区間はカメラワークに起因する撮影映像の横揺れやたて揺れを取り除いた映像を生成する手段を具備し、不要シーンとして指定される区間は画像処理により画像の揺れを取り除いた映像を生成して表示する再生を行い、それ以外のシーンは通常速度で再生することもできる。
プレイリストを参照することにより、優先度があらかじめ決めた値以上のシーンまたは特定のカメラワークをもったシーンより構成されるプレイリストを新たに生成して、タイトルに登録してもよい。
プレイリストを参照することにより、各シーンの種別に応じたBGMを生成して再生し、シーンの切り替わり付近でBGMのメロディー、音色、テンポを変え、より芸術性、文化度の高いコンテンツの再生を行うこともできる。
次に、本発明の実施の形態におけるコンテンツ撮影装置のプレイリスト作成方法について具体的に説明する。本発明の実施の形態におけるコンテンツ撮影装置のプレイリスト作成方法では、撮影手段であるコンテンツ撮影装置の情報から、不要シーン、重要シーンのインデックスを生成し、各々に対応するプレイリストを生成することが基本になる。
本発明の実施の形態におけるコンテンツ撮影装置を含めて一般に、図1に示したように、複数のクリップで構成されるカメラ撮影データ105は、時間の経過を横軸に取って、それぞれのクリップの有効部(有効なシーン)と無効部(失敗または無効なシーン)が含まれる。そして、図1に示した例では、外部表示装置111のカメラ撮影データ105の表示において、例えば3つのクリップCP#1、CP#2、CP#3にある有効部#1、#2、#3のそれぞれのクリップを代表するフレームを代表サムネイルTM#1、TM#2、TM#3として画面上に表示されている。この代表フレームは、それぞれのクリップの有効部の先頭フレームであってもよいし、有効部分の途中にある代表フレームであってもよいし、また、それぞれの有効部と無効部には、それぞれ優先度が付与されていて、特定の優先度のシーンだけを選択してダイジェストを生成することもできることは既に説明した。
図12は本発明の実施の形態におけるコンテンツ撮影装置で撮影されたコンテンツに含まれるプレイリストの構成を説明する図である。図12を参照しながら、コンテンツプレイリスト(CPL)のクリップ数、不要シーン(インデックス)数、重要シーン(インデックス)数の関係を説明する。図12において、1CPLはN個のクリップCP#1〜CP#Nとリアルタイムメタデータが記録されている補助データエリアAAから構成されている。このCPLにはL個の重要シーンとK個の不要シーンが存在し、重要シーンに対応してインデックスJ#1〜J#L、不要シーンに対応してインデックスF#1〜F#Kが作成される。これらのインデックスは各シーンの開始および終了のタイムコードとともに補助エリアAAに記録される。補助エリアへ記録されるインデックスは前述した複数の撮影条件に対応したインデックスのうち、最も優先度の高いインデックスのみでもよいし、すべてのインデックスを含んでいてもよい。ここでクリップとは、既に定義したように撮影開始から撮影終了までの期間、または撮影開始から撮影ポーズまでの期間に撮影されたコンテンツのことである。1つのコンテンツプレイリスト(CPL)に含まれるクリップ数、シーン数などが多くなりすぎると管理が大変となるばかりでなくプレイリストを解釈して再生するのに時間がかかり再生レスポンスが悪くなる。そこで、クリップ数、シーン数などには制限をつける必要がある。図12に示すように、コンテンツプレイリスト(CPL)に含まれる最大シーン数をM個(例えば999個)、最大クリップ数を(例えば99個)とする。そして、1つのコンテンツプレイリスト(CPL)にL個の重要シーン(インデックス)とK個の不要シーン(インデックス)が含まれているとした場合、1CPL中にクリップ数がNを超えるか、または、K+L>Mになった時点で新CPLを作成することとする。
図13はコンテンツ撮影装置が撮影したクリップからコンテンツプレイリストを作成するフローチャートである。まず、ステップ1においてクリップ数P、不要シーンのインデックス数K、重要シーンのインデックス数Lの初期化および最大クリップ数Max(P)、最大インデックス数Max(K+L)の値を設定する。コンテンツ撮影装置が記録をスタートしストップするごとにクリップ数Pをインクリメントする(ステップS2)。ステップS3で重要シーンを検出し、重要シーンが検出されるごとにインデックス数Lをインクリメントする。次に、ステップS4で不要シーンを検出し、不要シーンが検出されるごとにインデックス数Kをインクリメントする。重要シーンと不要シーンのインデックス数の合計インデックス数(K+L)が最大値Mに達したか否かを判定し(ステップS5)、インデックス数(K+L)が最大値Mに達した場合(Yesの場合)には、この時点でCPLの作成を終了し、新しいCPLの作成を開始する。一方、最大値に達しない場合(Noの場合)には、次のステップS6に進む。ステップS6では、クリップ数Pが最大値Nに達したか否かを判定し、最大値に達した場合(Yesの場合)には、この時点でCPLの作成を終了し、新しいCPLの作成を開始する。最大値に達しない場合(Noの場合)には、ステップS2に進み、次の記録モードに備える。
このようにすることにより、1CPL中のシーン数(インデックス数)が制限を超えた場合にも新たなシーンを作成できる。また、上記ルールにしたがった機器間でプレイリストの互換性を保つことが可能となる。
また、本発明の実施の形態におけるコンテンツ撮影装置で用いるファイルの構成について、図11を用いて説明したが、本発明の実施の形態におけるコンテンツ撮影装置で作成されるプレイリストファイルは、撮影条件データなどのメタデータの区分を明確にするために、失敗部のプレイリストまたは重要部のプレイリストをシーンのプレイリストと同ディレクトリに登録しないで、専用ディレクトリに登録することが望ましい。
次に、既に作成されているCPLを分割した場合の、インデックスの記録方法について説明する。図14および図15はCPL分割時のインデックス記録方法の異なる2つの方法を示す。CPLはCP#1のインデックスF#3とJ#3の間でCPL1とCPL2に分割されるものとする。第1の分割方法は、図14に示すようにインデックスの記録されている補助エリアAAもCPLの分割位置に対応する位置で分割して、CPL1に対応する部分AA1をCPL1の最後に付加し、CPL2に対応する部分AA2をCPL2の最後に付加する。AA1にはインデックスF#1、J#1、F#2、J#2、F#3が記録され、AA2にはインデックスJ#3、F#4、・・・、J#L、F#Kが記録される。この分割方法によれば、分割CPLごとに必要最小限のインデックスが付加されるため記録するデータの冗長度が小さく抑えられるとともに余分なインデックスが記録されていないのでインデックスの検索を迅速に行える。
第2の分割方法は、図15に示すようにインデックスが記録されている補助エリアAAは分割されずにそのままCPL1およびCPL2の最後に付加する。この場合は、データの冗長度は多少増えるがインデックスを分割する必要がないのでCPL分割時の処理負荷を下げることができる。
ここで、CPLを分割した場合の再生範囲について補足する。CPLが分割された場合、不要部に関するインデックスが示す範囲とCLP分割点が、所定の時間間隔(例えば、3秒)より短い場合、その不要部に関するインデックスを無視して再生プレイリストを生成する。これにより、分割点付近での再生シーンが短く途切れることを避けることができる。
また、重要シーンに関するインデックスや不要シーンに関するインデックスが示す範囲内にCLP分割が発生した場合、その重要シーンに関するインデックスや不要シーンに関するインデックスを無視して再生プレイリストを生成する。これにより、分割点付近での再生シーンが短く途切れることを避けることができる。
以上説明したように、本発明の実施の形態におけるコンテンツ撮影装置では、撮影中に作成した不要シーンや重要シーンのインデックスを作成する際の閾値や優先度を撮影モードによって変更できるので、従来に比べ適切にこれらのシーンの選択が可能となり、失敗部のスキップ再生、重要部のダイジェスト再生をより適切に実施できる。また、1つのプレイリスト中のクリップ数およびインデックス数に制限をつけることにより、プレイリストの管理が容易になるとともに、再生レスポンスも向上させることができる。さらには、プレイリストの作成の基本的なやりかたは従来の方法を踏襲しているのでプレイリストの種類を増やしても従来機器との互換を保つことができる。
また、プレイリストを分割する場合には、分割されたプレイリストの再生に必要なインデックスを付加して新たなプレイリストを作成するので、分割プレイリストに対してもスキップ再生やダイジェスト再生を容易にできる。