JP4992639B2

JP4992639B2 - コンテンツ撮影装置

Info

Publication number: JP4992639B2
Application number: JP2007254142A
Authority: JP
Inventors: 芳宏森岡; 誠山下; 賢司松浦; 正明小林; 和司新谷
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2007-09-28
Filing date: 2007-09-28
Publication date: 2012-08-08
Anticipated expiration: 2027-09-28
Also published as: JP2009088836A

Description

本発明は、コンテンツ撮影装置に関し、さらに詳しくは、デジタルカメラなどを用いて撮影するときに、撮影したコンテンツの特定部分を選択して再生する撮影シーンの判定手段を備えたコンテンツ撮影装置に関する。

近年、ディスクや半導体メモリなどのランダムアクセス可能な記録メディアを用いたデジタルカメラやホームビデオカメラを用いて個人的に映像コンテンツを作成し、大型ＴＶで鑑賞して楽しむ家庭が増えてきている。デジタルカメラやホームビデオカメラを用いて映像コンテンツを作成する場合、ユーザはホワイトバランス、フォーカス、露出、ズーム倍率などの撮影条件を適正に調整した上で、被写体を撮影・記録するが、必ずしも適正な条件下で画像情報の記録が行われる訳ではなく、調整ミスや撮影時の手ぶれなどにより、不適正な撮影条件での失敗撮影記録が生じることも多い。このような、いわゆるピンボケの画像や、明るすぎたり暗すぎたりして何が写っているかが判らないような画像はユーザにとっては再生不要であることが多いのであるが、実際には、そのまま画像再生されてしまい、ユーザに無駄な再生時間を強いている結果となることがほとんどである。

この点を改善するために、画像記録の際に、撮影された画像が「ＯＫ」か「ＮＧ」かを、ユーザが選択操作入力し、それに対応するＯＫ／ＮＧの識別信号をメタデータとして、画像データとともに記録媒体に入力し、撮影後に、ビデオカメラの制御部は、このＯＫ／ＮＧの識別信号に基づいて、不要の画像部分がスキップされて再生を行い、編集記録を行うようにするビデオカメラがある。このビデオカメラでは、ユーザにより「ＮＧ」と指定されたものは、スキップされて編集記録後のデータには含まれないので、ユーザが「ＯＫ」とした必要な画像のみを再生できるようにしている。また、撮影時に（１）撮影条件を記録撮影画像データとともに記録媒体に記録し、再生時に撮影条件を解析して、失敗撮影記録部分をスキップするようにしたり、（２）記録撮影画像データを解析して失敗撮影記録部分を判定し、失敗撮影記録部分をスキップするようにしたりする方法も提案されている（例えば、特許文献１参照）。

さらに、撮影装置（ビデオカメラ）の撮像素子からの撮影画像データをデータ圧縮して、記録媒体に記録するときに、撮像素子による撮影中に、画像の撮影が失敗であるか否かを判別するための失敗判別用情報を取得手段により取得し、取得手段により取得した失敗判別用情報を、対応する撮影画像データが圧縮手段で圧縮された圧縮画像データに関連させて記録媒体に記録する。このようにすることにより、再生時に解析処理をしなくても簡単に失敗画像をスキップして再生することが可能なビデオカメラおよび映像データ処理方法が提案されている（例えば、特許文献２参照）。
特開２００３−０７８８５９号公報特開２００６−１９７４２８号公報

しかしながら、上述したＯＫ／ＮＧの識別信号をメタデータとして、画像データとともに記録媒体に入力し、ビデオカメラの制御部がＯＫ／ＮＧの識別信号に基づいて、不要の画像部分をスキップして再生、編集記録を行うビデオカメラの場合、画像記録の際に、撮影された画像が「ＯＫ」か「ＮＧ」かを、ユーザが選択操作入力する必要がある。したがって、操作が煩雑であるのみならず、編集記録後のデータには「ＮＧ」とされた画像のデータが含まれないため、後で「ＮＧ」とされた画像を再生したい場合が生じたとしても、それを再生することができないことになる。

また、特許文献１の方法では、再生時に、撮影条件情報を解析したり、再生画像自身を解析したりして、再生時にスキップをする再生画像を決定する必要があって再生装置側での処理の負担が大きい。また、撮影条件情報の解析結果や再生画像情報の解析結果から、スキップする画像が決定されてしまうために、例えば、ユーザが、若干の失敗があっても画像の再生をしたい画像部分が存在しても、そのようなユーザの意思が反映されないという問題が残されていた。

さらに、特許文献２の方法では、確かに再生時に解析処理をしなくても簡単に失敗画像をスキップして再生することができるが、失敗画像か否かを決定する条件が常に一定であるため、撮影モードによっては問題を起こす場合がある。例えば、明るい昼間撮影モードでの失敗画像の条件をそのままローライト撮影モードに適用すると本来失敗ではない良好な画像まで失敗画像として認識してしまうなどである。

本発明は上述した課題を解決するためになされたものであり、デジタルカメラやホームビデオカメラを用いて被写体を撮影・記録して映像コンテンツを作成する際に、撮影環境によらず失敗画像や重要画像を適切に選択して再生できるコンテンツ撮影装置を提供することを目的とする。

上記目的を達成するため本発明のコンテンツ撮影装置は、撮影環境に応じて撮影モードを設定することができる撮影モード設定手段を備え、撮影した画像データを記録メディアに記録するコンテンツ撮影装置において、撮影中に撮影条件データを取得する撮影条件データ取得手段と、撮影条件ごとに連続した時空間で特定の意味をもつ最小の撮影単位として判定される撮影シーンの撮影状態を判定するための判定基準値を設定する判定基準値設定手段と、撮影条件データと判定基準値とを比較する比較手段と、比較結果に基づいて、撮影シーンを重要シーンまたは不要シーンまたは特徴のあるシーンとして表すインデックスを生成するインデックス生成手段と、インデックスごとに優先度を設定する優先度設定手段と、画像データとともにインデックスを記録メディアへ記録するインデックス記録手段と、撮影モードごとに、少なくとも判定基準および優先度のいずれか１つを変更することを特徴とする。これにより、デジタルカメラやホームビデオカメラを用いて被写体を撮影・記録して映像コンテンツを作成する際に、撮影環境によらず失敗画像や重要画像を適切に選択して再生できる。

また本発明のコンテンツ撮影装置では、撮影条件は、手ぶれ、早いパン、早いティルト、逆光、ピンボケ、低照度、地面撮り、顔のうちのいずれかの検出結果を含んでもよい。これにより、撮影環境によらず失敗画像や重要画像を適切に選択して再生できる。

また本発明のコンテンツ撮影装置では、インデックスの優先度を用いて撮影シーンより特定シーンを再生するプレイリスト作成手段を具備してもよい。これにより、最適な条件でプレイリストを作成できる。

また本発明のコンテンツ撮影装置では、撮影モード設定手段は設定モードとして通常撮影モードとローライト撮影モードを含み、通常撮影モード時に、撮影映像の特定部の信号レベルにあらかじめ設定した演算処理を行った信号レベルが事前に設定された第１の閾値よりも小さくなった撮影期間を不要シーンとし、かつ、ローライト撮影モード時に、撮影映像の特定部の信号レベルにあらかじめ設定した演算処理を行った信号レベルが事前に設定された第２の閾値よりも小さくなった撮影期間を不要シーンと設定する手段と、通常撮影モード時に、撮影映像の特定部の信号レベルにあらかじめ設定した演算処理を行った信号レベルが、第１の閾値よりも大きな、事前に設定された第３の閾値よりも小さくなった場合に、ローライトモードへの移行推奨信号を発生するローライトモード移行アシスト手段と、ローライトモード時に、撮影映像の特定部の信号レベルにあらかじめ設定した演算処理を行った信号レベルが、第１の閾値よりも大きな、事前に設定された第４の閾値よりも大きくなった場合に、通常撮影モードへの移行推奨信号を発生する通常撮影モード移行アシスト手段とを具備してもよい。これにより、撮影を失敗する前に撮影モードを切り替えることができるのでカメラの使い勝手が向上する。

また本発明のコンテンツ撮影装置では、１つのプレイリストに含まれる最大クリップ数をＮ個、最大インデックス数をＭ個に制限し、不要シーンのインデックス数がＫ個、重要シーンのインデックス数がＬ個の場合、撮影中にインデックス数（Ｋ＋Ｌ）個がＭ個を超えるか、クリップ数がＮ個になった場合には、新しいプレイリストを生成してもよい。これにより、プレイリストの管理が容易になるとともに、再生レスポンスも向上させることができる。

また本発明のコンテンツ撮影装置では、インデックス数（Ｋ＋Ｌ）個がＭ個を超えた場合は、最新の撮影クリップは新しいプレイリストに記録することが好ましい。これにより、プレイリストの管理が容易となる。

また本発明のコンテンツ撮影装置では、インデックスがプレイリストの最後に配置された構成において、プレイリストを少なくとも２つの異なるプレイリストに分割する場合には、分割されたプレイリストに対応するインデックスのみを分割後のそれぞれのプレイリストの最後に配置してもよい。これにより、分割コンテンツプレイリスト（ＣＰＬ）ごとに必要最小限のインデックスが付加されるため記録するデータの冗長度が小さく抑えられるとともに余分なインデックスが記録されていないのでインデックスの検索が迅速に行える。

また本発明のコンテンツ撮影装置では、インデックスがプレイリストの最後に配置された構成において、プレイリストを少なくとも２つの異なるプレイリストに分割する場合には、分割前のプレイリストのインデックスを分割後のそれぞれのプレイリストの最後に配置してもよい。これにより、インデックスを分割する必要がないのでＣＰＬ分割時の処理負荷を下げることができる。

また本発明のコンテンツ撮影装置では、クリップが分割され、かつ、不要シーンを表すインデックスが示す不要シーンの範囲とクリップ分割点が、所定の時間間隔より短い場合、その不要シーンのインデックスを無視して再生する手段を具備してもよい。これにより、再生レスポンスを向上できる。

また本発明のコンテンツ撮影装置では、クリップが分割され、かつ、重要シーンを表すインデックスや不要シーンを表すインデックスが示す範囲内にクリップ分割が発生した場合、その重要シーンに関するインデックスや不要シーンに関するインデックスを無視して再生する手段を具備してもよい。これにより、これにより、再生レスポンスを向上できる。

また本発明のコンテンツ撮影装置では、不要シーンのプレイリストまたは重要シーンのプレイリストは撮影シーンのプレイリストのディレクトリと同じディレクトリに登録しないで、専用のディレクトリに登録することが好ましい。これにより、不要シーンや重要シーンのプレイリストの検索が容易となる。

本発明によれば、デジタルカメラやホームビデオカメラを用いて被写体を撮影・記録して映像コンテンツを作成する際に、撮影環境によらず失敗画像や重要画像を適切に選択して再生できるコンテンツ撮影装置を提供することが可能となる。

以下、本発明の実施の形態について、図面を参照しながら詳しく説明する。

（実施の形態）
図１は本発明の実施の形態におけるコンテンツ撮影装置のシステムモデルの構成を概略的に示すブロック図、図２は本発明の実施の形態におけるコンテンツ撮影装置の内部構成を概略的に示すブロック図、図３は本発明の実施の形態におけるコンテンツ撮影装置で作成されるメタデータの分類例を示す図、図４は本発明の実施の形態におけるコンテンツ撮影装置におけるメタデータからシーン情報を生成する手順を流れ図的に説明するブロック図である。

図１を参照しながら、本発明の第１の実施の形態に係るコンテンツ撮影装置の動作について説明する。すなわち、コンテンツ撮影装置であるカメラ１０１の内部の記録媒体（またはバッファメモリ）上に映像データと音声データとメタデータを生成して、メタデータを参照してダイジェスト再生機能などを提供するシステムモデルの一例について説明する。

図１において、本発明の実施の形態におけるコンテンツ撮影装置のシステムでは、レンズ部１０２およびマイク１０３を備えた映像コンテンツ作成のためのカメラ１０１が、撮影対象１０４を撮影してカメラ撮影データ１０５を取り込む。なお、撮影対象１０４とは、例えば、風景、人、ペットなどの動物、車、建造物などである。カメラ撮影データ１０５には、ＡＶストリームデータファイル１０６および撮影条件データやこの撮影条件データから撮影シーンが有効シーンであるか無効シーンであるか、あるいは重要シーンであるかなどの判定結果であるインデックスなどからなるメタデータ１０７が含まれる。撮影条件データから上記有効シーン、無効シーン、重要シーンなどを判定する方法の詳しい説明については後述する。なお、カメラ１０１に用いられる撮像素子は、好ましくはＣＣＤやＣ−ＭＯＳなどの半導体素子で構成される。

なお、撮影シーンとは、連続した時空間において特定の意味をもつ映像音声の撮影期間のことである。すなわち、撮影シーンとは、映像編集で使用される時空間が連続した映像の最小単位であり、カメラを固定して撮影するフィックス期間の撮影シーンや、水平方向にパンする撮影シーンなどがある。

カメラ撮影データ１０５は、カメラ１０１で撮影されたデータシーケンスにしたがい、時間軸上に映像データと音声データとからなるＡＶストリームデータファイル１０６、およびメタデータ１０７が配置されている。メタデータ１０７はテキスト形式の文字データとして扱うが、バイナリィ形式のデータとしてもよい。そして、カメラ１０１で撮影されたカメラ撮影データ１０５は、カメラ１０１に接続可能なテレビなどの外部表示装置１１１に、後述するような不要部を削除したコンテンツやダイジェスト（また、要約コンテンツ）の形で表示可能である。このとき、カメラ１０１から外部表示装置１１１に信号を送る信号接続ケーブル１１２と外部表示装置１１１からカメラ１０１に信号を送る信号接続ケーブル１１３を用いるが、ユーザは、カメラ１０１から離れた場所でリモコン１０９を操作して、信号接続ケーブル１１２、１１３を経由してカメラ撮影データ１０５を視聴確認する。カメラで撮影され記録メディアに記録されたデータシーケンス１１４は、例えば３つのクリップＣＰ＃１、ＣＰ＃２、ＣＰ＃３から構成されており、それぞれの３つのクリップには有効シーン＃１、有効シーン＃２、有効シーン＃３が存在するとする。この場合、撮影後の編集で、この３つの有効シーンのみを集めてデータシーケンス１１５を作成して再生すれば「いいとこ撮り再生」が可能となる。このデータシーケンス１１５のように撮影コンテンツの中で再生したいシーンの開始位置（時刻）と終了位置（時刻）のデータを集めたものは一般にプレイリストと呼ばれる。図１に示した例では、外部表示装置１１１の表示画面では時間の経過を横軸に取って、それぞれのクリップを構成するシーンの有効部（有効なシーン）と無効部（失敗または無効なシーン）のうちの有効部の代表画像ＴＭ＃１、ＴＭ＃２、ＴＭ＃３が表示されている。

有効部は、例えば、
・パンやズーム後のフィックスシーン、および
・歓声や拍手などの音声で特徴付けられるシーンなどからなる。

一方、無効部は、例えば、
・カメラの揺れによる画像のぶれ（一般に、「グラグラ」）が大きいシーン、
・ピンボケのシーン、パン／ティルト／ズームが早すぎるシーン、
・逆光になって画面が真っ黒になっているシーン、
・ハウリングがあるシーン、
・地面を撮影しているシーン、および、
・カメラのキャップが閉まっているシーン
などからなる。

図１に示した例では、外部表示装置１１１のカメラ撮影データ１０５の表示において、例えば３つのクリップＣＰ＃１、ＣＰ＃２、ＣＰ＃３にある有効部＃１、＃２、＃３のそれぞれのクリップを代表するフレーム（『フレーム』に代えて『シーン』という用語を用いることもある）を代表サムネイルＴＭ＃１、ＴＭ＃２、ＴＭ＃３として画面上に表示している。この代表フレームは、それぞれのクリップの有効部の先頭フレームであってもよいし、有効部分の途中にある代表フレームで、あってもよい。また、それぞれの有効部＃１、＃２、＃３には、それぞれ優先度が付与されていて、特定の優先度のシーンだけを選択してダイジェストを生成することもできる。

カメラ撮影データ１０５にはカメラ１０１が備えるマイク１０３で記録した音声信号データが含まれるが、音声信号データは図示していないほかの内蔵されているマイクや外部接続マイクを用いて記録することもできる。外部接続マイクは、マイク１０３および内蔵されているマイクがカメラ１０１に直接取り付けられてカメラ１０１の近傍の音声を収録するのに対して、ケーブルなどでカメラ１０１に接続されてカメラ１０１のメタデータとして入力される遠方の音声を収録するのに用いられる。外部接続マイクの代わりに光センサを用いてメタデータを入力することもできる。

メタデータ１０７はクリップのタイムコード（例えば、２７ＭＨｚのクロック周波数において３２ｂｉｔで表現されるタイムコード）に関連付けられる。そして、タイムコードに関連付けられたメタデータ１０７により、有効シーンのみ集めた「いいとこ撮り再生」や重要シーンのみ集めたダイジェスト再生がタイムコードに連動して可能となる。

ここで、本明細書においては、撮影開始から撮影終了までの期間、または撮影開始から撮影ポーズまでの期間に撮影されたコンテンツをクリップと定義する。ユーザは、カメラで撮影した素材のシーケンスに基づいて、各クリップの開始位置（時刻）と終了位置（時刻）、または長さを指定して、クリップを並べ替えることができる。また、各クリップをＴＶモニタなどの外部表示装置１１１に表示する場合、そのクリップの先頭または先頭以降から最後尾に至るフレーム（またはフィールド）映像や、パンやズームの前後などにおけるフィックス画像など、あるクリップで最も特徴的なフレームを、図１に示した代表サムネイルＴＭ＃１、ＴＭ＃２、ＴＭ＃３のように、そのクリップを代表する映像として指定できる。

次に、図２を参照しながらカメラ１０１の内部構成と動作について説明する。カメラ１０１の内部には、ズーム制御部２０１、フォーカス制御部２０２、露出制御部２０３、撮像素子２０４、シャッタ速度制御部２０５、カメラマイコン２０６、絶対傾きセンサ２０７、角速度センサ２０８、前後／左右／垂直の加速度センサ２０９、ユーザ入力系２１０、カメラ信号処理部２１１、音声処理系２１２、ＡＶ信号、インデックスおよびプレイリストの記録手段２１３、記録メディア２１４、および出力インタフェース２１５が備えられている。

なお、カメラマイコン２０６は、不要シーンや重要シーンの検出を行うシーン情報生成手段（インデックス生成手段）を備える。不要シーンや重要シーンの検出は、撮像装置のパン、ティルト、ズーム、フォーカス、手ぶれ、照度、音声入力レベルなどの撮影条件データに関して、それぞれに特定の演算を行うことにより実現される。

すなわち、カメラマイコン２０６は、撮影モード設定部、タイムコード発生部、撮影条件データ取得部、判定基準値設定部、比較部、インデックス優先度設定部、インデックス生成部、プレイリスト生成部、プレイリスト検証部をソフトウエアのアルゴリズムとして内蔵している。

ここで、撮影モード設定部はユーザ入力系２１０より入力されるノーマルモード、ローライトモード、スポーツモード、ポートレートモード、スポットライトモード、サーフ＆スノーモードなどの撮影モードを設定する。これらの撮影モードは、松下電器産業株式会社製、ムービー、ＨＤＣ−ＳＤ５などに搭載されており、周知の撮影モードである。

また、タイムコード発生部は２７ＭＨｚクロックで、３２ビットのタイムコードを発生する。

撮影条件データ取得部は、図２におけるＣＷ１からＣＷ８までのカメラデータを取得し、事前に設定された演算による結果と判定基準値設定部で設定された閾値とを、比較部にて比較する。

この比較の結果の正誤によりインデックスを生成する。そして、インデックス優先度設定部において各インデックスに優先度を付加する。さらに、インデックス生成部において、複数のインデックスを発生した時系列順に入力し、代表インデックスにマージする。

そしてプレイリスト生成部は、この代表インデックスを用いてプレイリストを生成する。また、プレイリスト検証部はプレイリストに含まれるデータフォーマットの論理検証を行う。

なお、図２においては、紙面の都合上、撮影モード設定部は「ＯＰＤ」と表示され、タイムコード発生部は「ＴＣＧ」と表示され、撮影条件データ取得部は「ＣＷＩ」と表示され、判定基準値設定部は「ＡＴＳ」と表示され、比較部は「ＣＭＰ」と表示され、インデックス優先度設定部は「ＩＰＲ」と表示され、インデックス生成部は「ＳＩＧ」と表示されている。

また、図２においては、撮影モードは「ＣＭＭ」と表示され、撮影条件データは「ＣＷＤ」と表示され、判定基準値は「ＪＤＳ」と表示され、インデックスは「ＩＤＸ」と表示され、プレイリストは「ＰＬ」と表示されている。

インデックス生成部（ＳＩＧ）は、撮像装置のパン、ティルト、ズーム、フォーカス、および音声入力レベルなどの撮影条件データ（ＣＷＤ）に特定の演算を行うことによって無効シーンや重要シーンの検出を行い、シーンのインデックスを生成する。

なお、撮影モードの設定は撮影者が手動で行うこともできるし、撮影状況を自動で判別する自動シーンモード設定、自動露出、オートフォーカスを搭載し、自動的に撮影モード情報を設定することもできる。

ズーム制御部２０１はレンズ部１０２のズーム動作を制御する。フォーカス制御部２０２は、レンズ部１０２のフォーカス動作を制御する。露出制御部２０３はレンズ部１０２の露出調整動作を制御する。シャッタ速度制御部２０５は撮像素子２０４のシャッタ速度調整動作を制御する。絶対傾きセンサ２０７はカメラ１０１の水平／垂直方向の絶対傾きを検出する。角速度センサ２０８は、カメラ１０１の水平／垂直方向の角速度を検出する。加速度センサ２０９はカメラ１０１の前後／左右／垂直の加速度を検出する。

ユーザ入力系２１０は、ボタンなどでユーザの操作を受け付けて指示信号を生成する。音声処理系２１２は、内蔵マイク、外部マイクとともにマイク１０３からの入力を受け付ける。

撮像素子２０４の動作パラメータとして、３原色点の色度空間情報、白色の座標、および３原色のうち少なくとも２つのゲイン情報、色温度情報、ΔＵＶ（デルタｕｖ）、および３原色または輝度信号のガンマ情報の少なくとも１つの撮像素子動作データなどがメタデータとして取り扱われる。

レンズのズーム情報、レンズのフォーカス情報、レンズの露出情報、撮像素子のシャッタ速度情報、水平／垂直方向の絶対傾き情報、水平／垂直方向の角速度情報、前後／左右／垂直の加速度情報、３原色点の色度空間情報、３原色のうちＲ（赤）とＢ（青）のゲイン情報、およびＧ（緑）のガンマカーブ情報は、カメラマイコン２０６においてメタデータ１０７（カメラメタと呼ぶ）として取り扱われる。

撮像素子２０４で撮影された情報（画像のデータ）は、カメラ信号処理部２１１による画素単位あるいは複数の画素により構成されるブロック単位で画素欠陥補正やガンマ補正などの処理を経て、Ｈ．２６４方式エンコーダ２１３で圧縮された後に、前述のカメラメタとともに記録メディア２１４に蓄積される。また、Ｈ．２６４方式エンコーダ２１３のＡＶ出力と、カメラマイコン２０６のカメラメタ出力は、出力インタフェース２１５より、それぞれ出力される。

次に、図３を参照しながらムービーカメラにおいて作成されるメタデータについて説明する。Ｈ．２６４ストリームのＳＥＩにマッピングされるリアルタイムメタデータの例としては、例えば、ムービーなどのカメラで撮影したＡＶコンテンツに関連付けたメタデータなどがある。カメラで撮影したＡＶコンテンツに関連付けたメタデータとして、例えば、
・撮影条件データ
があるが、この撮影条件データには、撮像素子の動作モード、逆光補正、絞り・露出情報、フォーカス、シャッタ速度情報、色温度、ホワイトバランス、ズーム、仰角、地面撮影、グラグラした揺れ、グラグラ、パン／ティルト／ズーム（ＰＴＺと略す）の状態、ハウリングの状態、カメラのキャップ閉まり状態、およびカメラの姿勢状態（水平／垂直方向の絶対傾き情報、水平／垂直方向の角速度情報、前後／左右／垂直の加速度情報など）が含まれる。

ほかに、リアルタイムメタデータとしては、
・タイムコード（映像フレーム、音声フレーム）
・撮影フレームレート、記録フレームレートなどの映像や音声のフォーマット情報
などがある。

次に、図４を参照しながら、実施の一形態として映像圧縮方式（Ｈ．２６４／ＡＶＣ方式）および音声圧縮方式（ＡＡＣ方式）における以下の３つの方法について説明する。

・リアルタイムメタデータのマッピング方法
・リアルタイムメタデータから不要シーン検出
・重要シーンの検出を行い、そのシーン情報（シーンのインデックス、タグ、または、メタデータと呼ばれる）のマッピング方法
図４は、図１におけるカメラ１０１内部のＡＶ信号圧縮記録制御部における映像と音声の圧縮エンジンとその周辺処理手段のより詳細な説明図である。図４において、映像と音声の圧縮エンジンの主要部は映像符号化部４０１、ＶＣＬ（ＶｉｄｅｏＣｏｄｉｎｇＬａｙｅｒ）−ＮＡＬ（ＮｅｔｗｏｒｋＡｂｓｔｒａｃｔｉｏｎＬａｙｅｒ）ユニットバッファ４０２、シーン情報のメタデータ生成手段４０９、ＡＡＣ方式による音声符号化部４０３、ｎｏｎ−ＶＣＬ−ＮＡＬユニットバッファ４０７などから構成されている。これらに加えて、ＰＳ（ＰａｒａｍｅｔｅｒＳｅｔ）バッファ４０４、ＶＵＩ（ＶｉｄｅｏＵｓａｂｉｌｉｔｙＩｎｆｏｒｍａｔｉｏｎ）バッファ４０５、ＳＥＩ（ＳｕｐｐｌｅｍｅｎｔａｌＥｎｈａｍｃｅｍｅｎｔＩｎｆｏｒｍａｔｉｏｎ）バッファ４０６、顔・人物検出手段４０８が含まれるほか、シーン情報のメタデータ生成手段４０９は、内部にハウリング検出手段４１０、不要シーン検出手段４１１、重要シーン検出手段４１２、リアルタイムデータ／選択マッピング手段４１３およびカメラワーク統計処理手段４１４を含んでおり、ＰｌａｙＬｉｓｔ４１５が出力される。

図４に示すように、映像信号は映像符号化部４０１によってＶＣＬ−ＮＡＬユニット形式のデータに変換された後に、ＶＣＬ−ＮＡＬユニットバッファ４０２によって一時保持される。音声信号、外部入力ＰＳデータおよび外部入力ＶＵＩデータは、音声符号化部４０３、ＰＳバッファ４０４、およびＶＵＩバッファ４０５によってそれぞれｎｏｎ−ＶＣＬ−ＮＡＬユニット形式のデータに変換された後に、ｎｏｎ−ＶＣＬ−ＮＡＬユニットバッファ４０７で一時保持される。同様に、撮像装置のパン、ティルト、ズーム、フォーカス、音声入力レベル（指定ｃｈの一定期間における入力レベルの最大値）などのリアルタイム系メタデータは、Ｈ．２６４／ＡＶＣのＳＥＩのｕｓｅｒｄａｔａｕｎｒｅｇｉｓｔｅｒｅｄＳＥＩｍｅｓｓａｇｅにマッピングされた後に、さらにＳＥＩバッファ４０６によって、ｎｏｎ−ＶＣＬ−ＮＡＬユニット形式のデータに変換され、ｎｏｎ−ＶＣＬ−ＮＡＬユニットバッファ４０７で一時保持される。

映像信号（４ａ）は映像符号化部４０１、および顔・人物検出手段４０８に入力される。顔・人物検出手段４０８は、人の顔の位置／大きさ／数を検出して検出データ（４ｑ）をシーン情報のメタデータ生成手段４０９に出力する。音声信号（４ｂ）は、音声符号化部４０３、および、シーン情報のメタデータ生成手段４０９に入力される。また、外部入力ＰＳデータ（４ｃ）、外部入力ＶＵＩデータ（４ｄ）、タイムコード（４ｅ）、撮影／記録フレームレート（４ｆ）、ユーザが操作ボタンを押した時刻データ（４ｇ）、逆光補正／絞りデータ（４ｈ）、色温度／ホワイトバランスデータ（４ｉ）、フォーカスデータ（４ｊ）、ズームデータ（４ｋ）、ジャイロセンサのヨー／ロール／ピッチのデータ（４ｍ）、仰角／地面撮り検出データ（４ｎ）、カメラのレンズキャップの閉まり具合の状態データ（４ｐ）が、それぞれ、シーン情報のメタデータ生成手段４０９に入力される。

シーン情報のメタデータ生成手段４０９は内部にハウリング検出手段４１０、不要シーン検出手段４１１、重要シーン検出手段４１２、リアルタイムデータ選択／マッピング手段４１３を備えている。ハウリング検出手段４１０は音声信号（４ｂ）に基づいて、ハウリングを検出する。

次に、図１〜図４を用いて説明したコンテンツ撮影装置で撮影したカメラ撮影データにおける不要シーン検出例について説明する。図４に示したようにシーン情報のメタデータ生成手段４０９に含まれる不要シーン検出手段４１１は、図５に例を示すように、不要シーンのメタデータ（ＵＡ、ＵＢ、ＵＣ、ＵＤ、ＵＥ、ＵＦ、ＵＧ）を検出することができる。この不要シーンのメタデータをここでは不要シーンインデックスと呼ぶ。

ここで、それぞれの不要シーンインデックスには、以下に示すものがあり、
ＵＡは、カメラのキャップが閉まっている状態を表し、
ＵＢは、カメラの揺れ、グラグラが大きい状態を表し、
ＵＣは、フォーカスが合わないで、ピンボケになっている状態を表し、
ＵＤは、パン／ティルト／ズームが早すぎる状態を表し、
ＵＥは、逆光になっている状態を表し、
ＵＦは、低照度である状態を表し、そして
ＵＧは、地面を撮影している状態
をそれぞれ表す。

上述の不要シーンインデックスは撮影時に取得した撮影条件データをあらかじめ定めた閾値と比較して決定する。例えば、照度を例に説明すると、撮影前にあらかじめ照度の閾値を、例えば２０ルクスと決めておき、撮影時に検出された照度が２０ルクスよりも低い場合は、異常な画像と判定して不要シーンインデックスを設定する。一方、撮影時の照度が２０ルクス以上であれば成功画像と判定して不要シーンインデックスは設定しない。

不要シーンインデックスが表す異常状態の画像は、一般常識的な感性や感情をもった人であれば、ほぼ万国共通に不要シーンと認識されるものである。これは、受け入れがたいものに対する価値観は、一般に人の生理的な知覚、認知メカニズムに基づくところが多く、ほぼ万国共通である。具体的には、メタデータＵＡ、ＵＢ、ＵＣ、ＵＤ、ＵＥ、ＵＦ、およびＵＧは、それぞれ、優先度（ポイント）として、例えば、ＵＡ（５０点）、ＵＢ（４０点）、ＵＣ（２５点）、ＵＤ（２０点）、ＵＥ（４０点）、ＵＦ（３５点）、ＵＧ（２５点）のように重み付けをして扱われる。

図５において、不要シーンの選択アルゴリズムとしては、単一で扱うだけでなく、複数の不要シーンの間隔が映像フレームで６０フレーム以内の場合には１つの連続した不要シーン（統合不要シーンと呼ぶ場合もある）としてまとめて扱うアルゴリズムを用いる。すなわち、「不要シーン区間の定義式」として、（単一不要シーン区間）＋（間隔が６０フレーム以内の複数の不要シーン区間）が規定できる。

なお、複数の不要シーンの間隔が６０フレーム以内の場合に、これらの複数の不要シーンを１つの不要シーン、すなわち統合不要シーンとして扱う理由は、６０フレーム以内で途切れ途切れの映像を繋げると、忙しくて落ち着かない映像になるからである。

なお、不要シーンの数はクリップ長やコンテンツ長に応じて、あらかじめ決めておくこともできる。例えば不要シーンは、１クリップあたり３個と決めることができる。このように１クリップあたりの不要シーン数に制限がある場合には、不要シーンがこの制限を超えた場合に、不要シーンの数をこの制限数に絞り込むためのルールが必要となる。

ここで、この不要シーン絞込みルールについて説明する。それぞれの不要シーンについて総合得点ＳＢを定義する。この総合得点ＳＢは上述した個別の不要シーンごとにその持続期間と優先度の積を統合不要シーン期間に含まれる全不要シーンにわたって積算したものとする。すなわち、例えば、図５においては１クリップの中に統合不要シーン１〜４の４つの統合不要シーンが存在するが、例えば、統合不要シーン１の総合得点ＳＢ１は下記の式で表される。

ＳＢ１＝５０×ＴＡ＋４０×ＴＥ＋３０×ＴＢ＋２０×ＴＤ（式１）
上記の方法ですべての統合不要シーンの総合得点を計算することにより、統合不要シーンの順番を付けることができる。（式１）において、ＴＡ、ＴＥ、ＴＢ、ＴＤは統合不要シーン１内の不要シーンインデックスＵＡ、ＵＥ、ＵＢ、ＵＤに対応する個別不要シーンの持続期間である。この総合得点順にしたがって、例えば上位３個の統合不要シーンを選択して、残りの不要シーン３をコンテンツプレイリストから外すことが可能となる。なお、不要シーンの持続時間については、実際の持続時間の代わりに図６に示すような持続時間に対応した係数を用いてもよい。

ところで、デジタルカメラやムービーカメラには撮影環境が変わっても、その環境に最適な条件で撮影をするために、撮影モードを撮影時ごとに設定できるようにしてある。例えば、昼間のように照度が十分な状態で撮影する場合は通常撮影モードを使用し、夜間のように照度が不足する場合は絞りを通常より開いたり、シャッタ速度を遅くしたりして周囲の照度不足を補うために設けたローライト撮影モードを使用するなどである。

本発明の特徴は、例えば、不要シーンか否かを判定する条件を上記撮影モードによって変更することである。この判定条件の変更は２つのステップで実施される。

まず、不要シーン判定のための上記閾値を撮影モードによって変更することである。例えば、上述した例で言えば照度に関する不要シーンの判定基準（閾値）をローライト撮影モードの場合は、通常撮影モードの場合より低く設定する。これは、夜間撮影の場合は、多少暗くても成功画像として判定する必要があるためである。図７は撮影モードと閾値の関係を照度を例にして示したものである。図７に示すように、低照度として不要シーンと判定する閾値として、通常撮影モードは２０ルクスとするが、ローライト撮影モードの閾値は１０ルクスとしている。このように、閾値を変更することにより、それぞれの撮影モードごとに不要シーンの判定を最適に行うことができる。

次は、不要シーンごとの優先度（ポイント）の変更である。図８に、撮影モードが通常撮影モード、ローライト撮影モードにおける撮影コンテンツの不要シーンの総合得点を計算するのに用いられる、不要シーンインデックスＵＡ、ＵＢ、ＵＣ、ＵＤ、ＵＥ、ＵＦ、ＵＧに対する優先度（ポイント）の例を示す。図８において、例えば手ぶれ（ＵＢ）、ピンボケ（ＵＣ）、パン／ティルト（ＵＤ）、低照度（ＵＦ）の各項目でローライト撮影モードの方が通常撮影モードより優先度が低い値になっている。まず、手ぶれに関しては、ローライト撮影モードでは露光時間を長くするためにある程度の手ぶれは避けられないためである。また、ピンボケやパン／ティルトの早すぎに関しては、全体に画像が暗くなり、多少のボケや動きは目立たないからである。さらに低照度に関しては、もともとローライト撮影モードは夜間撮影の場合に設定される撮影モードであり、ある程度明るさを犠牲にせざるを得ないなどの理由からである。

このように、撮影モード（撮影環境）ごとに撮影条件データの閾値および不要シーンインデックスの優先度を変更することにより、最適な条件で不要シーンを判定でき、コンテンツプレイリストの作成が可能となる。

なお、上記低照度の閾値の付近で撮影モード変更の警告を出し、低照度による失敗撮影を回避することができる。例えば、
（１）通常モードで撮影中に、照度が１００ルクス（ＬＡ）に下がった場合に、撮影モードをローライト撮影モードに変更するような警告を出す。

（２）通常モードで撮影中に、照度が５０ルクス（ＬＢ）に下がった場合に、低照度のため、撮影が失敗状態である判定する。

（３）また、ローライト撮影モードで撮影中に、照度が４０ルクス（ＬＣ）に下がった場合に、撮影環境が暗いためライト点灯の警告を出す。

（４）また、ローライト撮影モードで撮影中に、照度が２０ルクス（ＬＤ）に下がった場合に、撮影環境が暗いため、撮影が失敗状態である判定する。

（５）また、ローライト撮影モードで撮影中に、照度が１５０ルクス（ＬＥ）に以上に上がった場合に、撮影環境が暗いため、撮影が失敗状態である判定する。
のような動作モードを導入することにより、撮影を失敗する前に撮影モードを切り替えることがきるのでカメラの使い勝手が向上する。

さらに、上記（１）のＬＡと（５）のＬＥのように、撮影モード変更の値にヒステリシスをもたせてもよい。

次に、重要シーン検出例について説明する。図４に示したシーン情報のメタデータ生成手段４０９に備わる重要シーン検出手段４１２は、図９に示す重要シーンのメタデータ（Ａ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆ）を以下に説明するように検出する。

メタデータ（Ａ）に関しては、クリップのはじめ（ＣＬＩＰ−ＩＮ）、または、クリップのおわり（ＣＬＩＰ−ＯＵＴ）における、１〜３秒のフィックス部分を重要部分として抽出するアルゴリズムを作成できる。例えば、これを１００点とする。

メタデータ（Ｂ）に関しては、音検出のメタデータ１０７（メインマイクやサブマイクらの音声、ピストル発射昔、歓声などの入力を検出したメタデータ部分）を重要部分として抽出するアルゴリズムを作成でき、例えば、これを７０点とする。

メタデータ（Ｃ）に関しては、ジャイロの出力よりカメラのパン、ティルト後のフィックス（静止）シーンを検出することができる。フィックスシーン（カメラマンが興味をもって固定映像を撮影している部分、Ｉｎｔｅｒｅｓｔ部分）を、例えば、４０点とする。

メタデータ（Ｄ）に関しては、カメラのズーム値の時間変化をモニタして、ズームアップ、ズームダウンした部分を検出することができる。より詳細には、ズームアップ、ズーダウンの前後における１〜３秒のフィックス部分を重要部分として抽出するアルゴリズムを作成できる。例えば、これを３０点とする。

メタデータ（Ｅ）に関しては、ジャイロの出力によりカメラのパン、ティルトを検出することができる。例えば、これを２５点とする。

図９に例示はしていないが、メタデータ（Ｆ）に関しては、撮像素子から得られる撮影映像を複数のブロックに分割し、各ブロックの色相、色度が、あらかじめ決めた色相、色度の範囲内にあるかどうかの情報を検出できる。例えば、これを検出ブロックの大きさと形状、および肌色度から人の顔を検出することができる。さらに、パン、ティルトやズームの後のフィックス映像の検出ブロックの形状および肌色度から人の顔をより精度良く検出することができる。例えば、これを５０点とする。

注意すべき点は、上述の状態は一般的な感性・感情をもった人でも、撮影の初心者と撮影のカメラワークに慣れた人では重要シーンとして認識するレベルが人によって少し異なる場合があり得ることである。すなわち、撮影に慣れた人には映像撮影技法に準拠したカメラワークを意識して撮影するが、初心者はそのような知識がないのでカメラワークを考えないで被写体を撮影することが往々にしてあるからである。ただ、初心者も撮影しているうちに、アドバイスを受けたり、自分できづいたりしながら、次第に一般に良いとされるカメラワークを習熟していくことが通例である。

Ａ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆはそれぞれ優先度（それぞれ、ポイントをもつ）であり、重み付けを行う。図９において重要シーンは、Ａ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆのメタデータのいずれかで表される重要シーン、もしくは、映像フレームで、Ｎを整数として、（Ｎ）フレームの窓内に存在する複数の重要シーンの中で最も優先度の高いメタデータを代表させる。

例えば、３００フレーム幅の窓を用いた場合、この窓内に存在する複数の重要シーンから、「優先度ポイントの算出式」としては、
（３００フレーム区間の窓内で最大優先度のシーンの優先度）＋（そのほかの優先シーンの優先度に一定の係数で重み付けをした値）を定義して、「複数の重要シーンの優先度」を計算することができる。最優先シーン以外の優先シーンの優先度の重み付けは、例えば０．２とする。

図９に示した例では、重要シーンの検出窓に、Ｄ（３０点）、Ｃ（４０点）、Ｅ（２５点）、Ｅ（２５点）が含まれる。そのために、優先度合計値は、
０．２×３０＋４０＋０．２×２５＋０．２×２５＝６＋４０＋５＋５
＝５６
となる。

なお、重要シーンのシーン情報としては、重要シーンを構成する最も優先度の高いメタデータ（Ａ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆ）の種別と、重要シーンの時刻と期間（重要シーンの長さ）がシーン情報の詳細記述としてプレイリストのマーカー情報（マーカースキップに使用できる）や、マーカー情報と関連付けた補助データなどに使用される。ここで、重要シーンの数はコンテンツ長に応じて、あらかじめ決めておくこともできる。また、重要シーンによるコンテンツの縮小率もあらかじめ決めておくこともできる。

例えば、図９の例では、一定期間の窓ＷＩの中で最大の優先度をもったメタデータを、ダイジェスト生成のために用いる第２のメタデータとして設定される。この場合、約８００フレームに存在する、フィックス状態を表すＩｎｔｅｒｅｓｔメタデータＣを選択する。このとき、事前に決めた規則により、このメタデータにイベントの種別、イベントの優先度、および、イベントの開始時刻と終了時期と代表時刻とをアトリビュートとして付加する。これによって、第２のメタデータとそのアトリビュートであるイベントの開始時刻と終了時刻と代表時刻を参照することにより、例えばズームアップ（３秒間）からフィックス（２秒間）までの５秒間の撮影シーンを１つのメタデータで表現することができる。そこで、このメタデータの優先度の順、あるいは、メタデータのイベントの種別を指定することによりダイジェスト映像を生成することができる。

また、このメタデータの優先度の順、あるいは、メタデータのイベントの種別（例えば、ズームアップした部分）を指定して、メタデータ位置を参照することにより、撮影コンテンツ内の意味のある部分（例えば、ズームアップした部分）へと、スキップ再生（メタデータによるスキップ再生）ができる。

なお、図９において、一定期間の窓の中で優先度をもったメタデータの合計値が、あらかじめ設定した値（例えば、２５０）を超えた場合にのみ、第２のメタデータの選択を行うように設定するモードを追加することもできる。

また、高優先度シーンの選別は、まず低優先度シーンを除外したコンテンツよりも高優先度シーンを選別することにより、より安定したシーンの選別が可能となる。例えば、ズームアップ後のフィックス部で高優先度シーンとしては有効であっても、ピンボケになっている場合があり、そのような低優先度シーンを優先的に除外できる。

同様に、ズームアップ後のフィックス部で高優先度シーンとしては有効であっても、逆光になって画面が真っ黒になっている場合があり、そのような低優先度シーンを優先的に除外できる。また、運動会のカケッコにおけるピストルの発射音が検出できていて高優先度シーンとしては有効であっても、ズームアップが早すぎたり、パンが早すぎたりして見るに耐えないシーンなどは、低優先度シーンを優先的に除外できる。

上述のように、まず第１段階として、低優先度シーンを除外した安定的に撮影されているシーンにより構成されるプレイリストを生成する。次に、第２段階として安定したシーンより高優先度シーンを選別する。例えば、第１段階で作成したプレイリストに高優先度シーンを追加して不要部のないコンテンツから重要シーンを選別する。以上の段階を経ることにより、揺れピンボケなどのない、視覚的にもより安定した、重要シーンの選別が可能となる。

なお、不要シーンのメタデータ（ＵＡ、ＵＢ、ＵＣ、ＵＤ、ＵＥ、ＵＦ、ＵＧ）は、不要というマイナスの意味をもつことから、符号にマイナスを付けて処理してもよい。ただこの場合でも、前述した不要シーンの計算アルゴリズム（複数の不要シーンを１つの不要シーンにたばねる処理）と、重要シーンの計算アルゴリズム（複数の重要シーンから代表シーンを決め、代表シーンの優先度を計算する処理）は異なる処理であり、同じアルゴリズムで実現することはできない。なお、高優先度のシーン（重要シーン）と低優先度のシーン（不要シーン）の中間の値をもつシーンは普通のシーン（一般的なシーン）であると取り扱える。

図４に示したシーン情報のメタデータ生成手段４０９に含まれるリアルタイムデータ選択／マッピング手段４１３は、前述したリアルタイムメタデータをＳＥＩにマッピングすることにより、以後、パソコンなど別の再生機器でも、このデータから不要シーンや重要シーンのシーン情報を再計算することができる。不要シーンや重要シーンのシーン情報を再計算するアルゴリズムが更新された場合に有効である。

また、図４に示したシーン情報のメタデータ生成手段４０９に含まれるカメラワーク統計処理手段４１４は、パン、ズーム、フィックスなどユーザのカメラワークモニタ、あるいは記録している。過去の一定時間、例えば過去５分間の撮影カメラワークを記録していてズームアップばかりであると、ズームダウンして全体の映像を撮影すべきことをカメラのビューファインダに表示して撮影者に知らせる。すなわちバランスのとれた撮影ができるように撮影者をアシストする。これにより、撮影コンテンツのダイジェストを生成する場合にも、ダイジェストを構成するシーンの内容を、ズームアップばかりや、パンばかり、あるいはフィックスばかりに偏らない、よりバランスの良い撮影コンテンツにできる。

ここで、図１０を参照しながら図４におけるＨ．２６４／ＡＶＣのストリームの構成、すなわちＨ．２６４／ＡＶＣ方式によるＭＰＥＧ−ＴＳデータ圧縮処理について簡単に説明する。図１０（Ａ）は、Ｈ．２６４／ＡＶＣストリームのＧＯＰ構造を示している。図１０（Ｂ）は、各ピクチャがＶＣＬおよびＮｏｎ−ＶＣＬのＮＡＬユニットによって構成されていることを示す。ＮＡＬ（ｖｉｄｅｏ）は映像のＮＡＬユニットであり、ＮＡＬ（Ａｕｄｉｏ）は音声のＮＡＬユニットであり、ＮＡＬ（ＳＥＩ）はＳＥＩのＮＡＬユニットである。ＮＡＬ（ＳＥＩ）には前述したリアルタイムメタデータを挿入できる。

なお、実験の結果から、撮像装置のパン、ティルト、レンズのズーム情報、レンズのフォーカス情報などは、ＧＯＰ構造における全ピクチャに挿入する必要はなく、２フレームごとに間引いた場合でも、タイムコードを復元できれば、通常視聴に適した速さのパン、ティルト、ズーム、フォーカスなどのカメラワークを復元できるという知見が得られている。

図１０（Ｃ）はＰＥＳパケットの構造を示し、図１０（Ｂ）に示したピクチャデータにＰＥＳパケットヘッダが付加されている。なお、ＰＥＳパケットヘッダには、ヘッダオプションとしてＭＰＥＧのＰＴＳ／ＤＴＳを含めることができる。Ｈ．２６４の観点よりは、ＰＥＳパケットを１ＡＵ（ＡｃｃｅｓｓＵｎｉｔ）として扱う。本例では、図１０（Ｄ）に示すように、ＰＥＳパケットを１８８バイトごとに分割して、ＭＰＥＧ−ＴＳパケットを生成する。図１０（Ｅ）は、ＭＰＥＧ−ＴＳパケットにタイムコードを含む４バイトのヘッダが付加して、ＡＴＳパケットを構成することを示している。

上述したようなＨ．２６４／ＡＶＣのストリームの構成により、ＶＣＬ−ＮＡＬユニットバッファ４０２から出力されたＶＣＬ−ＮＡＬユニット形式のデータと、ｎｏｎ−ＶＣＬ−ＮＡＬユニットバッファ４０７から出力されたｎｏｎ−ＶＣＬ−ＮＡＬユニット形式のデータに基づいて、図１０（Ｃ）に示すようなＭＰＥＧ−ＰＥＳパケットを生成し、図１０（Ｄ）に示すような１８８バイト長のＭＰＥＧ−ＴＳを生成する。次に、ＭＰＥＧ−ＴＳのそれぞれにタイムスタンプを含む４バイトのヘッダを付加して、図１０（Ｅ）に示すような１９２バイトのＡＴＳパケットを生成する。

このタイムスタンプは、例えば、各ＭＰＥＧ−ＴＳパケットがＡＴＳパケットを生成する処理ブロックに到着した時刻を示す。一般に、タイムスタンプのクロックは２７ＭＨｚであり、４バイトすべてをタイムスタンプとして用いる場合や、４バイトのうちの３０ビットをタイムスタンプとし、残りの２ビットはコンテンツ保護のためのフラグなどに用いる場合がある。

また、ストリームが包含する各ＧＯＰ（ＧｒｏｕｐｏｆＰｉｃｔｕｒｅ）の先頭ピクチャのＰＴＳ（ＰｒｅｓｅｎｔａｔｉｏｎＴｉｍｅＳｔａｍｐ）、および各ＧＯＰの先頭ピクチャにおける先頭ＡＴＳの連番をペアで、ＥＰ−ＭＡＰとして出力する。なおＰＴＳやＤＴＳ（ＤｅｃｏｄｅＴｉｍｅＳｔａｍｐ）はＰＥＳパケットのヘッダに含まれるので抽出は容易である。

また、各ＧＯＰの先頭ピクチャにおける先頭ＡＴＳの連番とは、ストリーム先頭のＡＴＳの連番を１とし、ストリーム先頭からのＡＴＳの個数を順次数えた番号である。各ＧＯＰの先頭ピクチャのＰＴＳとＡＴＳ連番のペアとして定義されるＥＰ−ＭＡＰは、プレイリストを用いた再生やストリーム編集の際に用いる。

次に、図１１を参照しながら、Ｈ．２６４／ＡＶＣのファイル構成例について説明する。左側の四角枠はディレクトリ構成、右側の四角枠はファイル構成であり、ＳＤカードやＤＶＤ−Ｒ、ＤＶＤ−ＲＡＭ、ＢＤ−ＲＥなどの情報記録メディア上に構成される。

そして、左側の四角枠のディレクトリ構成において、ｒｏｏｔ下には、参照ファイル（ｒｅｆｘ．ｆｉｌｅ）と、「ＰｌａｙＬｉｓｔ」、「ＣＬＩＰ」、および、「ＳＴＲＥＡＭ」ディレクトリが存在する。「ＰｌａｙＬｉｓｔ」ディレクトリ下には、プレイリスト（ファイル）である「＊．ｐｌｓ」ファイルが存在する。また、「ＣＬＩＰ」（クリップ）ディレクトリには、クリップファイルである「＊．ｃｌｐ」ファイルが存在する。「ＳＴＲＥＡＭ」ディレクトリ下にはＡＴＳ（１９２バイト）により構成されるストリームファイルである「＊．ａｔｓ」ファイルが存在する。

次に、右側の四角枠はファイル構成について説明する。インデックスファイルである参照ファイルｒｅｆｘ．ｆｉｌｅでは、コンテンツのタイトル情報を管理し、複数のチャプタ情報（Ｃ＃１、Ｃ＃２、Ｃ＃３、・・・）を管理する。プレイリストは、複数の再生パート情報（ＰｌａｙＩｔｅｍ＃（ｎ）、ｎは自然数）を管理する。また、クリップファイルは、ＥＰマップをもつ。ＥＰマップはＰＴＳとストリームファイルを構成するＡＴＳパケットのＡＴＳ連番の相互対照マップテーブルであり、タイムコードとデータ位置の相互変換を行うものであり、プレイリスト再生やストリームファイル編集において不可欠なものである。上述したように、タイトルはプレイリストファイル、プレイリストファイルはクリップファイル、そして、クリップファイルはＡＴＳパケットによるストリームファイルと、それぞれ関連付けられる。

既に図３を参照しながら説明したリアルタイムメタデータは、ＳＥＩにマッピングされた後、ＡＴＳのストリームファイルに変換される。また、リアルタイムのメタデータから演算して生成したメタデータをクリップのシーン情報として、プレイリストのパート情報（上述した（ＰｌａｙＩｔｅｍ＃（ｎ））や補助エリアに付加情報としてマッピングする。すなわち、優先度をもったリストを撮影コンテンツの再生時に参照するプレイリストファイルの補助データとしてマッピングする。これにより、プレイリストファイルのデータを見るだけで、クリップのシーン情報メタデータを参照できるという大きな特徴をもつ。上記補助エリアは図１１においてプレイリストの最後のエリアＡＡである。

そこで、コンテンツの再生機器でプレイリストの付加情報を参照して不要シーンや重要シーンなど撮影コンテンツ中のイベントの開始点または代表点に即座にアクセス（スキップ）できる。また、再生時に参照するプレイリストファイルの補助データであるメタデータのリストを参照することにより、指定したイベント区間（イベントの開始点から終了点までを参照して生成したイベント区間）を順番に再生できる。

重要シーンにより構成されるダイジェストを生成する場合には、シーンの優先度の指定、またはシーン種別の指定、またはダイジェスト時間長の指定、またはダイジェストへの縮小率指定を入力するダイジェスト方式指定手段や、プレイリストの補助データであるシーンのリストを参照して、新たなプレイリストファイルを生成することもできる。

さらに、プレイリストを参照することにより、重要シーンとして指定される区間は通常再生を行い、それ以外のシーンは高速速度で再生することもできる。また、プレイリスト参照することにより、不要シーンとして指定される区間は高速再生を行い、それ以外のシーンは通常速度で再生することもできる。また、プレイリストを参照することにより、不要シーンとして指定される区間は検出した代表シーンやあらかじめ撮影して登録した静止画を３秒ずつ表示する再生を行い、それ以外のシーンは通常速度で再生することもできる。

特に、子供の音楽会などの撮影コンテンツに対しては、揺れていたりピンボケになっていたりする不要な映像は見たくないが、ピアノや合唱などの演奏は連続して聞きたいというような要望を考慮して、再生する映像は代表シーンやあらかじめ撮影して登録してある映像（青空、建物、花、子供の顔など）に切り替えて、音声のみ連続再生することもできる。

プレイリストを参照することにより、不要シーンとして指定される区間はカメラワークに起因する撮影映像の横揺れやたて揺れを取り除いた映像を生成する手段を具備し、不要シーンとして指定される区間は画像処理により画像の揺れを取り除いた映像を生成して表示する再生を行い、それ以外のシーンは通常速度で再生することもできる。

プレイリストを参照することにより、優先度があらかじめ決めた値以上のシーンまたは特定のカメラワークをもったシーンより構成されるプレイリストを新たに生成して、タイトルに登録してもよい。

プレイリストを参照することにより、各シーンの種別に応じたＢＧＭを生成して再生し、シーンの切り替わり付近でＢＧＭのメロディー、音色、テンポを変え、より芸術性、文化度の高いコンテンツの再生を行うこともできる。

次に、本発明の実施の形態におけるコンテンツ撮影装置のプレイリスト作成方法について具体的に説明する。本発明の実施の形態におけるコンテンツ撮影装置のプレイリスト作成方法では、撮影手段であるコンテンツ撮影装置の情報から、不要シーン、重要シーンのインデックスを生成し、各々に対応するプレイリストを生成することが基本になる。

本発明の実施の形態におけるコンテンツ撮影装置を含めて一般に、図１に示したように、複数のクリップで構成されるカメラ撮影データ１０５は、時間の経過を横軸に取って、それぞれのクリップの有効部（有効なシーン）と無効部（失敗または無効なシーン）が含まれる。そして、図１に示した例では、外部表示装置１１１のカメラ撮影データ１０５の表示において、例えば３つのクリップＣＰ＃１、ＣＰ＃２、ＣＰ＃３にある有効部＃１、＃２、＃３のそれぞれのクリップを代表するフレームを代表サムネイルＴＭ＃１、ＴＭ＃２、ＴＭ＃３として画面上に表示されている。この代表フレームは、それぞれのクリップの有効部の先頭フレームであってもよいし、有効部分の途中にある代表フレームであってもよいし、また、それぞれの有効部と無効部には、それぞれ優先度が付与されていて、特定の優先度のシーンだけを選択してダイジェストを生成することもできることは既に説明した。

図１２は本発明の実施の形態におけるコンテンツ撮影装置で撮影されたコンテンツに含まれるプレイリストの構成を説明する図である。図１２を参照しながら、コンテンツプレイリスト（ＣＰＬ）のクリップ数、不要シーン（インデックス）数、重要シーン（インデックス）数の関係を説明する。図１２において、１ＣＰＬはＮ個のクリップＣＰ＃１〜ＣＰ＃Ｎとリアルタイムメタデータが記録されている補助データエリアＡＡから構成されている。このＣＰＬにはＬ個の重要シーンとＫ個の不要シーンが存在し、重要シーンに対応してインデックスＪ＃１〜Ｊ＃Ｌ、不要シーンに対応してインデックスＦ＃１〜Ｆ＃Ｋが作成される。これらのインデックスは各シーンの開始および終了のタイムコードとともに補助エリアＡＡに記録される。補助エリアへ記録されるインデックスは前述した複数の撮影条件に対応したインデックスのうち、最も優先度の高いインデックスのみでもよいし、すべてのインデックスを含んでいてもよい。ここでクリップとは、既に定義したように撮影開始から撮影終了までの期間、または撮影開始から撮影ポーズまでの期間に撮影されたコンテンツのことである。１つのコンテンツプレイリスト（ＣＰＬ）に含まれるクリップ数、シーン数などが多くなりすぎると管理が大変となるばかりでなくプレイリストを解釈して再生するのに時間がかかり再生レスポンスが悪くなる。そこで、クリップ数、シーン数などには制限をつける必要がある。図１２に示すように、コンテンツプレイリスト（ＣＰＬ）に含まれる最大シーン数をＭ個（例えば９９９個）、最大クリップ数を（例えば９９個）とする。そして、１つのコンテンツプレイリスト（ＣＰＬ）にＬ個の重要シーン（インデックス）とＫ個の不要シーン（インデックス）が含まれているとした場合、１ＣＰＬ中にクリップ数がＮを超えるか、または、Ｋ＋Ｌ＞Ｍになった時点で新ＣＰＬを作成することとする。

図１３はコンテンツ撮影装置が撮影したクリップからコンテンツプレイリストを作成するフローチャートである。まず、ステップ１においてクリップ数Ｐ、不要シーンのインデックス数Ｋ、重要シーンのインデックス数Ｌの初期化および最大クリップ数Ｍａｘ（Ｐ）、最大インデックス数Ｍａｘ（Ｋ＋Ｌ）の値を設定する。コンテンツ撮影装置が記録をスタートしストップするごとにクリップ数Ｐをインクリメントする（ステップＳ２）。ステップＳ３で重要シーンを検出し、重要シーンが検出されるごとにインデックス数Ｌをインクリメントする。次に、ステップＳ４で不要シーンを検出し、不要シーンが検出されるごとにインデックス数Ｋをインクリメントする。重要シーンと不要シーンのインデックス数の合計インデックス数（Ｋ＋Ｌ）が最大値Ｍに達したか否かを判定し（ステップＳ５）、インデックス数（Ｋ＋Ｌ）が最大値Ｍに達した場合（Ｙｅｓの場合）には、この時点でＣＰＬの作成を終了し、新しいＣＰＬの作成を開始する。一方、最大値に達しない場合（Ｎｏの場合）には、次のステップＳ６に進む。ステップＳ６では、クリップ数Ｐが最大値Ｎに達したか否かを判定し、最大値に達した場合（Ｙｅｓの場合）には、この時点でＣＰＬの作成を終了し、新しいＣＰＬの作成を開始する。最大値に達しない場合（Ｎｏの場合）には、ステップＳ２に進み、次の記録モードに備える。

このようにすることにより、１ＣＰＬ中のシーン数（インデックス数）が制限を超えた場合にも新たなシーンを作成できる。また、上記ルールにしたがった機器間でプレイリストの互換性を保つことが可能となる。

また、本発明の実施の形態におけるコンテンツ撮影装置で用いるファイルの構成について、図１１を用いて説明したが、本発明の実施の形態におけるコンテンツ撮影装置で作成されるプレイリストファイルは、撮影条件データなどのメタデータの区分を明確にするために、失敗部のプレイリストまたは重要部のプレイリストをシーンのプレイリストと同ディレクトリに登録しないで、専用ディレクトリに登録することが望ましい。

次に、既に作成されているＣＰＬを分割した場合の、インデックスの記録方法について説明する。図１４および図１５はＣＰＬ分割時のインデックス記録方法の異なる２つの方法を示す。ＣＰＬはＣＰ＃１のインデックスＦ＃３とＪ＃３の間でＣＰＬ１とＣＰＬ２に分割されるものとする。第１の分割方法は、図１４に示すようにインデックスの記録されている補助エリアＡＡもＣＰＬの分割位置に対応する位置で分割して、ＣＰＬ１に対応する部分ＡＡ１をＣＰＬ１の最後に付加し、ＣＰＬ２に対応する部分ＡＡ２をＣＰＬ２の最後に付加する。ＡＡ１にはインデックスＦ＃１、Ｊ＃１、Ｆ＃２、Ｊ＃２、Ｆ＃３が記録され、ＡＡ２にはインデックスＪ＃３、Ｆ＃４、・・・、Ｊ＃Ｌ、Ｆ＃Ｋが記録される。この分割方法によれば、分割ＣＰＬごとに必要最小限のインデックスが付加されるため記録するデータの冗長度が小さく抑えられるとともに余分なインデックスが記録されていないのでインデックスの検索を迅速に行える。

第２の分割方法は、図１５に示すようにインデックスが記録されている補助エリアＡＡは分割されずにそのままＣＰＬ１およびＣＰＬ２の最後に付加する。この場合は、データの冗長度は多少増えるがインデックスを分割する必要がないのでＣＰＬ分割時の処理負荷を下げることができる。

ここで、ＣＰＬを分割した場合の再生範囲について補足する。ＣＰＬが分割された場合、不要部に関するインデックスが示す範囲とＣＬＰ分割点が、所定の時間間隔（例えば、３秒）より短い場合、その不要部に関するインデックスを無視して再生プレイリストを生成する。これにより、分割点付近での再生シーンが短く途切れることを避けることができる。

また、重要シーンに関するインデックスや不要シーンに関するインデックスが示す範囲内にＣＬＰ分割が発生した場合、その重要シーンに関するインデックスや不要シーンに関するインデックスを無視して再生プレイリストを生成する。これにより、分割点付近での再生シーンが短く途切れることを避けることができる。

以上説明したように、本発明の実施の形態におけるコンテンツ撮影装置では、撮影中に作成した不要シーンや重要シーンのインデックスを作成する際の閾値や優先度を撮影モードによって変更できるので、従来に比べ適切にこれらのシーンの選択が可能となり、失敗部のスキップ再生、重要部のダイジェスト再生をより適切に実施できる。また、１つのプレイリスト中のクリップ数およびインデックス数に制限をつけることにより、プレイリストの管理が容易になるとともに、再生レスポンスも向上させることができる。さらには、プレイリストの作成の基本的なやりかたは従来の方法を踏襲しているのでプレイリストの種類を増やしても従来機器との互換を保つことができる。

また、プレイリストを分割する場合には、分割されたプレイリストの再生に必要なインデックスを付加して新たなプレイリストを作成するので、分割プレイリストに対してもスキップ再生やダイジェスト再生を容易にできる。

本発明は、被写体を撮影・記録して映像コンテンツを作成する際に、撮影環境によらず失敗画像や重要画像を適切に選択して再生することが可能であり、デジタルカメラやホームビデオカメラなどのコンテンツ撮影装置として利用価値の高いものである。

本発明の実施の形態におけるコンテンツ撮影装置のシステムモデルの構成を概略的に示すブロック図本発明の実施の形態におけるコンテンツ撮影装置の内部構成を概略的に示すブロック図本発明の実施の形態におけるコンテンツ撮影装置で作成されるメタデータの分類例を示す図本発明の実施の形態におけるコンテンツ撮影装置のメタデータからシーン情報を生成する手順を流れ図的に説明するブロック図不要シーン情報の生成の説明図不要シーン持続時間に応じた係数の例を示す図本発明の実施の形態におけるコンテンツ撮影装置においてプレイリストのインデックスを生成する照度を検出する閾値（低照度）の例を示す図本発明の実施の形態におけるコンテンツ撮影装置においてプレイリストのインデックスを生成するための検出種別の優先度を変更するポイントの例を示す図重要シーン情報の生成の説明図Ｈ．２６４のピクチャ構造とＭＰＥＧ−ＴＳへの変換方法の説明図ディレクトリ構成とファイル構成の説明図本発明の実施の形態におけるコンテンツ撮影装置において生成するプレイリストの構成を説明する図コンテンツ撮影装置が撮影したクリップからコンテンツプレイリストを作成するフローチャートコンテンツプレイリスト分割時のインデックス記録方法の一例を示す図コンテンツプレイリスト分割時のインデックス記録方法のほかの例を示す図

符号の説明

１０１カメラ
１０２カメラのレンズ部
１０３カメラのマイク
１０４カメラの撮影対象
１０５カメラ撮影データ
１０６ＡＶストリームデータファイル
１０７メタデータ
１０９リモコン
１１１テレビ（ＴＶ）
１１２，１１３信号接続ケーブル
１１４，１１５データシーケンス
２０１ズーム制御部
２０２フォーカス制御部
２０３露出制御部
２０４撮像素子
２０５シャッタ速度制御部
２０６カメラマイコン
２０７絶対傾きセンサ
２０８角速度センサ
２０９加速度センサ
２１０ユーザ入力系
２１１カメラ信号処理部
２１２音声処理系
２１３Ｈ．２６４方式エンコーダ（ＡＶ信号、インデックスおよびプレイリストの記録手段）
２１４記録メディア
２１５出カインタフェース
４０１映像符号化部
４０２ＶＣＬ−ＮＡＬユニットバッファ
４０３音声符号化部
４０４ＰＳバッファ
４０５ＶＵＩバッファ
４０６ＳＥＩバッファ
４０７ｎｏｎ−ＶＣＬ−ＮＡＬユニットバッファ
４０８顔・人物検出手段
４０９シーン情報のメタデータ生成手段
４１０ハウリング検出手段
４１１不要シーン検出手段
４１２重要シーン検出手段
４１３リアルタイムデータ／選択マッピング手段
４１４カメラワーク統計処理手段
４１５プレイリスト（ＰｌａｙＬｉｓｔ）

Claims

撮影環境に応じて撮影モードを設定することができる撮影モード設定手段を備え、撮影した画像データを記録メディアに記録するコンテンツ撮影装置において、
撮影中に撮影条件データを取得する撮影条件データ取得手段と、
前記撮影条件に対して連続した時空間で特定の意味をもつ最小の撮影単位として判定される撮影シーンの撮影状態を判定するための判定基準値を設定する判定基準値設定手段と、
前記撮影条件データと前記判定基準値とを比較する比較手段と、
前記比較結果に基づいて、前記撮影シーンを重要シーンまたは不要シーンまたは特徴のあるシーンとして表すインデックスを生成するインデックス生成手段と、
前記インデックスごとに優先度を設定する優先度設定手段と、
前記画像データとともに前記インデックスを前記記録メディアへ記録するインデックス記録手段と、
前記撮影モードごとに、少なくとも前記判定基準値および前記優先度のいずれか１つを変更する撮影モード設定手段と、
前記インデックスの優先度を用いて前記撮影シーンより特定シーンを再生するプレイリストを作成するプレイリスト作成手段
とを具備し、
前記プレイリスト作成手段は、１つのプレイリストに含まれるインデックス数が所定の値を超えると、新しいプレイリストを生成する、
ことを特徴とするコンテンツ撮影装置。
前記プレイリスト作成手段は、１つのプレイリストに含まれるクリップ数が所定の個数になった場合には、新しいプレイリストを生成する
ことを特徴とする請求項１に記載のコンテンツ撮影装置。
インデックス数が所定の値を超えた場合は、最新の撮影クリップは新しいプレイリストに記録することを特徴とする請求項１に記載のコンテンツ撮影装置。
前記インデックスがプレイリストの最後に配置された構成において、前記プレイリストを少なくとも２つの異なるプレイリストに分割する場合には、前記分割されたプレイリストに対応するインデックスのみを前記分割後のそれぞれのプレイリストの最後に配置することを特徴とする請求項１から請求項３のいずれかに記載のコンテンツ撮影装置。
前記インデックスがプレイリストの最後に配置された構成において、前記プレイリストを少なくとも２つの異なるプレイリストに分割する場合には、前記分割前のプレイリストのインデックスを前記分割後のそれぞれのプレイリストの最後に配置することを特徴とする請求項１から請求項３のいずれかに記載のコンテンツ撮影装置。
クリップが分割され、かつ、不要シーンを表すインデックスが示す不要シーンの範囲とクリップ分割点が、所定の時間間隔より短い場合、その不要シーンのインデックスを無視して再生する手段を具備することを特徴とする請求項４または請求項５に記載のコンテンツ撮影装置。
前記クリップが分割され、かつ、重要シーンを表すインデックスや不要シーンを表すインデックスが示す範囲内にクリップ分割が発生した場合、その重要シーンに関するインデックスや不要シーンに関するインデックスを無視して再生する手段を具備することを特徴とする請求項４または請求項５に記載のコンテンツ撮影装置。
前記不要シーンのプレイリストまたは前記重要シーンのプレイリストは前記撮影シーンのプレイリストのディレクトリと同じディレクトリに登録しないで、専用のディレクトリに登録することを特徴とする請求項１に記載のコンテンツ撮影装置。