JP2012034128A

JP2012034128A - 画像処理装置およびそれを用いた撮像装置

Info

Publication number: JP2012034128A
Application number: JP2010171032A
Authority: JP
Inventors: Shigeyuki Okada; 茂之岡田; Hideo Hirono; 英雄廣野
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2010-07-29
Filing date: 2010-07-29
Publication date: 2012-02-16

Abstract

【課題】撮像装置で撮影された動画像の再生や編集を容易にする。
【解決手段】第１取得部１１は、記録用の動画像を撮像するための第１撮像部２１０から画像を取得する。画像符号化部４０は、第１取得部１１により取得された画像を符号化して動画像符号化データを生成する。第２取得部１２は、撮影者を撮像するための第２撮像部２２０から画像を取得する。判定部１４は、第２取得部１２により取得された画像をもとに、記録用の動画像を表示しているモニタ２３０を撮影者が見ているか否かを判定する。制御部２０は、動画像符号化データに、撮影者がモニタ２３０を見ているか否かを特定するための撮影者視線情報を関連づける。
【選択図】図２

Description

本発明は、撮像される動画像を符号化、再生、編集または保持する画像処理装置およびそれを搭載した撮像装置に関する。

近年、一般ユーザが手軽に動画像を撮影することができるデジタルムービーカメラが普及してきており、それらのなかには、フルＨＤ（high definition）（１９２０×１０８０ピクセル）画質の動画像を撮影することができるものもある。このようなデジタルムービーカメラで撮影された動画像は、様々な用途に使用される。たとえば、テレビやＰＣで鑑賞されたり、電子メールに添付して送信されたり、インターネット上の動画共有サイト、ブログサイトまたはＳＮＳ（Social Networking Service）サイトにアップロードされたりする。

特開２００９−１５３０８５号公報

本発明はこうした状況に鑑みなされたものであり、その目的は、撮像装置で撮影された動画像の再生や編集を容易にする技術を提供することにある。

本発明のある態様の画像処理装置は、記録用の動画像を撮像するための第１撮像部から画像を取得する第１取得部と、第１取得部により取得された画像を符号化して動画像符号化データを生成する画像符号化部と、撮影者を撮像するための第２撮像部から画像を取得する第２取得部と、第２取得部により取得された画像をもとに、記録用の動画像を表示しているモニタを撮影者が見ているか否かを判定する判定部と、動画像符号化データに、撮影者がモニタを見ているか否かを特定するための撮影者視線情報を関連づける付加部と、を備える。

本発明の別の態様は、撮像装置である。この装置は、上述した記録用の動画像を撮像するための第１撮像部と、撮影者を撮像するための第２撮像部と、画像処理装置と、を備える。

本発明のさらに別の態様は、画像処理装置である。この装置は、画像処理装置により生成された、撮影者視線情報が関連付けられた動画像符号化データを再生する画像処理装置であって、動画像符号化データを復号する復号部と、復号部により復号された動画像を、撮影者視線情報により特定される撮影者がモニタを見始めた位置まで頭出しして、または撮影者がモニタを見ている期間をつなぎあわせて再生するよう制御する制御部と、を備える。

本発明のさらに別の態様もまた、画像処理装置である。この装置は、画像処理装置により生成された、撮影者視線情報が関連付けられた動画像符号化データを編集する画像処理装置であって、動画像符号化データを復号する復号部と、復号部により復号された動画像のうち撮影者視線情報により特定される撮影者がモニタを見ていない期間の部分を削除、または復号部により復号された動画像に撮影者視線情報により特定される撮影者がモニタを見ていない期間を含む場合、動画像全体を削除するよう制御する制御部と、を備える。

本発明のさらに別の態様もまた、画像処理装置である。この装置は、画像処理装置により生成された、撮影者視線情報が関連付けられた動画像符号化データを保持する画像処理装置であって、複数の動画像符号化データごとに、撮影者視線情報により特定される撮影者がモニタを見ている期間と見ていない期間との比率を算出する比率算出部と、比率算出部により算出された比率が高いまたは低い順に、複数の動画像符号化データをソートするソート部と、を備える。

本発明の別の態様は、撮像装置である。この装置は、上述した画像処理装置の少なくとも一つを備える。

なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

本発明によれば、撮像装置で撮影された動画像の再生や編集を容易にすることができる。

本発明の実施の形態１に係る撮像装置の外観概略図である。本発明の実施の形態１に係る画像処理装置を搭載した撮像装置の構成図である。分岐部に入力されるフレーム画像、第１画像符号化部により符号化されるフレーム画像および第２画像符号化部により符号化されるフレーム画像の関係を示す図である。本発明の実施の形態２に係る画像処理装置を備える画像表示システムの構成図である。実施の形態２に係る制御部による頭出し再生制御を説明するための図である。実施の形態２に係る制御部によるダイジェスト再生制御を説明するための図である。実施の形態２に係る制御部による自動編集制御を説明するための図である。動作例３に係る制御部の構成を示す構成図である。図９（ａ）、（ｂ）は、実施の形態２に係る制御部によるファイルソートを説明するための図である。図１０（ａ）〜（ｃ）は、実施の形態２に係る制御部によるオートフレーミング再生処理の一例を示す図である。

図１は、本発明の実施の形態１に係る撮像装置２００の外観概略図である。当該撮像装置２００には、第１撮像部２１０、第２撮像部２２０およびモニタ２３０が設置される。第１撮像部２１０は、人物、風景、構造物（鉄道車両など）など被写体の動画像を撮影するためのメインカメラである。第２撮像部２２０は、撮影者、より具体的には撮影者の目を撮像するためのサブカメラである。モニタ（ビューワー、ファインダーともいう）２３０は、主に、第１撮像部２１０により撮像されている動画像を表示する。

第２撮像部２２０は、所謂、自分撮りをして記録するためのカメラではなく、撮影者がモニタ２３０を見ているまたは覗いているか否かを判定するためのカメラである。したがって、第２撮像部２２０により撮像された画像は基本的に記録されず、破棄される。これに対し、第１撮像部２１０は記録用の動画像を撮像するためのカメラである。

第２撮像部２２０は、撮影者がモニタ２３０を見ているか否かを判定するための画像を撮影できる位置に設置される。具体的には、撮像装置２００の撮影者による通常の平均的な持ち位置で、撮影者の顔が撮影できる位置に設置されることが好ましい。たとえば、第２撮像部２２０がモニタ２３０の周囲の辺のいずれかの位置に設置されてもよい。

撮影者がモニタ２３０を見ているか否かを判定することにより、撮影者の行動や心理状態を以下のように推測することができる。

まず、撮影者がモニタ２３０を見ている場合、以下のような推測が成り立つ。
１．現在撮影しているシーンを絶対に逃したくない（撮影ミスをしたくない）と撮影者が考えている。
２．ターゲットとすべき被写体または構図を変更している最中である。
３．ズーム倍率を変更している最中である。
４．カメラを少し動かすとターゲットがフレーム内から外れてしまうため、通常より撮影に集中している。

つぎに、撮影者がモニタ２３０を見ていない場合、以下のような推測が成り立つ。
１．撮影するつもりがない。
２．構図を変更するなどの理由から、カメラを通さずに撮影空間全体の把握に努めている。
３．ターゲットを見失い、カメラを通さずにターゲットを探している。

以下、これらの知見を前提に本発明の実施の形態１について具体的に説明する。
図２は、本発明の実施の形態１に係る画像処理装置１００を搭載した撮像装置２００の構成図である。撮像装置２００は、第１撮像部２１０、第２撮像部２２０、モニタ２３０、音声取得部２４０、操作部２５０および画像処理装置１００を備える。

第１撮像部２１０についてより具体的に説明する。第１撮像部２１０は、フレーム画像を連続的に取得し、動画像として画像処理装置１００に供給する。第１撮像部２１０は、ＣＣＤ（Charge Coupled Devices）センサやＣＭＯＳ（Complementary Metal Oxide Semiconductor）イメージセンサなどの図示しない固体撮像素子、およびその固体撮像素子から出力される信号を処理する図示しない信号処理回路を備える。当該信号処理回路は、上記固体撮像素子から出力されるアナログの三原色信号Ｒ、Ｇ、Ｂを、デジタルの輝度信号Ｙおよび色差信号Ｃｒ、Ｃｂに変換することができる。

第２撮像部２２０は、第１撮像部２１０と基本的に同じであるが、第１撮像部２１０より低スペックなものを用いることができる。なお、上述した撮影者がモニタ２３０を見ているか否かの判定を一定時間ごと（たとえば、５秒間隔）に実行する場合、第２撮像部２２０は必ずしも動画像を撮像する機能を搭載している必要はなく、その一定時間ごとに静止画を撮像できる能力があれば足りる。なお、解像度や画角についても、第２撮像部２２０は第１撮像部２１０より低スペックなものを用いてもよい。

音声取得部２４０は、外部から取得される音を電気信号に変換して、音声信号として画像処理装置１００に出力する。操作部２５０は、ユーザの指示を受け付け、その指示にもとづく制御信号を生成し、画像処理装置１００に出力する。

画像処理装置１００は、第１取得部１１、第２取得部１２、顔検出部１３、判定部１４、制御部２０、分岐部３１、解像度／画角変換部３２、画像符号化部４０、音声符号化部４５、多重化部５０、記録部５１および入出力部５２を備える。画像符号化部４０は、第１画像符号化部４１および第２画像符号化部４２を含む。

画像処理装置１００の構成は、ハードウェア的には、任意のプロセッサ、メモリ、その他のＬＳＩで実現でき、ソフトウェア的にはメモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組み合わせによっていろいろな形で実現できることは、当業者には理解されるところである。

第１取得部１１は、第１撮像部２１０から画像を取得し、分岐部３１に供給する。第２取得部１２は、第２撮像部２２０から画像を取得し、顔検出部１３に供給する。

顔検出部１３は、第２撮像部２２０により撮像されたフレーム画像内から人物の顔を検出する。顔検出部１３は既存の一般的な顔検出技術を用いることができる。たとえば、顔画像を識別するための識別器を用いて、フレーム画像内から顔画像を検出することができる。本実施の形態では、撮影者がモニタ２３０を見ているか否かを判定する必要があるため、顔検出部１３はモニタ２３０に正対している顔画像が存在するか否かを走査し、その走査結果を判定部１４に供給する。

判定部１４は、第２取得部１２により取得された画像をもとに、第１取得部により取得された記録用の動画像を表示しているモニタ２３０を撮影者が見ているか否かを判定する。具体的には、顔検出部１３から顔画像の走査結果を取得し、モニタ２３０に正対している顔画像が検出された場合、撮影者がモニタ２３０を見ていると判定し、モニタ２３０に正対している顔画像が検出されなかった場合、撮影者がモニタ２３０を見ていないと判定する。

なお、顔検出部１３ではフレーム画像を拡大および縮小しながら、走査が繰り返し実行されるため、フレーム画像内の顔画像の大きさも検出される。したがって、この顔画像の大きさをもとに、撮影者とモニタ２３０との距離を推定することができる。また、表情の真剣度を識別可能な識別器を用いれば、モニタ２３０を見ている撮影者が真剣であるかリラックスしているかを判別することもできる。また、特定の人物を撮影して生成した識別器を用いれば、その人物がモニタ２３０を見ているか否かを判定することができる。この場合、別の人物がモニタ２３０を見ていても、見ていないと判定される。

制御部２０は、判定部１４による判定結果に応じて、撮影者がモニタ２３０を見ているか否かを特定するための撮影者視線情報を生成し、画像符号化部４０により生成される動画像符号化データに付加する。

当該撮影者視線情報は、各ピクチャごとに撮影者がモニタ２３０を見ているか否かを示すフラグ情報であってもよく、各ピクチャのヘッダにそのフラグ情報が付加されてもよい。また、当該撮影者視線情報は、撮影者がモニタ２３０を見ている期間または見ていない期間を特定するための情報であってもよい。その場合、見ている状態から見ていない状態へ、見ていない状態から見ている状態に変化したピクチャのヘッダにのみ、それらの変化を示すフラグ情報が付加されてもよい。また、それぞれの見ている期間、およびそれぞれの見ていない期間を、時間情報（たとえば、ｎ秒）で表現してもよい。

なお、上述したフラグ情報および時間情報は、ピクチャのヘッダではなくシーケンスのヘッダにまとめて付加されてもよい。また、当該撮影者視線情報は、動画像符号化データと別のファイルとして生成されてもよい。

分岐部３１は、制御部２０からの制御信号による指示にしたがい、第１取得部１１から供給される動画像を第１画像符号化部４１に出力するか、解像度／画角変換部３２に出力するか、またはその両方に出力する。

解像度／画角変換部３２は、分岐部３１から入力される動画像を構成するフレーム画像の解像度および／または画角を変換することができる。たとえば、当該フレーム画像の解像度を低下させることもできるし、当該フレーム画像の中央領域を切り出し、その周辺領域を削除して画角を狭くすることもできる。また、当該フレーム画像内の画素を間引いて、解像度を低下させ、かつ画角を狭くしてもよい。解像度／画角変換部３２は、解像度および／または画角を変換させた後のフレーム画像で構成される動画像を第２画像符号化部４２に出力する。

なお、解像度／画角変換部３２と第２画像符号化部４２との間に、図示しない超解像処理部を設けてもよい。当該超解像処理部は、解像度／画角変換部３２により画角が狭く調整されたフレーム画像の解像度を超解像処理により向上させ、元のフレーム画像のサイズに復元してもよい。これにより、注目領域を抽出するために画角が狭く調整されたフレーム画像のサイズを元の解像度で元のサイズに復元することができる。

画像符号化部４０は、第１撮像部２１０により撮像される動画像を、第１画質および当該第１画質と異なる第２画質の両方で、並列的または同時に符号化することができる。すなわち、一種類の動画像をデュアルエンコードすることができる。図２では、第１画像符号化部４１が分岐部３１から入力される動画像を、第２画像符号化部４２が解像度／画角変換部３２から入力される動画像を、並列的または同時に符号化することができる。

上記第１画質の動画像と上記第２画質の動画像とは、異なる解像度および／または画角で符号化される。たとえば、上記第１画質の動画像の解像度と上記第２画質の動画像の解像度との組み合わせは、様々な組み合わせが可能である。たとえば、１９２０×１０８０ピクセルサイズ、１２８０×７２０ピクセルサイズ、６４０×４８０ピクセルサイズ、４４８×３３６ピクセルサイズおよび１９２×１０８ピクセルサイズの、任意の二つの組み合わせであってもよい。

また、上記第１画質の動画像と上記第２画質の動画像とは、異なる解像度および／または画角で符号化されるとともに、異なるフレームレートで符号化されてもよい。たとえば、６０ｆｐｓ、３０ｆｐｓおよび１５ｆｐｓの、任意の二つの組み合わせであってもよい。また、４４８×３３６ピクセルサイズまたは１９２×１０８ピクセルサイズなど、低解像度の場合、２４０ｆｐｓや６００ｆｐｓなど、高フレームレートを割り当てることも可能である。

画像符号化部４０は、当該第１画質の動画像および当該第２画質の動画像を所定の規格にしたがい圧縮符号化する。たとえば、Ｈ．２６４／ＡＶＣ、Ｈ．２６４／ＳＶＣ、ＭＰＥＧ−２、またはＭＰＥＧ−４などの規格にしたがい圧縮符号化することができる。

画像符号化部４０は、一つのハードウェアエンコーダまたは汎用プロセッサによるソフトウェア処理により、上記第１画質の動画像と上記第２画質の動画像を時分割に符号化してもよいし、二つのハードウェアエンコーダにより、当該第１画質の動画像と当該第２画質の動画像とを平行に符号化してもよい。画像符号化部４０は、符号化した、第１画質の動画像の符号化データ（符号化ストリームともいう）および第２画質の動画像の符号化データを多重化部５０に出力する。

音声符号化部４５は、音声取得部２４０から供給される音声信号を符号化する。たとえば、ＡＡＣ、ＭＰ３などの規格にしたがい圧縮符号化する。音声符号化部４５は、符号化した、音声の符号化データを多重化部５０に出力する。

多重化部５０は、第１画像符号化部４１から入力される上記第１画質の動画像の符号化データ、第２画像符号化部４２から入力される上記第２画質の動画像の符号化データ、および音声符号化部４５から入力される音声の符号化データを多重化して、一つの動画像ファイルを生成する。たとえば、ＭＰ４ファイルフォーマットにしたがった、コンテナファイルを生成することができる。当該コンテナファイルには、各符号化データのヘッダ情報、メタデータ、時刻情報などを記述したコンテナを含めることができる。復号側で当該コンテナファイルが参照されることにより、上記第１画質の動画像、上記第２画質の動画像および上記音声間の同期をとることや、ランダムアクセスすることが容易に可能となる。

記録部５１は、多重化部５０により多重化された動画像ファイルを所定の記録媒体に記録する。当該記録媒体として、内蔵メモリおよび着脱可能なリムーバブルメモリの少なくとも一方を採用することができる。たとえば、内蔵メモリとして、半導体メモリまたはハードディスクを採用することができる。また、リムーバブルメモリとして、メモリーカード、リムーバブルハードディスク、または光ディスクを採用することができる。

入出力部５２は、所定のインターフェイスを介して外部機器と通信する。たとえば、ＵＳＢケーブルでＰＣや外付けハードディスクと接続して、上記記録媒体に記録された動画像ファイルをＰＣや外付けハードディスクに転送することができる。また、Ｄ端子、Ｓ端子またはＨＤＭＩ端子でテレビと接続して、上記第１画質の動画像および上記第２画質の動画像をテレビ画面に表示させることもできる。

図３は、分岐部３１に入力されるフレーム画像Ｆ１、第１画像符号化部４１により符号化されるフレーム画像Ｆ２および第２画像符号化部４２により符号化されるフレーム画像Ｆ３の関係を示す図である。図３では、上記第１画質の動画像がＨＤ（１２８０×７２０ピクセル）サイズのフレーム画像で構成される動画像、および上記第２画質の動画像がＳＤ（６４０×４８０ピクセル）サイズのフレーム画像で構成される動画像である場合を例に説明する。この例では、分岐部３１にＨＤサイズのフレーム画像Ｆ１が入力される。

分岐部３１は、ＨＤサイズのフレーム画像Ｆ１を第１画像符号化部４１および解像度／画角変換部３２に出力する。解像度／画角変換部３２は、ＨＤサイズのフレーム画像Ｆ１をＳＤサイズのフレーム画像Ｆ３に変換する。第１画像符号化部４１は、分岐部３１から入力されたＨＤサイズのフレーム画像Ｆ１をそのまま符号化する。第２画像符号化部４２は、解像度／画角変換部３２から入力されたＳＤサイズのフレーム画像Ｆ３を符号化する。

第１画像符号化部４１により符号化される、ＨＤサイズのフレーム画像Ｆ２のアスペクト比は１６：９であり、第２画像符号化部４２により符号化される、ＳＤサイズのフレーム画像Ｆ３のアスペクト比は４：３である。ＳＤサイズのフレーム画像Ｆ３は、ＨＤサイズのフレーム画像Ｆ２の中央領域が残され、その周辺領域が削除されて生成される。

以上説明したように実施の形態１によれば、撮影者がモニタ２３０を見ているか否かを示す情報を動画像符号化データに付加することにより、復号して再生する側に有益な情報を与えることができる。なお、図２に示す画像処理装置１００では、画像符号化部４０が二つの符号化部を備える例を説明したが、画像符号化部４０が一つの符号化部を備える構成であってもよい。すなわち、画像処理装置１００で一種類の動画像符号化データのみが生成される構成であってもよい。

図４は、本発明の実施の形態２に係る画像処理装置５００を備える画像表示システム７００の構成図である。画像表示システム７００は、画像処理装置５００および表示装置６１０および操作部６２０を備える。

画像表示システム７００は、様々なハードウェア構成が可能である。たとえば、画像表示システム７００を、上述した撮像装置２００と、ケーブル接続されたテレビにより構築することができる。この場合、画像処理装置５００が撮像装置２００の制御機能、操作部６２０が撮像装置２００の操作部２５０、および表示装置６１０が当該テレビの表示機能により構築可能である。

また、画像表示システム７００を、実施の形態１に係る画像処理装置１００により生成された動画像ファイルを受信したＰＣにより構築可能である。この場合、画像処理装置５００、操作部６２０および表示装置６１０のそれぞれをＰＣの制御機能、操作機能および表示機能によりそれぞれ構築可能である。ＰＣの代わりに、携帯電話機、スマートフォン、携帯型音楽プレイヤ、ゲーム機などを用いる場合も同様である。

また、画像表示システム７００を、上述した撮像装置２００単体で構築可能である。この場合、画像処理装置５００、操作部６２０および表示装置６１０のそれぞれを撮像装置２００の制御機能、操作機能および表示機能によりそれぞれ構築可能である。当該撮像装置２００には、実施の形態１に係る画像処理装置１００も含まれる。

表示装置６１０は、画像処理装置５００から供給される動画像を表示する。操作部６２０は、ユーザの指示を受け付け、その指示にもとづく制御信号を生成し、画像処理装置５００に出力する。

実施の形態２に係る画像処理装置５００は、実施の形態１に係る画像処理装置１００により生成された、上記撮影者視線情報が関連付けられた動画像符号化データを再生、編集または保持する装置である。実施の形態２に係る画像処理装置５００は、バッファ５１０、復号部５２０、制御部５３０および記録部５４０を含む。

画像処理装置５００の構成は、ハードウェア的には、任意のプロセッサ、メモリ、その他のＬＳＩで実現でき、ソフトウェア的にはメモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組み合わせによっていろいろな形で実現できることは、当業者には理解されるところである。

バッファ５１０は、実施の形態１に係る画像処理装置１００により生成された動画像符号化データを一時記憶する。当該動画像符号化データは、画像処理装置１００内の記録部５１から入力されてもよいし、撮像装置２００および画像処理装置５００の外部に存在する外部記憶装置（たとえば、メモリーカード、外付けのハードディスクなど）から入力されてもよいし、画像処理装置５００内の記録部５４０から入力されてもよい。バッファ５１０は、上記動画像符号化データを所定のタイミングで復号部５２０に供給する。

復号部５２０は、バッファ５１０から供給される動画像符号化データを復号し、制御部５３０に供給する。記録部５４０は、主に、動画像符号化データを記録する。実施の形態１に係る画像処理装置１００により生成された、上記撮影者視線情報が関連付けられた動画像符号化データも記録することもできる。また、制御部５３０により編集された後の動画像符号化データも記録することができる。

制御部５３０は、上記撮影者視線情報が関連付けられた動画像符号化データの再生制御の編集、削除、ファイル管理など様々な処理を行うことができる。

まず、制御部５３０による動作例１について説明する。動作例１では、制御部５３０は、復号部５２０により復号された動画像を、上記撮影者視線情報により特定される撮影者がモニタ２３０を見始めた位置まで頭出しする。または、撮影者がモニタ２３０を見ている期間をつなぎあわせてダイジェスト再生するよう制御する。

図５は、実施の形態２に係る制御部５３０による頭出し再生制御を説明するための図である。図５に示す動画像は第１シーンＳ１から第１２シーンＳ１２により構成される。図５内の各コマは、各シーンの先頭のコマを示している。各コマ内に表記される「ｅ０」および「ｅ１」は、それぞれ撮影者がそのシーンを撮影する際にモニタ２３０を見ていたか否かを示す情報である。「ｅ０」が見ていなかったことを示し、「ｅ１」が見ていたことを示す。なお、こここは各シーン内では撮影者がモニタ２３０を見ていた状態および見ていなかった状態は変化しないことを前提とする。もちろん、実施の形態２に係る制御部５３０による各種処理は、フレーム単位で撮影者がモニタ２３０を見ていたか否かが切り換わる構成にも対応可能である。

図５に示す例では、第４シーンＳ４まで撮影者がそのシーンを撮影する際にモニタ２３０を見ていなかったことを示す。そこで、制御部５３０は第４シーンＳ４までを重要でないシーンと判定し、第５シーンＳ５から再生するよう制御する。

図６は、実施の形態２に係る制御部５３０によるダイジェスト再生制御を説明するための図である。図６に示す例では、第１シーンＳ１から第３シーンＳ３まで、および第７シーンＳ７から第９シーンＳ９まで撮影者がそれらのシーンを撮影する際にモニタ２３０を見ていなかったことを示している。第４シーンＳ４から第６シーンＳ６まで、および第１０シーンＳ１０から第１２シーンＳ１２まで撮影者がそれらのシーンを撮影する際にモニタ２３０を見ていたことを示している。

そこで、制御部５３０は第１シーンＳ１から第３シーンＳ３まで、および第７シーンＳ７から第９シーンＳ９までを重要でないシーンと判定し、それらのシーンをスキップし、第４シーンＳ４から第６シーンＳ６まで、および第１０シーンＳ１０から第１２シーンＳ１２までをつなぎ合わせてダイジェスト再生するよう制御する。

つぎに、制御部５３０による動作例２について説明する。動作例２では、制御部５３０は、復号部５２０により復号された動画像のうち上記撮影者視線情報により特定される撮影者がモニタ２３０を見ていない期間の部分を削除する。または復号部５２０により復号された動画像に上記撮影者視線情報により特定される撮影者がモニタ２３０を見ていない期間を含む場合、動画像全体を削除する。

図７は、実施の形態２に係る制御部５３０による自動編集制御を説明するための図である。図７に示す例では、図６に示す例と同様に、第１シーンＳ１から第３シーンＳ３まで、および第７シーンＳ７から第９シーンＳ９まで撮影者がモニタ２３０を見ていなかったことを示し、第４シーンＳ４から第６シーンＳ６まで、および第１０シーンＳ１０から第１２シーンＳ１２まで撮影者がモニタ２３０を見ていたことを示している。

そこで、制御部５３０は第１シーンＳ１から第３シーンＳ３まで、および第７シーンＳ７から第９シーンＳ９までを重要でないシーンと判定し、それらのシーンを削除する。残った第４シーンＳ４から第６シーンＳ６まで、および第１０シーンＳ１０から第１２シーンＳ１２までをつなぎ合わせることにより、新たな動画像ファイルを生成する。この動画像ファイルは、編集前に比べてデータ容量が削減される。その際、動作例２によれば、できるだけ重要なシーンが残るように編集することができる。

なお、図７に示す例では撮影者がモニタ２３０を見ていなかったシーンのみを削除したが、動画像内に撮影者がモニタ２３０を見ていなかったシーンが一つでも含まれる場合、その動画像全体を削除してもよい。複数の動画像ファイルからいずれかを削除する必要がある場合、この手法を採用することにより、比較的重要でない動画像ファイルを削除することができる。

つぎに、制御部５３０による動作例３について説明する。図８は、動作例３に係る制御部５３０の構成を示す構成図である。当該制御部５３０は、比率算出部５３２およびソート部５３４を含む。比率算出部５３２は、記録部５４０に保持される複数の動画像符号化データごとに、上記撮影者視線情報により特定される撮影者がモニタ２３０を見ている期間と見ていない期間との比率を算出する。この比率は全撮影期間に対する、撮影者がモニタ２３０を見ている期間または見ていない期間と考えてもよい。ソート部５３４は、比率算出部５３２により算出された比率が高いまたは低い順に、上記複数の動画像符号化データをソートする。

図９（ａ）、（ｂ）は、実施の形態２に係る制御部５３０によるファイルソートを説明するための図である。図９（ａ）、（ｂ）では、記録部５４０に四つの動画像ファイルが格納されていることを前提とする。図９（ａ）は、記録された時刻が古いまたは新しい順に、四つの動画像ファイルが格納されている状態を示す。この場合において、それら四つの動画像ファイルが表示装置６１０の画面に表示される際、動画像ファイル１→動画像ファイル２→動画像ファイル３→動画像ファイル４の順に表示される。

比率算出部５３２は、上記四つの動画像ファイルのそれぞれの、全撮影期間に対する撮影者がモニタ２３０を見ている期間の割合を算出する。図９（ａ）では、動画像ファイル１が７０％、動画像ファイル２が９０％、動画像ファイル３が４０％および動画像ファイル４が８０％である。

図９（ｂ）は、ソート部５３４が上記四つの動画像ファイルをソート後の状態を示す。図９（ｂ）では、上記割合が高い順に、上記四つの動画像ファイルが動画像ファイル２→動画像ファイル４→動画像ファイル１→動画像ファイル３の順にソートされる。この場合において、それら四つの動画像ファイルが表示装置６１０の画面に表示される際、動画像ファイル２→動画像ファイル４→動画像ファイル１→動画像ファイル３の順に表示される。すなわち、重要度または注目度が高いと推定される順に、動画像ファイルを表示することができる。

つぎに、制御部５３０による動作例４について説明する。動作例４では、制御部５３０は、復号部５２０により復号された動画像のうち上記撮影者視線情報により特定される撮影者がモニタ２３０を見ている期間、音量を大きくして再生し、撮影者がモニタ２３０を見ていない期間、音量を小さくして再生する。たとえば、設定されている二種類の音量のうち、前者の期間、大きなほうを選択し、後者の期間、小さいほうを選択する。

また、制御部５３０は、復号部５２０により復号された動画像のうち上記撮影者視線情報により特定される撮影者がモニタ２３０を見ている期間、第１撮像部２１０に正対する正面の音声を増幅し、正面以外の音声を低減したズームモードで再生し、撮影者がモニタ２３０を見ていない期間、方向により増幅および低減しないワイドモードで再生する。これにより、正面に写っている人物の発言をより強調した再生などが可能となる。

つぎに、制御部５３０による動作例５について説明する。動作例５では、制御部５３０は、復号部５２０により復号された動画像のうち上記撮影者視線情報により特定される撮影者がモニタ２３０を見ている期間、画面内のターゲットすべきオブジェクトが強調されるよう再生し、撮影者がモニタ２３０を見ていない期間、できるだけ撮影画像全体が表示されるよう再生する。

たとえば、制御部５３０はズーム再生することができる。撮影者がモニタ２３０を見ている期間、より望遠な画像を再生し、撮影者がモニタ２３０を見ていない期間、より広角な画像を再生する。たとえば、設定されている二種類の画角のうち、前者の期間、望遠なほうを選択し、後者の期間、広角のほうを選択する。なお、上述した実施の形態１に係る画像処理装置１００の顔検出部１３により、顔画像が検出された領域が注目領域として設定される場合であって、各フレーム画像ごとにその注目領域の位置およびサイズが特定され、その情報が動画像符号化データに付加されている場合、つぎのような処理が可能である。すなわち、制御部５３０は撮影者がモニタ２３０を見ている期間、その注目領域を再生し、撮影者がモニタ２３０を見ていない期間、全体領域を再生する。なお、注目領域は顔以外のオブジェクトを含む位置に設定されてもよい。

また、制御部５３０はオートフレーミング再生することもできる。撮影者がモニタ２３０を見ている期間、オートフレーミング再生機能をオンし、撮影者がモニタ２３０を見ていない期間、オートフレーミング再生機能をオフする。

図１０（ａ）〜（ｃ）は、実施の形態２に係る制御部５３０によるオートフレーミング再生処理の一例を示す図である。図１０（ａ）は、現在のフレーム画像Ｆ１３より二フレーム前のフレーム画像Ｆ１１を示す。図１０（ｂ）は、現在のフレーム画像Ｆ１３より一フレーム前のフレーム画像Ｆ１２を示す。図１０（ｃ）は、現在のフレーム画像Ｆ１３を示す。

図１０（ａ）〜（ｃ）では、被写体とすべき人物が右方向に動いている例を示している。トリミング領域Ｔ１〜Ｔ３は、その領域内で被写体とすべき人物が中央に位置するように、当該人物の動きに合わせて、右方向に移動していく。これらトリミング領域Ｔ１〜Ｔ３が再生領域に設定される。これにより、当該人物が中央に写った動画像を再生することができる。

以上説明したように実施の形態２によれば、撮影者がモニタ２３０を見ているか否かを示す情報を利用することにより、撮像装置２００で撮影された動画像の再生や編集を支援し、それらの手間を軽減することができる。

以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

上述した実施の形態２では、主に、画像処理装置１００により一種類の動画像符号化データが生成された場合を想定した。この点、画像処理装置１００により複数種類の動画像符号化データが生成された場合、以下のような処理が可能である。すなわち、制御部５３０は、復号部５２０により復号された動画像のうち上記撮影者視線情報により特定される撮影者がモニタ２３０を見ている期間、複数種類の動画像符号化データのうち、最も画質が高い（たとえば、ＨＤ画質）データを再生し、撮影者がモニタ２３０を見ていない期間、その画質より低い（たとえば、ＳＤ画質）データを再生する。

これにより、重要度または注目度の高いシーンを高画質で再生しながら、全体として復号部の負荷を低減することができる。

１１第１取得部、１２第２取得部、１３顔検出部、１４判定部、２０制御部、３１分岐部、３２解像度／画角変換部、４０画像符号化部、４１第１画像符号化部、４２第２画像符号化部、４５音声符号化部、５０多重化部、５１記録部、５２入出力部、１００画像処理装置、２００撮像装置、２１０第１撮像部、２２０第２撮像部、２３０モニタ、２４０音声取得部、２５０操作部、５００画像処理装置、５１０バッファ、５２０復号部、５３０制御部、５３２比率算出部、５３４ソート部、５４０記録部、６１０表示装置、６２０操作部、７００画像表示システム。

Claims

記録用の動画像を撮像するための第１撮像部から画像を取得する第１取得部と、
前記第１取得部により取得された画像を符号化して動画像符号化データを生成する画像符号化部と、
撮影者を撮像するための第２撮像部から画像を取得する第２取得部と、
前記第２取得部により取得された画像をもとに、前記記録用の動画像を表示しているモニタを前記撮影者が見ているか否かを判定する判定部と、
前記動画像符号化データに、前記撮影者が前記モニタを見ているか否かを特定するための撮影者視線情報を関連づける付加部と、
を備えることを特徴とする画像処理装置。
記録用の動画像を撮像するための第１撮像部と、
撮影者を撮像するための第２撮像部と、
請求項１に記載の画像処理装置と、
を備えることを特徴とする撮像装置。
請求項１に記載の画像処理装置により生成された、前記撮影者視線情報が関連付けられた動画像符号化データを再生する画像処理装置であって、
前記動画像符号化データを復号する復号部と、
前記復号部により復号された動画像を、前記撮影者視線情報により特定される前記撮影者が前記モニタを見始めた位置まで頭出しして、または前記撮影者が前記モニタを見ている期間をつなぎあわせて再生するよう制御する制御部と、
を備えることを特徴とする画像処理装置。
請求項１に記載の画像処理装置により生成された、前記撮影者視線情報が関連付けられた動画像符号化データを編集する画像処理装置であって、
前記動画像符号化データを復号する復号部と、
前記復号部により復号された動画像のうち前記撮影者視線情報により特定される前記撮影者が前記モニタを見ていない期間の部分を削除、または前記復号部により復号された動画像に前記撮影者視線情報により特定される前記撮影者が前記モニタを見ていない期間を含む場合、前記動画像全体を削除するよう制御する制御部と、
を備えることを特徴とする画像処理装置。
請求項１に記載の画像処理装置により生成された、前記撮影者視線情報が関連付けられた動画像符号化データを保持する画像処理装置であって、
複数の動画像符号化データごとに、前記撮影者視線情報により特定される前記撮影者が前記モニタを見ている期間と見ていない期間との比率を算出する比率算出部と、
前記比率算出部により算出された比率が高いまたは低い順に、前記複数の動画像符号化データをソートするソート部と、
を備えることを特徴とする画像処理装置。