図1は、実施の形態1に係る撮像装置300の構成図である。実施の形態1に係る撮像装置300は、撮像部200および画像処理装置100を備える。撮像部200は、フレーム画像を連続的に取得し、動画像として画像処理装置100に供給する。撮像部200は、CCD(Charge Coupled Devices)センサやCMOS(Complementary Metal Oxide Semiconductor)イメージセンサなどの図示しない固体撮像素子、およびその固体撮像素子から出力される信号を処理する図示しない信号処理回路を備える。当該信号処理回路は、上記固体撮像素子から出力されるアナログの三原色信号R、G、Bを、デジタルの輝度信号Yおよび色差信号Cr、Cbに変換することができる。
画像処理装置100は、撮像部200により取得されるフレーム画像を処理する。画像処理装置100は、注目領域設定部10、解像度変換部20、符号化部30および記録部40を備える。画像処理装置100の構成は、ハードウェア的には、任意のコンピュータのCPU、メモリ、その他のLSIで実現でき、ソフトウェア的にはメモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組み合わせによっていろいろな形で実現できることは、当業者には理解されるところである。
注目領域設定部10は、撮像部200により連続的に撮像されるフレーム画像内に注目領域を設定する。撮像部200から供給されるすべてのフレーム画像について注目領域を設定してもよいし、一部のフレーム画像について注目領域を設定してもよい。後者の場合、ユーザ操作に起因して注目領域の設定が指示されている期間のみ設定してもよい。
注目領域設定部10は、設定した注目領域の画像を解像度変換部20に供給する。なお、その注目領域の画像に対し解像度変換部20による解像度変換処理が施されない場合、符号化部30に供給する。なお、注目領域設定部10の詳細は後述する。解像度変換部20の詳細も後述する。
符号化部30は、撮像部200から供給されるフレーム画像が連続した全体領域動画像と、注目領域設定部10により設定される注目領域の画像が連続した注目領域動画像を符号化する。符号化部30は、上記全体領域動画像と上記注目領域動画像を所定の規格にしたがい圧縮符号化する。たとえば、H.264/AVC、H.264/SVC、MPEG−2、またはMPEG−4などの規格にしたがい圧縮符号化する。
符号化部30は、一つのハードウェアエンコーダを用いて、全体領域動画像と注目領域動画像とを時分割に符号化してもよいし、二つのハードウェアエンコーダを用いて、全体領域動画像と注目領域動画像とを平行に符号化してもよい。前者を採用する場合、図示しないバッファを設け、全体領域動画像の符号化が終了するまで、そのバッファに注目領域動画像を一時保存し、その終了後にそのバッファから注目領域動画像を取り出して符号化することができる。
後者を採用する場合、符号化部30は、二つのハードウェアエンコーダ、すなわち第1符号化部32および第2符号化部34で構成される。第1符号化部32は、上記全体領域動画像を符号化する。第2符号化部34は、上記注目領域動画像を第1符号化部32による上記全体領域動画像の符号化と平行して、符号化する。すべてのフレーム画像から注目領域の画像を取得する場合、符号化すべき画像の枚数が、全体領域動画像と注目領域動画像とで一致するため、第1符号化部32および第2符号化部34が同期をとりながら符号化してもよい。
記録部40は、図示しない記録媒体を備え、上記全体域動画像の符号化データおよび上記注目領域動画像の符号化データを関連づけてその記録媒体に記録する。この記録媒体として、メモリカード、ハードディスク、光ディスクなどを採用することができる。なお、当該記録媒体は撮像装置300内に設置または装着されているものにかぎらず、ネットワーク上に設置されたものであってもよい。
記録部40は、全体領域動画像と注目領域動画像を合成して一つのファイルとしてもよいし、それぞれを別のファイルとしてもよい。いずれの場合も、全体領域動画像内のあるフレーム画像と、注目領域動画像内の、そのフレーム画像に対応する単位画像が関連づけられていればよい。たとえば、すべてのフレーム画像から注目領域の画像を取得する場合、全体領域動画像のフレーム画像と注目領域動画像の単位画像との対応するもの同士に、同じシリアルナンバーが付されてもよい。
図2は、実施の形態1に係る注目領域設定部10の構成図である。注目領域設定部10は、オブジェクト検出部12、オブジェクト登録部14、オブジェクト追尾部16および注目領域抽出部18を含む。オブジェクト検出部12は、フレーム画像内から特定のオブジェクトを検出する。オブジェクト登録部14は、特定のオブジェクトをオブジェクト検出部12に登録する。たとえば、撮像部200を用いて子供の顔を撮像して登録することができる。オブジェクトの例として、人物、犬や猫などのペット、自動車や電車などの移動体などが挙げられる。以下、オブジェクトが人物の場合を例に説明する。
オブジェクトとしての人物は、動画像の撮像が開始された後、フレーム画像内から最初に検出された人物であってもよいし、オブジェクト登録部14により登録された特定の人物であってもよい。前者の場合、人物全般を検出するための辞書データが用いられ、後者の場合、登録された特定の人物を検出するための辞書データが用いられる。最初に検出された人物または登録された特定の人物は、後続するフレーム画像内での追尾対象となる。
オブジェクト検出部12は、フレーム画像内の顔を検出することにより人物を特定することができる。オブジェクト検出部12は、検出した顔を含む顔領域の下方に胴体領域を設定する。胴体領域の大きさは顔領域の大きさに比例させる。また、追尾の対象とすべく、人物の全身を含む人物領域を設定してもよい。
顔検出処理は、公知の方法で行えばよく、とくに限定されるものではない。たとえば、エッジ検出法、ブースティング法、色相抽出法または肌色抽出法による顔検出方法を用いることができる。
エッジ検出法は、あらかじめ顔の大きさや濃淡値を正規化した顔画像の目、鼻、口、顔の輪郭などを含む顔領域から様々なエッジ特徴を抽出し、顔であるか否かを識別するのに有効な特徴量を統計的手法に基づき学習することにより顔識別器を構築する。なお、オブジェクト登録部14から登録される、特定の人物の顔についてはその顔画像から顔識別器を構築する。
入力画像の中から顔を検出するために、学習の際に正規化した顔サイズで入力画像の端からラスタスキャンしながら、同様な特徴量を抽出する。その特徴量から、識別器によりその領域が顔か否か判断する。特徴量には、たとえば、水平エッジ、垂直エッジ、右斜めエッジ、左斜めエッジなどを用いることができる。顔が検出されなければ、入力画像を一定の割合で縮小し、縮小後の画像に対して、上記と同様にラスタスキャンしながら顔を検索する。このような処理を繰り返すことにより、画像中から任意の大きさの顔を見つけることができる。
オブジェクト追尾部16は、オブジェクト検出部12により検出された特定のオブジェクトを後続のフレーム画像内で追尾する。また、オブジェクト追尾部16は、フレーム画像単位で追尾の成否を特定することができる。その場合、符号化部30は、上記全体領域動画像の各フレーム画像および上記注目領域動画像の各単位画像の少なくとも一方の、ヘッダ領域またはユーザの書き込みが許可されている領域(以下、ユーザ領域という)に、追尾の成否を追尾情報として付加する。なお、各フレーム画像の追尾の成否を、ピクチャヘッダ領域ではなく、シーケンスヘッダ領域またはGOP(Group Of Picture)ヘッダ領域にまとめて記述してもよい。
オブジェクト追尾部16は、特定のオブジェクトの追尾をオブジェクトの色情報に基づいて行うことができる。上述した例では、上記胴体領域の色に類似する色の領域を、後続フレーム画像内で探索することにより追尾する。なお、後続フレーム画像内での、オブジェクト検出部12による顔検出の結果を加味すれば、追尾の精度を高めることができる。
上記追尾の成否はつぎのように判定される。すなわち、オブジェクト追尾部16は、フレーム画像内に追尾すべきオブジェクトが含まれている場合、そのフレーム画像を追尾成功と判定し、フレーム画像内に追尾すべきオブジェクトが含まれていない場合、そのフレーム画像を追尾失敗と判定する。ここで、オブジェクトの追尾単位は、上記顔領域単位であってもよいし、上記人物領域単位であってもよい。
オブジェクト追尾部16は、各フレーム画像ごとに追尾の成否をフラグとして生成することができる。この場合、符号化部30は、各フレーム画像および各単位画像の少なくとも一方の、ヘッダ領域またはユーザ領域に当該フラグを上記追尾情報として記述する。
オブジェクト追尾部16は、特定のオブジェクトがフレーム画像内から外れたフレーム画像を特定することができる。その場合、符号化部30は、上記ヘッダ領域またはユーザ領域に、フレーム画像内から外れた旨を示す情報を上記追尾情報として付加する。また、オブジェクト追尾部16は、特定のオブジェクトがフレーム画像内に戻ったフレーム画像を特定することができる。その場合、符号化部30は、上記ヘッダ領域またはユーザ領域に、フレーム画像内に戻った旨を示す情報を上記追尾情報として付加する。
注目領域抽出部18は、オブジェクト検出部12により検出され、オブジェクト追尾部16により追尾される特定のオブジェクトを含む領域の画像を上記注目領域の画像として抽出する。図1では、フレーム画像が全体領域動画像用と注目領域動画像用の二系統に分岐させているため、上記注目領域の画像を抽出すると表現したが、分岐前の元のフレーム画像を基準に考えれば、そのフレーム画像内の注目領域の画像を複写していることになる。
上記注目領域は、オブジェクト全体を包含し、かつその周辺領域を含む矩形領域であってもよい。その場合、その矩形領域のアスペクト比は一定であることが好ましい。さらに、そのアスペクト比が、上記全体領域動画像のフレーム画像のアスペクト比と実質的に等しく設定されてもよい。この設定は、後述するように上記注目領域動画像の単位画像のサイズと上記全体領域動画像のフレーム画像のサイズを対応させる場合、有効である。
上記注目領域内において、オブジェクトの上方向、下方向、左方向、および右方向のそれぞれに、そのオブジェクトの大きさに対してどの程度の割合の周辺領域を確保するかは、設計者が任意に設定することができる。たとえば、上記アスペクト比を満たすように、オブジェクトの左右方向に上下方向より、そのオブジェクトの大きさに対して大きな割合の周辺領域を設定してもよい。
注目領域抽出部18は、上記特定のオブジェクトが検出されず、そのオブジェクトの追尾が失敗しているフレーム画像にも注目領域を設定し、その注目領域の画像を抽出する。注目領域抽出部18は、この注目領域を、追尾が成功していた最後のフレーム画像に設定した注目領域と同じ位置に設定してもよいし、フレーム画像内の中央の位置に設定してもよい。また、フレーム画像の全体領域を注目領域に設定してもよい。オブジェクトの追尾が失敗しているフレーム画像にも注目領域を設定することにより、全体領域動画像のフレーム画像の枚数と、注目領域動画像の単位画像の枚数を一致させることができる。
図1に戻り、解像度変換部20は、符号化部30により符号化すべき注目領域動画像の単位画像のサイズを一定にすべく、その単位画像の解像度を変換する。上記注目領域のサイズがオブジェクトの大きさに応じて変化する場合、上記注目領域動画像の単位画像のサイズも変化する。この場合、解像度変換部20は、設定されたサイズに単位画像のサイズを統一すべく、設定されたサイズより小さいサイズの単位画像についてはその単位画像を拡大し、設定されたサイズより大きいサイズの単位画像についてはその単位画像を縮小する。
解像度変換部20は、拡大すべき単位画像を空間的な画素補間処理により拡大することができる。この画素補間処理として、単純な線形補間処理やFIRフィルタを用いた補間処理を採用することができる。
また、解像度変換部20は、拡大すべき単位画像を超解像処理により拡大してもよい。超解像処理とは、微少な位置ずれを持つ複数の画像から、それら画像の解像度より高い解像度の画像を生成する技術である。超解像処理の詳細は、(青木伸著、「複数のデジタル画像データによる超解像処理」、Ricoh Technical Report No.24, NOVEMBER, 1998)などに開示されている。上述した微少な位置ずれを持つ複数の画像として、上記拡大すべき単位画像を抽出したフレーム画像に時間的に隣接するフレーム画像の、対応する位置の部分画像を用いることができる。
解像度変換部20は、縮小すべき単位画像を間引き処理により縮小することができる。具体的には、縮小率に応じてその単位画像の画素データを間引く。また、解像度変換部20は、縮小すべき単位画像をフィルタ処理により縮小してもよい。たとえば、隣接する複数の画素データの平均値を算出して、その複数の画素データを一つの画素データに変換することにより縮小する。
解像度変換部20は、符号化部30により符号化すべき全体領域動画像のフレーム画像のサイズに、上記注目領域動画像の単位画像のサイズが対応するよう、その単位画像の解像度を変換してもよい。たとえば、両者のサイズを一致または略一致させてもよい。この場合、上述した単位画像の統一すべきサイズとして、上記全体領域動画像のフレーム画像のサイズが設定されればよい。また、両者のサイズを比例関係を持つ値に設定してもよい。また、当該フレーム画像のアスペクト比が16:9、当該単位画像のアスペクト比が4:3に設定されてもよい。
図3は、実施の形態1に係る撮像部200で撮像されたフレーム画像50、全体領域動画像のフレーム画像60、注目領域動画像の単位画像70を示す図である。撮像されたフレーム画像50の解像度は、撮像部200に含まれる固体撮像素子内の受光素子の数に対応する。多数の受光素子が配列される撮像領域は、有効画素領域とその外周に手振れ補正用領域52を持つ。撮像されたフレーム画像50内には、注目領域設定部10により注目領域51が設定される。ここでは4番のゼッケンを着けているボールを蹴る瞬間の子供をオブジェクトとして認識し、そのオブジェクトを含む領域を注目領域51に設定している。
図3は、全体領域動画像のフレーム画像60および注目領域動画像の単位画像70のサイズを一致させる例を示している。いずれの画像も1080i(1920×1080ピクセル)サイズに設定される。
動画像の撮像では、画像処理の負荷を軽減するため固体撮像素子の有効画素数より少ない画素数のフレーム画像が生成されることがある。この画素数を減少させる処理は、撮像部200内の図示しない信号処理回路で実行されてもよいし、画像処理装置100内の図示しない縮小部で実行されてもよいし、その両方で実行されてもよい。画像処理装置100内で間引き処理またはフィルタ処理する場合、図1に示した画像処理装置100内の第1符号化部32の前段に縮小部25を設ける(後述する図6参照)。
以上説明したように実施の形態1によれば、関連づけられた、全体領域動画像の符号化データと注目領域動画像の符号化データを生成することができるため、特定のオブジェクトを適宜、強調的または優先的に表示可能な動画像を、煩雑な作業を経ることなく簡単に得ることができる。
また、全体領域動画像のフレーム画像のサイズと注目領域動画像の単位画像のサイズとを対応させることにより、再生表示や編集を容易にすることができる。たとえば、全体領域動画像のフレーム画像と注目領域動画像の単位画像とを適宜、切り替えながら表示する場合に、解像度の変換をする必要がない。また、全体領域動画像のフレーム画像と注目領域動画像の単位画像とを適宜、組み合わせて別の動画像を生成する場合も、解像度の変換をする必要がない。
また、注目領域動画像の各単位画像および全体領域動画像の各フレーム画像の少なくとも一方の、ヘッダ領域またはユーザ領域に、上記追尾の成否を付加することにより、再生側または編集側に有効な情報を与えることができる。活用方法の例は後述する。
図4は、実施の形態2に係る画像再生装置400の構成図である。実施の形態2に係る画像再生装置400は、撮像装置300の一機能として搭載されてもよいし、単体の機器として構成されてもよい。画像再生装置400は、画像処理部410、表示部420および操作部430を備える。
画像処理部410は、実施の形態1に係る画像処理装置100で生成された全体領域動画像の符号化データおよび注目領域動画像の符号化データを処理する。画像処理部410は、第1復号部412、第2復号部414、制御部416および切替部418を含む。
以下の説明では、全体領域動画像の各フレーム画像と注目領域動画像の各単位画像とは同期がとれており、両画像のサイズが等しいことを前提とする。また、注目領域動画像の各単位画像のヘッダ領域またはユーザ領域に、追尾の成否を示す追尾情報が付加されていることを前提とする。
第1復号部412および第2復号部414は、別々のハードウェアデコーダで構成される。第1復号部412は、全体領域動画像の符号化データを復号する。第2復号部414は、注目領域動画像の符号化データを復号する。第2復号部414は、注目領域動画像の各単位画像の追尾の成否を制御部416に供給する。
切替部418は、第1復号部412から供給される全体領域動画像の各フレーム画像と、第2復号部414から供給される注目領域動画像の各単位画像とのいずれかを優先して、表示部420に供給する。たとえば、同期がとれている、フレーム画像と単位画像とのいずれかを選択して表示部420に出力する。また、同期がとれている、フレーム画像と単位画像とのうち、優先するほうの画像のサイズを優先しないほうの画像のサイズより大きくなるよう、少なくとも一方の画像の解像度を変換した後、両方の画像を表示部420に出力する。たとえば、単位画像のほうを優先する場合、単位画像をそのまま表示部420に出力し、フレーム画像を縮小して表示部420に出力する。
制御部416は、同期がとれている、フレーム画像と単位画像とのいずれを優先するか切替部418に指定する。制御部416は、第2復号部414から受ける追尾情報を参照していずれを優先するか決定することができる。この場合、追尾が成功している単位画像の場合、その単位画像を優先し、追尾が失敗している単位画像の場合、それに対応するフレーム画像を優先するよう決定する。また、制御部416は、ユーザ操作に起因して操作部430からフレーム画像と単位画像とのいずれを優先するかを指示する指示情報を受けた場合、その指示情報に応じていずれを優先するか決定する。当該追尾情報による判定と、当該指示情報による判定を併用する場合、後者を優先させる。
表示部420は、切替部418から連続的に供給される、フレーム画像および単位画像の少なくとも一方を表示する。
図5は、実施の形態2に係る表示部420による表示例を示す図である。表示部420は、メインウインドウ80とサブウインドウ82を持つ。図5ではメインウインドウ80内にサブウインドウ82が設けられる例を描いている。表示部420は、同期がとれている、フレーム画像と単位画像のうち、優先するほうをメインウインドウ80に表示し、優先しないほうをサブウインドウ82に表示する。たとえば、上記追尾情報による優先順位の判定がなされている場合、オブジェクトの追尾が成功している場合、メインウインドウ80に単位画像を表示し、サブウインドウ82にフレーム画像を表示する。逆に、オブジェクトの追尾が失敗している場合、メインウインドウ80にフレーム画像を表示し、サブウインドウ82に単位画像を表示する。
以上説明したように実施の形態2によれば、実施の形態1により生成された、全体領域動画像の符号化データおよび注目領域動画像の符号化データを用いて、特定のオブジェクトを適宜、強調的または優先的に表示することができる。とくに、各フレーム画像ごとに追尾の成否が特定されている場合、自動的に上記単位画像を優先するか上記フレーム画像を優先するか決定することができる。
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
たとえば、実施の形態1では全体領域動画像のフレーム画像のサイズと注目領域動画像の単位画像のサイズを一致させる例を説明した。この点、変形例では全体領域動画像のフレーム画像のサイズを注目領域動画像の単位画像のサイズより小さく設定する。
図6は、実施の形態1の変形例1に係る撮像装置300の構成図である。図1に示した基本例に係る撮像装置300の画像処理装置100内に縮小部25が追加された構成である。縮小部25は、撮像部200から供給されるフレーム画像を縮小する。解像度変換部20による縮小処理と同様に、間引き処理やフィルタ処理により当該フレーム画像を縮小することができる。その際、解像度変換部20により解像度変換された後の単位画像の解像度より、低解像度のフレーム画像を生成する。これによれば、全体領域動画像のデータ量を低減することができる。オブジェクト追尾の精度が高い場合、単位画像が多く使用され、フレーム画像がほとんど使用されなくなる。この場合、全体領域動画像のフレーム画像の解像度を低下させても影響が小さいため、この変形例1を採用することが有力である。
図7は、実施の形態1の変形例2に係る撮像装置300の構成図である。実施の形態1の変形例2に係る撮像装置300は、図1に示した撮像装置300と比較し、分岐部11が追加され、注目領域設定部10が削除された構成である。分岐部11は、撮像部200により連続的に撮像されたフレーム画像内の第1領域の画像を符号化部30に出力し、当該フレーム画像内の第2領域の画像を解像度変換部20に出力する。ここで、当該第1領域は当該フレーム画像の全体領域、当該第2領域は当該フレーム画像の横方向の領域を一部省略した領域であってもよい。より具体的には、当該第1領域はアスペクト比が16:9の領域、当該第2領域はアスペクト比が4:3の領域であってもよい。
解像度変換部20は、当該第2領域の画像の解像度が当該第1領域の画像の解像度より低くなるよう、当該第2領域の画像の解像度を変換する。たとえば、当該第1領域の画像が1080i(1920×1080ピクセル)サイズに設定される場合、解像度変換部20は、当該第2領域の画像のサイズをVGA(640×480)サイズに変換する。より具体的には、横方向の領域が一部省略された1080i(1920×1080ピクセル)サイズの第2領域の画像の画素を間引いて、VGA(640×480)サイズの第2領域の画像に変換する。
符号化部30は、当該第1領域の画像が連続した第1領域動画像、および当該第2領域の画像が連続した第2領域動画像を符号化する。当該第2領域動画像は、当該第1領域動画像より低解像度で符号化されることになる。記録部40は、符号化部30により符号化された、当該第1領域動画像の符号化データおよび当該第2領域動画像の符号化データを関連づけて記録する。
図8は、実施の形態1の変形例2に係る撮像部200で撮像されたフレーム画像50、第1領域の画像61、第2領域の画像71を示す図である。フレーム画像50の手振れ補正用領域52を除く領域には、切出領域53と省略領域54とが含まれる。図8では、省略領域54が右端に設定される例を描いているが、左端に設定されてもよいし、左端と右端に分割されて設定されてもよい。分岐部11は、フレーム画像50の手振れ補正用領域52を除く領域を、第1領域の画像61として符号化部30に供給し、切出領域53の画像を解像度変換部20に供給する。解像度変換部20は、省略領域54が省略された1080i(1920×1080ピクセル)サイズの切出領域53の画像を、VGA(640×480)サイズの第2領域の画像71に変換し、符号化部30に供給する。符号化部30は、当該第1領域の画像61が連続した第1領域動画像および当該第2領域の画像71が連続した第2領域動画像を符号化する。記録部40は、当該第1領域動画像の符号化データを視聴用として保持し、当該第2領域動画像の符号化データをインターネットサイトへの投稿用として保持する。
以上説明したように変形例2によれば、一つの撮像素子から16:9のフルHD画質の動画像とSD画質の動画像を同時に圧縮符号化することができる。前者の動画像を大型ディスプレイ(たとえば、自宅の大型テレビ)での視聴用に、後者の動画像をインターネット上のWebサイトへのアップロード用に使用することができる。前者の動画像のみを圧縮符号化して記録部40に記録した場合、その動画像に対応していないインターネット上のWebサイトへアップロードする場合、その動画像の符号化データをトランスコーデックする必要がある。この点、変形例2ではこのような煩雑な処理が不要となる。
なお、変形例2では、第1領域と第2領域が異なる例を説明したが、第1領域と第2領域が同じであってもよい。その場合、内容が同じで、解像度が異なる二種類の動画像が符号化されることになる。