JP6200300B2

JP6200300B2 - 画像処理装置及び方法、及び撮像装置

Info

Publication number: JP6200300B2
Application number: JP2013246678A
Authority: JP
Inventors: 小薬　弘治; 弘治小薬
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2013-11-28
Filing date: 2013-11-28
Publication date: 2017-09-20
Anticipated expiration: 2033-11-28
Also published as: JP2015106752A

Description

本発明は、画像処理装置及び方法、及び撮像装置に関し、被写体を撮影して得られた動画像の画像信号を圧縮符号化して、動画ストリームを記録媒体に記録する画像処理装置及び方法、撮像装置に関する。

カメラなどの撮影装置において、複数のマイクロレンズを配列したマイクロレンズアレイと、複数のマイクロレンズに対して複数の受光素子を有するものが知られている（例えば、特許文献１参照）。更に、光学系からの光束を、マイクロレンズを介して受光して複数の受光信号を出力する受光素子アレイを用いて、受光信号を得た際の光学系による像面のずれ量に基づいて、ピントの異なる複数の画像信号を生成する技術が知られている。

一方、ITU-T、ISO/IECなどで行われている動画像符号化の国際標準化活動では、動画像符号化方式MPEG-4 AVC/H.264 が策定されている。高解像度且つ高品質な映像に対しての符号化方式もMPEG-4 AVC/H.264の拡張方式として規格化されている。例えば、スケーラビリティを実現する符号化Scalable Video Coding（ＳＶＣ）と、3次元映像の符号化Multiview Video Coding（ＭＶＣ）などがある。

ＭＶＣとは、複数の視点（マルチビュー）で撮影された映像において、それぞれのビューを独立して扱うよりも効率的に圧縮することができる符号化であり、MPEG-4 AVC/H.264のバージョン10で規格化されている。MVCではマルチビュー映像を、1個のベースビュー（base view）と、1個以上の非ベースビュー（non-base view）として符号化される。ＭＶＣに対応しないデコーダでもベースビューのプロファイルとレベルを満足すれば、ベースビューのみの再生は可能であり、後方互換性が維持される特徴がある。

また、撮影条件の異なる画像を動画像として記録する技術として、近傍合焦状態と遠方合焦状態で別々に動画ストリームを生成し、時間軸を合わせるためにリピート画像を挿入して、見やすい動画像を生成する技術が知られている（例えば、特許文献２参照）。

特開２０１１−９７６４５号公報特開２００９−１００１７６号公報

主被写体がカメラに対して前後に移動する撮影場面では、従来技術のような焦点距離毎の動画ストリームでは、主被写体に合焦しているシーンが複数の動画ストリームに点在してしまう。そのため、選択された一つの動画ストリームを再生すると、合焦しているシーンと、ぼけたシーンとが混在する、見づらい動画になってしまう。

本発明は上記問題点を鑑みてなされたものであり、異なる像面に合焦する複数の動画ストリームを生成可能な装置において、一つの動画ストリームを再生する場合にも見やすい動画ストリームを生成することを目的とする。

上記目的を達成するために、単位時間に撮影条件が異なる複数の画像信号を撮像可能な撮像手段から得られた画像信号を処理する画像処理装置であって、異なるタイミングで前記撮像手段から読み出された画像信号から、読み出し毎に、合焦する像面までの距離が異なる複数のフレーム画像を生成する信号処理手段と、前記複数のフレーム画像における主被写体領域を検出する検出手段と、前記読み出し毎に、前記複数のフレーム画像を、前記主被写体領域の合焦状態に応じて複数のグループに分類する分類手段と、前記分類されたフレーム画像を、グループ単位で記録する記録手段とを有する。

本発明によれば、異なる像面に合焦する複数の動画ストリームを生成可能な装置において、一つの動画ストリームを再生する場合にも見やすい動画ストリームを生成することができる。

本発明の実施形態に係る撮像装置の概略構成を示すブロック図。実施形態に係る撮像素子の受光素子とマイクロレンズアレイの構成を説明する図。実施形態に係る撮影レンズ、マイクロレンズアレイ、撮像素子の構成を説明する図。実施形態に係る撮像装置における処理の流れを示す概念図。合焦距離毎の分類による動画ストリーム生成を説明する図。第１の実施形態に係る主被写体の合焦状態に応じた分類による動画ストリーム生成を説明する図。第１の実施形態に係る分類処理を示すフローチャート。第１の実施形態に係る符号化処理を示すフローチャート。第１の実施形態に係る主被写体の合焦状態に応じた分類処理時の動画ストリームの符号化処理におけるフレーム間参照関係を示す図。第２の実施形態に係る主被写体の合焦状態と合焦距離変化に応じた分類による動画ストリーム生成を説明する図。第２の実施形態における分類処理を示すフローチャート。第３の実施形態に係る主被写体が切り替わった場合の動画ストリーム生成を説明する図。

以下、添付図面を参照して本発明を実施するための最良の形態を詳細に説明する。

＜第１の実施形態＞
図１は、本発明の実施形態に係る画像処理装置を有する撮像装置１００の概略構成を示すブロック図である。図１において、メインメモリ１０１は、ＤＲＡＭ（Dynamic Random Access Memory）により構成される（以下、「ＤＲＡＭ」と記す。）。ＤＲＡＭ１０１は、画像データや、撮像装置１００に装着されている着脱可能なメモリカード等の記録媒体３００から、Media I/F１１１を介して読み込んだ画像データ等を一時保持する。

レンズユニット１０３は、被写体からの入射光を撮像素子１０４に導くためのレンズを含む。撮像素子１０４はＣＭＯＳイメージセンサやＣＣＤイメージセンサに代表される、複数の画素からなる撮像素子である。ここで、図２及び図３を参照して、撮像素子１０４の構成について説明する。

図２は、撮像素子１０４の画素部２５０に２次元に配列された画素２００に含まれる受光素子２０１とマイクロレンズ１０２０との配置を示す図である。図２に示すように、所定数の受光素子２０１に対して１つのマイクロレンズ１０２０が対応するように配置されている。なお、本実施形態では画素２００は、５行５列の計２５個の受光素子２０１を含むものとする。ただし、各マイクロレンズに対応する受光素子の画素数はこれに限定されず、また全てのマイクロレンズ１０２０に対して同一数である必要もない。

図３は、レンズユニット１０３から出射した光が１つのマイクロレンズ１０２０を通過して撮像素子１０４で受光される様子を光軸に対して垂直方向から観察した図である。レンズユニット１０３の各瞳領域ａ１〜ａ５から出射し、マイクロレンズ１０２０を通過した光は、後方の対応する受光素子ｐ１〜ｐ５にそれぞれ結像する。

本実施形態の撮像素子１０４は、上記構成を有することにより、マイクロレンズ１０２０で瞳領域毎に分割して出射した光を、分割情報を保ったまま入射方向別に受光し、各画素２００から複数の画像信号を得ることができる。得られた画像信号はデジタルデータとして図１に示すＤＲＡＭ１０１へ一時保持される。

カメラ信号処理部１０５は、撮像素子１０４によって得られた画像信号を現像処理することで、撮像素子１０４の読み出し毎に合焦距離が異なる複数のフレーム画像を生成することができる。生成された複数のフレーム画像はＤＲＡＭ１０１へ一時保持される。

被写体検出部１０６は、カメラ信号処理部１０５によって生成されたフレーム画像から、主被写体領域を検出する。なお、本実施形態では、主被写体として顔を検出するものとする。合焦判別部１０７は、被写体検出部１０６によって検出された主被写体領域の画像信号の高周波成分を複数のフレーム画像それぞれについて数値化し、合焦状態を判別する。画像分類部１０８は、カメラ信号処理部１０５によって生成された複数のフレーム画像を、合焦判別部１０７の判別結果をもとに分類する。動画符号化部１０９は、画像分類部１０８によって分類された画像群単位で複数チャンネルの動画像ストリームを生成する。なお、被写体検出部１０６から動画符号化部１０９で行われる処理については、詳細に後述する。

パネル部１１０は、ＤＲＡＭ１０１に一時保持されているフレーム画像を読み込み、ＬＣＤ（Liquid Crystal Display）、有機ＥＬ（Organic Electro-Luminescence）等の技術を用いた表示パネルへ表示する。データバス１０２は、上述した各構成がＤＲＡＭ１０１へアクセスするためのバスである。

メインＣＰＵ１１３は撮像装置１００全体の制御を行い、制御バス１１２を介して、撮像装置１００の各構成へ制御指示を行う。

ＲＯＭ（Read Only Memory）１１５はＣＰＵ１１３で実行するプログラムを格納し、ＲＡＭ（Random Access Memory）１１６はＣＰＵ１１３のワークメモリとして用いられる。操作キー１１７は、ボタン、十字キー等からなり、ユーザが撮像装置１００の動作指示を行うために用いられる。ＣＰＵ１１３と、ＲＯＭ１１５、ＲＡＭ１１６、操作キー１１７は、プログラムバス１１４を介して接続されている。

図４は、本発明の実施形態に係る撮像装置１００における処理の流れを示す概念図である。撮像装置１００内で実行する処理として、撮像処理、分類処理、符号化処理、記録処理があり、それぞれの処理を並列に実行することができる。図４の撮影フレーム画像バッファ、各Groupの符号化画像バッファと付加情報バッファ、及びストリームバッファは、ＤＲＡＭ１０１に割り当てられたメモリ領域である。

撮影処理では、撮像素子１０４及びカメラ信号処理部１０５を用いて、所定間隔の撮影タイミング毎に複数のフレーム画像を生成する。

分類処理では、被写体検出部１０６、合焦判別部１０７、画像分類部１０８を用いて、撮影フレーム画像バッファ内に格納されているフレーム画像を予め決められた条件に基づいてGroupに仕分けし、対応した符号化画像バッファへ転送する。なお、本第１の実施形態では、Group1〜5に仕分けするものとして説明する。また、転送したフレーム画像に付随した情報を付加情報バッファへ転送する。

符号化処理では、Group1〜5の符号化画像バッファに符号化すべきフレーム画像が格納されていることを検知した場合に、それぞれのGroup単位の動画ストリームとなるように符号化処理を行い、それぞれのGroupに対応したストリームバッファへ出力する。

記録処理では、Media Ｉ／Ｆ１１１を用いて、Group1〜5のストリームバッファに記録可能な動画ストリームを検知した場合に、それぞれのGroup単位のファイルとなるように、記録媒体３００へ書き込み処理を行う。

以上のように、画像信号は各データバッファを介して、撮像処理、分類処理、符号化処理、記録処理を経て、記録媒体に動画ストリームとして記録される。以下、本第１の実施形態における分類処理及び符号化処理について、更に詳しく説明する。

●分類処理
図５は、合焦距離毎の分類による動画ストリーム生成を説明する図である。図２及び図３を参照して説明したように、撮像素子１０４の各画素２００は１つのマイクロレンズ１０２０に対して複数の受光素子２０１を有するため、１回の露光及び読み出しで、レンズユニット１０３の異なる射出瞳を透過した光の画像信号を得ることができる。そして、光の入射方向の情報を有する画像信号を、カメラ信号処理部１０５により現像及び再構成することで、任意の仮想像面（リフォーカス面）に合焦した複数のフレーム画像を生成することができる。各フレーム画像には、像面のずれ量単位から生成される仮想像面までの距離（以下、「合焦距離」と呼ぶ。）を示す情報が対応付けられている。

図５において、縦軸を合焦距離、横軸を撮像する時間とする。ここでは、説明を分かり易くするために、F1、F2、F3、F4、F5の５点を合焦距離とし、撮影は、撮影タイミングT1、T2、T3、T4、T4、T6で行われるものとする。また、撮影タイミングをTi、合焦距離をFjとした場合、撮影タイミングTiにおける合焦距離Fjのフレーム画像をTi-Fj（i＝１〜６、j＝１〜５）で表すものとする。

図５に示す例では、合焦している主被写体のフレーム画像は、T1-F3、T2-F2、T3-F1、T4-F2、T5-F3、T6-F4のように変化している。この条件下において、画像分類部１０８における分類条件を合焦距離とした場合、生成される動画ストリームは以下のようになる。なお、＜＞で囲っているフレーム画像が合焦している主被写体のフレーム画像である。
合焦距離F1の動画ストリーム：T1-F1、T2-F1、＜T3-F1＞、T4-F1、T5-F1、T6-F1
合焦距離F2の動画ストリーム：T1-F2、＜T2-F2＞、T3-F2、＜T4-F2＞、T5-F2、T6-F2
合焦距離F3の動画ストリーム：＜T1-F3＞、T2-F3、T3-F3、T4-F3、＜T5-F3＞、T6-F3
合焦距離F4の動画ストリーム：T1-F4、T2-F4、T3-F4、T4-F4、T5-F4、＜T6-F4＞
合焦距離F5の動画ストリーム：T1-F5、T2-F5、T3-F5、T4-F5、T5-F5、T6-F5
生成された５つの動画ストリームそれぞれの合焦距離は一定となる。

しかしながら、このように合焦距離毎に動画ストリームを複数生成した場合、被写体が撮像素子１０４に対して前後に移動する場合、被写体が合焦しているフレーム画像が複数の動画ストリームに点在してしまう。すなわち、主被写体の合焦フレーム画像だけをまとめた動画ストリームは生成されない。

図６は、本第１の実施形態に係る主被写体の合焦状態別の分類による動画ストリーム生成を説明する図である。図６において、図５と同様に各撮影タイミングT1、T2、T3、T4、T4、T6において、フレーム画像は合焦距離F1、F2、F3、F4、F5のものが生成され、縦軸を合焦距離、横軸を撮像する時間とする。また、図６においても、図５と同様に、合焦している主被写体のフレーム画像は、T1-F3、T2-F2、T3-F1、T4-F2、T5-F3、T6-F4のように変化している。そして、本第１の実施形態においては、同一撮影タイミングで生成されるフレーム画像に対して、合焦判別部１０７は主被写体領域の高周波成分量から主被写体の合焦状態を判別し、画像分類部１０８は以下に示すグループに分類する。
Group1：主被写体領域の高周波成分が１番目に多い
Group2：主被写体領域の高周波成分が２番目に多い
Group3：主被写体領域の高周波成分が３番目に多い
Group4：主被写体領域の高周波成分が４番目に多い
Group5：主被写体領域の高周波成分が５番目に多い
この条件下において、生成される動画ストリームは以下のようになる。なお、＜＞で囲っているフレーム画像が合焦している主被写体のフレーム画像である。
Group1動画ストリーム：＜T1-F3＞、＜T2-F2＞、＜T3-F1＞、＜T4-F2＞、＜T5-F3＞、＜T6-F4＞
Group2動画ストリーム：T1-F2、T2-F1、T3-F2、T4-F1、T5-F2、T6-F3
Group3動画ストリーム：T1-F4、T2-F3、T3-F3、T4-F3、T5-F4、T6-F5
Group4動画ストリーム：T1-F1、T2-F4、T3-F4、T4-F4、T5-F5、T6-F2
Group5動画ストリーム：T1-F5、T2-F5、T3-F5、T4-F5、T5-F1、T6-F1
生成された５つの動画ストリーム内のフレーム画像は、主被写体の合焦状態別のストリームとなり、Group1動画ストリームは常に主被写体に合焦した動画ストリームとなる。

このように、主被写体の合焦状態別の動画ストリームを複数生成した場合、被写体が撮像素子１０４に対して前後に移動する場合でも、主被写体の合焦フレーム画像だけをまとめた動画ストリームが生成される。例えば、単一の動画ストリームしか再生できない再生機器においては、Group1動画ストリームを再生すれば、主被写体に合焦した見やすい動画像を再生することができる。

図７は、図６で説明した主被写体の合焦状態に応じた、本第１の実施形態における分類処理を示すフローチャートである。図４に示すように、ＤＲＡＭ１０１上には、動画符号化部１０９が符号化する画像を格納するための符号化画像バッファが、生成する動画ストリームの数に相当する分（ここでは５個）存在している。撮像素子１０４及びカメラ信号処理部１０５によって生成されるフレーム画像を、分類処理により符号化画像バッファへ転送することで、動画符号化部１０９を用いて動画ストリームを生成することが可能となる。

また、符号化画像バッファに格納されるフレーム画像の撮影条件情報を格納するための付加情報バッファが、符号化画像バッファごとにＤＲＡＭ１０１上に存在している。

まず、撮像素子１０４は像面のずれ量から複数の画像信号を生成し、カメラ信号処理部１０５によって合焦距離別の複数のフレーム画像が生成される（Ｓ１０１）。このとき生成されるフレーム画像の枚数をＮ枚とする。このフレーム画像には像面のずれ量から生成される合焦距離情報が対応づけられている。

次に、被写体検出部１０６を用いて、Ｓ１０１で生成されたＮ枚のフレーム画像それぞれにおける主被写体領域を検出する（Ｓ１０２）。合焦判別部１０７は、Ｓ１０１で生成されたＮ枚のフレーム画像それぞれに対して、Ｓ１０２で検出された主被写体領域の高周波成分量を算出する。フレーム単位に算出された主被写体領域の高周波成分量から主被写体の合焦状態を数値化する（Ｓ１０３）。

符号化画像バッファを決定するカウンタｎを１に初期化し（Ｓ１０４）、カウンタｎ≦Ｎの条件が成り立つかを判断する（Ｓ１０５）。Ｓ１０５でＹｅｓと判断された場合、Ｓ１０６に進み、画像分類部１０８は、Ｓ１０１で生成されたフレーム画像のうち、符号化画像バッファに未転送のフレーム画像の内、Ｓ１０３で数値化した合焦状態が最も良いフレーム画像を選択する。そして選択したフレーム画像を、カウンタｎに対応する（即ち、Group nの）符号化画像バッファへ転送する。そして、Ｓ１０６で転送したフレーム画像に対応する合焦状態と距離情報とから撮影条件情報を生成し（除法生成手段）、転送した符号化画像バッファに対応する付加情報バッファへ格納する（Ｓ１０７）。このとき、Ｓ１０６で転送したフレーム画像は必要に応じて撮影フレーム画像バッファから破棄してもよい。Ｓ１０７の処理後にカウンタｎを１増やし、Ｓ１０５へ戻る（Ｓ１０８）。

一方、Ｓ１０５でＮｏと判断された場合、Ｓ１０１で生成したフレーム画像はすべて符号化画像バッファへ転送済みと判断され、処理を終了する。

以上説明したＳ１０１〜Ｓ１０８の処理を撮影タイミングごとに行うことで、撮影された複数のフレーム画像は撮影条件によって分類され、分類結果に応じた符号化画像バッファへ転送される。

また、Ｓ１０６において、Ｓ１０３で数値化した合焦状態を用いて主被写体の合焦フレームが分類できない場合、直前の撮影タイミングの分類結果を用いてもよい。

また、Ｓ１０２において、主被写体領域が所定時間内に検出できない場合、フレーム画像の中央領域を主被写体領域としてもよい。

●符号化処理
図８は、図６で説明した本発明に係る主被写体の合焦状態に応じて分類処理されたフレーム画像の符号化処理を示すフローチャートである。

動画符号化部１０９は、上述した分類処理によって仕分けされ、符号化画像バッファに格納されているフレーム画像から、動画ストリームを生成する。動画符号化部１０９は符号化画像バッファ１つに対して、１つの動画ストリームを生成することが可能であり、Ｎ個の符号化画像バッファからはＮ個の動画ストリームを生成され、Ｎ個のストリームバッファに記憶された後、記録媒体３００に記録される。

まず、ユーザからの動画記録指示によって、符号化要求が発行されているかを判断する（Ｓ１２１）。ユーザからの動画記録解除指示が操作された場合は、この符号化要求がクリアされ、Ｎｏと判断され、動画ストリーム符号化処理を終了する。

一方、Ｓ１２１でＹｅｓと判断された場合、符号化対象の符号化画像バッファを決定するカウンタｎを１に初期化した後（Ｓ１２２）、カウンタｎ≦Ｎの条件が成り立つかを判断する（Ｓ１２３）。Ｓ１２３でＮｏと判断された場合は、Ｓ１２１へ戻る。Ｓ１２３でＹｅｓと判断された場合は、ｎ番目の符号化画像バッファに符号化するフレーム画像が格納されたかを判断する（Ｓ１２４）。

Ｓ１２４でＹｅｓと判断された場合は、ｎ番目の符号化画像バッファ内に格納されているフレーム画像を、動画符号化部１０９を用いて符号化し、動画ストリームを生成する（Ｓ１２５）。このとき符号化したフレーム画像は、必要に応じて符号化画像バッファから破棄してもよい。Ｓ１２５で生成した動画ストリームに対応する撮影条件情報をｎ番目の付加情報バッファから取得し、動画ストリーム内の所定位置に付加する（Ｓ１２６）。このとき動画ストリームに付加した撮影条件情報は、必要に応じて符号化画像バッファから破棄してもよい。Ｓ１２５とＳ１２６で生成した動画ストリームを、カウンタｎに対応する（即ち、Group nの）ストリームバッファへ格納する（Ｓ１２７）。なお、ストリームバッファに格納された動画ストリームは、動画ストーム毎に（グループ単位で）記録処理によりMedia I/F１１１を介して記録媒体３００に記録される。

Ｓ１２７の処理後、及び、Ｓ１２４でＮｏと判断された場合は、Ｓ１２８に進んでカウンタｎを１増やし、Ｓ１２３へ戻る（Ｓ１２８）。

以上説明したＳ１２１〜Ｓ１２８の処理を行うことで、ＤＲＡＭ１０１上に存在するＮ個の符号化画像バッファ単位の動画ストリームを生成し、記録媒体３００に記録することが可能となる。

次に、図８を参照して説明した主被写体の合焦状態に応じて分類された動画ストリームの符号化処理にMPEG-4 AVC/H.264 MVCを用いる場合のフレーム間参照関係について説明する。

MPEG-4 AVC/H.264 MVCは、複数の映像（マルチビュー）を独立して扱うよりも効率的に圧縮することができる技術である。MVCではマルチビュー映像を、１個のベースビュー（Base view）と、１個以上の非ベースビュー（Non-base view）として符号化する。ベースビューは既存のプロファイルストリームとして符号化され、非ベースビューは他のビューや自分自身のビューに含まれるフレームを参照して符号化される。MVCに対応しない従来のデコーダでも、ベースビューのプロファイルを満足すれば、ベースビューのみの再生が可能である。

図９は、図８で説明した第１の実施形態における主被写体の合焦状態に応じた分類処理時の動画ストリームの符号化処理におけるフレーム間参照関係を示す図である。図６を参照して上述したGroup1〜5のフレーム画像に対して、MPEG-4 AVC/H.264 MVCを用いてフレーム間差分符号化する場合のフレーム間参照関係を示す。

ここでは、主被写体の合焦フレームをまとめたGroup1のフレーム画像を符号化することで得られる動画ストリームをMVCにおけるBase view stream（メイン動画ストリーム）となるように符号化を行う。この場合、Group1内のフレーム間参照は可能だが、他のGroupに分類されたフレーム画像は、Group1の動画ストリームからは参照されない。

そして、他のGroup2〜5に分類されたフレーム画像を符号化することで得られる動画ストリームをMVCにおけるNon-base view stream（エクステント動画ストリーム）となるように符号化を行う。この場合、同一Group内のフレーム画像と同時刻のGroup1内（メイン動画ストリーム内）のフレーム画像は参照可能である。

このように主被写体の合焦フレームをまとめたGroup1をMVC におけるBase view streamとなるように符号化することで、MVCに対応しない再生機器においては、Base view streamである主被写体合焦動画像が再生され、見やすい動画像が再生される。

上記の通り本第１の実施形態によれば、同一撮影タイミングに撮影条件の異なる複数のフレーム画像を生成する装置において、撮影タイミング単位に主被写体の合焦状態によってフレーム画像を分類し、分類したグループ単位で動画ストリームを生成する。これにより、主被写体の合焦フレーム画像だけをまとめた動画ストリームと、他の合焦状態の動画ストリームを記録することができる。これにより、単一動画ストリームのみを再生可能な再生機器において、主被写体に合焦した動画ストリームを再生することで、見やすい動画像を再生することが可能である。また、複数の動画ストリームを再生可能な機器においては、フレーム単位に付加されている撮影情報からリフォーカス可能な動画像を再生することも可能である。

＜第２の実施形態＞
次に、本発明の第２の実施形態について説明する。なお、以下で説明する第２の実施形態における撮像装置の構成は第１の実施形態と同様であるため、説明を省略する。本第２の実施形態では、分類処理が、第１の実施形態において図６及び図７を参照して説明した分類処理と異なる。従って、以下、本第２の実施形態における分類処理について詳細に説明する。

図１０は、第２の実施形態に係る主被写体の合焦状態と合焦距離変化に応じた分類による動画ストリーム生成を説明する図である。図１０において、図５と同様に、カメラ信号処理部１０５により得られた撮影タイミング毎に得られる複数のフレーム画像をTi-Fj（i＝１〜６、j＝１〜５）で表し、縦軸を合焦距離、横軸を撮像する時間とする。ここで、F1〜F5は等間隔であり、距離をfとする。

本第２の実施形態においても、同一の撮影タイミングで生成されるフレーム画像に対して、合焦判別部１０７は主被写体領域の高周波成分量から、各フレーム画像における主被写体の合焦状態を判別する。図１０に示す例では、合焦している主被写体のフレーム画像は、T1-F3、T2-F2、T3-F1、T4-F5、T5-F5、T6-F5のように変化している。

本第２の実施形態では、画像分類部１０８は、主被写体領域の高周波成分量を第１の分類条件とし、更に、異なる撮影タイミングで得られた主被写体のフレーム画像間の距離変化量を第２の分類条件として、Groupに分類する。

即ち、上述した第１の実施形態では、高周波成分が多い順にGroup1〜５に分類していた。本第２の実施形態においては、更に、Group1に属するフレーム画像を直前の撮影タイミングでの分類結果と比較する。そして、Group1に属するフレーム画像の距離変化量が閾値以上の場合に、閾値内のフレーム画像のうち、Group1に分類すべきフレーム画像の合焦距離に最も近いフレーム画像をGroup1に分類する。本第２の実施形態では距離変化量の閾値をfの２倍（２f）とする。そして、Group1から生成される動画ストリームが、第１の実施形態で説明したBase view streamとなるように符号化する。

図１０に示す例では、連続する撮影タイミングT3とT4間での主被写体の合焦距離の変化量が大きく（T3-F1からT4-F5）、距離変化量が４fとなっており、閾値である２fを超えている。そのため、撮影タイミングT4では、直前の撮影タイミングT3におけるフレーム画像T3-F1から、距離変化量が閾値である２fの範囲となるフレーム画像T4-F1、T4-F2、T4-F3の内、フレーム画像T4-F5により近い合焦距離にあるフレーム画像T4-F3を再選択する（再選択処理）。

また、Group2〜5に関しては、距離変化量が閾値以上かどうかを判断せずに、未分類のフレーム画像のうち、主被写体領域の高周波成分のみを用いて分類する。

本第２の実施形態では、上記の条件下において、生成される動画ストリームは以下のようになる。なお、＜＞で囲っているフレーム画像が合焦している主被写体のフレーム画像である。
Group1動画ストリーム：＜T1-F3＞、＜T2-F2＞、＜T3-F1＞、T4-F3、＜T5-F5＞、＜T6-F5＞
Group2動画ストリーム：T1-F2、T2-F1、T3-F5、＜T4-F5＞、T5-F4、T6-F4
Group3動画ストリーム：T1-F4、T2-F3、T3-F3、T4-F4、T5-F3、T6-F3
Group4動画ストリーム：T1-F1、T2-F4、T3-F4、T4-F1、T5-F2、T6-F2
Group5動画ストリーム：T1-F5、T2-F5、T3-F5、T4-F1、T5-F1、T6-F1
結果として、Group1の動画ストリーム内のフレーム画像は、＜T1-F3＞、＜T2-F2＞、＜T3-F1＞、T4-F3、＜T5-F5＞、＜T6-F5＞となり、撮影タイミングT4のシーンで被写体の合焦状態が外れたフレーム画像となる。

このように、主被写体の合焦状態と合焦距離変化に応じて分類した動画ストリームを生成することによって、主被写体の合焦距離変化が大きいシーンであっても、見やすいBase view streamを生成することが可能である。

図１１は、図１０で説明した主被写体の合焦状態と合焦距離変化に応じた、本第２の実施形態における分類処理を示すフローチャートである。なお、図１１において、Ｓ１０１〜Ｓ１０６までの処理は、第１の実施形態で図７に示す処理と同じであるため、ここでは説明を省略する。

Ｓ２０１において、ｎが１であるかどうかを判断し、Ｎｏと判断された場合、Ｓ１０６で選択したフレーム画像をカウンタｎ（即ち、Group n）に対応する符号化画像バッファへ転送する（Ｓ２０２）。Ｓ１０７及びＳ１０８の処理は、図７における処理と同じであるため、説明を省略する。

一方、Ｓ２０１でＹｅｓと判断された場合、カウンタ１（即ち、Group 1）に対応する符号化画像バッファに前回転送したフレーム画像の距離情報（後述のＳ２０５で一時保持される情報）と、現在選択されているフレーム画像の距離情報とを比較する。そして、距離差分を判別する（Ｓ２０３）。このとき、前回転送したフレーム画像の距離情報がない場合は、距離差分は０と判断する。

そして、Ｓ２０３で判別した距離差分が閾値２f以下かどうかを判断する（Ｓ２０４）。Ｓ２０４でＹｅｓならば、現在選択されているフレーム画像の距離情報を一時保持し（Ｓ２０５）、Ｓ２０２へ移行して、Ｓ１０６で選択したフレーム画像をカウンタ１（即ち、Group 1）に対応する符号化画像バッファへ転送する。

Ｓ２０４でＮｏならば、カウンタ１（即ち、Group 1に対応する符号化画像バッファに前回転送したフレーム画像の距離情報との距離差分が閾値２f以内、かつ現在選択されているフレーム画像との合焦距離との差が最小のフレーム画像を選択し直す（Ｓ２０６）。そして、Ｓ２０５において、Ｓ２０６で選択し直したフレーム画像の距離情報を一時保持してから、Ｓ２０２の処理へ移行して、Ｓ２０６で選択したフレーム画像をカウンタ１（即ち、Group 1）に対応する符号化画像バッファへ転送する。

この分類処理と並行して、第１の実施形態で図８を参照して説明した動画ストリーム符号化処理が実行されており、カウンタｎが１の時に転送される符号化画像バッファに記憶されたフレーム画像が、Base view streamとして符号化される。

上記の通り本第２の実施形態によれば、図１１に示す処理を撮影タイミング毎に行うことで、撮影された複数のフレーム画像は主被写体の合焦状態と合焦距離変化に応じて分類される。これにより、その結果として生成される Base view steramの再生動画像を、急激な合焦変化を抑えた見やすい動画像にすることができる。

＜第３の実施形態＞
次に、本発明の第３の実施形態について説明する。なお、以下で説明する第３の実施形態における撮像装置の構成は第１の実施形態と同様であるため、説明を省略する。本第３の実施形態では、分類処理が、第１の実施形態において図６及び図７を参照して説明した分類処理と異なる。従って、以下、本第３の実施形態における分類処理について詳細に説明する。

図１２は、第３の実施形態に係る主被写体が切り替わった場合の動画ストリーム生成を説明する図である。図１２において、図５と同様に、カメラ信号処理部１０５により得られた撮影タイミング毎に得られる複数のフレーム画像をTi-Fj（i＝１〜６、j＝１〜５）で表し、縦軸を合焦距離、横軸を撮像する時間とする。ここで、F1〜F5は等間隔であり、距離をfとする。

本第３の実施形態では、被写体Ａと被写体Ｂが存在し、被写体Ａと被写体Ｂが合焦しているフレームは次の通りである。
被写体Ａの合焦フレーム：T1-F1、T2-F1、T3-F1、T4-F1、T5-F1、T6-F1
被写体Ｂの合焦フレーム：T1-F5、T2-F5、T3-F5、T4-F5、T5-F5、T6-F5

また、撮影タイミングT2とT3の間でユーザによる主被写体の切り替え操作指示が発行されているものとし、これにより、各撮影タイミングで主被写体として選択されているのは次の通りとなる。
撮影タイミングT1 被写体Ａ
撮影タイミングT2 被写体Ａ
撮影タイミングT3 被写体Ｂ
撮影タイミングT4 被写体Ｂ
撮影タイミングT5 被写体Ｂ
撮影タイミングT6 被写体Ｂ
本第３の実施形態においても、同一の撮影タイミングで生成される複数のフレーム画像に対して、合焦判別部１０７は主被写体領域の高周波成分量から、各フレーム画像における主被写体の合焦状態を判別する。

本第３の実施形態では、画像分類部１０８は、主被写体領域の高周波成分量を第１の分類条件、更に、ユーザからの主被写体選択指示に基づく、異なる撮影タイミングで得られたフレーム画像間の距離変化量を第２の分類条件として、Groupに分類する。

即ち、上述した第１の実施形態では、高周波成分が多い順にGroup1〜５に分類していた。本第３の実施形態においては、更に、ユーザからの指示により主被写体が変更された場合に、変更前の主被写体が合焦しているフレーム画像の合焦距離と、変更後の主被写体が合焦しているフレーム画像の合焦距離とを比較する。そして、フレーム画像の距離変化量が閾値以上の場合に、閾値内のフレーム画像のうち、変更後の主被写体が合焦しているフレーム画像に最も近いフレーム画像をGroup1に分類する。本第３の実施形態では距離変化量がfを閾値とする。そして、Group1から生成される動画ストリームが、第１の実施形態で説明したBase view streamとなるように符号化する。

以下、図１２を参照して、撮影タイミングT2とT3との間で被写体Ａから被写体Ｂに主被写体が変更された場合の例について具体的に説明する。撮影タイミングT1とT2において、主被写体である被写体Ａに合焦しているフレーム画像は、T1-F1、T2-F1である。ここで、主被写体が被写体Ｂに変更されると、撮影タイミングT3で被写体Ｂに合焦しているフレーム画像はT3-F5となる。この場合、主被写体の合焦距離の変化量が大きく、距離変化量が4fとなっており、閾値であるfを超えている。そのため、撮影タイミングT3において、直前の撮影タイミングT2におけるフレーム画像T2-F1から、距離変化量が閾値であるfの範囲となるフレーム画像T3-F1とT3-F2の内、合焦距離がT3-F5に近いT3-F2を選択する。また、次の撮影タイミングT4において主被写体である被写体Ｂに合焦しているフレーム画像はT4-F5である。この場合も、距離変化量が3fと大きく、閾値であるfを越えている。そのため、撮影タイミングT4において、直前の撮影タイミングT3におけるフレーム画像T3-F2から、距離変化量が閾値であるfの範囲となるフレーム画像T4-F1、T4-F2、T4-F3の内、合焦距離がT4-F5に近いT4-F3を選択する。以下同様に分類していく。

なお、Group2〜5に関しては、距離変化量が閾値以上かどうかを判断せずに、未分類のフレーム画像のうち、主被写体領域の高周波成分のみを用いて分類する。

本第３の実施形態では、上記の条件下において、生成される動画ストリームは以下のようになる。＜＞で囲っているフレーム画像が被写体Ａが合焦しているフレーム画像、［］で囲っているフレーム画像が被写体Ｂが合焦しているフレーム画像である。
Group1動画ストリーム：＜T1-F1＞、＜T2-F1＞、T3-F2、T4-F3、T5-F4、［T6-F5］
Group2動画ストリーム：T1-F2、T2-F2、［T3-F5］、［T4-F5］、［T5-F5］、T6-F4
Group3動画ストリーム：T1-F3、T2-F3、T3-F4、T4-F4、T5-F3、T6-F3
Group4動画ストリーム：T1-F4、T2-F4、T3-F3、T4-F2、T5-F2、T6-F2
Group5動画ストリーム：［T1-F5］、［T2-F5］、＜T3-F1＞、＜T4-F1＞、＜T5-F1＞、＜T6-F1＞

上記のように、結果として、Group1の動画ストリーム内のフレーム画像は、＜T1-F1＞、＜T2-F1＞、T3-F2、T4-F3、T5-F4、［T6-F5］となり、撮影タイミングT3からT5の期間で合焦する被写体がゆっくりと変化するシーンとなる。

このように、主被写体の合焦状態と主被写体の切り替わりに応じた分類によって動画ストリームを生成することで、主被写体の切り替わりが発生したシーンでは、急激な合焦変化をおさえた見やすいBase view streamを生成することが可能である。

本第３の実施形態における分類処理は、図１１に示すフローチャートと同様の手順にて行うことができる。すなわち、主被写体ＡからＢに切り替わった場合に、Ｓ１０２において、主被写体Ｂの領域を新たな主被写体領域として検出する。そして、上述したように撮影タイミングT3で、被写体Ａが合焦しているフレーム画像T2-F1から被写体Ｂが合焦しているフレーム画像T3-F5に変化した場合、Ｓ２０３で合焦距離の差分が４fと判別され、Ｓ２０４においてＮｏとなる。なお、第２の実施形態ではＳ２０４における閾値を２fとしたが、本第３の実施形態では閾値をfとして処理を行う。そして、Ｓ２０６において、フレーム画像T2-F1との合焦距離の差がf、且つ、フレーム画像T3-F5に合焦距離が近いフレーム画像T3-F2が選択されることになる。

なお、上記第１乃至第３の実施形態では、主被写体領域の高周波成分が最も多いフレーム画像を被写体に合焦しているフレーム画像とした。しかしながら、主被写体が、例えば合焦距離F1とF2の間など、２つの合焦距離の中間にあり、被写体がどちらのフレーム画像により合焦しているかを判別できない場合がある。そのような場合に、直前の撮影タイミングと同じ合焦距離のフレームを選択したり、各フレーム画像の中央領域など、予め決められた領域の合焦状態が最も高いフレーム画像を選択するようにしてもよい。

また、被写体検出部１０６が主被写体を検出できなかった場合にも、各フレーム画像の中央領域など、予め決められた領域の合焦状態が最も高いフレーム画像を選択するようにしてもよい。

また、上記第１乃至第３の実施形態では、単位時間に撮影条件が異なる複数の画像信号を撮像可能な撮像手段として、複数のマイクロレンズと、各マイクロレンズに対応する複数の受光素子をそれぞれ含む複数の画素とを２次元に配列したものを示したが、これに限らない。例えば、単位時間内に露出を変更したり、フォーカスレンズの位置を変更したりして、複数回の撮像を行う撮像手段でもよい。

＜他の実施形態＞
本発明は、複数の機器（例えば、カメラヘッド、インターフェイス機器、ホストコンピュータなど）から構成されるシステムに適用しても、一つの機器からなる装置（例えば、デジタルビデオカメラなど）に適用してもよい。

また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

単位時間に撮影条件が異なる複数の画像信号を撮像可能な撮像手段から得られた画像信号を処理する画像処理装置であって、
異なるタイミングで前記撮像手段から読み出された画像信号から、読み出し毎に、合焦する像面までの距離が異なる複数のフレーム画像を生成する信号処理手段と、
前記複数のフレーム画像における主被写体領域を検出する検出手段と、
前記読み出し毎に、前記複数のフレーム画像を、前記主被写体領域の合焦状態に応じて複数のグループに分類する分類手段と、
前記分類されたフレーム画像を、グループ単位で記録する記録手段と
を有することを特徴とする画像処理装置。
前記分類手段は、前記複数のフレーム画像の内、各読み出しにおいて前記主被写体領域の合焦状態が最も高いフレーム画像を１つのグループに分類することを特徴とする請求項１に記載の画像処理装置。
前記分類手段は、各読み出しにおいて、前記複数のフレーム画像を、前記主被写体領域の合焦状態が高い順に異なるグループに分類することを特徴とする請求項１または２に記載の画像処理装置。
前記読み出し毎に得られる前記複数のフレーム画像の内、前記主被写体領域の合焦状態が最も高いフレーム画像を選択する選択手段を更に有し、
前記選択手段は、連続する読み出しで選択したフレーム画像間における像面までの距離の差が予め決められた閾値よりも大きい場合に、先の読み出しにおいて選択されたフレーム画像の像面までの距離から前記閾値内の距離にあり、且つ、後の読み出しにおいて選択されたフレーム画像の像面までの距離に最も近いフレーム画像を、後の読み出しにおける前記フレーム画像として選択し直す再選択処理を行い、
前記分類手段は、前記選択手段により選択されたフレーム画像を１つのグループに分類する特徴とする請求項１に記載の画像処理装置。
前記選択手段は、前記読み出し毎に得られる複数のフレーム画像の内、未分類のフレーム画像に対して前記選択を繰り返し、該選択の繰り返し時に、前記再選択処理を行わないことを特徴とする請求項４に記載の画像処理装置。
主被写体を指示するための指示手段を更に有し、
前記検出手段は、前記指示された主被写体の領域を前記主被写体領域として検出することを特徴とする請求項１乃至５のいずれか１項に記載の画像処理装置。
前記分類されたフレーム画像を、前記グループ単位でフレーム間差分符号化を用いて符号化する符号化手段を更に有し、
前記符号化手段は、単一で再生可能なメイン動画ストリームと、前記メイン動画ストリーム内のフレームを参照可能なエクステント動画ストリームを生成し、前記分類手段によって前記主被写体領域に最も合焦しているフレーム画像を分類したグループを前記メイン動画ストリームとして符号化し、
前記記録手段は、前記符号化手段によって生成された前記メイン動画ストリーム及びエクステント動画ストリームを記録することを特徴とする請求項１乃至６のいずれか１項に記載の画像処理装置。
前記読み出し毎に、前記複数のフレーム画像それぞれの像面までの距離の情報を含む撮影条件情報を生成し、前記複数のフレーム画像それぞれに対応するグループに付加する付加手段を更に有することを特徴とする請求項１乃至７のいずれか１項に記載の画像処理装置。
前記複数のフレーム画像の内、各読み出しにおいて前記主被写体領域に合焦したフレーム画像を選択する選択手段を更に有し、
前記分類手段は、前記選択手段により選択されたフレーム画像を１つのグループに分類することを特徴とする請求項１に記載の画像処理装置。
前記選択手段は、前記主被写体領域に合焦したフレーム画像が判別できない場合に、直前の読み出しにおいて選択されたフレーム画像と像面までの距離が同じフレーム画像を選択することを特徴とする請求項９に記載の画像処理装置。
前記選択手段は、前記主被写体領域に合焦したフレーム画像が判別できない場合に、フレーム画像の中央領域の合焦状態が高いフレーム画像を選択することを特徴とする請求項９に記載の画像処理装置。
複数のマイクロレンズと、各マイクロレンズに対応する複数の受光素子をそれぞれ含む複数の画素とを２次元に配列した撮像手段と、
請求項１乃至１１のいずれか１項に記載の画像処理装置と
を有することを特徴とする撮像装置。
単位時間に撮影条件が異なる複数の画像信号を撮像可能な撮像手段から得られた画像信号を処理する画像処理方法であって、
信号処理手段が、異なるタイミングで前記撮像手段から読み出された画像信号から、読み出し毎に、合焦する像面までの距離が異なる複数のフレーム画像を生成する信号処理工程と、
検出手段が、前記複数のフレーム画像における主被写体領域を検出する検出工程と、
分類手段が、前記読み出し毎に、前記複数のフレーム画像を、前記主被写体領域の合焦状態に応じて複数のグループに分類する分類工程と、
記録手段が、前記分類されたフレーム画像を、グループ単位で記録する記録工程と
を有することを特徴とする画像処理方法。
コンピュータを、請求項１乃至１１のいずれか１項に記載の画像処理装置の各手段として機能させるためのプログラム。
請求項１４に記載のプログラムを格納したコンピュータが読み取り可能な記憶媒体。