JP6761230B2

JP6761230B2 - 画像処理装置、その制御方法、プログラム及び撮像装置

Info

Publication number: JP6761230B2
Application number: JP2015164178A
Authority: JP
Inventors: 太郎松野
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2015-08-21
Filing date: 2015-08-21
Publication date: 2020-09-23
Anticipated expiration: 2035-08-21
Also published as: JP2017041857A

Description

本発明は、ライトフィールド技術を用いた画像処理装置、その制御方法、プログラム及び撮像装置に関する。

近年、撮像素子の受光面における光の強度に加えて、その光の進行方向の情報を含んだ画像信号（ライトフィールド（ＬＦ）データ）を取得して、撮影後に合焦位置を変更（リフォーカス）することができる撮像装置が提案されている。

特許文献１には、マイクロレンズアレイ、撮像素子、画像処理部等から構成された撮像装置により、撮像素子の受光面における光の強度とその光の進行方向の情報を持った画像信号を取得して、当該画像信号から複数の視差画像を得る技術が開示されている。そして、得られた複数の視差画像を用いて撮影後に任意の被写体に合焦させることができる技術を開示している。

また、特許文献２には、１つの画素に対して、１つのマイクロレンズと複数の光電変換領域を備えた撮像素子を用いた撮像装置が開示されている。複数の光電変換領域は、１つのマイクロレンズを介して撮影レンズの射出瞳の異なる瞳部分領域を受光するように構成され、瞳分割機能を実現する。複数の光電変換領域のそれぞれから出力される信号を用いれば、分割された瞳部分領域に応じた複数の視差画像を得ることができる。そして、得られた複数の視差画像を用いて、撮影後に任意の被写体に合焦させた画像を生成することができる。

特開２００９−２１９１９号公報米国特許第４４１０８０４号

しかしながら、撮像されたＬＦデータは、撮影後に任意の被写体に合焦させることができる反面、再生時に何らかの手法で合焦させる画像上の位置(リフォーカスポイント)を与える必要がある。リフォーカスポイントを与えるために、例えば所定の合焦状態の画像をユーザに提示して、ユーザに合焦させたい画像内のある一点を指定させる方法がある。

一方、動画像では、時間の経過と共に被写体の位置が変化するため、ＬＦデータを含んだ動画像（ＬＦ動画ともいう）に当該リフォーカスポイントの指定方法を適用すると、ユーザは被写体が移動するたびに画像内の一点を指定する必要が生じる。従って、適切な合焦状態の動画を容易に視聴することができない。

本発明は、上述の従来技術の問題点に鑑みてなされたものである。すなわち、ライトフィールドデータを含んだ動画を再生する際に、注視すべき被写体に合焦した動画を容易に得ることができる画像処理装置、その制御方法、プログラム及び撮像装置を提供することを目的とする。

この課題を解決するため、例えば本発明の画像処理装置は以下の構成を備える。すなわち、記憶手段にそれぞれ記憶された、撮像面における光線の強度とその光線の進行方向の情報を含んだ画像信号を各フレームに含んだ動画データと該動画データに対応する音声データとを取得する取得手段と、取得された音声データと取得された動画データから得られる画像信号とに基づいて、音声が検出されたフレームと該フレームに対応する画像信号の画像内の音声を発する被写体の位置を特定する特定手段と、動画データの各フレームのうち、特定手段により音声が検出されたフレームより前のフレームに対応する画像信号を含む所定フレーム分、特定された音声を発する被写体の画像内の位置に合焦した画像を生成する生成手段と、を有することを特徴とする。

本発明によれば、ライトフィールドデータを含んだ動画を再生する際に、注視すべき被写体に合焦した動画を容易に得ることができる。

本発明の実施形態に係る画像処理装置の一例としてのパーソナルコンピュータの機能構成例を示すブロック図ＬＦ動画データの構成の一例を示す図実施形態１における、ＬＦ動画データの先読み込み処理と動画再生処理の、フレームと時間の関係を表すグラフＬＦデータを取得可能な主レンズと撮像素子を模式的に示す図主レンズ面、撮像面及びリフォーカス面とこれらを通過する光線を模式的に示す図実施形態２に係る撮像装置の一例としてのデジタルカメラの機能構成例を示すブロック図実施形態２に係る主レンズ、マイクロレンズ及び撮像素子の関係を示す図（ａ）、及びマイクロレンズと撮像素子の関係を示す図（ｂ）実施形態２に係る主レンズ、マイクロレンズ及び撮像素子とこれらを通過する光線を模式的に示す図実施形態１に係るＬＦ動画の再生処理に係る一連の動作を示すフローチャート実施形態２に係るＬＦ動画の撮影処理に係る一連の動作を示すフローチャート実施形態２に係るＬＦ動画の再生処理に係る一連の動作を示すフローチャート

（実施形態１）
以下、本発明の例示的な実施形態について、図面を参照して詳細に説明する。なお、以下では画像処理装置の一例として、撮像素子の受光面における光の強度とその光の進行方向の情報を持った画像信号（ＬＦデータという）を入力可能な任意のパーソナルコンピュータに本発明を適用した例を説明する。しかし、本発明は、パーソナルコンピュータに限らず、ＬＦデータを入力することが可能な任意の電子機器にも適用可能である。これらの電子機器には、例えばデジタルカメラ、携帯電話機、ゲーム機、タブレット端末、時計型や眼鏡型の情報端末などが含まれてよい。

（パーソナルコンピュータ１００の構成）
図１は、本実施形態の画像処理装置の一例としてパーソナルコンピュータ１００の機能構成例を示すブロック図である。なお、図１に示す機能ブロックの１つ以上は、ＡＳＩＣやプログラマブルロジックアレイ（ＰＬＡ）などのハードウェアによって実現されてもよいし、ＣＰＵやＭＰＵ等のプログラマブルプロセッサがソフトウェアを実行することによって実現されてもよい。また、ソフトウェアとハードウェアの組み合わせによって実現されてもよい。従って、以下の説明において、異なる機能ブロックが動作主体として記載されている場合であっても、同じハードウェアが主体として実現されうる。

操作部１０１は、ユーザが操作する各種ボタンやダイヤル、即ちタッチパネル式のボタン、機械式のボタン又はスイッチを含み、検出したユーザ操作を制御部１０２に通知する。映像・音声出力部１０８がタッチパネルを含む場合、当該タッチパネルは操作部１０１としても機能する。

制御部１０２は、例えばＣＰＵあるいはＭＰＵを含み、記憶部１０７に含まれるＲＯＭに格納されたプログラムを記憶部１０７に含まれるＲＡＭの作業エリアに展開し、実行することにより、パーソナルコンピュータ１００全体を制御する。また、操作部１０１に対するユーザ操作に応じて、後述するＬＦ動画の再生処理や、ユーザが合焦位置を指定してリフォーカスを行う操作（手動リフォーカス操作）を制御する。

音声・ＬＦデータ入力部１０３は、音声データ及びＬＦデータを入力して記憶部１０７に記憶させる。具体的には、入力した音声データ及びＬＦデータをメモリバス１０９を介して記憶部１０７に送信し、音声データを記憶部１０７の音声データ領域に、ＬＦデータをＬＦデータ領域にそれぞれ記憶させる。音声・ＬＦデータ入力部１０３は、例えば、ＵＳＢ等で接続された外部装置から音声・ＬＦデータを入力する構成であってよい。或いは、音声・ＬＦデータ入力部１０３内に例えばハードディスク等の記録媒体を含み、当該ハードディスクに記録されている音声・ＬＦデータを読み出して入力する構成であってもよい。

話者検出部１０４は、後述する話者認識及び話者特定の処理を行って、検出した話者の画面内座標（例えば、顔の位置の２次元座標）を検出する。具体的には、記憶部１０７に記憶されている音声データと、リフォーカス処理部１０６により生成されたパンフォーカスに近しい画像（後述するように記憶部１０７の第１動画データ領域に記憶される）とに基づいて、動画内の話者の画面内座標を検出する。話者検出部１０４は、検出した話者の画面内座標を、座標データとして記憶部１０７の話者座標データ領域に記憶させる。

リフォーカス処理部１０６は、話者の画面内座標を表す座標データを用いて、その座標に対して合焦させるためのリフォーカス係数を算出する。リフォーカス処理部１０６は、再生されるフレームごとにリフォーカス係数を算出して、記憶部１０７の話者フォーカス距離領域に記憶させる。また、リフォーカス処理部１０６は、記憶部１０７のＬＦデータと、話者フォーカス距離領域に記憶させたリフォーカス係数と、後述する被写界深度設定部１０５により決定される被写界深度とを用いて、リフォーカス画像を生成（再構成ともいう）する。リフォーカス処理部１０６は、被写界深度設定部１０５が決定する被写界深度に応じて、異なるリフォーカス画像を生成する。例えば、第１の被写界深度として後述する、主な被写体全てに合焦するような被写界深度を用いてパンフォーカスに近しいリフォーカス画像を生成し、記憶部１０７の第１の動画データ領域に記憶させる。また、第３の被写界深度として後述する、話者を含んだ被写界深度を用いて話者に合焦するリフォーカス画像を生成し、記憶部１０７の第２の動画領域に記憶させる。

被写界深度設定部１０５は、話者の画面内座標を表す座標データと、リフォーカス処理部１０６によって算出されるリフォーカス係数とに基づいて、再生されるフレームに対する被写界深度を決定する。被写界深度設定部１０５は、決定した被写界深度を記憶部１０７の被写界深度設定領域に記憶させる。

記憶部１０７は、データを一時記憶する揮発性の記憶媒体を含み、例えば高速でランダムアクセス可能なダイナミックＲＡＭである。記憶部１０７内のメモリ空間は、領域ごとに区別されて対応するデータを記憶する。各領域は、例えば上述した音声データ領域、ＬＦデータ領域、プロファイル領域、第１動画データ領域、第２動画データ領域、話者座標データ領域、話者フォーカス距離領域、被写界深度設定領域等に区別される。これらのうち、音声データ領域、ＬＦデータ領域、第１動画データ領域、第２動画データ領域、話者座標データ領域、話者フォーカス距離領域、及び被写界深度設定領域の各データは、フレームごとに時刻が関連付けられて管理される。

映像・音声出力部１０８は、表示パネル、スピーカ、又は音声及び画像の出力端子等の出力装置を含み、記憶部１０７の音声データ領域、第２動画データ領域に格納されている音声データ又は動画データを読み出して出力する。映像・音声出力部１０８に含まれる表示パネルやスピーカには、ＡＶケーブル等によって外部接続されているものも含まれる。

メモリバス１０９は、各構成ブロックからのメモリアクセス要求を調停し、記憶部１０７へのデータの読み書きを例えば時分割で行なうように制御する。

（ＬＦ動画の再生処理に係る一連の動作）
次に、図９を参照して、本実施形態のＬＦ動画の再生処理に係る一連の動作を説明する。なお、ＬＦ動画の再生処理は、操作部１０１に対してユーザによる再生指示が行われた場合に開始され、制御部１０２が記憶部１０７に記憶されたプログラムを実行することにより各部を制御する。操作部１０１は、ユーザ操作によりＬＦ動画の再生開始が指示されたことを検出する。操作部１０１は、検出したＬＦ動画の再生開始の指示を制御部１０２に送信すると、制御部１０２は各部のレジスタを設定してＬＦ動画の再生処理を制御する。

（音声及びＬＦデータの入力）
Ｓ９０１において、制御部１０２は、音声・ＬＦデータ入力部１０３が入力した音声データ及びＬＦデータを、記憶部１０７の音声データ領域、ＬＦデータ領域にそれぞれ記憶させる。ＬＦデータは、例えば、撮像レンズとマイクロレンズアレイ、撮像素子を有する撮像装置により取得され、音声・ＬＦデータ入力部１０３が、例えばメモリスティック等の着脱可能な記録媒体を介して入力するものとして説明する。

（ＬＦ動画データ生成処理）
Ｓ９０２において、制御部１０２は、被写界深度設定部１０５及びリフォーカス処理部１０６を制御してＬＦ動画データ生成処理を行い、ＬＦ動画データを生成する。

被写界深度設定部１０５は、ＬＦデータ領域に記憶されているＬＦデータを読み出して、画面内の主な被写体全てに合焦するような広い被写界深度（第１被写界深度と呼ぶ）を設定する。被写界深度設定部１０５は、設定した第１被写界深度を記憶部１０７の被写界深度設定領域に記憶させる。

リフォーカス処理部１０６は、記憶部１０７から第１被写界深度を読み出して、リフォーカス画像を生成する。上述したように第１被写界深度は、主な被写体全てに合焦するような被写界深度として設定されているため、第１被写界深度に基づいて生成されるリフォーカス画像は、通常の画像でいうところのパンフォーカスに近しい画像となる。リフォーカス処理部１０６は、生成したパンフォーカスに近しい画像を各フレームとして含むデータと、音声・ＬＦデータ入力部１０３から入力された音声データとを、ＬＦ動画データとして記憶部１０７の第１動画データ領域に記憶させる。

第１動画データ領域に記憶されるＬＦ動画データは、例えば図２に示す構成を含む。このＬＦ動画データは、ＬＦ画像ヘッダー、ＬＦ画像データ、音声ヘッダー及び音声データを含む。ＬＦ画像ヘッダーは、画像データサイズや画像フォーマット等の情報を含み、ＬＦ画像データは、時間方向に一定周期（例えば６０ＦＰＳ）で連続するフレームに含まれている。音声ヘッダーは、音声データサイズや音声データフォーマット等を含み、音声データは、一定周期（例えば４８ＫＨｚ）でサンプリングされている。以降の処理では、上述した構成のＬＦ動画データを、先頭フレームから順次音声データとＬＦ画像データを読み込みんで、以下に示す先読み込み処理と再生処理を行う。

なお、本実施形態におけるＬＦ動画の再生処理では、制御部１０２は、先行して先読み込み処理を行うと共に、時間軸上で追いかけるようにＬＦ動画の再生を制御する。本実施形態では、先読み込処理は、Ｓ９０３〜Ｓ９０７における被写界深度の設定やリフォーカス係数の算出等を行う。制御部１０２によって制御される先読み込み処理とＬＦ動画再生処理との時間的な関係を示すと、例えば図３のように表される。この例では、ＬＦ動画データの先読み込みは、ＬＦ動画の再生箇所に対して、例えば数ミリ秒〜数秒程度前のフレームに対して行われる。なお、先読み込処理と再生処理との間隔についてはこの例に限らない。各フレームの再生前にＬＦ動画データの所定のフレームに対する先読み込みが行われ、ＬＦ動画の再生（各フレームの画像生成）に必要な被写界深度、リフォーカス係数等が算出されていればよい。

（話者認識処理）
Ｓ９０３において、制御部１０２は、話者検出部１０４を制御して話者認識及び話者特定の処理を行う。まず、話者検出部１０４は、第１動画データ領域から読み出したＬＦ動画データを読み出し、当該ＬＦ動画データに含まれる音声データを用いた話者認識処理を行う。話者認識処理については、様々な方法が知られており、公知の技術（例えば特開昭５８−１１１９２号公報等参照）を用いて実現することができる。そのため、詳細な説明は省略して一例としての概要を説明する。本実施形態では、発話者の固有の音声スペクトル概形を予め記憶部１０７のプロファイル領域に記憶しておき、各話者の発話が開始されると記憶されている音声スペクトル概形とマッチングを行って発話者を特定する。

より具体的には、予め、認識すべき人物の、音声の短区間スペクトルのパワー加重平均を、その発声者の固有の音声スペクトル概形として話者毎に登録しておく。そして、各フレームにおける話者の認識時において、話者検出部１０４は、入力音声におけるスペクトル概形を算出してプロファイル領域に記憶されている各話者のスペクトル概形との間で距離計算を行なう。この距離計算によって算出された距離が閾値以内である場合、最も距離の小さくなった登録話者名を認識結果として出力する。一方、算出された距離が閾値より大きい場合は、注視すべき話者を認識していないと判定して話者認識処理を完了する。

（話者特定処理）
Ｓ９０４において、話者検出部１０４は、第１動画データ領域から読み出したＬＦ動画データに基づいて、当該ＬＦ動画データに含まれるＬＦ画像データを用いた話者特定処理を行う。本実施形態では、上述した音声スペクトル概形と関連付けられた顔画像（関連特徴情報という）を記憶部１０７のプロファイル領域に記憶しておき、話者が認識されたことに応じて、顔画像を参照して話者の画面内座標を決定する。

より具体的には、上述した話者毎の音声スペクトル概形に加えて、当該音声スペクトル概形に関連付けられた関連特徴情報（話者毎の画像、例えば顔画像）を、予め記憶部１０７のプロファイル領域に記憶させている。そして、上述した話者認識処理において話者が認識されると、認識された話者の顔画像が画像内に存在するかを例えばマッチング処理によって判定する。話者検出部１０４は、第１動画データ領域から読み出した画像内に存在すると判定した場合、この話者の顔画像の画面内座標(即ち撮像素子の画素の座標)（ｘ、ｙ）を、話者座標データ領域に書き込む。なお、注視すべき話者が複数人（例えばｎ人）存在する場合は、それぞれの話者に対応する画面内座標（ｘ_ｎ、ｙ_ｎ）を特定して、話者座標データ領域に書き込む。一方、注視すべき話者が画像内に存在しない場合、画面内座標（ｘ、ｙ）を不定座標（ｘ∞、ｙ∞）に設定して、話者座標データ領域に書き込む。

（被写界深度の設定処理）
Ｓ９０５において、制御部１０２は、被写界深度設定部１０５を制御して、第２被写界深度を設定する。第２被写界深度は、リフォーカス処理部１０６においてリフォーカス係数α_ｎを算出するために用いられる被写界深度であり、特定された一人の話者に対して合焦させる場合に用いる浅い深度の被写界深度である。被写界深度設定部１０５は、第２被写界深度を設定すると、記憶部１０７の被写界深度設定領域に記憶させる。なお、第２被写界深度は、続くリフォーカス処理部１０６にて合焦評価が可能な画像を生成できる程度の被写界深度であればどんなものでもよい。

（リフォーカス係数の決定処理）
Ｓ９０６において、制御部１０２は、リフォーカス処理部１０６を制御してリフォーカス係数を算出する。具体的には、リフォーカス処理部１０６は、まず、話者座標データ領域に記憶されている話者の画面内座標（ｘ_ｎ、ｙ_ｎ）と、被写界深度設定領域に記憶されている第２被写界深度の設定と、ＬＦデータ領域に記憶されているＬＦデータとをそれぞれ読み出す。次に、これらを用いてリフォーカス画像を生成すると共に、生成したリフォーカス画像の合焦評価を行って、画面内座標（ｘ_ｎ、ｙ_ｎ）に対してリフォーカスを行うためのリフォーカス係数α_ｎを算出する。例えば、リフォーカス処理部１０６は、複数のリフォーカス係数に基づいてそれぞれのリフォーカス画像を生成し、各リフォーカス画像に対する合焦評価を行い、リフォーカス係数を算出する。リフォーカス画像の合焦評価は、別途後述するように、一般的なデジタルスチルカメラにおけるコントラストＡＦで用いられるような画像のエッジ検出と同様の公知の方法を用いて実現することができる。リフォーカス処理部１０６は、記憶部１０７の話者フォーカス距離領域に算出したリフォーカス係数α_ｎを記憶させる。

（被写界深度の設定）
Ｓ９０７において、制御部１０２は、被写界深度設定部１０５を制御して、生成されるリフォーカス画像が有する被写界深度（第３被写界深度）を設定する。被写界深度設定部１０５は、話者フォーカス距離領域に記憶されているリフォーカス係数α_ｎと、話者座標データ領域に記憶されている話者座標データ（ｘ_ｎ、ｙ_ｎ）を読み込む。そして、これらを用いて、ＬＦデータからリフォーカス画像を生成するために必要となる第３被写界深度の設定を行う。なお、より詳細な第３被写界深度の設定については後述する。被写界深度設定部１０５は、複数の話者がいる場合、複数のリフォーカス係数α_ｎのうち最小のリフォーカス係数α_{ｎ_ｍｉｎ}と最大のリフォーカス係数α_{ｎ_ｍａｘ}とから第３被写界深度を設定する。話者座標データ領域に記憶されている話者座標データが不定座標（ｘ∞、ｙ∞）である場合は、第３被写界深度を最も深い設定とする。その後、被写界深度設定部１０５は、算出した第３被写界深度を被写界深度設定領域に記憶させる。

（リフォーカス処理）
リフォーカス係数α_ｎが話者フォーカス距離領域に、第３被写界深度が被写界深度設定領域にそれぞれ記憶された段階で、先読み込み処理が完了となり、該当するフレームの画像が再生可能となる。本リフォーカス処理のステップでは、リフォーカス係数や被写界深度等の、先読み込み処理によって生成されたフォーカス処理の演算過程のデータを利用して、演算量を低減して遅延を低減したリフォーカス画像の生成・提示を行う。

Ｓ９０８において、制御部１０２は、リフォーカス処理部１０６に対して再生処理としてのリフォーカス処理を行わせる。具体的には、リフォーカス処理部１０６が話者フォーカス距離領域からリフォーカス係数α_ｎを、被写界深度設定領域から第３被写界深度を、ＬＦデータ領域からＬＦデータを読み出し、これらの３つのデータからリフォーカス画像を生成する。そして、生成されたリフォーカス画像を第２動画データ領域に記憶させる。

映像・音声出力部１０８は、制御部１０２の指示に応じて、記憶部１０７の音声データ領域に記憶されている音声データと、第２動画データ領域に記憶されているリフォーカス画像を、ＡＶストリームとして順次出力する。このとき、音声データのうちの話者の音声を強調するように音声処理を行って出力してもよい。制御部１０２は、リフォーカス画像の出力を完了すると、処理対象のフレームを次のフレームに変更して上述した一連の動作をＬＦ動画データの最終フレームまで繰り返す。そして、制御部１０２は、最終フレームに対する再構成画像の出力を終了すると一連の処理を終了する。

このように話者を検出し、話者に合焦させたリフォーカス画像を生成することにより、以下のような課題にも対処することができる。例えば、従来のカメラでは、フォーカスレンズの移動によって、話者が話し始めるタイミングにフォーカスが遅れた動画が撮影されことがあり、その遅れは視聴時にも修正ができないという課題に対処することができる。即ち、ＬＦデータを取得することができない通常のカメラを用いた撮影では、話者を検出し、その話者に自動的に合焦させた撮影を行う場合に、話者の検出後にフォーカスレンズを移動させるという過程に時間的な遅延が生じる。これにより、注視すべき話者が話し始めるタイミングにフォーカスが遅れた動画を得ることになる。しかし、本実施形態におけるＬＦ動画の再生処理では、撮影後に話者にリフォーカス処理を行うことによって、話者が話し始めるタイミングに合焦させるタイミングを合わせることができる。

（被写界深度の設定処理、及びリフォーカス画像の生成処理の詳細）
上述した、被写界深度設定部１０５による被写界深度の設定処理、及びリフォーカス処理部１０６によるリフォーカス画像の生成処理について、図４及び図５を参照して更に説明する。なお、これらの処理は「Light Field Photography」ともいわれる処理である。

図４は、ＬＦデータを取得するための外部の撮像装置が備える、主レンズ４０１と撮像素子４０２を模式的に示している。撮像素子４０２の受光面における光線の強度とその光線の進行方向の情報を有する光線情報を表す関数を、ＬＦ（ｘ、ｙ、ｕ、ｖ）とする。主レンズ４０１の座標軸をｕ、ｖとし、撮像素子４０２の座標軸をｘ、ｙとする。また、主レンズ４０１と撮像素子４０２との距離をＦとする。このとき、主レンズ４０１および撮像素子４０２を通過する光線Ｌは関数Ｌ_Ｆ（ｘ、ｙ、ｕ、ｖ）で定義される。なお、リフォーカス画像の生成に必要な光学系パラメータｕ、ｖ、に関しては、ＬＦ動画撮影時に、ＬＦデータとして記憶されている。

図５は、主レンズ面５０１、撮像面５０３及びリフォーカス面３０２を模式的に示している。リフォーカス面の位置は、リフォーカス係数αによって定められる。ここで、主レンズ面５０１のｕから入射し、リフォーカス面５０２上の点ｘ’を通過する光線Ｌは撮像面５０３上の点ｘに到達する。ここで撮像面５０３の点ｘにおける光線とリフォーカス面５０２のｘ’における光線は等価であるといえる。即ち、主レンズ面５０１の座標（ｕ、ｖ）から入射し、リフォーカス係数αで規定されるリフォーカス面５０２上の座標（ｘ’、ｙ’）を通過する光線の、撮像面での受光信号は、光線情報を表す関数Ｌ_Ｆ（ｘ、ｙ、ｕ、ｖ）を用いて式１のように表すことができる。また、リフォーカス面５０２上で得られるリフォーカス画像Ｅ_Ｆ’（ｘ’、ｙ’）は、主レンズ面５０１のｕ，ｖ軸に対して積分したものであるため、式２のように表すことができる。即ち、リフォーカス画像は式２に示す演算処理により生成することができる。

リフォーカス処理部１０６は、第２被写界深度の設定である主レンズ面の座標（ｕ、ｖ）の積分範囲とＬＦデータとを用いて、式２からリフォーカス画像を生成する。そして、生成したリフォーカス画像に対する合焦評価を行ってリフォーカス係数αを求める。Ｓ９０６では、例えば式２のリフォーカス係数αを徐々に変化させながら、リフォーカス係数αの変化に合わせた所定の枚数のリフォーカス画像を生成していく。そして、生成された複数のリフォーカス画像における画面内座標（ｘ、ｙ）に対して、それぞれ合焦評価を行う。このときのリフォーカス画像の合焦評価は、一般的なデジタルスチルカメラにおけるコントラストＡＦで用いられるように画像のエッジ検出と同様の方法で行うことができる。エッジ検出の方法については公知技術（例えば特開平４−３３７８７８等）を用いることができるため詳細は省略するが、本実施形態の合焦評価方法はこれに限定されない。リフォーカス処理部１０６は、合焦評価を行って、最も合焦していると判定されたリフォーカス画像に対するリフォーカス係数αを算出結果として出力する。

被写界深度設定部１０５は、話者座標データ領域に記憶されている画面内座標（ｘ、ｙ）と、話者フォーカス距離領域へ記憶されているリフォーカス係数αより、式２の積分係数である主レンズ面の座標（ｕ、ｖ）の積分範囲を決定する。例えば、Ｓ９０７では、話者座標データ領域に記憶されている画面内座標が不定座標（ｘ∞、ｙ∞）の場合には、主レンズ面の座標（ｕ、ｖ）の積分範囲を予め定めた範囲に狭めて設定する。主レンズ面の座標（ｕ、ｖ）の積分範囲を狭めることはレンズ口径を小さくすること（即ちレンズ絞りを絞ること）に相当するため、被写界深度の深いリフォーカス画像、つまりパンフォーカスに近しい画像を生成することができる。また、話者が存在する場合は、特定された話者の画面内座標（ｘ、ｙ）に合焦するような、座標（ｕ、ｖ）の積分範囲を決定する。つまり、積分範囲は主レンズ面全体にする。また、話者の画面内座標が複数存在する場合、複数のリフォーカス係数α_ｎの中で、最小のリフォーカス係数α_{ｎ_ｍｉｎ}と、最大のリフォーカス係数α_{ｎ_ｍａｘ}の２つをカバーする深度を持つ、座標（ｕ、ｖ）の積分範囲を決定する。被写界深度設定部１０５は、決定された座標（ｕ、ｖ）の積分範囲を、第３被写界深度の設定として被写界深度設定領域に記憶させる。

例えばＳ９０８におけるＬＦ動画の再生処理では、リフォーカス処理部１０６は、ＬＦデータ領域に記憶されているＬＦデータに対して、第３被写界深度の設定（主レンズ面の座標（ｕ、ｖ）の積分範囲）とリフォーカス係数α_ｎとを用いてリフォーカス画像を生成する。

なお、本実施形態では、認識された話者に対してリフォーカスを行うタイミングを、話者検出部１０４により話者が認識及び特定された時間を基準としている。しかし、リフォーカスを行うタイミングはこれに限定されない。話者が認識及び特定されたタイミングからリフォーカスを開始するほか、このタイミングより数ミリ秒〜数秒程度遡ったタイミングでリフォーカスを開始するようにしてもよい。この場合、被写界深度の設定やリフォーカス係数等は、話者が認識・特定されたタイミングにおいてリフォーカス画像を生成するときの設定と同一又は近しい設定を用いることができる。

また、本実施形態においては、予め注視すべき話者の音声情報、及び画像情報を記憶部１０７に記憶したうえで、ＬＦ動画データの情報と比較して話者認識を行うようにした。しかし、例えば公知技術（特開平９−３２２１３６等）のように、注視すべき話者に関する情報を事前に登録することなく、画像内人物の口元の動きを検出し話者を認識するようにしてもよい。さらに、本実施形態では話者、即ち人物に対する音声認識及び画像領域の特定を例に説明したが、人物に限らず音声を発生する他の動物や物体に対して上述した処理を用いても良い。

以上説明したように、本実施形態では、ＬＦデータを各フレームに含むＬＦ動画において、フレーム内の注視すべき話者を検出し、検出した画像内の話者に合焦するリフォーカス係数を算出するようにした。そして、このリフォーカス係数、即ちリフォーカス処理の演算過程のデータを用いて当該検出された話者に合焦するリフォーカス画像を生成するようにした。このようにすることで、ＬＦ動画再生中に注視すべき話者に自動的に合焦させることができ、ユーザがＬＦ動画を鑑賞する際に合焦位置を設定する手間を削減することができる。即ち、ＬＦデータを含んだ動画を再生する際に、注視すべき被写体に合焦した動画を容易に得ることができる。また、リフォーカス画像を生成・提示する際に、リフォーカス処理の演算過程のデータを生成し、再生するタイミングで用いるようにした。このようにすることで、リフォーカス画像を提示する際に各フレーム間の処理時間の遅延を低減することができ、発話を開始する被写体に遅延なく合焦させることができる。

（実施形態２）
次に実施形態２について説明する。実施形態２では、実施形態１の構成を主レンズ、マイクロレンズ及び撮像素子を含む撮像部を有する撮像装置に適用する。即ち、本実施形態の撮像装置は、実施形態１と異なりＬＦデータ及び音声をそれぞれ取得する構成を有し、また、生成されたリフォーカス画像を表示する構成を有する。しかし、その他の構成は実施形態１と同一である。このため、同一の構成又は同様のステップについては同一の符号を付して重複する説明は省略し、相違点について重点的に説明する。

まず、実施形態２に係る撮像装置の一例としてのデジタルカメラ６００の構成を、図６を参照して説明する。

デジタルカメラ６００は、ＬＦデータを撮像するための構成として、主レンズ６０１、マイクロレンズ６０２、撮像素子６０３を有し、ＬＦデータ入力部６０４は撮像素子６０３から出力されるＬＦデータを入力する。なお、ＬＦデータ入力部６０４は、実施形態１で上述した音声・ＬＦデータ入力部１０３のＬＦデータを扱う構成と同様である。また、音声入力部６０５は、外部の音声データを入力する構成を有し、音声・ＬＦデータ入力部１０３の音声を入力する構成と同様である。

主レンズ６０１は、単一または複数のレンズからなる結像光学系であり、被写体からの光線を通過させてマイクロレンズ６０２の面に導く。マイクロレンズ６０２は、主レンズ６０１と撮像素子６０３の間の位置に配置され、主レンズ６０１から入射する光線をその入射角度に応じて分光し、撮像素子６０３に出射する。

撮像素子６０３は、光電変換素子を有する画素が複数、２次元状に配置された構成を有する。撮像素子６０３は、マイクロレンズ６０２を通過して結像された被写体光学像を各画素で光電変換し、画素単位の画像信号をＬＦデータ入力部６０４に出力する。撮像素子６０３は、ＣＣＤ（Charge-Coupled Device）イメージセンサやＣＭＯＳ（Complementary Metal Oxide Semiconductor）イメージセンサなどの撮像素子であってよい。

ＬＦデータ入力部６０４は、撮影時において、撮像素子６０３より入力された画像信号をＡ／Ｄ変換回路によってアナログ・デジタル変換し、現像処理を行ってＬＦデータを生成して記憶部１０７のＬＦデータ領域に記憶する。なお、主レンズ６０１、マイクロレンズ６０２、撮像素子６０３、ＬＦデータ入力部６０４における動作の詳細は別途後述する。

音声入力部６０５は、いわゆるマイクであり、外部の音声信号を集音し、アナログ・デジタル変換をした後に、記憶部１０７の音声データ領域に記憶する。

表示パネル・スピーカー６０６は、映像・音声出力部１０８から入力された映像信号を映像として表示し、音声信号を音声として出力する。撮影時には、例えば映像・音声出力部１０８が、記憶部１０７に記憶されているリフォーカス処理された動画データと、音声データとを読み出し、表示パネル・スピーカー６０６に撮影中のリフォーカス画像を表示させる。また、再生時には同様に映像・音声出力部１０８から出力された、記録されたＬＦデータのリフォーカス画像を表示する。

メディアＩ／Ｆ６０７は、記録メディア６０８に対してデータの読み書きを制御するインターフェースを含む。撮影時には、ＬＦデータ入力部６０４によって読み出された撮影中のＬＦデータを、記録メディア６０８に記録する。再生時には、記録メディア６０８から、記録されたＬＦデータの全データを読み出して、記憶部１０７のＬＦデータ領域に記憶させる。なお、記録メディア６０８に対しては例えばＦＡＴなどのファイルシステム形式でデータ記録を行なうと共に、ファイルシステムの生成や制御等も行なう。

記録メディア６０８は、ハードディスクドライブや不揮発半導体メモリ（例えばフラッシュメモリ）を含み、メディアＩ／Ｆの指示に応じて、データの書き込み及び読み込みを行う。

なお、操作部１０１は、実施形態１と同様であるが、更にユーザが操作するシャッターボタン、記録ボタン、再生ボタン、設定ボタン等と表示パネル・スピーカー６０６の表面に配置されたタッチパネルセンサを含む。

（ＬＦデータを取得する構成）
次に、撮影時における主レンズ６０１、マイクロレンズ６０２、撮像素子６０３、ＬＦデータ入力部６０４を用いた動作について、図７及び図８を参照して説明する。

図７（ａ）は、主レンズ６０１、マイクロレンズ６０２、撮像素子６０３の位置関係を模式的に示している。マイクロレンズ６０２は撮像素子６０３の前面に位置し、２次元状に複数のマイクロレンズが配置されている。なお、本実施形態におけるマイクロレンズの大きさや数は図示されているものに制限されるものではない。

また、図７（ｂ）は、マイクロレンズと撮像素子６０３の関係を模式的に示している。１つのマイクロレンズ７０１は、撮像素子６０３のｎ×ｍ個の各画素７０２と対応するように配置されている。光線の分割数は、１つのマイクロレンズに対応する画素数によって決定され、本実施形態で示す一例では、１つのマイクロレンズに対して５×５個の画素を対応させている。

また、図８は、主レンズ６０１、マイクロレンズ６０２及び撮像素子６０３を通過する光束を説明する図である。８０１〜８０３は、それぞれ主レンズ６０１、マイクロレンズ６０２、撮像素子６０３に対応する。被写体８０４から放たれた１点の光８０５は、光束となって主レンズ８０１に入射する。入射した光束は、主レンズ８０１によって集光されてマイクロレンズ８０２の表面の結像面８０６で結像する。結像した光束は、マイクロレンズ８０２において光の入射角度に応じて分光され、撮像素子８０３を構成する各画素８２１〜８２５によって受光される。画素８２１〜８２５によってそれぞれ受光された光束は、光電変換素子によって光電変換されて画像信号として出力される。

より具体的には、画素８２１は、光路８１１からの光束を受光し、画素８２２は光路８１２からの光束を受光する。同様に、画素８２３は、光路８１３からの光束を、画素８２４は光路８１４からの光束を、画素８２５は光路８１５からの光束をそれぞれ受光する。このように、画素８２１〜８２５で受光される光束は、同じ被写体からの光でありながら、光線の入射角度によって別々の画素により受光される。従って、撮像素子８０３に配置された各画素の出力を用いれば、撮像素子の受光面における光の強度とその光の進行方向の情報を含んだ画像信号（即ちＬＦデータ）を得ることができる。

（ＬＦ動画の撮影処理に係る一連の動作）
次に、図１０を参照して、本実施形態のＬＦ動画の撮影処理に係る一連の動作を説明する。なお、ＬＦ動画の撮影処理は、操作部１０１に対してユーザによる撮影指示が行われた場合に開始され、制御部１０２が記憶部１０７に記憶されたプログラムを実行することにより各部を制御する。

（音声・ＬＦデータの生成処理）
Ｓ１００１において、制御部１０２は、撮像素子６０３を制御してＬＦデータを生成する。より具体的には、主レンズ６０１は前面から被写体の光線を集光して、マイクロレンズ６０２の面に結像させる。上述したように、マイクロレンズ６０２は、主レンズ６０１によって集光された光線を入射角度に応じて分光し、撮像素子６０３に出射する。

撮像素子６０３は、マイクロレンズ６０２を通過して入射する各光速を電気信号に変換して撮像信号としてＬＦデータ入力部６０４に出力する。

ＬＦデータ入力部６０４は、撮影時において、撮像素子６０３より入力された撮像信号をデジタル化し、現像処理を行ってＬＦデータを生成する。生成されたＬＦデータは記憶部１０７のＬＦデータ領域に記憶される。さらに、音声入力部６０５は外部の音声信号を集音し、アナログ・デジタル変換を行って記憶部１０７の音声データ領域に記憶させる。

以降のＳ９０２〜Ｓ９０７に係る処理、即ちＬＦ動画データの生成処理から第３被写界深度の設定処理に係る一連の動作を実施形態１と同様に行って、ＬＦ動画データを生成する。但し、ＬＦ動画の撮影処理では、第１動画データ領域に記憶されたＬＦ動画データを映像・音声出力部１０８が読み出して、ＬＦ動画データを表示パネル・スピーカー６０６にリアルタイムに表示する。

（記録メディアへの書き込み処理）
Ｓ１００２において、制御部１０２は、メディアＩ／Ｆ６０７を制御して、記憶部１０７に格納されている各データを記録メディア６０８に書き込ませる。より具体的には、メディアＩ／Ｆ６０７は、記憶部１０７に記憶されているリフォーカス係数α_ｎと、第３被写界深度と、ＬＦデータと、音声データとを読み出して、記録メディアに書き込む。なお、本実施形態では、リフォーカス係数や第３被写界深度等のリフォーカス処理の演算過程のデータを付加情報（メタデータ）として記録するため、同時に記録されたＬＦ動画データを再生する際に高速にリフォーカス画像を再生することができる。

制御部１０２は、Ｓ１００２における、１つのフレームに対する上述したデータの書き込みが終了すると、次のフレームに対する処理を開始する。制御部１０２は、先頭フレームから最終フレームまで上述した各処理を行って、全てのフレームに対する記録メディア６０８へ記録が完了すると、ＬＦ動画の撮影処理に係る一連の動作を終了する。

（ＬＦ動画の再生処理に係る一連の動作）
次に、図１１を参照して、ＬＦ動画の再生処理に係る一連の動作について説明する。なお、本実施形態に係るＬＦ動画の再生処理は、操作部１０１に対してユーザによる再生指示が行われた場合に開始され、制御部１０２が記憶部１０７に記憶されたプログラムを実行することにより各部を制御する。

（音声・ＬＦデータの読み出し処理）
Ｓ１１０１において、制御部１０２は、メディアＩ／Ｆ６０７を制御して記録メディア６０８からＬＦ動画データを読み出して、記憶部１０７の各領域に記憶させる。具体的には、メディアＩ／Ｆ６０７は、記録メディア６０８からリフォーカス係数α_ｎと、第３被写界深度と、ＬＦデータと、音声データとを読み出す。そして、読み出したデータ、即ちリフォーカス係数α_ｎを記憶部１０７の話者フォーカス距離領域に、第３被写界深度を被写界深度領域に、ＬＦデータをＬＦデータ領域に、音声データを音声データ領域にそれぞれ記憶させる。

次に、制御部１０２は、上述したＳ９０８と同様に、記憶部１０７に記憶されている各データを用いたリフォーカス処理を行わせ、生成したリフォーカス画像を再び記憶部１０７に記憶させる。映像・音声出力部１０８は、記憶部１０７の音声データ領域に記憶されている音声データと、第２動画データ領域に記憶されているリフォーカス画像を、順次ＡＶストリームとして表示パネル・スピーカー６０６に出力する。

このとき、さらにメディアＩ／Ｆ６０７が記憶部１０７に記憶されている音声データ及び第２動画データ領域に記憶されている動画データを読み出し、ＡＶファイルとして記録メディア６０８に記録するようにしてもよい。

制御部１０２は、上述した一連の動作を、ＬＦ動画データの先頭フレームから最終フレームまで繰り返し、最終フレームの再生が終了するとＬＦ動画の再生処理に係る一連の動作を終了する。

以上説明したように、本実施形態に係る撮像装置は、ＬＦ動画の撮影時に、撮影している画像内の話者を検出し、当該話者に合焦させるリフォーカス処理を行うようにした。そして、このリフォーカス処理の演算過程のデータを付加情報（メタデータ）としてＬＦデータとともに記録するようにした。このようにすることで、ＬＦ動画データを再生する際に、このリフォーカス処理の演算過程のデータを利用すれば、検出した話者に対してリフォーカスしたＬＦ動画の再生を行うことができる。即ち、ユーザがＬＦ動画の再生時に合焦位置を設定する手間を削減することができる。また、リフォーカスされたＬＦ動画を提示する際に各フレーム間の処理時間の遅延を低減することができる。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１０２…制御部、１０３…音声・ＬＦデータ入力部、１０４…話者検出部、１０５…被写界深度設定部、１０６…リフォーカス処理部

Claims

記憶手段にそれぞれ記憶された、撮像面における光線の強度とその光線の進行方向の情報を含んだ画像信号を各フレームに含んだ動画データと該動画データに対応する音声データとを取得する取得手段と、
前記取得された音声データと前記取得された動画データから得られる画像信号とに基づいて、音声が検出されたフレームと該フレームに対応する画像信号の画像内の該音声を発する被写体の位置を特定する特定手段と、
前記動画データの各フレームのうち、前記特定手段により前記音声が検出されたフレームより前のフレームに対応する画像信号を含む所定フレーム分、特定された前記音声を発する被写体の画像内の位置に合焦した画像を生成する生成手段と、
を有することを特徴とする画像処理装置。
前記特定手段は、音声データから認識される被写体の特徴に、画像信号に基づいて得られる被写体の特徴を関連付けた関連特徴情報を用いて、前記音声が検出されたフレームに対応する画像信号の画像内の該音声を発する被写体の位置を特定する、
ことを特徴とする請求項１に記載の画像処理装置。
前記特定手段は、予め記録されている前記関連特徴情報を用いて、前記音声が検出されたフレームに対応する画像信号の画像内の該音声を発する被写体の位置を特定する、
ことを特徴とする請求項２に記載の画像処理装置。
前記生成手段は、前記特定手段により複数の前記画像内の前記音声を発する被写体の位置が特定された場合、それぞれの前記画像内の前記音声を発する被写体の位置に合焦した画像を生成する、
ことを特徴とする請求項１から３のいずれか１項に記載の画像処理装置。
前記記憶手段は、前記特定された前記音声を発する被写体の画像内の位置が合焦する合焦位置を記憶し、
前記生成手段は、前記記憶手段に記憶された前記合焦位置を用いて、前記音声が検出されたフレームより前のフレームに対応する画像信号から前記所定フレーム分、特定された前記音声を発する被写体の画像内の位置に合焦した画像を生成する、
ことを特徴とする請求項１から４のいずれか１項に記載の画像処理装置。
撮像面における光線の強度とその光線の進行方向の情報を含んだ画像信号を各フレームに含んだ動画データを撮像する撮像手段と、
前記動画データと該動画データに対応する音声データを取得する音声取得手段と、
請求項１から５のいずれか１項に記載の画像処理装置と、を有し、
前記取得手段は、前記撮像手段により撮像された前記動画データと前記音声取得手段により取得された前記音声データを取得する、
ことを特徴とする撮像装置。
前記撮像手段は、２次元状に配置された複数のマイクロレンズのそれぞれが撮像素子の複数の画素と対応するように構成される、
ことを特徴とする請求項６に記載の撮像装置。
取得手段が、記憶手段にそれぞれ記憶された、撮像面における光線の強度とその光線の進行方向の情報を含んだ画像信号を各フレームに含んだ動画データと該動画データに対応する音声データとを取得する取得工程と、
特定手段が、前記取得された音声データと前記取得された動画データから得られる画像信号とに基づいて、音声が検出されたフレームと該フレームに対応する画像信号の画像内の該音声を発する被写体の位置を特定する特定工程と、
生成手段が、前記動画データの各フレームのうち、前記特定工程において前記音声が検出されたフレームより前のフレームに対応する画像信号を含む所定フレーム分、特定された前記音声を発する被写体の画像内の位置に合焦した画像を生成する生成工程と、
を有することを特徴とする画像処理装置の制御方法。
コンピュータに、請求項８に記載の画像処理装置の制御方法の各工程を実行させるためのプログラム。