JP6761230B2 - 画像処理装置、その制御方法、プログラム及び撮像装置 - Google Patents

画像処理装置、その制御方法、プログラム及び撮像装置 Download PDF

Info

Publication number
JP6761230B2
JP6761230B2 JP2015164178A JP2015164178A JP6761230B2 JP 6761230 B2 JP6761230 B2 JP 6761230B2 JP 2015164178 A JP2015164178 A JP 2015164178A JP 2015164178 A JP2015164178 A JP 2015164178A JP 6761230 B2 JP6761230 B2 JP 6761230B2
Authority
JP
Japan
Prior art keywords
image
data
voice
moving image
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015164178A
Other languages
English (en)
Other versions
JP2017041857A (ja
JP2017041857A5 (ja
Inventor
太郎 松野
太郎 松野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2015164178A priority Critical patent/JP6761230B2/ja
Publication of JP2017041857A publication Critical patent/JP2017041857A/ja
Publication of JP2017041857A5 publication Critical patent/JP2017041857A5/ja
Application granted granted Critical
Publication of JP6761230B2 publication Critical patent/JP6761230B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Automatic Focus Adjustment (AREA)
  • Studio Devices (AREA)
  • Focusing (AREA)

Description

本発明は、ライトフィールド技術を用いた画像処理装置、その制御方法、プログラム及び撮像装置に関する。
近年、撮像素子の受光面における光の強度に加えて、その光の進行方向の情報を含んだ画像信号(ライトフィールド(LF)データ)を取得して、撮影後に合焦位置を変更(リフォーカス)することができる撮像装置が提案されている。
特許文献1には、マイクロレンズアレイ、撮像素子、画像処理部等から構成された撮像装置により、撮像素子の受光面における光の強度とその光の進行方向の情報を持った画像信号を取得して、当該画像信号から複数の視差画像を得る技術が開示されている。そして、得られた複数の視差画像を用いて撮影後に任意の被写体に合焦させることができる技術を開示している。
また、特許文献2には、1つの画素に対して、1つのマイクロレンズと複数の光電変換領域を備えた撮像素子を用いた撮像装置が開示されている。複数の光電変換領域は、1つのマイクロレンズを介して撮影レンズの射出瞳の異なる瞳部分領域を受光するように構成され、瞳分割機能を実現する。複数の光電変換領域のそれぞれから出力される信号を用いれば、分割された瞳部分領域に応じた複数の視差画像を得ることができる。そして、得られた複数の視差画像を用いて、撮影後に任意の被写体に合焦させた画像を生成することができる。
特開2009−21919号公報 米国特許第4410804号
しかしながら、撮像されたLFデータは、撮影後に任意の被写体に合焦させることができる反面、再生時に何らかの手法で合焦させる画像上の位置(リフォーカスポイント)を与える必要がある。リフォーカスポイントを与えるために、例えば所定の合焦状態の画像をユーザに提示して、ユーザに合焦させたい画像内のある一点を指定させる方法がある。
一方、動画像では、時間の経過と共に被写体の位置が変化するため、LFデータを含んだ動画像(LF動画ともいう)に当該リフォーカスポイントの指定方法を適用すると、ユーザは被写体が移動するたびに画像内の一点を指定する必要が生じる。従って、適切な合焦状態の動画を容易に視聴することができない。
本発明は、上述の従来技術の問題点に鑑みてなされたものである。すなわち、ライトフィールドデータを含んだ動画を再生する際に、注視すべき被写体に合焦した動画を容易に得ることができる画像処理装置、その制御方法、プログラム及び撮像装置を提供することを目的とする。
この課題を解決するため、例えば本発明の画像処理装置は以下の構成を備える。すなわち、記憶手段にそれぞれ記憶された、撮像面における光線の強度とその光線の進行方向の情報を含んだ画像信号を各フレームに含んだ動画データと該動画データに対応する音声データとを取得する取得手段と、取得された音声データと取得された動画データから得られる画像信号とに基づいて、音声が検出されフレームと該フレームに対応する画像信号の画像内の音声を発する被写体の位置を特定する特定手段と、動画データの各フレームのうち、特定手段により音声が検出されたフレームより前のフレームに対応する画像信号を含む所定フレーム分、特定された音声を発する被写体の画像内の位置に合焦した画像を生成する生成手段と、を有することを特徴とする。
本発明によれば、ライトフィールドデータを含んだ動画を再生する際に、注視すべき被写体に合焦した動画を容易に得ることができる。
本発明の実施形態に係る画像処理装置の一例としてのパーソナルコンピュータの機能構成例を示すブロック図 LF動画データの構成の一例を示す図 実施形態1における、LF動画データの先読み込み処理と動画再生処理の、フレームと時間の関係を表すグラフ LFデータを取得可能な主レンズと撮像素子を模式的に示す図 主レンズ面、撮像面及びリフォーカス面とこれらを通過する光線を模式的に示す図 実施形態2に係る撮像装置の一例としてのデジタルカメラの機能構成例を示すブロック図 実施形態2に係る主レンズ、マイクロレンズ及び撮像素子の関係を示す図(a)、及びマイクロレンズと撮像素子の関係を示す図(b) 実施形態2に係る主レンズ、マイクロレンズ及び撮像素子とこれらを通過する光線を模式的に示す図 実施形態1に係るLF動画の再生処理に係る一連の動作を示すフローチャート 実施形態2に係るLF動画の撮影処理に係る一連の動作を示すフローチャート 実施形態2に係るLF動画の再生処理に係る一連の動作を示すフローチャート
(実施形態1)
以下、本発明の例示的な実施形態について、図面を参照して詳細に説明する。なお、以下では画像処理装置の一例として、撮像素子の受光面における光の強度とその光の進行方向の情報を持った画像信号(LFデータという)を入力可能な任意のパーソナルコンピュータに本発明を適用した例を説明する。しかし、本発明は、パーソナルコンピュータに限らず、LFデータを入力することが可能な任意の電子機器にも適用可能である。これらの電子機器には、例えばデジタルカメラ、携帯電話機、ゲーム機、タブレット端末、時計型や眼鏡型の情報端末などが含まれてよい。
(パーソナルコンピュータ100の構成)
図1は、本実施形態の画像処理装置の一例としてパーソナルコンピュータ100の機能構成例を示すブロック図である。なお、図1に示す機能ブロックの1つ以上は、ASICやプログラマブルロジックアレイ(PLA)などのハードウェアによって実現されてもよいし、CPUやMPU等のプログラマブルプロセッサがソフトウェアを実行することによって実現されてもよい。また、ソフトウェアとハードウェアの組み合わせによって実現されてもよい。従って、以下の説明において、異なる機能ブロックが動作主体として記載されている場合であっても、同じハードウェアが主体として実現されうる。
操作部101は、ユーザが操作する各種ボタンやダイヤル、即ちタッチパネル式のボタン、機械式のボタン又はスイッチを含み、検出したユーザ操作を制御部102に通知する。映像・音声出力部108がタッチパネルを含む場合、当該タッチパネルは操作部101としても機能する。
制御部102は、例えばCPUあるいはMPUを含み、記憶部107に含まれるROMに格納されたプログラムを記憶部107に含まれるRAMの作業エリアに展開し、実行することにより、パーソナルコンピュータ100全体を制御する。また、操作部101に対するユーザ操作に応じて、後述するLF動画の再生処理や、ユーザが合焦位置を指定してリフォーカスを行う操作(手動リフォーカス操作)を制御する。
音声・LFデータ入力部103は、音声データ及びLFデータを入力して記憶部107に記憶させる。具体的には、入力した音声データ及びLFデータをメモリバス109を介して記憶部107に送信し、音声データを記憶部107の音声データ領域に、LFデータをLFデータ領域にそれぞれ記憶させる。音声・LFデータ入力部103は、例えば、USB等で接続された外部装置から音声・LFデータを入力する構成であってよい。或いは、音声・LFデータ入力部103内に例えばハードディスク等の記録媒体を含み、当該ハードディスクに記録されている音声・LFデータを読み出して入力する構成であってもよい。
話者検出部104は、後述する話者認識及び話者特定の処理を行って、検出した話者の画面内座標(例えば、顔の位置の2次元座標)を検出する。具体的には、記憶部107に記憶されている音声データと、リフォーカス処理部106により生成されたパンフォーカスに近しい画像(後述するように記憶部107の第1動画データ領域に記憶される)とに基づいて、動画内の話者の画面内座標を検出する。話者検出部104は、検出した話者の画面内座標を、座標データとして記憶部107の話者座標データ領域に記憶させる。
リフォーカス処理部106は、話者の画面内座標を表す座標データを用いて、その座標に対して合焦させるためのリフォーカス係数を算出する。リフォーカス処理部106は、再生されるフレームごとにリフォーカス係数を算出して、記憶部107の話者フォーカス距離領域に記憶させる。また、リフォーカス処理部106は、記憶部107のLFデータと、話者フォーカス距離領域に記憶させたリフォーカス係数と、後述する被写界深度設定部105により決定される被写界深度とを用いて、リフォーカス画像を生成(再構成ともいう)する。リフォーカス処理部106は、被写界深度設定部105が決定する被写界深度に応じて、異なるリフォーカス画像を生成する。例えば、第1の被写界深度として後述する、主な被写体全てに合焦するような被写界深度を用いてパンフォーカスに近しいリフォーカス画像を生成し、記憶部107の第1の動画データ領域に記憶させる。また、第3の被写界深度として後述する、話者を含んだ被写界深度を用いて話者に合焦するリフォーカス画像を生成し、記憶部107の第2の動画領域に記憶させる。
被写界深度設定部105は、話者の画面内座標を表す座標データと、リフォーカス処理部106によって算出されるリフォーカス係数とに基づいて、再生されるフレームに対する被写界深度を決定する。被写界深度設定部105は、決定した被写界深度を記憶部107の被写界深度設定領域に記憶させる。
記憶部107は、データを一時記憶する揮発性の記憶媒体を含み、例えば高速でランダムアクセス可能なダイナミックRAMである。記憶部107内のメモリ空間は、領域ごとに区別されて対応するデータを記憶する。各領域は、例えば上述した音声データ領域、LFデータ領域、プロファイル領域、第1動画データ領域、第2動画データ領域、話者座標データ領域、話者フォーカス距離領域、被写界深度設定領域等に区別される。これらのうち、音声データ領域、LFデータ領域、第1動画データ領域、第2動画データ領域、話者座標データ領域、話者フォーカス距離領域、及び被写界深度設定領域の各データは、フレームごとに時刻が関連付けられて管理される。
映像・音声出力部108は、表示パネル、スピーカ、又は音声及び画像の出力端子等の出力装置を含み、記憶部107の音声データ領域、第2動画データ領域に格納されている音声データ又は動画データを読み出して出力する。映像・音声出力部108に含まれる表示パネルやスピーカには、AVケーブル等によって外部接続されているものも含まれる。
メモリバス109は、各構成ブロックからのメモリアクセス要求を調停し、記憶部107へのデータの読み書きを例えば時分割で行なうように制御する。
(LF動画の再生処理に係る一連の動作)
次に、図9を参照して、本実施形態のLF動画の再生処理に係る一連の動作を説明する。なお、LF動画の再生処理は、操作部101に対してユーザによる再生指示が行われた場合に開始され、制御部102が記憶部107に記憶されたプログラムを実行することにより各部を制御する。操作部101は、ユーザ操作によりLF動画の再生開始が指示されたことを検出する。操作部101は、検出したLF動画の再生開始の指示を制御部102に送信すると、制御部102は各部のレジスタを設定してLF動画の再生処理を制御する。
(音声及びLFデータの入力)
S901において、制御部102は、音声・LFデータ入力部103が入力した音声データ及びLFデータを、記憶部107の音声データ領域、LFデータ領域にそれぞれ記憶させる。LFデータは、例えば、撮像レンズとマイクロレンズアレイ、撮像素子を有する撮像装置により取得され、音声・LFデータ入力部103が、例えばメモリスティック等の着脱可能な記録媒体を介して入力するものとして説明する。
(LF動画データ生成処理)
S902において、制御部102は、被写界深度設定部105及びリフォーカス処理部106を制御してLF動画データ生成処理を行い、LF動画データを生成する。
被写界深度設定部105は、LFデータ領域に記憶されているLFデータを読み出して、画面内の主な被写体全てに合焦するような広い被写界深度(第1被写界深度と呼ぶ)を設定する。被写界深度設定部105は、設定した第1被写界深度を記憶部107の被写界深度設定領域に記憶させる。
リフォーカス処理部106は、記憶部107から第1被写界深度を読み出して、リフォーカス画像を生成する。上述したように第1被写界深度は、主な被写体全てに合焦するような被写界深度として設定されているため、第1被写界深度に基づいて生成されるリフォーカス画像は、通常の画像でいうところのパンフォーカスに近しい画像となる。リフォーカス処理部106は、生成したパンフォーカスに近しい画像を各フレームとして含むデータと、音声・LFデータ入力部103から入力された音声データとを、LF動画データとして記憶部107の第1動画データ領域に記憶させる。
第1動画データ領域に記憶されるLF動画データは、例えば図2に示す構成を含む。このLF動画データは、LF画像ヘッダー、LF画像データ、音声ヘッダー及び音声データを含む。LF画像ヘッダーは、画像データサイズや画像フォーマット等の情報を含み、LF画像データは、時間方向に一定周期(例えば60FPS)で連続するフレームに含まれている。音声ヘッダーは、音声データサイズや音声データフォーマット等を含み、音声データは、一定周期(例えば48KHz)でサンプリングされている。以降の処理では、上述した構成のLF動画データを、先頭フレームから順次音声データとLF画像データを読み込みんで、以下に示す先読み込み処理と再生処理を行う。
なお、本実施形態におけるLF動画の再生処理では、制御部102は、先行して先読み込み処理を行うと共に、時間軸上で追いかけるようにLF動画の再生を制御する。本実施形態では、先読み込処理は、S903〜S907における被写界深度の設定やリフォーカス係数の算出等を行う。制御部102によって制御される先読み込み処理とLF動画再生処理との時間的な関係を示すと、例えば図3のように表される。この例では、LF動画データの先読み込みは、LF動画の再生箇所に対して、例えば数ミリ秒〜数秒程度前のフレームに対して行われる。なお、先読み込処理と再生処理との間隔についてはこの例に限らない。各フレームの再生前にLF動画データの所定のフレームに対する先読み込みが行われ、LF動画の再生(各フレームの画像生成)に必要な被写界深度、リフォーカス係数等が算出されていればよい。
(話者認識処理)
S903において、制御部102は、話者検出部104を制御して話者認識及び話者特定の処理を行う。まず、話者検出部104は、第1動画データ領域から読み出したLF動画データを読み出し、当該LF動画データに含まれる音声データを用いた話者認識処理を行う。話者認識処理については、様々な方法が知られており、公知の技術(例えば特開昭58−11192号公報等参照)を用いて実現することができる。そのため、詳細な説明は省略して一例としての概要を説明する。本実施形態では、発話者の固有の音声スペクトル概形を予め記憶部107のプロファイル領域に記憶しておき、各話者の発話が開始されると記憶されている音声スペクトル概形とマッチングを行って発話者を特定する。
より具体的には、予め、認識すべき人物の、音声の短区間スペクトルのパワー加重平均を、その発声者の固有の音声スペクトル概形として話者毎に登録しておく。そして、各フレームにおける話者の認識時において、話者検出部104は、入力音声におけるスペクトル概形を算出してプロファイル領域に記憶されている各話者のスペクトル概形との間で距離計算を行なう。この距離計算によって算出された距離が閾値以内である場合、最も距離の小さくなった登録話者名を認識結果として出力する。一方、算出された距離が閾値より大きい場合は、注視すべき話者を認識していないと判定して話者認識処理を完了する。
(話者特定処理)
S904において、話者検出部104は、第1動画データ領域から読み出したLF動画データに基づいて、当該LF動画データに含まれるLF画像データを用いた話者特定処理を行う。本実施形態では、上述した音声スペクトル概形と関連付けられた顔画像(関連特徴情報という)を記憶部107のプロファイル領域に記憶しておき、話者が認識されたことに応じて、顔画像を参照して話者の画面内座標を決定する。
より具体的には、上述した話者毎の音声スペクトル概形に加えて、当該音声スペクトル概形に関連付けられた関連特徴情報(話者毎の画像、例えば顔画像)を、予め記憶部107のプロファイル領域に記憶させている。そして、上述した話者認識処理において話者が認識されると、認識された話者の顔画像が画像内に存在するかを例えばマッチング処理によって判定する。話者検出部104は、第1動画データ領域から読み出した画像内に存在すると判定した場合、この話者の顔画像の画面内座標(即ち撮像素子の画素の座標)(x、y)を、話者座標データ領域に書き込む。なお、注視すべき話者が複数人(例えばn人)存在する場合は、それぞれの話者に対応する画面内座標(x、y)を特定して、話者座標データ領域に書き込む。一方、注視すべき話者が画像内に存在しない場合、画面内座標(x、y)を不定座標(x∞、y∞)に設定して、話者座標データ領域に書き込む。
(被写界深度の設定処理)
S905において、制御部102は、被写界深度設定部105を制御して、第2被写界深度を設定する。第2被写界深度は、リフォーカス処理部106においてリフォーカス係数αを算出するために用いられる被写界深度であり、特定された一人の話者に対して合焦させる場合に用いる浅い深度の被写界深度である。被写界深度設定部105は、第2被写界深度を設定すると、記憶部107の被写界深度設定領域に記憶させる。なお、第2被写界深度は、続くリフォーカス処理部106にて合焦評価が可能な画像を生成できる程度の被写界深度であればどんなものでもよい。
(リフォーカス係数の決定処理)
S906において、制御部102は、リフォーカス処理部106を制御してリフォーカス係数を算出する。具体的には、リフォーカス処理部106は、まず、話者座標データ領域に記憶されている話者の画面内座標(x、y)と、被写界深度設定領域に記憶されている第2被写界深度の設定と、LFデータ領域に記憶されているLFデータとをそれぞれ読み出す。次に、これらを用いてリフォーカス画像を生成すると共に、生成したリフォーカス画像の合焦評価を行って、画面内座標(x、y)に対してリフォーカスを行うためのリフォーカス係数αを算出する。例えば、リフォーカス処理部106は、複数のリフォーカス係数に基づいてそれぞれのリフォーカス画像を生成し、各リフォーカス画像に対する合焦評価を行い、リフォーカス係数を算出する。リフォーカス画像の合焦評価は、別途後述するように、一般的なデジタルスチルカメラにおけるコントラストAFで用いられるような画像のエッジ検出と同様の公知の方法を用いて実現することができる。リフォーカス処理部106は、記憶部107の話者フォーカス距離領域に算出したリフォーカス係数αを記憶させる。
(被写界深度の設定)
S907において、制御部102は、被写界深度設定部105を制御して、生成されるリフォーカス画像が有する被写界深度(第3被写界深度)を設定する。被写界深度設定部105は、話者フォーカス距離領域に記憶されているリフォーカス係数αと、話者座標データ領域に記憶されている話者座標データ(x、y)を読み込む。そして、これらを用いて、LFデータからリフォーカス画像を生成するために必要となる第3被写界深度の設定を行う。なお、より詳細な第3被写界深度の設定については後述する。被写界深度設定部105は、複数の話者がいる場合、複数のリフォーカス係数αのうち最小のリフォーカス係数αn_minと最大のリフォーカス係数αn_maxとから第3被写界深度を設定する。話者座標データ領域に記憶されている話者座標データが不定座標(x∞、y∞)である場合は、第3被写界深度を最も深い設定とする。その後、被写界深度設定部105は、算出した第3被写界深度を被写界深度設定領域に記憶させる。
(リフォーカス処理)
リフォーカス係数αが話者フォーカス距離領域に、第3被写界深度が被写界深度設定領域にそれぞれ記憶された段階で、先読み込み処理が完了となり、該当するフレームの画像が再生可能となる。本リフォーカス処理のステップでは、リフォーカス係数や被写界深度等の、先読み込み処理によって生成されたフォーカス処理の演算過程のデータを利用して、演算量を低減して遅延を低減したリフォーカス画像の生成・提示を行う。
S908において、制御部102は、リフォーカス処理部106に対して再生処理としてのリフォーカス処理を行わせる。具体的には、リフォーカス処理部106が話者フォーカス距離領域からリフォーカス係数αを、被写界深度設定領域から第3被写界深度を、LFデータ領域からLFデータを読み出し、これらの3つのデータからリフォーカス画像を生成する。そして、生成されたリフォーカス画像を第2動画データ領域に記憶させる。
映像・音声出力部108は、制御部102の指示に応じて、記憶部107の音声データ領域に記憶されている音声データと、第2動画データ領域に記憶されているリフォーカス画像を、AVストリームとして順次出力する。このとき、音声データのうちの話者の音声を強調するように音声処理を行って出力してもよい。制御部102は、リフォーカス画像の出力を完了すると、処理対象のフレームを次のフレームに変更して上述した一連の動作をLF動画データの最終フレームまで繰り返す。そして、制御部102は、最終フレームに対する再構成画像の出力を終了すると一連の処理を終了する。
このように話者を検出し、話者に合焦させたリフォーカス画像を生成することにより、以下のような課題にも対処することができる。例えば、従来のカメラでは、フォーカスレンズの移動によって、話者が話し始めるタイミングにフォーカスが遅れた動画が撮影されことがあり、その遅れは視聴時にも修正ができないという課題に対処することができる。即ち、LFデータを取得することができない通常のカメラを用いた撮影では、話者を検出し、その話者に自動的に合焦させた撮影を行う場合に、話者の検出後にフォーカスレンズを移動させるという過程に時間的な遅延が生じる。これにより、注視すべき話者が話し始めるタイミングにフォーカスが遅れた動画を得ることになる。しかし、本実施形態におけるLF動画の再生処理では、撮影後に話者にリフォーカス処理を行うことによって、話者が話し始めるタイミングに合焦させるタイミングを合わせることができる。
(被写界深度の設定処理、及びリフォーカス画像の生成処理の詳細)
上述した、被写界深度設定部105による被写界深度の設定処理、及びリフォーカス処理部106によるリフォーカス画像の生成処理について、図4及び図5を参照して更に説明する。なお、これらの処理は「Light Field Photography」ともいわれる処理である。
図4は、LFデータを取得するための外部の撮像装置が備える、主レンズ401と撮像素子402を模式的に示している。撮像素子402の受光面における光線の強度とその光線の進行方向の情報を有する光線情報を表す関数を、LF(x、y、u、v)とする。主レンズ401の座標軸をu、vとし、撮像素子402の座標軸をx、yとする。また、主レンズ401と撮像素子402との距離をFとする。このとき、主レンズ401および撮像素子402を通過する光線Lは関数L(x、y、u、v)で定義される。なお、リフォーカス画像の生成に必要な光学系パラメータu、v、に関しては、LF動画撮影時に、LFデータとして記憶されている。
図5は、主レンズ面501、撮像面503及びリフォーカス面302を模式的に示している。リフォーカス面の位置は、リフォーカス係数αによって定められる。ここで、主レンズ面501のuから入射し、リフォーカス面502上の点x’を通過する光線Lは撮像面503上の点xに到達する。ここで撮像面503の点xにおける光線とリフォーカス面502のx’における光線は等価であるといえる。即ち、主レンズ面501の座標(u、v)から入射し、リフォーカス係数αで規定されるリフォーカス面502上の座標(x’、y’)を通過する光線の、撮像面での受光信号は、光線情報を表す関数L(x、y、u、v)を用いて式1のように表すことができる。また、リフォーカス面502上で得られるリフォーカス画像EF’(x’、y’)は、主レンズ面501のu,v軸に対して積分したものであるため、式2のように表すことができる。即ち、リフォーカス画像は式2に示す演算処理により生成することができる。
Figure 0006761230
Figure 0006761230
リフォーカス処理部106は、第2被写界深度の設定である主レンズ面の座標(u、v)の積分範囲とLFデータとを用いて、式2からリフォーカス画像を生成する。そして、生成したリフォーカス画像に対する合焦評価を行ってリフォーカス係数αを求める。S906では、例えば式2のリフォーカス係数αを徐々に変化させながら、リフォーカス係数αの変化に合わせた所定の枚数のリフォーカス画像を生成していく。そして、生成された複数のリフォーカス画像における画面内座標(x、y)に対して、それぞれ合焦評価を行う。このときのリフォーカス画像の合焦評価は、一般的なデジタルスチルカメラにおけるコントラストAFで用いられるように画像のエッジ検出と同様の方法で行うことができる。エッジ検出の方法については公知技術(例えば特開平4−337878等)を用いることができるため詳細は省略するが、本実施形態の合焦評価方法はこれに限定されない。リフォーカス処理部106は、合焦評価を行って、最も合焦していると判定されたリフォーカス画像に対するリフォーカス係数αを算出結果として出力する。
被写界深度設定部105は、話者座標データ領域に記憶されている画面内座標(x、y)と、話者フォーカス距離領域へ記憶されているリフォーカス係数αより、式2の積分係数である主レンズ面の座標(u、v)の積分範囲を決定する。例えば、S907では、話者座標データ領域に記憶されている画面内座標が不定座標(x∞、y∞)の場合には、主レンズ面の座標(u、v)の積分範囲を予め定めた範囲に狭めて設定する。主レンズ面の座標(u、v)の積分範囲を狭めることはレンズ口径を小さくすること(即ちレンズ絞りを絞ること)に相当するため、被写界深度の深いリフォーカス画像、つまりパンフォーカスに近しい画像を生成することができる。また、話者が存在する場合は、特定された話者の画面内座標(x、y)に合焦するような、座標(u、v)の積分範囲を決定する。つまり、積分範囲は主レンズ面全体にする。また、話者の画面内座標が複数存在する場合、複数のリフォーカス係数αの中で、最小のリフォーカス係数αn_minと、最大のリフォーカス係数αn_maxの2つをカバーする深度を持つ、座標(u、v)の積分範囲を決定する。被写界深度設定部105は、決定された座標(u、v)の積分範囲を、第3被写界深度の設定として被写界深度設定領域に記憶させる。
例えばS908におけるLF動画の再生処理では、リフォーカス処理部106は、LFデータ領域に記憶されているLFデータに対して、第3被写界深度の設定(主レンズ面の座標(u、v)の積分範囲)とリフォーカス係数αとを用いてリフォーカス画像を生成する。
なお、本実施形態では、認識された話者に対してリフォーカスを行うタイミングを、話者検出部104により話者が認識及び特定された時間を基準としている。しかし、リフォーカスを行うタイミングはこれに限定されない。話者が認識及び特定されたタイミングからリフォーカスを開始するほか、このタイミングより数ミリ秒〜数秒程度遡ったタイミングでリフォーカスを開始するようにしてもよい。この場合、被写界深度の設定やリフォーカス係数等は、話者が認識・特定されたタイミングにおいてリフォーカス画像を生成するときの設定と同一又は近しい設定を用いることができる。
また、本実施形態においては、予め注視すべき話者の音声情報、及び画像情報を記憶部107に記憶したうえで、LF動画データの情報と比較して話者認識を行うようにした。しかし、例えば公知技術(特開平9−322136等)のように、注視すべき話者に関する情報を事前に登録することなく、画像内人物の口元の動きを検出し話者を認識するようにしてもよい。さらに、本実施形態では話者、即ち人物に対する音声認識及び画像領域の特定を例に説明したが、人物に限らず音声を発生する他の動物や物体に対して上述した処理を用いても良い。
以上説明したように、本実施形態では、LFデータを各フレームに含むLF動画において、フレーム内の注視すべき話者を検出し、検出した画像内の話者に合焦するリフォーカス係数を算出するようにした。そして、このリフォーカス係数、即ちリフォーカス処理の演算過程のデータを用いて当該検出された話者に合焦するリフォーカス画像を生成するようにした。このようにすることで、LF動画再生中に注視すべき話者に自動的に合焦させることができ、ユーザがLF動画を鑑賞する際に合焦位置を設定する手間を削減することができる。即ち、LFデータを含んだ動画を再生する際に、注視すべき被写体に合焦した動画を容易に得ることができる。また、リフォーカス画像を生成・提示する際に、リフォーカス処理の演算過程のデータを生成し、再生するタイミングで用いるようにした。このようにすることで、リフォーカス画像を提示する際に各フレーム間の処理時間の遅延を低減することができ、発話を開始する被写体に遅延なく合焦させることができる。
(実施形態2)
次に実施形態2について説明する。実施形態2では、実施形態1の構成を主レンズ、マイクロレンズ及び撮像素子を含む撮像部を有する撮像装置に適用する。即ち、本実施形態の撮像装置は、実施形態1と異なりLFデータ及び音声をそれぞれ取得する構成を有し、また、生成されたリフォーカス画像を表示する構成を有する。しかし、その他の構成は実施形態1と同一である。このため、同一の構成又は同様のステップについては同一の符号を付して重複する説明は省略し、相違点について重点的に説明する。
まず、実施形態2に係る撮像装置の一例としてのデジタルカメラ600の構成を、図6を参照して説明する。
デジタルカメラ600は、LFデータを撮像するための構成として、主レンズ601、マイクロレンズ602、撮像素子603を有し、LFデータ入力部604は撮像素子603から出力されるLFデータを入力する。なお、LFデータ入力部604は、実施形態1で上述した音声・LFデータ入力部103のLFデータを扱う構成と同様である。また、音声入力部605は、外部の音声データを入力する構成を有し、音声・LFデータ入力部103の音声を入力する構成と同様である。
主レンズ601は、単一または複数のレンズからなる結像光学系であり、被写体からの光線を通過させてマイクロレンズ602の面に導く。マイクロレンズ602は、主レンズ601と撮像素子603の間の位置に配置され、主レンズ601から入射する光線をその入射角度に応じて分光し、撮像素子603に出射する。
撮像素子603は、光電変換素子を有する画素が複数、2次元状に配置された構成を有する。撮像素子603は、マイクロレンズ602を通過して結像された被写体光学像を各画素で光電変換し、画素単位の画像信号をLFデータ入力部604に出力する。撮像素子603は、CCD(Charge-Coupled Device)イメージセンサやCMOS(Complementary Metal Oxide Semiconductor)イメージセンサなどの撮像素子であってよい。
LFデータ入力部604は、撮影時において、撮像素子603より入力された画像信号をA/D変換回路によってアナログ・デジタル変換し、現像処理を行ってLFデータを生成して記憶部107のLFデータ領域に記憶する。なお、主レンズ601、マイクロレンズ602、撮像素子603、LFデータ入力部604における動作の詳細は別途後述する。
音声入力部605は、いわゆるマイクであり、外部の音声信号を集音し、アナログ・デジタル変換をした後に、記憶部107の音声データ領域に記憶する。
表示パネル・スピーカー606は、映像・音声出力部108から入力された映像信号を映像として表示し、音声信号を音声として出力する。撮影時には、例えば映像・音声出力部108が、記憶部107に記憶されているリフォーカス処理された動画データと、音声データとを読み出し、表示パネル・スピーカー606に撮影中のリフォーカス画像を表示させる。また、再生時には同様に映像・音声出力部108から出力された、記録されたLFデータのリフォーカス画像を表示する。
メディアI/F607は、記録メディア608に対してデータの読み書きを制御するインターフェースを含む。撮影時には、LFデータ入力部604によって読み出された撮影中のLFデータを、記録メディア608に記録する。再生時には、記録メディア608から、記録されたLFデータの全データを読み出して、記憶部107のLFデータ領域に記憶させる。なお、記録メディア608に対しては例えばFATなどのファイルシステム形式でデータ記録を行なうと共に、ファイルシステムの生成や制御等も行なう。
記録メディア608は、ハードディスクドライブや不揮発半導体メモリ(例えばフラッシュメモリ)を含み、メディアI/Fの指示に応じて、データの書き込み及び読み込みを行う。
なお、操作部101は、実施形態1と同様であるが、更にユーザが操作するシャッターボタン、記録ボタン、再生ボタン、設定ボタン等と表示パネル・スピーカー606の表面に配置されたタッチパネルセンサを含む。
(LFデータを取得する構成)
次に、撮影時における主レンズ601、マイクロレンズ602、撮像素子603、LFデータ入力部604を用いた動作について、図7及び図8を参照して説明する。
図7(a)は、主レンズ601、マイクロレンズ602、撮像素子603の位置関係を模式的に示している。マイクロレンズ602は撮像素子603の前面に位置し、2次元状に複数のマイクロレンズが配置されている。なお、本実施形態におけるマイクロレンズの大きさや数は図示されているものに制限されるものではない。
また、図7(b)は、マイクロレンズと撮像素子603の関係を模式的に示している。1つのマイクロレンズ701は、撮像素子603のn×m個の各画素702と対応するように配置されている。光線の分割数は、1つのマイクロレンズに対応する画素数によって決定され、本実施形態で示す一例では、1つのマイクロレンズに対して5×5個の画素を対応させている。
また、図8は、主レンズ601、マイクロレンズ602及び撮像素子603を通過する光束を説明する図である。801〜803は、それぞれ主レンズ601、マイクロレンズ602、撮像素子603に対応する。被写体804から放たれた1点の光805は、光束となって主レンズ801に入射する。入射した光束は、主レンズ801によって集光されてマイクロレンズ802の表面の結像面806で結像する。結像した光束は、マイクロレンズ802において光の入射角度に応じて分光され、撮像素子803を構成する各画素821〜825によって受光される。画素821〜825によってそれぞれ受光された光束は、光電変換素子によって光電変換されて画像信号として出力される。
より具体的には、画素821は、光路811からの光束を受光し、画素822は光路812からの光束を受光する。同様に、画素823は、光路813からの光束を、画素824は光路814からの光束を、画素825は光路815からの光束をそれぞれ受光する。このように、画素821〜825で受光される光束は、同じ被写体からの光でありながら、光線の入射角度によって別々の画素により受光される。従って、撮像素子803に配置された各画素の出力を用いれば、撮像素子の受光面における光の強度とその光の進行方向の情報を含んだ画像信号(即ちLFデータ)を得ることができる。
(LF動画の撮影処理に係る一連の動作)
次に、図10を参照して、本実施形態のLF動画の撮影処理に係る一連の動作を説明する。なお、LF動画の撮影処理は、操作部101に対してユーザによる撮影指示が行われた場合に開始され、制御部102が記憶部107に記憶されたプログラムを実行することにより各部を制御する。
(音声・LFデータの生成処理)
S1001において、制御部102は、撮像素子603を制御してLFデータを生成する。より具体的には、主レンズ601は前面から被写体の光線を集光して、マイクロレンズ602の面に結像させる。上述したように、マイクロレンズ602は、主レンズ601によって集光された光線を入射角度に応じて分光し、撮像素子603に出射する。
撮像素子603は、マイクロレンズ602を通過して入射する各光速を電気信号に変換して撮像信号としてLFデータ入力部604に出力する。
LFデータ入力部604は、撮影時において、撮像素子603より入力された撮像信号をデジタル化し、現像処理を行ってLFデータを生成する。生成されたLFデータは記憶部107のLFデータ領域に記憶される。さらに、音声入力部605は外部の音声信号を集音し、アナログ・デジタル変換を行って記憶部107の音声データ領域に記憶させる。
以降のS902〜S907に係る処理、即ちLF動画データの生成処理から第3被写界深度の設定処理に係る一連の動作を実施形態1と同様に行って、LF動画データを生成する。但し、LF動画の撮影処理では、第1動画データ領域に記憶されたLF動画データを映像・音声出力部108が読み出して、LF動画データを表示パネル・スピーカー606にリアルタイムに表示する。
(記録メディアへの書き込み処理)
S1002において、制御部102は、メディアI/F607を制御して、記憶部107に格納されている各データを記録メディア608に書き込ませる。より具体的には、メディアI/F607は、記憶部107に記憶されているリフォーカス係数αと、第3被写界深度と、LFデータと、音声データとを読み出して、記録メディアに書き込む。なお、本実施形態では、リフォーカス係数や第3被写界深度等のリフォーカス処理の演算過程のデータを付加情報(メタデータ)として記録するため、同時に記録されたLF動画データを再生する際に高速にリフォーカス画像を再生することができる。
制御部102は、S1002における、1つのフレームに対する上述したデータの書き込みが終了すると、次のフレームに対する処理を開始する。制御部102は、先頭フレームから最終フレームまで上述した各処理を行って、全てのフレームに対する記録メディア608へ記録が完了すると、LF動画の撮影処理に係る一連の動作を終了する。
(LF動画の再生処理に係る一連の動作)
次に、図11を参照して、LF動画の再生処理に係る一連の動作について説明する。なお、本実施形態に係るLF動画の再生処理は、操作部101に対してユーザによる再生指示が行われた場合に開始され、制御部102が記憶部107に記憶されたプログラムを実行することにより各部を制御する。
(音声・LFデータの読み出し処理)
S1101において、制御部102は、メディアI/F607を制御して記録メディア608からLF動画データを読み出して、記憶部107の各領域に記憶させる。具体的には、メディアI/F607は、記録メディア608からリフォーカス係数αと、第3被写界深度と、LFデータと、音声データとを読み出す。そして、読み出したデータ、即ちリフォーカス係数αを記憶部107の話者フォーカス距離領域に、第3被写界深度を被写界深度領域に、LFデータをLFデータ領域に、音声データを音声データ領域にそれぞれ記憶させる。
次に、制御部102は、上述したS908と同様に、記憶部107に記憶されている各データを用いたリフォーカス処理を行わせ、生成したリフォーカス画像を再び記憶部107に記憶させる。映像・音声出力部108は、記憶部107の音声データ領域に記憶されている音声データと、第2動画データ領域に記憶されているリフォーカス画像を、順次AVストリームとして表示パネル・スピーカー606に出力する。
このとき、さらにメディアI/F607が記憶部107に記憶されている音声データ及び第2動画データ領域に記憶されている動画データを読み出し、AVファイルとして記録メディア608に記録するようにしてもよい。
制御部102は、上述した一連の動作を、LF動画データの先頭フレームから最終フレームまで繰り返し、最終フレームの再生が終了するとLF動画の再生処理に係る一連の動作を終了する。
以上説明したように、本実施形態に係る撮像装置は、LF動画の撮影時に、撮影している画像内の話者を検出し、当該話者に合焦させるリフォーカス処理を行うようにした。そして、このリフォーカス処理の演算過程のデータを付加情報(メタデータ)としてLFデータとともに記録するようにした。このようにすることで、LF動画データを再生する際に、このリフォーカス処理の演算過程のデータを利用すれば、検出した話者に対してリフォーカスしたLF動画の再生を行うことができる。即ち、ユーザがLF動画の再生時に合焦位置を設定する手間を削減することができる。また、リフォーカスされたLF動画を提示する際に各フレーム間の処理時間の遅延を低減することができる。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
102…制御部、103…音声・LFデータ入力部、104…話者検出部、105…被写界深度設定部、106…リフォーカス処理部

Claims (9)

  1. 記憶手段にそれぞれ記憶された、撮像面における光線の強度とその光線の進行方向の情報を含んだ画像信号を各フレームに含んだ動画データと該動画データに対応する音声データとを取得する取得手段と、
    前記取得された音声データと前記取得された動画データから得られる画像信号とに基づいて、音声が検出されフレームと該フレームに対応する画像信号の画像内の該音声を発する被写体の位置を特定する特定手段と、
    前記動画データの各フレームのうち、前記特定手段により前記音声が検出されたフレームより前のフレームに対応する画像信号を含む所定フレーム分、特定された前記音声を発する被写体の画像内の位置に合焦した画像を生成する生成手段と、
    を有することを特徴とする画像処理装置。
  2. 前記特定手段は、音声データから認識される被写体の特徴に、画像信号に基づいて得られる被写体の特徴を関連付けた関連特徴情報を用いて、前記音声が検出されたフレームに対応する画像信号の画像内の該音声を発する被写体の位置を特定する、
    ことを特徴とする請求項1に記載の画像処理装置。
  3. 前記特定手段は、予め記録されている前記関連特徴情報を用いて、前記音声が検出されたフレームに対応する画像信号の画像内の該音声を発する被写体の位置を特定する、
    ことを特徴とする請求項2に記載の画像処理装置。
  4. 前記生成手段は、前記特定手段により複数の前記画像内の前記音声を発する被写体の位置が特定された場合、それぞれの前記画像内の前記音声を発する被写体の位置に合焦した画像を生成する、
    ことを特徴とする請求項1から3のいずれか1項に記載の画像処理装置。
  5. 前記記憶手段は、前記特定された前記音声を発する被写体の画像内の位置が合焦する合焦位置を記憶し、
    前記生成手段は、前記記憶手段に記憶された前記合焦位置を用いて、前記音声が検出されたフレームより前のフレームに対応する画像信号から前記所定フレーム分、特定された前記音声を発する被写体の画像内の位置に合焦した画像を生成する、
    ことを特徴とする請求項1から4のいずれか1項に記載の画像処理装置。
  6. 撮像面における光線の強度とその光線の進行方向の情報を含んだ画像信号を各フレームに含んだ動画データを撮像する撮像手段と、
    前記動画データと該動画データに対応する音声データを取得する音声取得手段と、
    請求項1からのいずれか1項に記載の画像処理装置と、を有し、
    前記取得手段は、前記撮像手段により撮像された前記動画データと前記音声取得手段により取得された前記音声データを取得する、
    ことを特徴とする撮像装置。
  7. 前記撮像手段は、2次元状に配置された複数のマイクロレンズのそれぞれが撮像素子の複数の画素と対応するように構成される、
    ことを特徴とする請求項に記載の撮像装置。
  8. 取得手段が、記憶手段にそれぞれ記憶された、撮像面における光線の強度とその光線の進行方向の情報を含んだ画像信号を各フレームに含んだ動画データと該動画データに対応する音声データとを取得する取得工程と、
    特定手段が、前記取得された音声データと前記取得された動画データから得られる画像信号とに基づいて、音声が検出されフレームと該フレームに対応する画像信号の画像内の該音声を発する被写体の位置を特定する特定工程と、
    生成手段が、前記動画データの各フレームのうち、前記特定工程において前記音声が検出されたフレームより前のフレームに対応する画像信号を含む所定フレーム分、特定された前記音声を発する被写体の画像内の位置に合焦した画像を生成する生成工程と、
    を有することを特徴とする画像処理装置の制御方法。
  9. コンピュータに、請求項に記載の画像処理装置の制御方法の各工程を実行させるためのプログラム。
JP2015164178A 2015-08-21 2015-08-21 画像処理装置、その制御方法、プログラム及び撮像装置 Active JP6761230B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015164178A JP6761230B2 (ja) 2015-08-21 2015-08-21 画像処理装置、その制御方法、プログラム及び撮像装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015164178A JP6761230B2 (ja) 2015-08-21 2015-08-21 画像処理装置、その制御方法、プログラム及び撮像装置

Publications (3)

Publication Number Publication Date
JP2017041857A JP2017041857A (ja) 2017-02-23
JP2017041857A5 JP2017041857A5 (ja) 2018-08-30
JP6761230B2 true JP6761230B2 (ja) 2020-09-23

Family

ID=58203771

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015164178A Active JP6761230B2 (ja) 2015-08-21 2015-08-21 画像処理装置、その制御方法、プログラム及び撮像装置

Country Status (1)

Country Link
JP (1) JP6761230B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020091445A (ja) 2018-12-07 2020-06-11 キヤノン株式会社 画像処理装置およびその制御方法
WO2020118503A1 (zh) * 2018-12-11 2020-06-18 华为技术有限公司 一种确定图像对焦区域的方法及装置
CN113542611A (zh) * 2021-07-30 2021-10-22 西安中诺通讯有限公司 一种基于语音控制启动拍照的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05122689A (ja) * 1991-10-25 1993-05-18 Seiko Epson Corp テレビ会議システム
US7057636B1 (en) * 1998-12-22 2006-06-06 Koninklijke Philips Electronics N.V. Conferencing system and method for the automatic determination of preset positions corresponding to participants in video-mediated communications
JP2012027408A (ja) * 2010-07-27 2012-02-09 Sanyo Electric Co Ltd 電子機器
US9124762B2 (en) * 2012-12-20 2015-09-01 Microsoft Technology Licensing, Llc Privacy camera

Also Published As

Publication number Publication date
JP2017041857A (ja) 2017-02-23

Similar Documents

Publication Publication Date Title
US9456138B2 (en) Image processing apparatus, image processing method and computer readable recording medium having program for generating time-lapse moving image
US8520113B2 (en) Digital photographing apparatus, method of controlling the same, and recording medium storing program to execute the method
KR20120025872A (ko) 적절한 밝기를 갖는 입체 영상을 생성하는 디지털 영상 촬영 장치 및 이의 제어 방법
JPWO2010073608A1 (ja) 撮像装置
JP2008139683A (ja) 撮像装置及びオートフォーカス制御方法
JP6149854B2 (ja) 撮像装置、撮像制御方法及びプログラム
JP6323022B2 (ja) 画像処理装置
JP2017129828A (ja) 撮像装置および撮像方法
JP6761230B2 (ja) 画像処理装置、その制御方法、プログラム及び撮像装置
KR101665175B1 (ko) 화상 취득 장치, 화상 취득 방법 및 기록매체
KR20150141059A (ko) 동영상의 썸네일 영상을 제공하는 장치 및 방법
JP2010148132A (ja) 撮像装置、画像検出装置及びプログラム
KR101795600B1 (ko) 디지털 촬영 장치, 그 제어방법, 및 컴퓨터 판독가능 저장매체
KR101630304B1 (ko) 디지털 촬영 장치, 그 제어 방법, 및 컴퓨터 판독가능 매체
JP6087719B2 (ja) 画像処理装置及び画像処理方法
US9066010B2 (en) Photographing apparatus, photographing method and medium recording photographing control program
JP2017147764A (ja) 画像処理装置、画像処理方法及びプログラム
JP6757245B2 (ja) 動画再生装置、撮像装置、動画再生方法及びプログラム
JP6272099B2 (ja) 画像処理装置、制御方法およびプログラム
KR101660838B1 (ko) 촬상장치 및 그 제어방법
JP6995582B2 (ja) 画像処理装置、画像処理方法、およびプログラム
JP6106026B2 (ja) 画像処理装置、撮像装置、再生装置、制御方法、及びプログラム
US20150381899A1 (en) Image processing apparatus and image processing method for synthesizing plurality of images
JP2009021893A (ja) 撮像装置及び撮像方法
JP2024065384A (ja) 撮像装置、画像処理装置、画像処理方法、および画像処理プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180713

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180713

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190507

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200807

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200904

R151 Written notification of patent or utility model registration

Ref document number: 6761230

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151