以下、本発明の情報処理装置の例として撮像装置を取り上げて説明する。図1に示すように、撮像装置10は、撮像光学系15と、撮像素子16と、レンズ駆動回路17と、撮像素子駆動回路18と、A/D変換器19と、画像メモリ20と、画像処理回路21と、圧縮/伸長回路22と、記録用I/F23と、表示制御回路25と、モニタ26と、振れ検出センサ27と、測距センサ28と、集音部31と、A/D変換器32と、集音処理回路33と、集音制御回路34と、音声メモリ35と、CPU39と、内蔵メモリ40と、レリーズボタン41と、操作部42とから構成される。
なお、A/D変換部19、画像メモリ20、画像処理回路21、圧縮/伸長回路22、記録用I/F23、表示制御回路25、振れ検出センサ27、測距センサ28、集音処理回路33、音声メモリ35、CPU39及び内蔵メモリ40は、バス43を介して電気的に接続される。
この撮像装置10は、記録用I/F23を介して記憶媒体44を装着させることが可能である。この記憶媒体44としては、例えばメモリカード、小型ハードディスク、DVDなどの光ディスクなどの他に、例えば外付け用のハードディスクなど、撮像装置10の外部に設けられるものであってもよい。
撮像光学系15は、複数のレンズから構成され、撮像素子16の撮像面上に被写体像を結像させる。この撮像光学系15は、不図示のフォーカスレンズとズームレンズとを含む。フォーカスレンズはレンズ駆動回路17により光軸(L)方向に進退駆動されることで、撮像光学系15におけるフォーカス調節が行われる。また、ズームレンズもレンズ駆動回路17により光軸(L)方向に進退駆動されることで、撮像光学系15のズーム調節が行われる。このレンズ駆動回路17は、CPU39から出力されるレンズ駆動指令に応じてレンズ駆動信号を発生し、発生したレンズ駆動信号で不図示のレンズ駆動機構を駆動することにより、撮像光学系15の各レンズを移動させる。
この撮像光学系15は、さらに振れ検出センサ27の出力に基づいて、複数のレンズのうちの所定のレンズを、不図示の駆動機構を用いて、撮像光学系15の光軸(L)に対して垂直方向に駆動することにより、撮像素子16上に結像される被写体の位置をシフトさせる、所謂振れ補正を行うことができる。なお、上記のような複数のレンズのうちの所定のレンズを、撮像光学系15の光軸(L)に対して垂直方向に駆動する構成にかえて、可変頂角プリズムを用いて、撮像素子16上に結像される被写体の位置をシフトさせる構成としてもよい。また、上記のような複数のレンズのうちの所定のレンズを撮像光学系15の光軸(L)に対して垂直方向に駆動する構成にかえて、撮像素子16を撮像光学系15の光軸(L)に垂直な面内で駆動する構成としてもよい。
撮像素子16は、静止画像の単写撮像とともに、静止画像の連続撮像、および動画像の撮像が可能である。撮像素子16は、例えばCCD撮像素子あるいはCMOS型撮像素子などによって構成される。撮像素子駆動回路18は、CPU39から出力される指令に応じて所定タイミングの駆動信号を発生し、発生した駆動信号を撮像素子16へ供給する。撮像素子16は、供給された駆動信号によって電荷蓄積(撮像)や蓄積電荷の読み出しが制御される。CPU39は、被写体の測光データを用いて被写界の明るさの情報を求め、この明るさの情報に基づいて撮像素子16の電荷蓄積時間、撮像光学系15における絞り、および撮像素子16より出力される画像信号の増幅度などを決定する。なお、被写界の明るさの情報は、撮像素子16から出力される信号から求める構成であっても、不図示の測光センサより出力される信号から求める構成であってもよい。この撮像素子16から読み出された画像信号は、A/D変換部19にて、アナログの画像信号からデジタルの画像信号に変換された後、画像メモリ20に書き込まれる。
画像処理回路21は、CPU39からの指令に応じて、入力される画像信号に対して、色補間、ホワイトバランス、ガンマ変換等の画像処理を施す。この画像処理後の画像信号が画像データとなる。この画像処理回路21は、モニタ26に再生画像を表示させるために必要な解像度変換(画素数変換)処理を画像データに施し、解像度変換処理後の画像データを表示制御回路25へ出力する。なお、電子ズーム処理を行う際にも、画像処理回路21は画像データに対して解像度(画素数)変換処理を施す。
圧縮/伸長回路22は、CPU39からの指令に応じて、画像処理回路21から入力される画像データに対して所定の形式で圧縮処理を施す。なお、操作部42で画像データの非圧縮での記録が指示された場合、圧縮/伸長回路22は圧縮処理を行わない。
また、この撮像装置10においては、記憶媒体44に記録されている画像データによる再生画像をモニタ26に表示することが可能に構成されている。この場合、圧縮/伸長回路22は、CPU39からの指令に応じて記憶媒体44に記録されている画像データを読み出し、読み出したデータに対して復号化処理を施した上で復号化後のデータを画像処理回路21へ出力する。画像処理回路21は、圧縮/伸長回路22により復号化されたデータに対して解像度変換処理を施し、表示制御回路25へ出力することにより、再生画像がモニタ26に表示される。なお、記憶媒体44に記録されている非圧縮の画像データが読み出された場合には、圧縮処理の逆処理である復号化処理は行われない。なお、圧縮/伸長回路22は、可逆圧縮(いわゆるロスレス符号化)を行うことも可能な構成となっている。
表示制御回路25は、CPU39からの指令に応じて、画像処理回路21から入力される画像データに所定の信号処理を施してモニタ26へ出力する。表示制御回路25は、さらに、上記画像データに撮影メニュー、カーソルなどのオーバーレイ画像データを重畳する処理を行う。これにより、オーバーレイ画像が重畳された被写体画像がモニタ26に表示される。なお、モニタ26としては、LCDやELディスプレイ、或いはCRTディスプレイなどが挙げられる。
振れ検出センサ27は、例えば角速度センサ、ジヤイロセンサ等で構成される。この振れ検出センサ27、撮像装置10の筐体の内部に設けられ、筐体の振れや姿勢の変化を検出する。例えばレリーズボタン41の操作に基づいて、撮像装置10の筐体に振れが発生したときに、振れ検出センサ27は撮像装置10の筐体に発生する振れを検知する。そして、振れ検出センサ27は、振れ量データをCPU39に出力する。CPU39は、不図示の駆動機構を用いて、筐体の振れに伴う撮像素子16の撮像面上に結像される被写体像の移動が打ち消されるように、撮像光学系15を構成する複数のレンズのうちの所定のレンズを移動させる。これによって、所謂振れ補正が実現される。なお、上記の振れ補正は、スルー画像の撮像動作中、静止画像、動画像の撮像動作中に実行される。
測距センサ28は、レリーズボタン41の操作に基づいて、被写体までの距離に応じた検出信号を出力する。この測距センサ28からの検出信号は、CPU39に入力される。この測距センサ28からの検出信号に基づいて、CPU39は、被写体までの距離(以下、被写体距離)を算出する。
集音部31は、複数のマイクロホンから構成される。これら複数のマイクロホンは、撮像装置10の前面に例えば離間して配置される。なお、本実施形態では、3つのマイクロホン31a,31b,31cから集音部31が構成される場合について説明する。なお、これらマイクロホン31a,31b,31cとして、例えば単一指向性のマイクロホンがそれぞれ用いられる。集音部31のマイクロホン31a,31b,31cから出力される音声信号は、ノイズ除去及び増幅された後、A/D変換部32に入力される。A/D変換部32は、複数のマイクロホンのそれぞれに対応して設けられる(図中符号32a、32b、32c)。これらA/D変換部32a,32b,32cは、マイクロホン31a,31b,31cから出力された音声信号をデジタル変換し、集音処理回路33に出力する。
集音処理回路33は、遅延回路45a,45b,45c、増幅回路46,加算回路47から構成される。遅延回路45a,45b,45cは、マイクロホン31a,31b,31cのそれぞれに対応して設けられる。これら遅延回路45a,45b,45cは、集音処理回路33に入力される音声信号を遅延処理する。各遅延回路45a,45b,45cから出力される音声信号は、増幅回路46に入力される。増幅回路46は、遅延処理された音声信号を増幅する。なお、この増幅回路46による音声信号の増幅度は、被写体距離に応じて決定される。この増幅回路46により増幅された各音声信号は加算回路47により加算される。これにより、特定方向の音声を強調した音声データが生成される。この音声データは、音声メモリ35に格納される。この音声メモリ35に格納された音声データは不図示の音声符号/復号回路により圧縮される。CPU39は、圧縮された音声データと圧縮された画像データとを含む音声付き画像ファイルとして記憶媒体44に記録する。
集音制御回路34は、集音部31による集音領域の走査を実行するときに、例えば画像サイズ、焦点距離、集音部31の各マイクロホンにおける集音領域の大きさなどに基づいて、各マイクロホンにより取得される音声信号に対する遅延時間を設定する。また、集音制御回路34は、撮像範囲内に音声を発する被写体が含まれる場合に、音声を発する被写体の位置(撮像光学系15の主点と音声を発する被写体とを結ぶ直線が光軸Lとなす角度θ)に基づいた遅延時間を設定する。これら設定された遅延時間に基づいて、集音制御回路34は、各遅延回路45a,45b,45cを遅延制御する。また、この集音制御回路34は、測距センサ27からの検出信号に基づく被写体距離に基づいて、増幅回路46における増幅度を設定する。
レリーズボタン41や操作部42は、その操作時に、操作内容に応じた操作信号をCPU39へ出力する。CPU39は、レリーズボタン41の押下操作に基づくレリーズ操作信号が入力されると、撮像素子16から読み出される画像信号の中で、撮像画面内にあらかじめ設定されているフォーカス検出領域に対応する信号を用いて公知のコントラスト方式のAF(オートフォーカス)動作を行う。
具体的には、画像処理回路21によって画像処理された画像データのうち、フォーカス検出領域に対応するデータについての高周波数成分の積算値(いわゆる焦点評価値)を最大にするように、レンズ駆動指令(フォーカス調節信号)をレンズ駆動回路17へ送る。焦点評価値を最大にするフォーカスレンズの位置は、撮像素子16によって撮像される被写体像のエッジのぼけをなくし、画像のコントラストを最大にする(尖鋭度を高める)合焦位置である。なお、上記コントラスト方式のAF動作に変えて、公知の瞳分割方式による位相差AF動作を行うように構成してもよい。
操作部42はズーム操作部を備えている。CPU39は、ズーム操作に基づくズーム操作信号が操作部42から入力されると、上述したレンズ駆動指令を発生し、レンズ駆動回路17にズームレンズを進退駆動させる。これにより、撮像素子16の撮像面上に結像される被写体像が拡大もしくは縮小し、光学的にズーム調節される。
CPU39は、さらに、ズーム操作に基づくズーム操作信号が操作部42から入力されると画像処理回路21へ指令を出力し、画像データに対する解像度変換処理の変換比率を操作信号に応じて変化させる。これにより、モニタ26に表示される画像が拡大もしくは縮小し、電気的にズーム調節される(電子ズーム)。解像度変換比率は電子ズーム倍率に対応している。画像処理回路21が電子ズーム倍率を高める方向に解像度変換比率を変える場合、再生画像の一部が拡大されてモニタ26に表示される(拡大率が上がる反面、再生画像の表示範囲は狭くなる)。反対に、画像処理回路21が電子ズーム倍率を低くする方向に解像度変換比率を変える場合、モニタ26に表示される再生画像の拡大率が下がる反面、再生画像の表示範囲は広くなる。
内蔵メモリ41は、CPU39によって実行される制御プログラムや該制御プログラムを実行したときに使用されるデータなどが記憶される。この内蔵メモリ41には、上述したプログラムやデータの他に、辞書データ51が格納される。この辞書データ51は、被写体の種類、被写体の画像情報、被写体の音声情報がそれぞれ被写体の種類毎に対応付けられたデータからなる。なお、被写体の種類とは、被写体を分類したときの総称や被写体の呼称などが挙げられる。また、被写体の画像情報としては、例えば被写体の画像データの他に、被写体の輪郭情報、輝度分布情報、色分布情報、空間周波数情報、テクスチャ情報のいずれかが挙げられる。さらに、被写体の音声情報としては、被写体が発する音声の情報であり、被写体が発する音声データの他に、各周波数における強度情報などが挙げられる。この音声データは、被写体が音声を発する所定期間の間に得られる音声のデータである。具体的には、被写体が救急車であれば、音声データは救急車が発する警報音を所定期間録音したデータとなる。CPU39は、被写体認識が実行されたときに得られる音声情報、画像情報、被写体の種類を関連付けた後、これら情報を辞書データ51に追加する。この動作により、辞書データを更新していく。つまり、この辞書データ51は、撮像装置10を用いて撮影を行った場合に得られる過去のデータを蓄積することで生成されるデータである。
次に、撮像時の処理について図2のフローチャートに基づいて説明する。なお、図2のフローチャートは、撮像装置が撮影待機状態となることを契機にして実行される。
ステップS101は、レリーズボタンの半押し操作があるか否かを判定する処理である。撮影者によりレリーズボタン41が半押し操作されると、該半押し操作に基づく操作信号(以下、半押し操作信号)がCPU39に入力される。このステップS101において、CPU39は、半押し操作信号が入力されたか否かを判定する。半押し操作信号が入力された場合、CPU39は、ステップS101の判定処理をYesとし、ステップS102に進む。半押し操作信号が入力されない場合には、CPU39は、ステップS101の判定処理をNoとし、半押し操作信号が入力されたと判定される(ステップS101の判定処理がYesとなる)まで、このステップS101の判定処理を繰り返す。
ステップS102は、スルー画像の撮像処理である。ステップS101により、半押し操作信号が入力されたと判定されていることから、CPU39は上述したAF動作を伴ったスルー画像の撮像処理を実行する。以下、スルー画像の撮像処理について記載する。
CPU39は、撮像素子駆動回路18へ指示を送り、スルー画像の撮像動作を実行するための駆動信号を出力させる。撮像素子16は、スルー画像の撮像動作のための駆動信号を受けて、例えば、30フレーム/秒の高フレームレートで蓄積電荷を連続的に出力する。スルー画像用の露出条件は測光データに基づいて決定される。画像処理回路21は、入力された信号に上述した信号処理を施すとともに、撮像素子16上において近傍に位置する同色画素(単板カラーの撮像素子の場合)の信号を加算し、静止画像の撮影時に比べて低解像度(低画素数)の映像信号を生成する。なお、この他に、間引き読み出しすることで、低解像度の映像信号(スルー画像データ)を生成してもよい。
画像処理回路21は、解像度変換処理を施した映像信号を表示制御回路25へ出力することにより、スルー画像がモニタ26に表示される。これにより、撮影者は、これから本撮影しようとする被写界の状態をモニタ26の画面で観察することができる。すなわち、スルー画像の撮像処理においては、撮像動作と表示動作が並行して行われる。なお、モニタ26に表示されるスルー画像は、構図、又はフォーカスなどの撮影状態を確認する際に用いられる。
ステップS103は、屋外であるか否かを判定する処理である。CPU39は、ステップS102にて生成されるスルー画像を用いて、撮像範囲の上部の領域における明るさと、撮像範囲の下部の領域における明るさとを比較する。なお、各領域における明るさとしては、それぞれの領域の輝度値の平均値を求めればよい。例えば撮影範囲の上部の領域の明るさが、撮像範囲の下部の領域における明るさよりも明るい場合には、屋外であると判定する。この場合には、ステップS103の判定処理はYesとなり、ステップS104に進む。一方、撮影範囲の上部の領域の明るさが、撮像範囲の下部の領域における明るさよりも暗い場合には、屋内であると判定する。この場合には、ステップS114に進む。なお、ステップS114は別処理であり、この別処理では、例えば一般的な撮影モードに基づいた処理が実行される。
ステップS104は、集音領域の走査及び音声を発する領域の有無を特定する処理である。CPU39は、集音制御回路34に、集音領域を走査する旨の指令を出力する。この指令に合わせて、CPU39は、焦点距離、集音部31の各マイクロホン31a,31b,31cにおける集音領域の大きさの情報を集音制御回路34に出力する。集音制御回路34は、これら情報に基づいて、各マイクロホン31a,31b,31cにより取得される音声信号に対する遅延時間を、集音領域の走査を開始してからの経過時間毎に設定する。そして、集音制御回路34は、設定した遅延時間に基づいて、遅延回路45a,45b,45cにおける遅延制御を実行する。
上述したように、マイクロホン31a,31b,31cは、撮像装置10の筐体前面に離間して配置される。したがって、光軸Lから所定の角度θをもった方向からの音源から発生した音声は、各マイクロホン31a,31b,31cに到達するまでの距離(伝搬距離)に差が生じ、この距離差によって、各マイクロホン31a,31b,31cに到達する時間の差ΔTが発生する。
マイクロホン31aを基準とした場合、マイクロホン31aと、マイクロホン31aに対して距離Dだけ離間して筐体に配置されるマイクロホン31bとの伝搬距離差をAとすると、伝搬距離差A=D×sinθとなり、音速をVとすると、
ΔT=A/V=(D×sinθ)/V
となる。すなわち、遅延回路45a,45bの遅延量を調整し、この遅延量の差がΔTとなるように調整すると、遅延回路45a,45bの出力は、位相のそろった音声データとなる。遅延回路45cについても、同様の遅延量の調整を行うことにより、加算回路47の出力で最大レベルの音声データが得られる。ここで、加算回路47の出力で最大レベルの音声データを得るための、遅延回路45a,45b,45cの遅延量は、上述した角度θによって決定される。すなわち、この遅延量を適宜に変更することで、角度θを適宜変更した際の最大レベルの音声データを取得することができる。
これにより、集音部31による集音領域が走査される。この走査に合わせて、各マイクロホン31a,31b,31cにて取得される音声信号が遅延回路45a,45b,45cにより遅延処理される。この遅延処理の後、各音声信号は、増幅回路46により増幅され、加算回路47により加算される。
例えば加算回路47により加算された後の音声データの出力レベルは、被写体が発する音声の伝播方向と、撮像光学系15の主点と被写体とを結ぶ直線とが一致している場合に最大となる。CPU39は、音声データの出力レベルが最大となるときの遅延回路45a,45b,45cの遅延時間を特定する。そして、CPU39は、特定された遅延時間と集音領域の大きさ(加算回路47の出力で出力音声レベルが所定値以上となる、角度θの範囲)とにより、音声を発する領域を特定する。
なお、上述した集音領域の走査に変えて、複数のマイクロホンが出力した音圧レベルの差から、音声を発する被写体の存在位置を推定する構成としてもよい。また、撮像光学系の撮影倍率が望遠側に設定されている場合には、音圧レベルの差から音声を発する被写体の存在位置を推定し、撮像光学系15の撮影倍率が広角側に設定されている場合には、音声データの位相差を用いて音声を発する被写体の位置を推定する構成としてもよい。この位相差は、複数のマイクロホンの出力データ同士の相関を求めることで算出することができる。
ここで、音声を発する領域は、音声を発する被写体の存在領域である。以下、この音声を発する領域を、被写体の存在領域と称して説明する。このステップS104にて被写体の存在領域が特定された場合には、被写体の存在領域の位置情報(アドレスデータ)、或いは、集音領域を走査した際に、加算回路47の出力レベルが所定値以上となる撮像光学系15の光軸Lと、撮像光学系15の主点と被写体の存在領域とを結ぶ直線とのなす角度の範囲を示す情報とを内蔵メモリ40に格納する。また、このときに得られた音声データを音声メモリ35に格納する。
ステップS105は、被写体の存在領域が集音領域内にあるか否かを判定する処理である。ステップS104の処理が実行されたときに、加算回路46から出力される音声データの出力レベルが所定値以上となる遅延時間が特定されている場合には、CPU39はステップS105の判定処理をYesとし、ステップS106に進む。一方、加算回路46から出力される音声データの出力レベルが最大となる遅延時間が特定できない場合には、CPU39はステップS105の判定処理をNoとし、ステップS111に進む。
ステップS106は、音声の特徴量を算出する処理である。CPU39は、音声メモリ35に格納された音声データを読み出し、音声データを解析する。この音声データの解析により、周波数帯域毎の強度情報が音声の特徴量として算出される。
ステップS107は、音声の特徴量と辞書データ51とに基づいて被写体の種類を絞り込む処理である。CPU39は内蔵メモリ40の辞書データ51を読み出す。そして、CPU39は、ステップS106にて取得された音声の特徴量と一致、類似する音声の特徴量を辞書データ51に記憶された音声情報から特定する。この特定により、音声の特徴量と一致、又は類似する被写体の種類が絞り込むことができる。
ステップS108は、被写体の存在領域における画像の特徴量を算出する処理である。CPU39は画像処理回路21に動作指令を出す。この動作指令を受けて、画像処理回路21は、スルー画像から、特定された領域の位置情報に基づくデータを読み出し、該領域における画像の特徴量を算出する。なお、このステップS108の処理を実行することで、被写体の輪郭情報、輝度分布情報、色分布情報、空間周波数情報、テクスチャ情報が、画像の特徴量として算出される。
ステップS109は、被写体を特定する処理である。ステップS108にて、特定された領域における画像の特徴量が求められている。CPU39は、辞書データ51を参照することで、音声の特徴量によって予め絞り込まれた被写体の種類の中から、得られた画像の特徴量が辞書データ51として記憶された画像の特徴量に対して所定範囲内となる被写体を、特定された領域に含まれる被写体として特定する。
ステップS110は、音声の特徴量、画像の特徴量及び被写体の種類を関連付けて記録する処理である。CPU39は、ステップS106で取得された音声の特徴量、ステップS108で取得された画像の特徴量、及びステップS109により特定された被写体の種類を関連付けて、内蔵メモリ40の辞書データ51に格納する。これにより、辞書データ51が更新される。
ここで、ステップS107において、ステップS106で抽出された音声の特徴量が、辞書データ51に記憶されている音声情報と一致、或いは類似していない場合には、ステップS106で抽出された音声情報の特徴量と、ステップS108で算出された画像の特徴量とが、新たな被写体として互いに関連付けられて、内蔵メモリ40の辞書データ51に格納する構成とすることもできる。さらに、画像の特徴量、或いは音声情報を用いて認識された被写体の種類の情報を、上記情報に関連付けて、辞書データ51に格納することも可能である。
ステップS111は、レリーズボタンの全押し操作があるか否かを判定する処理である。撮影者によりレリーズボタン41が全押し操作されると、該全押し操作に基づく操作信号(以下、全押し操作信号)がCPU39に入力される。このステップS111において、CPU39は、全押し操作信号が入力されたか否かを判定する。全押し操作信号が入力された場合、CPU39は、ステップS111の判定処理をYesとし、ステップS112に進む。全押し操作信号が入力されない場合には、CPU39は、ステップS111の判定処理をNoとし、ステップS104に戻る。つまり、この場合には、レリーズボタン41の全押し操作が行われるまで、ステップS104〜ステップS110の処理が繰り返し実行される。
ステップS112は、静止画像の撮像処理である。CPU39は、レリーズボタン41からの全押し操作信号を検出すると、撮像素子駆動回路18へ指示を送り、静止画像の撮像動作を実行するための駆動信号を出力させる。撮像素子16は、静止画像の撮像動作のための駆動信号を受けて、露出演算結果に基づく電荷蓄積を行って蓄積電荷を出力する。静止画像の撮像動作時の露出条件は、例えば直近に取得されたスルー画像の信号値から得られる被写界の明るさ情報に基づいて決定される。画像処理回路21は入力された信号に上述した信号処理を施し、スルー画像の撮影時に比べて高解像度(高画素数)の画像データを生成する。画像処理回路21により解像度変換処理を施した画像データは表示制御回路25へ出力される。これにより、静止画像がモニタ26に表示される。
ここで、上述した信号処理の際に、画像処理回路21は、被写体の移動方向に基づいてブラーを付加する処理を静止画像データに対して施すことも可能である。なお、ブラーを付加する処理としては、例えば被写体の移動方向にLPF(ローパスフィルタ)処理を施すことが挙げられる。
この撮像処理に合わせ、CPU39は、集音制御回路34に遅延指令を出力する。これを受けて、集音制御回路34は、集音部31における集音領域を広くして(集音部31の指向性を広くして)音声信号を取得する。集音部31の指向性を広くする手法としては、例えば特開2011−119792号公報に記載された手法など、公知の手法を用いることができる。
ステップS113は、音声情報、静止画像、被写体の種類、被写体の位置を関連付けて記録する処理である。圧縮/伸長回路22は、静止画像データを圧縮処理する。CPU39は、静止画像と、音声情報、被写体の種類、被写体の位置とを関連付けて、記憶媒体44に記録する。なお、操作部42の操作によって記憶媒体44への非圧縮状態での記録が指示されている場合には、圧縮/伸長回路22での圧縮処理は行われず、記憶媒体44への記録が行われる。また、記憶媒体44への記録動作を行う際の操作部42の操作により圧縮率を変更可能な構成としてもよい。
これによれば、取得される音声信号に基づいて撮像範囲内で音声を発する被写体の種類を絞り込むことができ、その後、領域の画像特徴量から被写体を特定することができることから、被写体認識を高精度に行うことができる。また、この被写体認識の際に用いられる辞書データ51は、過去の撮影時に得られる音声情報や画像情報をまとめたものであることから、この辞書データ51を更新できれば、被写体認識に係る処理を高精度に実行することが可能となる。
上述した実施形態では、音声を発する被写体が撮像範囲内に位置している場合を例に取り上げているが、音声を発する被写体は、必ずしも撮像範囲内に位置しているとは限らない。以下、音声を発する被写体が撮像範囲内に位置したときに、撮像処理を実行する場合について、図3のフローチャートに基づいて説明する。
ステップS201は、レリーズボタン41の半押し操作があるか否かを判定する処理である。なお、このステップS201の処理は、ステップS101と同一の処理である。このステップS201の判定処理で、レリーズボタン41の半押し操作がある場合には、CPU39は、ステップS202に進む。一方、レリーズボタン41の半押し操作がない場合には、CPU39により半押し操作信号が入力されたと判定される(ステップS201の判定処理がYesとなる)まで、このステップS201の判定処理を繰り返す。
ステップS202は、スルー画像の撮像処理である。このステップS202の処理は、ステップS102と同一の処理である。
ステップS203は、屋外であるか否かを判定する処理である。このステップS203の判定処理は、ステップS103と同一の処理である。ステップS203の判定処理がYesとなる場合には、ステップS204に進む。一方、ステップS203の判定処理がNoとなる場合には、別処理に進む。なお、この場合の別処理としては、一般的な撮像処理が挙げられる。
ステップS204は、集音領域を走査及び被写体の存在領域の有無を特定する処理である。このステップS204の処理は、ステップS104と同一の処理である。この場合、撮像範囲より狭い集音指向性を有する集音領域の走査は、撮像範囲よりも大きく、且つ撮像範囲を含む所定の範囲(図4参照)に対して実行される。
ステップS205は、集音領域を走査した結果、発音する被写体の存在領域があるか否かを判定する処理である。このステップS205の処理は、ステップS105と同一の処理である。例えば被写体の存在領域があれば、ステップS205の判定処理がYesとなり、ステップS206に進む。一方、被写体の存在領域がない場合には、ステップS205の判定処理がNoとなり、ステップS204に戻る。
ステップS206は、発音する被写体の存在領域が撮像範囲内であるか否かを判定する処理である。CPU39は、画像サイズ(画角)と被写体の存在領域の位置とに基づいて、被写体の存在領域が撮像範囲内にあるか否かを判定する。被写体の存在領域が撮像範囲内にあれば、このステップS206の判定処理がYesとなり、ステップS207に進む。一方、ステップS204により特定された被写体の存在領域が撮像範囲外であれば、このステップS206の判定処理がNoとなり、ステップS212に進む。つまり、図4に示すように、音声を発する被写体がAの位置にある場合には、特定される被写体の領域は、撮像範囲外となることから、この場合には、ステップS206の処理はNoとなり、音声を発する被写体がA’の位置にあるときには、被写体は撮像範囲内であることから、ステップS206の処理はYesとなる。
ステップS207は、音声の特徴量を算出する処理である。このステップS207の処理は、ステップS106と同一の処理である。
ステップS208は、音声の特徴量と辞書データから被写体の種類を絞り込む処理である。このステップS208の処理は、ステップS107と同一の処理である。
ステップS209は、被写体の存在領域における画像の特徴量を算出する処理である。このステップS209の処理は、ステップS108と同一の処理である。
ステップS210は、被写体を特定する処理である。このステップS210の処理はステップS109と同一の処理である。
ステップS211は、音声の特徴量、画像の特徴量及び被写体の種類を関連付けて記録する処理である。このステップS211の処理は、ステップS110と同一の処理であるこの処理が行われると、ステップS213に進む。
上述したステップS206の判定処理でNoとなる場合には、ステップS212に進む。
ステップS212は、被写体の存在領域が撮像範囲外である旨を警告する処理である。このステップS212の処理が実行されると、ステップS204に戻り、ステップS204からステップS206の処理が実行される。つまり、被写体の存在領域が撮像範囲外である場合には、その旨を警告する処理が繰り返し実行される。
ステップS213は、被写体が撮像範囲の所定位置にあるか否かを判定する処理である。被写体の位置は、ステップS204の処理が実行されることで特定されている。この被写体の位置が、例えば3分割点、撮像範囲の中央など、撮像範囲の所定位置にある場合には、CPUは、ステップS213の判定処理をYesとする。この場合、ステップS214に進む。一方、被写体の位置が上述した位置にない場合には、CPUはステップS213の判定処理をNoとする。この場合ステップS204に戻る。
ステップS214は、静止画像の撮像処理である。このステップS215の処理は、ステップS112の処理と同一である。
ステップS215は、静止画像に対する画像処理である。この画像処理としては、被写体が含まれる領域に対して、移動方向に基づくLPF処理を実行する。なお、この被写体が含まれる領域は、例えばグラフカット法などを用いて抽出される。このLPF処理により、静止画像の被写体が含まれる領域に対してブラー効果を付加することができる。なお、このLPF処理は、静止画像のうち、被写体が含まれる領域だけでなく、静止画像全体に対して施してもよい。
ステップS216は、音声情報、静止画像、被写体の種類及び被写体の位置を関連付けて記録する処理である。このステップS215の処理は、ステップS113の処理と同一である。
この実施形態では、音声を発する被写体の存在領域が撮像範囲内であるか否かを判定しているが、この他に、スルー画像を取得している際に、或いは、静止画像を取得する際に被写体の位置が撮像範囲から外れてしまったか否か(フレームアウトしてしまったか否か)を、音声データを用いて判定するようにしてもよい。
また、ステップS210で特定された被写体について、当該領域の画像データをもとに追尾動作を行い、当該領域の撮影画面内の位置をもとに、遅延回路45a,45b,45cの遅延量を設定し、特定された被写体が発する音声が大きいレベルが得られるようにする構成としてもよい。さらには、集音領域の追尾を行う構成とすれば、より一層高精度の被写体追尾を行うことができる。なお、このような動作は、スルー画像の撮影中に限らず、動画撮影を行う場合にも適用することができる。
上述した実施形態を動画像の取得時に適用した場合には、音声を発する被写体の存在領域が撮像範囲に入った(フレームインした)ときに撮像処理を開始し、音声を発する被写体の存在領域が撮像範囲から外れた(フレームアウトした)ときに、撮像処理を終了することも可能である。
また、動画撮影、或いは連写撮影を行っているときに、撮像範囲内を移動する被写体が他の物体に隠れてしまう(オクルージョンが発生してしまう)場合がある。図5に示すように、動画撮影時に被写体が位置P1,位置P2・・・・位置P8の順で移動した後、他の物体の陰に隠れてしまうと、音声データの出力レベルは位置P8を境にして低下する。その後、被写体が位置P9で他の物体の陰から現れた場合には、被写体が位置P9にあるときに得られる音声データの出力レベルは、被写体が位置P1〜位置P8にあるときに取得された音声データの出力レベルと同一レベルとなる。この場合、位置P8〜位置P9の間に得られるフレーム画像はオクルージョンが発生しているフレーム画像であることから、位置P8〜位置P9の間に得られるフレーム画像に対して、例えば削除候補のフレーム画像である旨を示す情報を付加しておくなど、他のフレーム画像と識別できるように記憶する。
上述した実施形態では、3つのマイクロホンにより集音部を構成しているが、これに限定される必要はなく、二次元状に複数のマイクロホンを配置する構成であってもよい。また、集音部を1つの指向性の制限されたマイクロホンとし、このマイクロホンをX方向及びY方向に揺動させることで、集音領域を走査させる構成としてもよい。
上述した実施形態では、被写体距離に関係なく得られる音声データに基づいた被写体の有無の特定を行っているが、これに限定される必要はなく、被写体距離が予め設定された閾値以下となる場合にのみ、被写体の有無を特定する処理を実行するようにしてもよい。このような被写体距離情報は、例えば撮像装置10のオートフォーカス動作によって取得することができる。
上述した実施形態では、被写体の存在領域における画像の特徴量を求め、辞書データとして記憶されている画像の特徴量から被写体を特定しているが、これに限定される必要はなく、被写体の存在領域に対する画像データを作成し、該画像データと、辞書データの画像情報として記憶されている被写体の画像データとから、被写体を特定することも可能である。
上述した実施形態では、情報取得装置として、撮像装置を例に取り上げているが、これに限定される必要はなく、例えば取得された動画像に対して被写体認識処理を行う画像処理装置や画像認識装置などであってもよい。
また、この他に、図2のフローチャートに示す処理、又は図3のフローチャートに示す処理をコンピュータに実行させることが可能な情報処理プログラムであってもよい。この
場合、この情報処理プログラムは、メモリカード、光学ディスク、磁気ディスクなどのコンピュータ読み取り可能な記憶媒体に記憶されていることが好ましい。