JP2009296143A

JP2009296143A - 撮像装置

Info

Publication number: JP2009296143A
Application number: JP2008145846A
Authority: JP
Inventors: Takumi Uehara; 匠上原; Shuichi Kato; 収一加藤; Keita Sonoda; 啓太園田; Yuichi Nakase; 雄一中瀬
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2008-06-03
Filing date: 2008-06-03
Publication date: 2009-12-17

Abstract

【課題】被写体の顔が撮影画角内のどこに存在していても、顔検出処理に要する時間を低減することができる撮像装置を提供する。
【解決手段】撮像装置は、被写体像を光電変換することにより画像データを取得する撮像手段（撮像部１０４）と、音声を検出する音声検出手段（マイク２１）とを備える。また、音声検出手段の検出結果に応じて、撮像手段にて得られた画像データに基づいて生成された画像の一部の領域を選択し、選択された領域において被写体認識を行う認識手段（システム制御部１１０）を備える。
【選択図】図２

Description

本発明は、入射した光を電気信号に変換する撮像素子の出力をデジタル値に変換して画像データを得る撮像装置に関する。特に、被写体の顔を検出する機能を備える撮像装置に関する。

従来、人物撮影を行う場合において、主被写体である人物とその背景のコントラストの関係から焦点が人物に合わずに、背景に合ってしまうという問題があった。このような問題を解決するために、画面内の顔を検出し、検出した顔の位置に合焦させることで、人物に焦点を合わせる撮像装置が開発されている（特許文献１参照）。

更に、画像データ中の一部の領域内のみにて顔検出処理を行うことで、顔検出にかかる時間を低減する撮像装置が開示されている（特許文献２参照）。

特許文献２には以下の撮像装置が提案されている。

即ち、画像中における複数の部分領域を示す領域データを保持する保持手段と、保持手段に保持された領域データによって示される部分領域内の画像データから顔領域を検出する検出手段とを備える。この撮像装置によって、顔検出にかかる時間を低減している。

尚、画像データからの顔検出については、非特許文献１、２に記載されたものが知られている。更に、特許文献３〜６に記載されている手法で目を検出することにより、顔の位置や大きさを推定することもできる。
特開２００１−２１５４０３号公報特開２００７−８１７３２号公報特開平３−１７６９６号公報特開平４−２５５０１５号公報特開平５−３００６０１号公報特開平９−２５１３４２号公報テレビジョン学会誌Ｖｏｌ．４９，Ｎｏ．６，ｐｐ．７８７−７９７（１９９５）、「顔領域抽出に有効な修正ＨＳＶ表色系の提案」電子情報通信学会誌Ｖｏｌ．７４−Ｄ−ＩＩ，Ｎｏ．１１，ｐｐ．１６２５−１６２７（１９９１）、「静止濃淡情景画像から顔領域を抽出する手法」

特許文献１に記載の撮像装置では、画面のどこに人物がいるか判らないため、画面全体を顔検出エリアとして設定していた。このため、顔検出処理に時間が多くかかっていた。

また、特許文献２に記載の撮像装置では、顔検出エリアとして設定されている部分領域が予め決められており、顔検出エリア外に被写体の顔が存在する場合には顔検出が不可能であった。

本発明の目的は、被写体の顔が撮影画角内のどこに存在していても、顔検出処理に要する時間を低減することができる撮像装置を提供することにある。

上記目的を達成するために、請求項１記載の撮像装置は、被写体像を光電変換することにより画像データを取得する撮像手段と、音声を検出する音声検出手段と、前記音声検出手段の検出結果に応じて、前記撮像手段にて得られた画像データに基づいて生成された画像の一部の領域を選択し、選択された領域において被写体認識を行う認識手段とを備えることを特徴とする。

本発明の撮像装置によれば、被写体の顔が撮影画角内のどこに存在していても、顔検出処理に要する時間を低減することができる。

以下、本発明の実施の形態を図面を参照しながら詳細に説明する。

図１は、本発明の実施の形態に係る撮像装置としてのデジタルカメラの外観斜視図である。

装置本体１は、光学ファインダ２、電源スイッチ（ボタン）３、静止画または動画を撮影する際に押下するレリーズスイッチ４、撮影の画角を変更するためのズームレバー５、モード切替スイッチ６を備える。

モード切替スイッチ６は、装置本体１における各種モードを切り替える。より具体的には、装置本体１の背面に印刷されたアイコンマーク１ａにモード切替スイッチ６を合わせると、静止画記録モードへの切り替えが可能である。また、アイコンマーク１ｂにモード切替スイッチ６を合わせると、動画記録モードへの切り替えが可能である。また、アイコンマーク１ｃにモード切替スイッチ６を合わせると、再生モードにモードの切り替えが可能である。

液晶パネル７は、装置本体１の背面に備えられた表示手段であり、撮影レンズを介して撮像素子の受光面に結像した撮影前の被写体像をスルー画像として表示し、あるいは、撮影後記録された画像を再生して表示する。

操作部８は、操作者が各種操作を行う操作スイッチであり、具体的には、液晶パネル７上の表示を切り替える表示スイッチや、メニュースイッチ、印刷スイッチ、ＳＥＴスイッチである。

十字スイッチ９は、十字に配置された４方向スイッチ（上スイッチ、下スイッチ、右スイッチ、左スイッチ）である。

図２は、図１のデジタルカメラのブロック図である。

以下、その構成を動作（機能）と併せて説明する。

図２において、バリア１０１は、装置本体１の、撮影レンズ１０２を含む撮像部を覆うことにより、撮像系の汚れや破損を防止する。撮影レンズ１０２、絞り機能を備えるシャッター１０３、光学像を電気信号に変換（光電変換）するＣＣＤやＣＭＯＳ素子等で構成される撮像部（撮像素子）１０４がある。

Ａ／Ｄ変換器１０５は、アナログ信号をデジタル信号に変換する。Ａ／Ｄ変換器１０５は、撮像部１０４から出力されるアナログ信号をデジタル信号に変換する場合や、音声制御部１０６から出力されるアナログ信号をデジタル信号に変換する場合に用いられる。

タイミング発生部１０７は、撮像部１０４、Ａ／Ｄ変換器１０５、音声制御部１０６、Ｄ／Ａ変換器１０８にクロック信号や制御信号を供給する。タイミング発生部１０７は、メモリ制御部１０９及びシステム制御部１１０により制御される。

画像処理部１１１は、Ａ／Ｄ変換器１０５からのデータ、または、メモリ制御部１０９からのデータに対し所定の画素補間、縮小といったリサイズ処理や色変換処理を行う。

また、画像処理部１１１では、撮影した画像データを用いて所定の演算処理が行われ、得られた演算結果に基づいてシステム制御部１１０が露光制御、測距制御を行う。これにより、ＴＴＬ（スルー・ザ・レンズ）方式のＡＦ（オートフォーカス）処理、ＡＥ（自動露出）処理、ＥＦ（フラッシュプリ発光）処理が行われる。

画像処理部１１１では更に、撮影した画像データを用いて所定の演算処理を行い、得られた演算結果に基づいてＴＴＬ方式のＡＷＢ（オートホワイトバランス）処理も行っている。

Ａ／Ｄ変換器１０５からの出力データは、画像処理部１１１及びメモリ制御部１０９を介して、あるいは、直接メモリ制御部１０９を介して、メモリ１１２に書き込まれる。メモリ１１２は、撮像部１０４によって得られ、Ａ／Ｄ変換器１０５によりデジタルデータに変換された画像データや、液晶パネル７を含む画像表示部２３に表示するための画像データを格納する。

尚、メモリ１１２は、マイク２１（２１ａ、２１ｂ）において録音された音声データ、静止画像、動画像及び画像ファイルを構成する場合のファイルヘッダを格納するのにも用いられる。従って、メモリ１１２は、所定枚数の静止画像や所定時間の動画像及び音声を格納するのに十分な記憶容量を備えている。

システム制御部１１０は、音声検出手段としてのマイク２１の音声検出結果に応じて、撮像部１０４にて得られた画像データに基づいて生成された画像の一部の領域を選択し、選択された領域において被写体認識を行う認識手段として機能する。

圧縮／伸張部１１３は、適応離散コサイン変換（ＡＤＣＴ）等により画像データを圧縮、伸張する。圧縮／伸張部１１３は、シャッター１０３をトリガにしてメモリ１１２に格納された撮影画像を読み込んで圧縮処理を行い、処理を終えたデータをメモリ１１２に書き込む。

また、圧縮／伸張部１１３は、記録媒体２００の記録部２０１等からメモリ１１２に読み込まれた圧縮画像に対して伸張処理を行い、処理を終えたデータをメモリ１１２に書き込む。

圧縮／伸張部１１３によりメモリ１１２に書き込まれた画像データは、システム制御部１１０のファイル部においてファイル化される。そして、インターフェース（Ｉ／Ｆ）１１４、コネクタ１１５、記録媒体２００側のコネクタ２０３、インターフェース（Ｉ／Ｆ）２０２を介して、記録部２０１に記録される。また、メモリ１１２は、画像表示用のメモリ（ビデオメモリ）を兼ねている。

Ｄ／Ａ変換器１０８は、メモリ１１２に格納されている画像表示用のデータをアナログ信号に変換して画像表示部２３に供給する。画像表示部２３は、液晶パネル７等の表示器上に、メモリ１１２に書き込まれた表示用の画像データをＤ／Ａ変換器１０８を介してアナログ信号に変換して表示を行う。

マイク２１から出力された音声信号は、アンプ等で構成される音声制御部１０６を介してＡ／Ｄ変換器１０５に供給され、Ａ／Ｄ変換器１０５においてデジタル信号に変換された後、メモリ制御部１０９によってメモリ１１２に格納される。

一方、記録媒体２００に記録されている音声データは、メモリ１１２に読み込まれた後、Ｄ／Ａ変換器１０８によりアナログ信号に変換される。音声制御部１０６は、このアナログ信号によりスピーカ２２を駆動し、音声出力する。

不揮発性メモリ１１６は、電気的に消去・記録可能なメモリであり、例えばＥＥＰＲＯＭ等が用いられる。不揮発性メモリ１１６には、システム制御部１１０の動作用の定数、プログラム等が記憶（記録）される。ここでいう、プログラムとは、本実施の形態にて後述する各種フローチャートを実行するためのプログラムのことである。

システム制御部１１０は、不揮発性メモリ１１６に記憶されたプログラムを実行することで、後述する本実施の形態の各処理を実現する。システムメモリ１１７は、ＲＡＭが用いられる。システムメモリ１１７には、システム制御部１１０の動作用の定数、変数、不揮発性メモリ１１６から読み出したプログラム等を展開（記憶）する。

ズームレバー５、モード切替スイッチ６、第１シャッタースイッチ５１、第２シャッタースイッチ５２、操作部８及び十字スイッチ９はシステム制御部１１０に各種の動作指示を入力するための操作手段である。

モード切替スイッチ６は、システム制御部１１０の動作モードを静止画記録モード、動画記録モード、再生モード等のいずれかに切り替えることができる。第１シャッタースイッチ５１は、装置本体１に設けられたレリーズスイッチ４の操作途中（半押し）でオンとなり第１シャッタースイッチ信号ＳＷ１を発生する。

システム制御部１１０は、第１シャッタースイッチ信号ＳＷ１により、ＡＦ処理、ＡＥ処理、ＡＷＢ処理、ＥＦ処理等の動作を開始する。

第２シャッタースイッチ５２は、レリーズスイッチ４の操作完了（全押し）でオンとなり、第２シャッタースイッチ信号ＳＷ２を発生する。システム制御部１１０は、第２シャッタースイッチ信号ＳＷ２により、撮像部１０４からの信号読み出しから記録媒体２００に画像データを書き込むまでの一連の撮影処理の動作を開始する。

操作部８の各操作部材は、画像表示部２３に表示される種々の機能アイコンを選択操作すること等により、場面毎に適宜機能が割り当てられ、各種機能スイッチとして作用する。機能スイッチとしては、例えば、終了スイッチ、戻るスイッチ、画像送りスイッチ、ジャンプスイッチ、絞込みスイッチ、属性変更スイッチ等がある。

例えば、メニュースイッチが押されると各種設定が可能なメニュー画面が画像表示部２３に表示される。操作者は、画像表示部２３に表示されたメニュー画面と、十字スイッチ９やＳＥＴスイッチとを用いて直感的に各種設定を行うことができる。電源スイッチ３は、電源オン、電源オフを切り替える。

電源制御部１１８は、電池検出回路、ＤＣ−ＤＣコンバータ、通電するブロックを切り替えるスイッチ回路等により構成され、電池の装着の有無、電池の種類、電池残量の検出を行う。また、電源制御部１１８は、その検出結果及びシステム制御部１１０の指示に基づいてＤＣ−ＤＣコンバータを制御し、必要な電圧を必要な期間、記録媒体２００を含む各部へ供給する。

電源部１１９は、アルカリ電池やリチウム電池等の一次電池やＮｉＣｄ電池やＮｉＭＨ電池、Ｌｉ電池等の二次電池、ＡＣアダプター等からなる。コネクタ５４及び５５は電源部１１９と電源制御部１１８とを接続する。

ＲＴＣ（ＲｅａｌＴｉｍｅＣｌｏｃｋ）１２０は、日付及び時刻を計時する。ＲＴＣ１２０は、電源制御部１１８とは別に内部に電源部を保持しており、電源部１１９が落ちた状態であっても、計時状態を続ける。システム制御部１１０は、起動時にＲＴＣ１２０より取得した日時を用いてシステムタイマを設定し、タイマ制御を実行する。

インターフェース１１４は、メモリカードやハードディスク等の記録媒体２００またはチューナーカードと、装置本体１とのインターフェースを司る。コネクタ１１５は、記録媒体２００やチューナーカードとインターフェース１１４との接続を行う。記録媒体着脱検出部１２１は、コネクタ１１５に記録媒体２００やチューナーカードが装着されているか否かを検出する。

記録媒体２００は、図２においてはメモリカードやハードディスク等である。記録媒体２００は、半導体メモリや磁気ディスク等から構成される記録部２０１、装置本体１とのインターフェース２０２、及び、記録媒体２００と装置本体１とを接続するためのコネクタ２０３を備えている。

また、コネクタ１１５、２０３はＳＤＩ／Ｏカードの拡張規格に準拠しており、先述の記録媒体の他、ＳＤＩ／Ｏカードの拡張規格に準拠したチューナーカードが着脱可能となっている。

通信部１２２は、ＲＳ２３２ＣやＵＳＢ、ＩＥＥＥ１３９４、Ｐ１２８４、ＳＣＳＩ、モデム、ＬＡＮ、無線通信等の各種通信処理を行う。コネクタ（無線通信の場合はアンテナ）１２３は、通信部１２２を介して装置本体１を他の機器と接続する。

図３は、図２のデジタルカメラによって実行される撮影（撮像）処理の手順を示すフローチャートである。

図３に示される処理は、システム制御部１１０により実行される。例えば、システム制御部１１０は不図示のＣＰＵを備え、例えば、システムメモリ１１７に格納された制御プログラムを実行することにより図３に示される処理を実現する。

図３において撮影動作が開始されると、ステップＳ３０１において、システム制御部１１０は、スルー表示される画像信号中に人の顔が存在するか否かを検出する顔検出処理を行う。この顔検出処理については図４を用いて後述する。

システム制御部１１０は、顔検出処理において人の顔が検出された場合、画像信号中において検出した顔の位置座標、サイズ（幅、高さ）、検出個数、信頼性係数等を顔情報としてシステムメモリ１１７に記憶する。顔検出処理において顔が検出されなかった場合は、システムメモリ１１７内の位置座標、サイズ（幅、高さ）、検出個数、信頼性係数等の領域に０を設定する。

続いてステップＳ３０２において、第１シャッタースイッチ信号ＳＷ１がＯＮされたか否か判定される。第１シャッタースイッチ信号ＳＷ１がＯＦＦであれば、再度ステップＳ３０１の顔検出処理が実行され、ＯＮであれば、次のステップＳ３０３に進む。

ステップＳ３０３において、システム制御部１１０は、測距処理を行って撮影レンズ１０２の焦点を被写体に合わせるとともに、測光処理を行って絞り値及びシャッター時間（シャッタースピード）を決定する。

尚、測光処理において、必要であればフラッシュの設定も行われる。このとき、ステップＳ３０１において顔が検出されていれば、検出した顔の範囲で測距を行うようにすることも可能である。

次に、ステップＳ３０４では、第２シャッタースイッチ信号ＳＷ２のＯＮ／ＯＦＦ状態を判定する。第１シャッタースイッチ信号ＳＷ１がＯＮした状態で、第２シャッタースイッチ信号ＳＷ２がＯＮになると、処理はステップＳ３０４からステップＳ３０６へ進む。

第２シャッタースイッチ信号ＳＷ２がＯＮせずに、更に第１シャッタースイッチ信号ＳＷ１も解除された場合（ステップＳ３０５）、処理はステップＳ３０５からステップＳ３０１へ戻る。

また、第１シャッタースイッチ信号ＳＷ１がＯＮ、第２シャッタースイッチ信号ＳＷ２がＯＦＦの間は、ステップＳ３０３〜Ｓ３０５の処理が繰り返される。

第２シャッタースイッチＳＷ２が押されると（第２シャッタースイッチ信号ＳＷ２がＯＮされると）、ステップＳ３０６において、システム制御部１１０は、露光処理や現像処理を含む撮影処理（露光処理）を実行する。

尚、露光処理では、撮像部１０４、Ａ／Ｄ変換器１０５を経て得られた画像データが、画像処理部１１１及びメモリ制御部１０９を介して、或いはＡ／Ｄ変換器１０５から直接メモリ制御部１０９を介して、メモリ１１２に書き込まれる。

また、現像処理では、システム制御部１１０が、メモリ制御部１０９そして必要に応じて画像処理部１１１を用いて、メモリ１１２に書き込まれた画像データを読み出して各種処理を行う。

撮影後、ステップＳ３０７において、システム制御部１１０は、撮影処理で得られた画像データを画像ファイルとして記録媒体２００に対して書き込む記録処理を実行する。

次に、顔検出処理について説明する。

顔検出処理に過大な時間を要すると、シャッターチャンスを捉えるのが困難になるため、顔検出処理に要する時間を低減する必要がある。顔検出処理に要する時間を低減するには、顔検出領域を撮影範囲のうち一部領域に限定することが有効である。

しかしながら、被写体の顔は、必ずしも撮影範囲の中心付近に位置するわけではなく、撮影構図によっては撮影範囲の隅に位置する場合がある。

そこで、本実施の形態では、被写体の発する音声の音源位置を検出して、検出された音源位置を含む領域のみを顔検出処理することによって、顔検出処理に要する時間の低減と、撮影範囲内の任意の位置に存在する被写体の顔検出の両立を図る。

図４は、図３のステップＳ３０１で実行される顔検出処理の手順を示すフローチャートである。

顔検出処理がスタートすると、ステップＳ４０１において、音源方向検出処理が行われる。音源方向の検出方法は公知であり、例えば、特開平０７−１４０５２７号公報に、複数マイクの位相差を利用して音源の方向を検出する技術が開示されている。

以下に、特開平０７−１４０５２７号公報に開示されている音源方向検出手段について概略を説明する。

（第１の実施の形態）
第１の実施の形態は、図５の音源方向検出手段を用いて行う音源方向検出処理である。

図５は、図４のステップＳ４０１で実行される音源方向検出処理に用いられる音源方向検出手段の第１の構成例を示す図である。

図５において、マイク２１ａ、２１ｂは、音源５０１から発せられた音声を検出し、その検出信号は位相差検出回路５０２に入力される。

位相差検出回路５０２は、複数のマイク２１ａ、２１ｂで検出された音の位相差を検出する回路である。音源５０１からマイク２１ａまでの距離Ｌ１と、マイク２１ｂまでの距離Ｌ２に差があると、マイク２１の出力信号に位相差が生じるため、既知のマイク間距離と音速から、音源の方向を演算によって特定することが可能となる。

尚、マイクを左右に１個ずつの計２個を用いることにより、撮像装置における左右方向の音源位置を検出することができる。また、上下方向において、異なる位置に更にもう１つマイクを備えることにより、撮像装置（デジタルカメラ）における上下方向についても音源位置を検出することができる。

図４に戻り、ステップＳ４０２において、音声と音源方向の検出に成功したか否か判定される。成功した場合は、引き続きステップＳ４０３に進み、音源方向の検出に失敗した場合は、ステップＳ４０７に進む。

ステップＳ４０３では、レンズの焦点距離情報と検出された音源方向の情報にから、音源の方向が撮影画角内であるか否かについて判定される。音源の方向が撮影画角内であればステップＳ４０４に進み、撮影画角外であればステップＳ４０７に進む。

ステップＳ４０４では、顔検出処理を実行する画像領域（顔検出領域）の設定を行う。

図６は、図４のステップＳ４０４で設定される顔検出領域を示す図である。より具体的には、図６は、撮影領域に対する音源の位置と顔検出領域の関係を示す図である。

本実施の形態では、図６に示す通り、図５の音源方向検出手段によって検出された音源位置を中心とするように、撮影範囲の２５％の領域を顔検出処理領域として設定する。

尚、顔検出領域の大きさは、音声信号の大きさによって変えても良いし、レンズの焦点距離によって変えても良い。また、音源方向検出手段によって複数の音源が検出された場合には、顔検出処理領域を音源の個数に合わせて複数設定しても良い。

図４に戻り、続いてステップＳ４０５にて、顔検出処理領域として設定された領域内にて公知の顔検出処理を実行する。ステップＳ４０６にて、顔検出に成功した場合は、一連の顔検出処理を終了し、顔検出に失敗した場合は、ステップＳ４０８に進む。

ステップＳ４０１での音声検出の結果、音声検出に失敗するか、あるいは検出された音源方向が画角外であった場合は、上述の通りステップＳ４０７に進む。

ステップＳ４０７では、撮影画角内の全範囲において公知の顔検出処理が実行される。これにより、被写体となる人物が音声を発していない場合、または被写体の発する音声が背景雑音に妨げられて検出できなかった場合でも、撮影画角内の全範囲を顔検出処理することによって、顔検出の検出漏れを防ぐことができる。

ステップＳ４０５における選択領域内での顔検出処理の結果、ステップＳ４０６で顔検出に失敗した場合は、上述の通りステップＳ４０８に進む。

ステップＳ４０８では、選択領域外にて顔検出処理が実行される。これにより、人物以外の音源が検出されてしまうことで主被写体である人物が顔検出領域から外れてしまった場合でも、顔検出領域外にて顔検出処理を実行するため、確実に被写体の顔を検出することができる。

以上説明した通り、本実施の形態によれば、撮影画角内のうち一部領域に限定して顔検出処理を実行するため、顔検出処理に要する時間を短縮することができる。また、顔検出処理を実行する顔検出領域は、音源方向を含む領域に自動設定されるため、被写体の顔検出は、撮影画角内の全領域において可能となり、撮影構図の自由度が確保される。

図５に示す音源方向検出手段では、音源方向を検出する際に、音声信号の周波数に関わらず検出するため、人の発声音以外の雑音を検出することがある。その場合、音源位置を含む顔検出領域内には被写体である人の顔が存在せず、顔検出領域内にて顔検出処理を行った後に改めて顔検出領域の外側で顔検出処理を実行することになる。

そこで、以下の特開平０５−２１５８３３号公報にて開示されている音源方向検出手段を用いて、人の発声音の音源方向を検出して、顔検出領域を設定することを可能にする。

（第２の実施の形態）
第２の実施の形態は、図７の音源方向検出手段を用いて行う音源方向検出処理である。

図７は、図４のステップＳ４０１で実行される音源方向検出処理に用いられる音源方向検出手段の第２の構成例を示す図である。

図７において、指向性の高いマイク２１ａと２１ｂの出力信号はバンドパスフィルタ（ＢＰＦ）７０１（７０１ａ、７０１ｂ）によって、特定周波数のみ減衰無く通過する。

音圧差検出回路７０２では、各マイクが出力した音圧レベルを比較し、音圧レベルの差値がシステム制御部１１０へ出力される。

音源がマイク２１の指向特性パターンから離れる程、マイク２１が出力する音圧レベルは下がるため、各マイク２１の出力する音圧レベルに差があれば、高いレベルを出力するマイク側に音声信号を発する音源５０１があることが検出できる。また、両出力レベルの差が小さい程、音源５０１が真正面にあることが検出できる。

ここで、バンドパスフィルタ４０１が減衰無く通過させる特定帯域の周波数を、例えば、人の発声する周波数帯域である２ＫＨｚ前後とすることで、人の発声音の音源位置を検出することが可能となる。

また、指向性のマイク２１を左右に１個ずつの計２個を用いることにより、撮像装置（デジタルカメラ）における左右方向の音源位置を検出することができる。更に、上下方向において異なる位置に更にもう１つマイクを備えることにより、撮像装置（デジタルカメラ）における上下方向についても音源位置を検出することができる。マイクの数を増やせば音源位置の検出精度は更に高まる。

以上説明した通り、本実施の形態によれば、音源方向検出手段にバンドパスフィルタを備えることで、特定周波数の音源方向を検出することが可能となる。バンドパスフィルタの透過帯域を、例えば、人の発声する周波数帯域である２ＫＨｚとすることで、人の発声音の音源方向を検出することができるため、第１の実施の形態と比べて、顔検出領域を効率的に設定可能となる。

（第３の実施の形態）
第１の実施の形態で示した位相差方式の音源位置検出手段と、第２の実施の形態で示した指向性のマイクによる音圧差方式の音源位置検出手段を共に装置本体１に備え、撮影レンズ１０２の焦点距離によって位相差方式と音圧差方式を使い分ける。このことで、より好適に音源５０１の位置を検出可能になる。

具体的には、広角寄りでは、位相差方式の音源位置検出手段を用いて音源５０１の位置を検出し、望遠寄りでは、音圧差方式を用いて音源５０１の位置を検出することで、より高い精度で音源位置を検出することができる。

広角寄りでは、音源５０１は、装置本体１の正面から外れた位置に存在する可能性があり、その場合、複数のマイク２１ａ、２１ｂと音源５０１との距離Ｌ１、Ｌ２の差が大きくなる。そのため位相差が大きくなり、位相差方式の音源位置検出手段による音源位置の検出精度が高くなる。

一方、複数の指向性のマイクを用いた音圧差方式では、検出範囲の狭い指向性のマイクの特性により、いずれのマイクでも充分な音圧を検出できず、音圧差が小さくなるので、充分な検出精度が確保できない。

望遠寄りでは、音源５０１の位置は、装置本体１のほぼ正面に存在する可能性が高い。その場合、音声検出範囲の狭い指向性のマイクを用いた音圧差方式であれば、各マイク２１ａ、２１ｂの出力に差が生じるため、音源位置を検出し易い。

一方、音源５０１と各マイク２１ａ、２１ｂとの距離Ｌ１、Ｌ２には差が生じにくく、位相差が小さくなってしまい、位相差方式では充分な検出精度が確保できない。

従って、広角寄りでは、位相差方式の音源位置検出手段を用いて音源５０１の位置を検出し、望遠寄りでは音圧差方式を用いて音源５０１の位置を検出することで、より高い精度で音源位置を検出することができる。

本発明の実施の形態に係る撮像装置としてのデジタルカメラの外観斜視図である。図１のデジタルカメラのブロック図である。図２のデジタルカメラによって実行される撮影（撮像）処理の手順を示すフローチャートである。図３のステップＳ３０１で実行される顔検出処理の手順を示すフローチャートである。図４のステップＳ４０１で実行される音源方向検出処理に用いられる音源方向検出手段の第１の構成例を示す図である。図４のステップＳ４０４で設定される顔検出領域を示す図である。図４のステップＳ４０１で実行される音源方向検出処理に用いられる音源方向検出手段の第２の構成例を示す図である。

符号の説明

１装置本体
２１マイク
１０４撮像部
１０６音声制御部
１１０システム制御部
１１１画像処理部
５０２位相差検出回路
７０２音圧差検出回路

Claims

被写体像を光電変換することにより画像データを取得する撮像手段と、
音声を検出する音声検出手段と、
前記音声検出手段の検出結果に応じて、前記撮像手段にて得られた画像データに基づいて生成された画像の一部の領域を選択し、選択された領域において被写体認識を行う認識手段と、
を備えることを特徴とする撮像装置。
前記音声検出手段は、人の発声音を検出することを特徴とする請求項１記載の撮像装置。
前記音声検出手段は、人の発声の周波数帯域の周波数を検出することで、人の発声音を検出することを特徴とする請求項２記載の撮像装置。
前記音声検出手段は、音源の方向を検出することを特徴とする請求項１乃至３のいずれかに記載の撮像装置。
前記音声検出手段は、複数のマイクの出力信号の位相差を利用して音源の方向を検出することを特徴とする請求項４記載の撮像装置。
前記音声検出手段は、複数のマイクの出力信号の音圧差を利用して音源の方向を検出することを特徴とする請求項４記載の撮像装置。
前記認識手段は、前記音声検出手段が検出した音源方向を含む領域を選択し、選択された領域において被写体認識を行うことを特徴とする請求項４乃至６のいずれかに記載の撮像装置。
前記認識手段は、前記音声検出手段が検出した音源が撮影画角外の場合は、前記撮像手段にて得られた画像データの全領域において被写体認識を行うことを特徴とする請求項４乃至７のいずれかに記載の撮像装置。
前記認識手段は、前記音声検出手段が音源の方向を検出できなかった場合は、前記撮像手段にて得られた画像データの全領域において被写体認識を行うことを特徴とする請求項４乃至７のいずれかに記載の撮像装置。
装置本体に備えられた撮影レンズの焦点距離によって、前記音源の方向を検出する方法を変更することを特徴とする請求項４記載の撮像装置。
前記撮影レンズの焦点距離が広角寄りのときは、前記音声検出手段は、複数のマイクの出力信号の位相差を利用して音源の方向を検出することを特徴とする請求項１０記載の撮像装置。
前記撮影レンズの焦点距離が望遠寄りのときは、前記音声検出手段は、複数のマイクの出力信号の音圧差を利用して音源の方向を検出することを特徴とする請求項１０記載の撮像装置。