JP4799397B2

JP4799397B2 - 辞書データ作成装置、所定領域検出装置および撮影装置

Info

Publication number: JP4799397B2
Application number: JP2006351328A
Authority: JP
Inventors: 友和中村
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2006-12-27
Filing date: 2006-12-27
Publication date: 2011-10-26
Anticipated expiration: 2026-12-27
Also published as: JP2008165311A

Description

本発明は、画像から顔領域等の所定領域を検出する際に参照する辞書データを作成するための辞書データ作成装置、画像から所定領域を検出する所定領域検出装置、および撮影により画像を取得する撮影装置に関するものである。

デジタルカメラによる撮影において、撮影により取得した画像から例えば顔領域等の所定領域を検出し、その所定領域の検出結果に応じて画像に施す画像処理の条件を変更したり、撮影時における撮影条件を変更したりすることが行われている。

このように画像から所定領域を検出するための手法が種々提案されている。例えば、画像から肌色領域を検出し、ニューラルネットワーク等により肌色領域が顔領域か否かを判断して顔領域を検出する手法が提案されている（特許文献１参照）。また、所定領域であることが分かっている複数のサンプル画像から算出された特徴量を、ニューラルネットワーク、ブースティング等のマシンラーニングの手法によりあらかじめ学習することにより得られた、特徴量の入力により画像に所定領域が含まれるか否かを判定するための基準値を出力する複数の判別器を辞書データとしてあらかじめ作成しておき、辞書データを参照して画像に所定領域が含まれるか否かを判定する手法が本出願人により提案されている（特許文献２参照）。例えば、特許文献２に記載された手法において、例えば、サンプル画像として顔領域を含む画像を用いて辞書データを作成した場合には、この辞書データを参照することにより検出対象の画像に含まれる顔領域を検出することができる。
特開２０００−４８１８４号公報特開２００５−１０８１９５号公報

しかしながら、サンプル画像にはノイズが含まれており、またノイズ量もサンプル画像に応じて異なる。このため、複数のサンプル画像を用いて辞書データを作成した場合、サンプル画像に含まれるノイズのばらつきの影響により、検出対象の画像から所定領域を精度よく検出できない場合がある。また、検出対象の画像に含まれるノイズ量も検出対象の画像に応じて異なる。このため、ノイズに影響されないように辞書データを作成したとしても、検出対象の画像のノイズ量が種々異なることから、ノイズの影響により所定領域を精度よく検出できない場合がある。

本発明は、上記事情に鑑みなされたものであり、ノイズに影響されないように所定領域を検出可能な辞書データを作成することを第１の目的とする。

また、検出対象の画像に含まれるノイズに影響されないように、所定領域を検出することを第２の目的とする。

本発明による第１の辞書データ作成装置は、所定領域を含む複数のサンプル画像に基づいて、前記所定領域の検出対象の画像から該所定領域を検出する際に参照する辞書データを作成する辞書データ作成装置において、
前記複数のサンプル画像のノイズ量を算出するノイズ量算出手段と、
前記複数のサンプル画像のノイズ量を所定量に正規化する正規化手段と、
前記ノイズ量が正規化された複数のサンプル画像から前記辞書データを作成する辞書作成手段とを備えたことを特徴とするものである。

本発明による第１の所定領域検出装置は、所定領域の検出対象となる検出対象画像の入力を受け付ける入力手段と、
ノイズ量が所定量となるように正規化された、前記所定領域を含む複数のサンプル画像から作成された辞書データを記憶する記憶手段と、
前記検出対象画像のノイズ量を前記所定量に正規化する正規化手段と、
前記辞書データを参照して、前記ノイズ量が正規化された検出対象画像から前記所定領域を検出する検出手段とを備えたことを特徴とするものである。

本発明による第１の撮影装置は、撮影により画像を取得する撮影手段と、
ノイズ量が所定量となるように正規化された、所定領域を含む複数のサンプル画像から作成された辞書データを記憶する記憶手段と、
前記画像のノイズ量を前記所定量に正規化する正規化手段と、
前記辞書データを参照して、前記ノイズ量が正規化された画像から前記所定領域を検出する検出手段とを備えたことを特徴とするものである。

本発明による第２の辞書データ作成装置は、所定領域を含む複数のサンプル画像に基づいて、前記所定領域の検出対象の画像から該所定領域を検出する際に参照する辞書データを作成する辞書データ作成装置において、
前記複数のサンプル画像のノイズ量を算出するノイズ量算出手段と、
前記複数のサンプル画像から、前記ノイズ量が所定値以下となる複数のサンプル画像を選択する選択手段と、
前記選択された複数のサンプル画像から前記辞書データを作成する辞書作成手段とを備えたことを特徴とするものである。

なお、本発明による第２の辞書データ作成装置においては、前記複数のサンプル画像のノイズ量を所定量に正規化する正規化手段をさらに備えるものとし、
前記辞書作成手段を、前記ノイズ量が正規化された複数のサンプル画像から前記辞書データを作成する手段としてもよい。

本発明による第２の所定領域検出装置は、所定領域の検出対象となる検出対象画像の入力を受け付ける入力手段と、
ノイズ量が所定値以下の、前記所定領域を含む複数のサンプル画像から作成された辞書データを記憶する記憶手段と、
前記辞書データを参照して、前記検出対象画像から前記所定領域を検出する検出手段とを備えたことを特徴とするものである。

本発明による第２の撮影装置は、撮影により画像を取得する撮影手段と、
ノイズ量が所定値以下の、所定領域を含む複数のサンプル画像から作成された辞書データを記憶する記憶手段と、
前記辞書データを参照して、前記画像から前記所定領域を検出する検出手段とを備えたことを特徴とするものである。

本発明の第１の辞書データ作成装置によれば、複数のサンプル画像のノイズ量を算出し、複数のサンプル画像のノイズ量が所定量となるようにノイズ量を正規化し、ノイズ量が正規化された複数のサンプル画像から辞書データを作成するようにしたものである。このため、辞書データの作成に使用する複数のサンプル画像のノイズのばらつきをなくすことができ、その結果、ノイズのばらつきに影響を受けることなく所定領域を精度よく検出可能な辞書データを作成することができる。

また、このような辞書データを参照して検出対象画像から所定領域を検出する際に、検出対象画像のノイズ量を算出し、ノイズ量が所定量となるようにノイズ量を正規化し、ノイズ量が正規化された検出対象画像から所定領域を検出することにより、検出対象画像のノイズに影響されることなく、精度よく検出対象画像から所定領域を検出することができる。

本発明の第２の辞書データ作成装置によれば、複数のサンプル画像のノイズ量を算出し、複数のサンプル画像のノイズ量が所定値以下となる複数のサンプル画像を選択し、選択された複数のサンプル画像から辞書データを作成するようにしたものである。このため、辞書データの作成に使用する複数のサンプル画像のノイズの影響をできるだけ小さくして、辞書データを作成することができる。

この場合、選択されたサンプル画像のノイズ量が所定量となるようにノイズ量を正規化し、ノイズ量が正規化された複数のサンプル画像から辞書データを作成することにより、さらに辞書データの作成に使用する複数のサンプル画像のノイズのばらつきをなくすことができ、その結果、ノイズのばらつきに影響を受けることなく所定領域を精度よく検出可能な辞書データを作成することができる。

以下、図面を参照して本発明の実施形態について説明する。図１は本発明の第１の実施形態による辞書データ作成装置の構成を示す概略ブロック図である。図１に示すように第１の実施形態による辞書データ作成装置１は、複数のサンプル画像の入力を受け付ける入力部２と、複数のサンプル画像のそれぞれのノイズ量を算出するノイズ量算出部３と、複数のサンプル画像のノイズ量を所定量に正規化する正規化部４と、ノイズ量が所定量となるように正規化された複数のサンプル画像から辞書データを作成する辞書作成部５とを備える。

なお、本実施形態においては、サンプル画像は人物の顔を撮影することにより取得されたものであり、人物の顔領域が含まれる。サンプル画像に含まれる顔領域の位置はオペレータが指定する等により、あらかじめ求められている。また、本実施形態において作成する辞書データは、検出対象の画像から人物の顔領域を検出する際に参照されるものである。

入力部２は、記録媒体に記録されたサンプル画像の画像データを記録媒体から読み出したり、ネットワーク経由で遠隔地に設置された画像サーバからサンプル画像の画像データを読み出すための各種インターフェースからなる。

ノイズ量算出部３は、図２に示すように、サンプル画像の顔領域からさらに目の領域Ｅ１、鼻の領域Ｎ１および口の領域Ｍ１を抽出し、目領域Ｅ１、鼻領域Ｎ１および口領域Ｍ１の位置関係から、さらに顔の頬の領域Ｃ１を抽出する。そして、下記の式（１）により頬領域Ｃ１の画素値の標準偏差σを算出し、これをサンプル画像のノイズ量とする。

σ＝√（１／ｎ×Σ（ｘｉ−ｘａ）^２）（１）
但し、ｎ：頬領域内の総画素数
ｘｉ：頬領域内の各画素の画素値（ｉ＝１〜ｎ）
ｘａ：頬領域内の画素値の平均値（ｘａ＝１／ｎ×Σｘｉ）
正規化部４は、サンプル画像のノイズ量が所定量となるように、すなわち標準偏差σが所定値Ｔｈ０となるようにサンプル画像のノイズ量を正規化する。図３はノイズ量の正規化処理のフローチャートである。処理が開始されると、正規化部４は、サンプル画像のノイズ量、すなわちノイズ量算出部３が算出した標準偏差σが所定値Ｔｈ０に略等しいか否かを判定する（ステップＳＴ１）。なお、ステップＳＴ１の判定の処理においては、標準偏差σが所定値Ｔｈ０と完全に一致するか否かを判定する場合のみならず、多少の誤差を持って標準偏差σが所定値Ｔｈ０と一致するか否かを判定する場合も含む。

ステップＳＴ１が肯定されると処理を終了する。ステップＳＴ１が否定されると、標準偏差σが所定値Ｔｈ０より大きいか否かを判定する（ステップＳＴ２）。

ステップＳＴ２が肯定されると、平滑化フィルタまたはメディアンフィルタによるフィルタリング処理をサンプル画像に施し（ステップＳＴ３）、ステップＳＴ１に戻り、ステップＳＴ１が肯定されるまでステップＳＴ１以降の処理を繰り返す。これにより、サンプル画像のノイズ量が所定量となるまで低減されて正規化されることとなる。

一方、ステップＳＴ２が否定されると、ランダムノイズをサンプル画像に付加し（ステップＳＴ４）、ステップＳＴ１に戻り、ステップＳＴ１が肯定されるまでステップＳＴ１以降の処理を繰り返す。これにより、サンプル画像のノイズ量が所定量となるまで増加されて正規化されることとなる。

辞書作成部５は、ニューラルネットワーク、ブースティング等のマシンラーニングの手法を用いて、ノイズ量が正規化された複数のサンプル画像から顔検出の際に参照する辞書データを作成する。辞書データは複数の判別器からなる。各判別器は、サンプル画像に含まれる顔領域上の所定位置の複数の画素値の入力を受けて所定の値を判別結果として出力するように学習がなされる。このように学習を行うことにより、検出対象の画像に顔領域が含まれる場合には各判別器は比較的大きい値を出力し、顔領域が含まれない場合には出力が小さくなる。本実施形態において作成される辞書データは複数の判別器の出力結果を統合して、判別結果となる値を出力する。そしてこの値をしきい値と比較し、出力がしきい値より大きい場合には検出対象の画像に顔領域が含まれ、しきい値未満の場合には検出対象の画像に顔領域が含まれないと判定することができる。

次いで、第１の実施形態において行われる処理について説明する。図４は第１の実施形態において行われる処理を示すフローチャートである。入力部２が複数のサンプル画像の入力を受け付け（ステップＳＴ１１）、ノイズ量算出部３がサンプル画像のノイズ量を算出する（ステップＳＴ１２）。そして、正規化部４が複数のサンプル画像のノイズ量を正規化し（ステップＳＴ１３）、辞書作成部５がノイズ量が正規化された複数のサンプル画像から辞書データを作成し（ステップＳＴ１４）、処理を終了する。

このように、第１の実施形態によれば、複数のサンプル画像のノイズ量を算出し、複数のサンプル画像のノイズ量が所定量となるようにノイズ量を正規化し、ノイズ量が正規化された複数のサンプル画像から辞書データを作成するようにしたものである。このため、辞書データの作成に使用する複数のサンプル画像のノイズのばらつきをなくすことができ、その結果、ノイズのばらつきに影響を受けることなく顔領域を精度よく検出可能な辞書データを作成することができる。

なお、上記第１の実施形態においては、ノイズ量算出部３が顔領域から頬の領域Ｃ１を抽出し、頬の領域Ｃ１の標準偏差σをノイズ量として算出しているが、サンプル画像を複数のブロックに分割して、各ブロック毎に標準偏差σを算出し、各ブロックの標準偏差σの平均値をノイズ量として算出してもよい。

次いで、本発明の第２の実施形態について説明する。図５は本発明の第２の実施形態による辞書データ作成装置の構成を示す概略ブロック図である。図５に示すように第２の実施形態による辞書データ作成装置１１は、複数のサンプル画像の入力を受け付ける入力部１２と、複数のサンプル画像のそれぞれのノイズ量を算出するノイズ量算出部１３と、複数のサンプル画像からノイズ量が所定値以下となる複数のサンプル画像を選択する選択部１６と、選択したサンプル画像のノイズ量を所定量に正規化する正規化部１４と、ノイズ量が所定量となるように正規化された複数のサンプル画像から辞書データを作成する辞書作成部１５とを備える。

なお、入力部１２、ノイズ量算出部１３、正規化部１４および辞書作成部１５は、第１の実施形態における入力部２、ノイズ量算出部３、正規化部４および辞書作成部５と同一の処理を行うものであるため、ここでは詳細な説明は省略する。

選択部１６は、入力部１２が入力を受け付けた複数のサンプル画像のうち、ノイズ量すなわち標準偏差σがしきい値Ｔｈ１以下のサンプル画像を選択する。

次いで、第１の実施形態において行われる処理について説明する。図６は第２の実施形態において行われる処理を示すフローチャートである。入力部１２が複数のサンプル画像の入力を受け付け（ステップＳＴ２１）、ノイズ量算出部１３がサンプル画像のノイズ量を算出する（ステップＳＴ２２）。次いで、選択部１６がノイズ量すなわち標準偏差σがしきい値Ｔｈ１以下のサンプル画像を選択し（ステップＳＴ２３）、正規化部１４が選択されたサンプル画像のノイズ量を正規化する（ステップＳＴ２４）。そして、辞書作成部１５がノイズ量が正規化された複数のサンプル画像から辞書データを作成し（ステップＳＴ２５）、処理を終了する。

このように、第２の実施形態によれば、複数のサンプル画像のノイズ量を算出し、ノイズ量がしきい値Ｔｈ１以下の複数のサンプル画像を選択し、選択した複数のサンプル画像のノイズ量が所定量となるようにノイズ量を正規化し、ノイズ量が正規化された複数のサンプル画像から辞書データを作成するようにしたものである。このため、辞書データの作成に使用する複数のサンプル画像のノイズを少なくできるとともにノイズのばらつきをなくすことができ、その結果、ノイズのばらつきに影響を受けることなく顔領域を精度良く検出可能な辞書データを作成することができる。

なお、上記第２の実施形態においては、選択部１６が選択したサンプル画像のノイズ量を正規化しているが、正規化を行うことなく、選択部１６が選択したノイズ量がしきい値Ｔｈ１以下のサンプル画像をそのまま辞書データの作成に用いてもよい。

また、上記第１および第２の実施形態においては、サンプル画像として顔領域を含む画像を用いているが、サンプル画像を顔以外の被写体を含むものとすることにより、顔以外の所定の被写体の領域を検出するための辞書データを作成することが可能である。

次いで、本発明の撮影装置の実施形態について説明する。図７は本発明の撮影装置の実施形態であるデジタルカメラの構成を示す概略ブロック図である。図７に示すように本実施形態によるデジタルカメラ２１は、動作モードスイッチ、ズームレバー、上下左右ボタン、レリーズボタンおよび電源スイッチ等の操作系２２と、操作系２２の操作内容をＣＰＵ６０に伝えるためのインターフェース部分である操作系制御部２３とを有している。

撮像系２６としては、撮影レンズ３０を構成するフォーカスレンズ３０ａおよびズームレンズ３０ｂを有している。各々のレンズは、モータとモータドライバとからなるフォーカスレンズ駆動部３１およびズームレンズ駆動部３２によって光軸方向に移動可能である。フォーカスレンズ駆動部３１はＡＦ処理部５０から出力されるフォーカス駆動量データに基づいて、ズームレンズ駆動部３２はズームレバーの操作量データに基づいて、各々のレンズの移動を制御する。

また、絞り３４は、モータとモータドライバとからなる絞り駆動部３５によって駆動される。この絞り駆動部３５は、ＡＥ／ＡＷＢ処理部５１から出力される絞り値データに基づいて絞り径の調整を行う。

シャッタ３６は、メカニカルシャッタであり、モータとモータドライバとからなるシャッタ駆動部３７によって駆動される。シャッタ駆動部３７は、レリーズボタンの押下により発生する信号と、ＡＥ／ＡＷＢ処理部５１から出力されるシャッタスピードデータとに応じて、シャッタ３６の開閉の制御を行う。

光学系の後方には撮像素子であるＣＣＤ３８を有している。ＣＣＤ３８は、多数の受光素子を２次元的に配列した光電面を有しており、光学系を通過した被写体光がこの光電面に結像し、光電変換される。光電面の前方には、各画素に光を集光するためのマイクロレンズアレイと、Ｒ，Ｇ，Ｂ各色のフィルタが規則的に配列されたカラーフィルタアレイとが配置されている。ＣＣＤ３８は、ＣＣＤ制御部３９から供給される垂直転送クロックおよび水平転送クロックに同期して、画素毎に蓄積された電荷を１ラインずつシリアルなアナログ撮影信号として出力する。各画素において電荷を蓄積する時間、すなわち、露光時間は、ＣＣＤ制御部３９から与えられる電子シャッタ駆動信号によって決定される。また、ＣＣＤ３８はＣＣＤ制御部３９により、あらかじめ定められた大きさのアナログ撮像信号が得られるようにゲインが調整されている。

なお、撮影レンズ３０、絞り３４、シャッタ３６およびＣＣＤ３８が撮像系２６を構成する。

ＣＣＤ３８から取り込まれたアナログ撮影信号は、アナログ信号処理部４０に入力される。アナログ信号処理部４０は、アナログ信号のノイズを除去する相関２重サンプリング回路（ＣＤＳ）と、アナログ信号のゲインを調節するオートゲインコントローラ（ＡＧＣ）と、アナログ信号をデジタル信号に変換するＡ／Ｄコンバータ（ＡＤＣ）とからなる。なお、アナログ信号処理部４０が行う処理をアナログ信号処理とする。このデジタル信号に変換された画像データは、画素毎にＲ，Ｇ，Ｂの濃度値を持つＣＣＤ−ＲＡＷデータである。

タイミングジェネレータ４１は、タイミング信号を発生させるものであり、このタイミング信号をシャッタ駆動部３７、ＣＣＤ制御部３９、およびアナログ信号処理部４０に供給することにより、レリーズボタンの操作、シャッタ３６の開閉、ＣＣＤ３８の電荷の取込み、およびアナログ信号処理部４０の処理の同期をとっている。

フラッシュ制御部４３は、撮影時にフラッシュ４４を発光させる。

画像入力コントローラ４５は、アナログ信号処理部４０から入力されたＣＣＤ−ＲＡＷデータをフレームメモリ４６に書き込む。

フレームメモリ４６は、画像データに対して後述の各種画像処理（信号処理）を行う際に使用する作業用メモリであり、例えば、一定周期のバスクロック信号に同期してデータ転送を行うＳＤＲＡＭ(Synchronous Dynamic Random Access Memory)が使用される。

表示制御部４７は、フレームメモリ４６に格納された画像データをスルー画像としてモニタ４８に表示させたり、再生モード時に記録メディア５５に保存されている画像データをモニタ４８に表示させたりするためのものである。なお、スルー画像は、撮影モードが選択されている間、所定時間間隔でＣＣＤ３８により撮影される。

ＡＦ処理部５０およびＡＥ／ＡＷＢ処理部５１は、プレ画像に基づいて撮影条件を決定する。このプレ画像とは、レリーズボタンが半押しされることによって発生する半押し信号を検出したＣＰＵ６０がＣＣＤ３８にプレ撮影を実行させた結果、フレームメモリ４６に格納された画像データにより表される画像である。

ＡＦ処理部５０は、プレ画像に基づいて焦点位置を検出し、フォーカス駆動量データを出力する（ＡＦ処理）。焦点位置の検出方式としては、例えば、所望とする被写体にピントが合った状態では画像のコントラストが高くなるという特徴を利用して合焦位置を検出するパッシブ方式が考えられる。

ＡＥ／ＡＷＢ処理部５１は、プレ画像に基づいて被写体輝度を測定し、測定した被写体輝度に基づいてＩＳＯ感度、絞り値およびシャッタスピード等を決定し、ＩＳＯ感度データ、絞り値データおよびシャッタスピードデータを露出設定値として決定するとともに（ＡＥ処理）、撮影時のホワイトバランスを自動調整する（ＡＷＢ処理）。なお、露出およびホワイトバランスについては、撮影モードがマニュアルモードに設定されている場合には、デジタルカメラ２１の撮影者がマニュアル操作により設定可能である。また、露出およびホワイトバランスが自動で設定された場合にも、撮影者が操作系２２から指示を行うことにより、露出およびホワイトバランスをマニュアル調整することが可能である。

画像処理部５２は、本画像の画像データに対して、階調補正、シャープネス補正、色補正等の画質補正処理、ＣＣＤ−ＲＡＷデータを輝度信号であるＹデータと、青色色差信号であるＣｂデータおよび赤色色差信号であるＣｒデータとからなるＹＣデータに変換するＹＣ処理を行う。この本画像とは、レリーズボタンが全押しされることによって実行される本撮影によりＣＣＤ３８から取り込まれ、アナログ信号処理部４０、画像入力コントローラ４５経由でフレームメモリ４６に格納された画像データによる画像である。本画像の画素数の上限は、ＣＣＤ３８の画素数によって決定されるが、例えば、ファイン、ノーマル等の設定により、記録画素数を変更することができる。一方、スルー画像およびプレ画像の画像数は、本画像よりも少なく、例えば、本画像の１／１６程度の画素数で取り込まれる。

圧縮／伸長処理部５３は、画像処理部５２によって補正・変換処理が行われた本画像の画像データに対して、例えば、ＪＰＥＧ等の圧縮形式で圧縮処理を行い、画像ファイルを生成する。この画像ファイルには、Ｅｘｉｆフォーマット等に基づいて、撮影日時等の付帯情報が格納されたタグが付加される。また、圧縮／伸長処理部５３は、再生モードの場合には、記録メディア５５から圧縮された画像ファイルを読み出し、伸長処理を行う。伸長後の画像データはモニタ４８に出力され、画像データの画像が表示される。

メディア制御部５４は、記録メディア５５にアクセスして画像ファイルの書き込みと読み込みの制御を行う。

内部メモリ５６は、デジタルカメラ２１において設定される各種定数、およびＣＰＵ６０が実行するプログラム等を記憶する。また、上記第１または第２の実施形態による辞書データ作成装置が作成した辞書データを記憶する。

ノイズ量算出部５７は、撮像系２６が取得した画像をＬ^＊ａ^＊ｂ^＊色空間に色変換し、図８に示すようにａ^＊ｂ^＊空間における肌色の色相範囲にある画素を肌色領域として抽出する。そして抽出した肌色領域のノイズ量を算出する。具体的には、上記第１および第２の実施形態における辞書データ作成装置１，１１のノイズ量算出部３，１３と同様に、肌色領域として抽出した総画素についての標準偏差σをノイズ量として算出する。

なお、この際、明るさすなわちＬ^＊の値に応じて肌色の色相範囲にある画素を分類し、分類した明るさ毎に標準偏差σを算出し、さらに分類した明るさ毎に算出した標準偏差σの平均を求めることにより、より精度よくノイズ量を算出できる。また、撮像系２６が取得した画像を複数のブロックに分割して、各ブロック毎に標準偏差σを算出し、各ブロックの標準偏差σの平均値をノイズ量として算出してもよい。

正規化部５８は、撮像系６が取得した画像のノイズ量を正規化する。具体的には、上記第１および第２の実施形態における辞書データ作成装置１，１１の正規化部４，１４と同様に、標準偏差σが所定値Ｔｈ０となるようにノイズ量を正規化する。

顔検出部５９は、内部メモリ５６に記憶された辞書データを参照して、ノイズ量が正規化された画像から顔領域を検出する。具体的には辞書データを参照してノイズ量が正規化された肌色領域が顔領域であるか否かを判定し、顔領域であると判定された場合に、肌色領域を顔領域として検出する。

なお、顔領域の検出を行う画像は、撮像系２６が取得し、アナログ信号処理部４０がアナログ処理を行うことにより取得されてフレームメモリ４６に記憶されたＣＣＤ−ＲＡＷデータが表す画像である。

ＣＰＵ６０は、操作系２２およびＡＦ処理部５０等の各種処理部からの信号に応じてデジタルカメラ２１の本体各部を制御する。また、撮像系２６が取得した画像から顔領域を検出するように、ノイズ量算出部５７、正規化部５８および顔検出部５９を制御する。

データバス６１は、画像入力コントローラ４５、各種処理部、フレームメモリ４６およびＣＰＵ６０等に接続されており、デジタル画像データ等のやり取りを行う。

次いで、撮像装置の実施形態が行う処理について説明する。図９は本実施形態による撮像装置が行う顔検出処理のフローチャートである。なお、ここでは、レリーズボタンの押下により撮像系２６が撮影を行い、アナログ信号処理部４０がアナログ処理を行うことによりフレームメモリ４６にＣＣＤ−ＲＡＷデータを記憶した後の処理について説明する。

フレームメモリ４６にＣＣＤ−ＲＡＷデータが記憶されることによりＣＰＵ６０が処理を開始し、ノイズ量算出部５７が撮影によりＣＣＤ−ＲＡＷデータが表す画像（以下単に画像とする）のノイズ量を算出する（ステップＳＴ３１）。そして、正規化部５８がノイズ量を正規化し（ステップＳＴ３２）、顔検出部５９がノイズ量が正規化された画像から顔領域を検出し（ステップＳＴ３３）、処理を終了する。

このように、本実施形態の撮影装置においては、上記第１または第２の実施形態による辞書データ作成装置が作成した辞書データを参照して撮影により取得した画像から顔領域を検出する際に、撮像系２６が取得した画像のノイズ量を算出し、ノイズ量が所定量となるようにノイズ量を正規化し、ノイズ量が正規化された画像から顔領域を検出するようにしたものである。このため、撮像系２６が取得した画像のノイズに影響されることなく、精度よく画像から顔領域を検出することができる。

次いで、本発明の所定領域検出装置の実施形態について説明する。図１０は本発明の実施形態による所定領域検出装置の構成を示す概略ブロック図である。図１０に示すように本実施形態による所定領域検出装置７１は、検出対象となる画像（検出対象画像とする）から所定領域として顔領域を検出するものであり、検出対象画像の入力を受け付ける入力部７２と、検出対象画像のノイズ量を算出するノイズ量算出部７３と、検出対象画像のノイズ量を所定量に正規化する正規化部７４と、上記第１または第２の実施形態による辞書データ作成装置が作成した辞書データを記憶する辞書データ記憶部７５と、辞書データを参照して検出対象画像から顔領域を検出する顔検出部７６とを備える。

なお、ノイズ量算出部７３、正規化部７４および顔検出部７６は、上記撮影装置の実施形態におけるノイズ量算出部５７、正規化部５８および顔検出部５９と同様の処理を行うものである。

次いで、所定領域検出装置の実施形態が行う処理について説明する。図１１は本実施形態による所定領域検出装置が行う顔検出処理のフローチャートである。入力部７２が検出対象の画像の入力を受け付けることにより処理を開始し、ノイズ量算出部７３が検出対象画像のノイズ量を算出する（ステップＳＴ４１）。そして、正規化部７４がノイズ量を正規化し（ステップＳＴ４２）、顔検出部７６がノイズ量が正規化された画像から顔領域を検出し（ステップＳＴ４３）、処理を終了する。

なお、上記撮影装置および所定領域検出装置の実施形態においては、画像から顔領域を検出しているが、辞書データの作成に顔以外の所定の被写体を含むサンプル画像を用いた場合には、その所定の被写体の領域を検出する辞書データを作成することができる。このため、顔以外の所定の被写体の辞書データを内部メモリ５６または辞書データ記憶部７５に記憶しておくことにより、撮影により取得した画像または検出対象画像から顔領域以外の所定の被写体の領域を検出することが可能となる。

以上、本発明の実施形態について説明したが、コンピュータを、上記のノイズ量算出部３，１３，５７，７３、正規化部４，１４，５８，７４、辞書作成部５，１５、選択部１６、顔検出部５９，７５に対応する手段として機能させ、図３，４，６，９，１１に示すような処理を行わせるプログラムも、本発明の実施形態の１つである。また、そのようなプログラムを記録したコンピュータ読取り可能な記録媒体も、本発明の実施形態の１つである。

本発明の第１の実施形態による辞書データ作成装置の構成を示す概略ブロック図頬領域の検出を説明するための図ノイズ量の正規化処理のフローチャート第１の実施形態において行われる処理を示すフローチャート本発明の第２の実施形態による辞書データ作成装置の構成を示す概略ブロック図第２の実施形態において行われる処理を示すフローチャート本発明の撮影装置の実施形態であるデジタルカメラの構成を示す概略ブロック図ａ^＊ｂ^＊空間における肌色の色相範囲を示す図本実施形態による撮像装置が行う顔検出処理のフローチャート本発明の実施形態による所定領域検出装置の構成を示す概略ブロック図本実施形態による所定領域検出装置が行う顔検出処理のフローチャート

符号の説明

１，１１辞書データ作成装置
２，１２入力部
３，１３ノイズ量算出部
４，１４正規化部
５，１５辞書作成部
１６選択部
２１デジタルカメラ
２６撮像系
５６内部メモリ
５７，７３ノイズ量算出部
５８，７４正規化部
５９，７６顔検出部
７１所定領域検出装置
７５辞書データ記憶部

Claims

所定領域を含む複数のサンプル画像に基づいて、前記所定領域の検出対象の画像から該所定領域を検出する際に参照する辞書データを作成する辞書データ作成装置において、
前記複数のサンプル画像のそれぞれの画素値の標準偏差をノイズ量として算出するノイズ量算出手段と、
前記複数のサンプル画像のそれぞれのノイズ量が所定量より大きい場合には、前記ノイズ量が前記所定量となるように前記ノイズ量を低減し、前記ノイズ量が前記所定量より小さい場合には、ノイズを付加することにより前記ノイズ量が前記所定量となるように前記ノイズ量を増加させることにより、前記複数のサンプル画像の前記ノイズ量を前記所定量に正規化する正規化手段と、
前記ノイズ量が正規化された複数のサンプル画像から前記辞書データを作成する辞書作成手段とを備えたことを特徴とする辞書データ作成装置。
所定領域の検出対象となる検出対象画像の入力を受け付ける入力手段と、
前記所定領域を含む複数のサンプル画像であって、該複数のサンプル画像のそれぞれの画素値の標準偏差をノイズ量として算出し、前記複数のサンプル画像のそれぞれのノイズ量が所定量より大きい場合には、前記ノイズ量が前記所定量となるように前記ノイズ量を低減し、前記ノイズ量が前記所定量より小さい場合には、ノイズを付加することにより前記ノイズ量が前記所定量となるように前記ノイズ量を増加させることにより、前記ノイズ量が前記所定量となるように正規化された、複数のサンプル画像から作成された辞書データを記憶する記憶手段と、
前記検出対象画像のノイズ量を前記所定量に正規化する正規化手段と、
前記辞書データを参照して、前記ノイズ量が正規化された検出対象画像から前記所定領域を検出する検出手段とを備えたことを特徴とする所定領域検出装置。
撮影により画像を取得する撮影手段と、
所定領域を含む複数のサンプル画像であって、該複数のサンプル画像のそれぞれの画素値の標準偏差をノイズ量として算出し、前記複数のサンプル画像のそれぞれのノイズ量が所定量より大きい場合には、前記ノイズ量が前記所定量となるように前記ノイズ量を低減し、前記ノイズ量が前記所定量より小さい場合には、ノイズを付加することにより前記ノイズ量が前記所定量となるように前記ノイズ量を増加させることにより、前記ノイズ量が前記所定量となるように正規化された、複数のサンプル画像から作成された辞書データを記憶する記憶手段と、
前記画像のノイズ量を前記所定量に正規化する正規化手段と、
前記辞書データを参照して、前記ノイズ量が正規化された画像から前記所定領域を検出する検出手段とを備えたことを特徴とする撮影装置。
所定領域を含む複数のサンプル画像に基づいて、前記所定領域の検出対象の画像から該所定領域を検出する際に参照する辞書データを作成する辞書データ作成装置において、
前記複数のサンプル画像のそれぞれの画素値の標準偏差をノイズ量として算出するノイズ量算出手段と、
前記複数のサンプル画像から、前記ノイズ量が所定値以下となる複数のサンプル画像を選択する選択手段と、
前記選択された複数のサンプル画像のそれぞれのノイズ量が所定量より大きい場合には、前記ノイズ量が前記所定量となるように前記ノイズ量を低減し、前記ノイズ量が前記所定量より小さい場合には、ノイズを付加することにより前記ノイズ量が前記所定量となるように前記ノイズ量を増加させることにより、前記選択された複数のサンプル画像の前記ノイズ量を前記所定量に正規化する正規化手段と、
前記ノイズ量が正規化された、選択された複数のサンプル画像から前記辞書データを作成する辞書作成手段とを備えたことを特徴とする辞書データ作成装置。
所定領域の検出対象となる検出対象画像の入力を受け付ける入力手段と、
ノイズ量が所定値以下の、前記所定領域を含む複数のサンプル画像であって、該複数のサンプル画像のそれぞれの画素値の標準偏差をノイズ量として算出し、前記複数のサンプル画像のそれぞれのノイズ量が所定量より大きい場合には、前記ノイズ量が前記所定量となるように前記ノイズ量を低減し、前記ノイズ量が前記所定量より小さい場合には、ノイズを付加することにより前記ノイズ量が前記所定量となるように前記ノイズ量を増加させることにより、前記ノイズ量が前記所定量となるように正規化された、複数のサンプル画像から作成された辞書データを記憶する記憶手段と、
前記辞書データを参照して、前記検出対象画像から前記所定領域を検出する検出手段とを備えたことを特徴とする所定領域検出装置。
撮影により画像を取得する撮影手段と、
ノイズ量が所定値以下の、所定領域を含む複数のサンプル画像であって、該複数のサンプル画像のそれぞれの画素値の標準偏差をノイズ量として算出し、前記複数のサンプル画像のそれぞれのノイズ量が所定量より大きい場合には、前記ノイズ量が前記所定量となるように前記ノイズ量を低減し、前記ノイズ量が前記所定量より小さい場合には、ノイズを付加することにより前記ノイズ量が前記所定量となるように前記ノイズ量を増加させることにより、前記ノイズ量が前記所定量となるように正規化された、複数のサンプル画像から作成された辞書データを記憶する記憶手段と、
前記辞書データを参照して、前記画像から前記所定領域を検出する検出手段とを備えたことを特徴とする撮影装置。