JP4710979B2

JP4710979B2 - 対象物検出装置、学習装置、対象物検出方法およびプログラム

Info

Publication number: JP4710979B2
Application number: JP2009003870A
Authority: JP
Inventors: 要小川
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-01-09
Filing date: 2009-01-09
Publication date: 2011-06-29
Anticipated expiration: 2029-01-09
Also published as: CN101794392B; US20100177957A1; CN101794392A; US8391551B2; JP2010160758A

Description

本発明は、対象物検出装置に関し、特に、画像から人物の顔等の対象物を検出する対象物検出装置、その検出に用いられるデータを作成する学習装置、および、これらにおける処理方法ならびに当該方法をコンピュータに実行させるプログラムに関する。

従来、デジタルスチルカメラ、デジタルビデオカメラ（例えば、カメラ一体型レコーダ）等の撮像装置により生成された撮像画像について、この撮像画像に含まれる被写体が何であるかを認識する被写体認識技術が提案されている。この被写体認識技術として、例えば、輝度や色等の特徴量を用いた画像処理により撮像画像から人物の顔を検出する顔検出技術が提案されている。

例えば、画像における２点間の輝度の差分値が閾値以上であるか否かに応じて重み付き多数決の値を決定し、この重み付き多数決の値を２点の組合せ毎に順次加算して評価値を算出する。そして、この算出された評価値に基づいて、その画像に対象物が含まれているか否かを判定する対象物検出装置が提案されている（例えば、特許文献１参照。）。

特開２００５−１５７６７９号公報（図１）

上述の従来技術では、例えば、画像上の２点の組合せと、重み付き多数決の値と、閾値との組合せを、学習装置により予め求めておき、これらを関連付けて記憶しておく。そして、判定対象画像における２点間の輝度の差分値が閾値以上であるか否かに応じて、その２点間に対応する重み付き多数決の正負の符号を決定し、この決定された符号を付した重み付き多数決の値を２点の組合せ毎に順次加算して評価値を算出する。

ここで、例えば、対象物および非対象物を判別するための重み付き多数決の値を学習装置により算出する場合には、対象物または非対象物を含む複数のサンプル画像における２点間の輝度の差分値の分布情報を２点の組合せ毎に作成する。この分布情報では、例えば、対象物を含むサンプル画像における２点間の輝度の差分値の分布状態を示す分布曲線の第１山と、非対象物を含むサンプル画像における２点間の輝度の差分値の分布状態を示す分布曲線の第２山とを把握することができる。

例えば、対象物に対応する分布曲線の第１山と、非対象物に対応する分布曲線の第２山とが比較的開いている場合に学習装置により算出される重み付き多数決の値は、比較的信頼度が高いと考えられる。これに対して、対象物に対応する分布曲線の第１山と、非対象物に対応する分布曲線の第２山との大部分が重複している場合に学習装置により算出される重み付き多数決の値は、比較的信頼度が低いと考えられる。

しかしながら、例えば、対象物に対応する分布曲線の第１山と、非対象物に対応する分布曲線の第２山との大部分が重複している場合でも、何れかの範囲に特徴が出ていることがある。例えば、ある範囲では、２つの山の大部分が重複していて、特徴的な分布の変化がなく、対象物および非対象物の判別が難しい（すなわち、信頼度が低い）ことがある。これに対して、他の範囲では、２つの山のうち１つの山が支配的に分布しており、その判別がし易い（すなわち、信頼度が高い）ことがある。

そこで、対象物の検出精度を向上させるため、対象物または非対象物を含む複数のサンプル画像における特徴量の差分値の分布情報に応じて適切な重み付き多数決の値を設定することが重要となる。

本発明はこのような状況に鑑みてなされたものであり、対象物の検出精度を向上させることを目的とする。

本発明は、上記課題を解決するためになされたものであり、その第１の側面は、判定対象画像における２つの領域について特徴量を抽出して上記抽出された２つの特徴量の差と閾値とを比較する比較部と、絶対値が異なる２つの重み付き多数決の値である第１の値および第２の値のうち上記２つの特徴量の差が上記閾値を基準として小さい場合には上記第１の値を選択して上記２つの特徴量の差が上記閾値を基準として大きい場合には上記第２の値を選択して上記選択された値を加算する演算を行うことにより上記判定対象画像に対象物が含まれるか否かをその大きさに基づいて判定するための評価値を算出する算出部とを具備する対象物検出装置およびその処理方法ならびに当該方法をコンピュータに実行させるプログラムである。これにより、判定対象画像における２つの領域について特徴量を抽出し、この抽出された２つの特徴量の差と閾値とを比較し、２つの重み付き多数決の値のうち何れかを比較結果に応じて選択し、この選択された値の演算を行うことにより、評価値を算出するという作用をもたらす。

また、この第１の側面において、上記判定対象画像における２つの位置と、上記閾値と、上記２つの重み付き多数決の値との組合せを複数含む判定情報を記憶する判定情報記憶部をさらに具備し、上記比較部は、上記２つの位置により特定される上記判定対象画像における２つの領域について抽出された２つの特徴量の差と上記閾値とを上記組合せ毎に比較し、上記算出部は、上記２つの重み付き多数決の値の上記選択を上記組合せ毎に行い、上記組合せ毎に選択された値を加算する演算を順次行うことにより上記評価値を算出するようにしてもよい。これにより、判定対象画像における２つの領域について抽出された２つの特徴量の差と、閾値とを組合せ毎に比較し、２つの重み付き多数決の値のうち何れかを比較結果に応じて組合せ毎に選択し、この選択された値の演算を順次行うことにより評価値を算出するという作用をもたらす。

また、この第１の側面において、上記算出部は、複数の対象物毎に関連付けられている上記２つの重み付き多数決の値の上記選択を上記対象物毎に行い、上記対象物毎に選択された値を加算する演算を上記対象物毎に行うことにより上記判定対象画像に上記複数の対象物のうちの何れかが含まれるか否かを上記対象物毎の演算結果の値の大きさに基づいて判定するための上記評価値を上記対象物毎に算出するようにしてもよい。これにより、複数の対象物毎に関連付けられている２つの重み付き多数決の値のうち何れかを比較結果に応じて対象物毎に選択し、この対象物毎に選択された値の演算を対象物毎に行うことにより、評価値を対象物毎に算出するという作用をもたらす。

また、この第１の側面において、上記判定対象画像における２つの位置と、上記閾値と、上記複数の対象物毎に関連付けられている上記２つの重み付き多数決の値との組合せを複数含む判定情報を記憶する判定情報記憶部をさらに具備し、上記比較部は、上記２つの位置により特定される上記判定対象画像における２つの領域について抽出された２つの特徴量の差と上記閾値とを上記組合せ毎に比較し、上記算出部は、上記対象物毎に選択された値を加算する演算を上記対象物毎に上記複数の組合せについて行うことにより上記評価値を上記対象物毎に算出するようにしてもよい。これにより、判定対象画像における２つの領域について抽出された２つの特徴量の差と、閾値とを組合せ毎に比較し、対象物毎に選択された値の演算を、対象物毎に複数の組合せについて行うことにより評価値を対象物毎に算出するという作用をもたらす。

また、この第１の側面において、上記特徴量は、上記判定対象画像における２点の位置における輝度値であり、上記比較部は、上記抽出された２つの輝度値の差分値を算出して当該差分値と上記閾値とを比較するようにしてもよい。これにより、判定対象画像における２つの領域について抽出された２つの輝度値の差分値を算出し、この差分値と閾値とを比較するという作用をもたらす。

また、本発明の第２の側面は、対象物および非対象物の何れかを含む複数の学習対象画像にウエイトを付与するウエイト付与部と、上記学習対象画像における２つの領域について特徴量を抽出して当該抽出された２つの特徴量の差分値を上記学習対象画像毎に上記学習対象画像における２つの領域の各組合せについて算出する差分値算出部と、上記算出された差分値に対する上記学習対象画像に付与されているウエイトの分布状態を示す分布情報を上記対象物を含む学習対象画像および上記非対象物を含む学習対象画像毎に上記各組合せについて作成する分布情報作成部と、上記対象物を含む学習対象画像について作成された分布情報を対象物分布情報とし上記非対象物を含む学習対象画像について作成された分布情報を非対象物分布情報として、上記差分値に対応する階級のうち１つの値を基準値とした場合における上記基準値の上下の２つの範囲のうち下の範囲に含まれる上記対象物分布情報および上記非対象物分布情報のそれぞれに係るウエイトの分布の総和と、当該２つの範囲のうち上の範囲に含まれる上記対象物分布情報および上記非対象物分布情報のそれぞれに係るウエイトの分布の総和とに基づいて算出される値が最小となる基準値を上記各組合せについて決定して、上記決定された上記各組合せに係る基準値のうち、上記各ウエイトの分布の総和に基づいて算出される値が最小となる基準値を、上記対象物が含まれるか否かをその大きさに基づいて判定するための評価値を算出する際に用いられる閾値として決定し、上記閾値として決定された基準値に係る組合せを上記評価値を算出する際に用いられる組合せとして決定する決定部と、上記決定された閾値の上下の２つの範囲のうち下の範囲に含まれる上記決定された組合せに係る上記対象物分布情報および上記非対象物分布情報のそれぞれに係るウエイトの分布の総和に基づいて、上記評価値を算出する際に用いられる２つの重み付き多数決の値のうちの１つの値を算出し、当該２つの範囲のうち上の範囲に含まれる上記決定された組合せに係る上記対象物分布情報および上記非対象物分布情報のそれぞれに係るウエイトの分布の総和に基づいて、上記２つの重み付き多数決の値のうちの他の値を算出する重み算出部とを具備する学習装置およびその処理方法ならびに当該方法をコンピュータに実行させるプログラムである。これにより、学習対象画像における２つの領域について抽出された２つの特徴量の差分値を学習対象画像毎に各組合せについて算出し、対象物を含む学習対象画像および非対象物を含む学習対象画像毎に各組合せについて分布情報を作成し、対象物分布情報および非対象物分布情報に基づいて、評価値を算出する際に用いられる組合せと閾値とを決定し、この決定された閾値の下の２つの範囲に含まれるその組合せに係る対象物分布情報および非対象物分布情報と、その上の範囲に含まれるその組合せに係る対象物分布情報および非対象物分布情報とに基づいて、その２つの範囲に応じて絶対値が異なる２つの値として重み付き多数決の値を算出するという作用をもたらす。

また、この第２の側面において、上記重み算出部は、上記２つの重み付き多数決の値として絶対値が異なる２つの値を算出するようにしてもよい。これにより、２つの重み付き多数決の値として絶対値が異なる２つの値を算出するという作用をもたらす。

また、この第２の側面において、上記ウエイト付与部は、上記学習対象画像が上記決定された閾値の上下の２つの範囲のうち下の範囲に属するか上の範囲に属するかに応じて上記算出された２つの重み付き多数決の値のうち何れかを上記学習対象画像毎に選択して当該学習対象画像毎に選択された値を用いて上記学習対象画像毎にウエイトを算出して更新するようにしてもよい。これにより、学習対象画像が、決定された閾値の上下の下の範囲に属するか上の範囲に属するかに応じて、２つの重み付き多数決の値のうち何れかを学習対象画像毎に選択し、この学習対象画像毎に選択された値を用いて、学習対象画像毎にウエイトを算出して更新するという作用をもたらす。

また、この第２の側面において、上記対象物は、異なる２つの第１の対象物および第２の対象物からなり、上記分布情報作成部は、上記第１の対象物を含む学習対象画像と上記第２の対象物を含む学習対象画像と上記非対象物を含む学習対象画像とのそれぞれについて上記組合せ毎に上記分布情報を作成し、上記決定部は、上記第１の対象物を含む学習対象画像について作成された分布情報を第１の対象物分布情報とし上記第２の対象物を含む学習対象画像について作成された分布情報を第２の対象物分布情報として、上記差分値に対応する階級のうち１つの値を基準値とした場合における当該基準値の上下の２つの範囲のうち下の範囲に含まれる上記第１の対象物分布情報および上記非対象物分布情報のそれぞれに係るウエイトの分布の総和と、当該２つの範囲のうち上の範囲に含まれる上記第１の対象物分布情報および上記非対象物分布情報のそれぞれに係るウエイトの分布の総和と、当該２つの範囲のうち下の範囲に含まれる上記第２の対象物分布情報および上記非対象物分布情報のそれぞれに係るウエイトの分布の総和と、当該２つの範囲のうち上の範囲に含まれる上記第２の対象物分布情報および上記非対象物分布情報のそれぞれに係るウエイトの分布の総和とに基づいて算出される値が最小となる基準値を上記各組合せについて決定して、上記決定された上記各組合せに係る基準値のうち、当該各ウエイトの分布の総和に基づいて算出される値が最小となる基準値を、上記第１の対象物が含まれるか否かをその大きさに基づいて判定するための第１の評価値と上記第２の対象物が含まれるか否かをその大きさに基づいて判定するための第２の評価値とを算出する際に用いられる閾値として決定し、当該閾値として決定された基準値に係る組合せを上記第１の評価値および上記第２の評価値を算出する際に用いられる組合せとして決定し、上記重み算出部は、上記第１の評価値および上記第２の評価値について決定された閾値の上下の２つの範囲のうち下の範囲に含まれる上記第１の評価値および上記第２の評価値について決定された組合せに係る上記第１の対象物分布情報および上記非対象物分布情報のそれぞれに係るウエイトの分布の総和に基づいて、上記第１の評価値を算出する際に用いられる２つの重み付き多数決の値のうちの１つの値を算出し、当該２つの範囲のうち上の範囲に含まれる当該組合せに係る上記第１の対象物分布情報および上記非対象物分布情報のそれぞれに係るウエイトの分布の総和に基づいて、当該２つの重み付き多数決の値のうちの他の値を算出し、当該２つの範囲のうち下の範囲に含まれる当該組合せに係る上記第２の対象物分布情報および上記非対象物分布情報のそれぞれに係るウエイトの分布の総和に基づいて、上記第２の評価値を算出する際に用いられる２つの重み付き多数決の値のうちの１つの値を算出し、当該２つの範囲のうち上の範囲に含まれる当該組合せに係る上記第２の対象物分布情報および上記非対象物分布情報のそれぞれに係るウエイトの分布の総和に基づいて、当該２つの重み付き多数決の値のうちの他の値を算出するようにしてもよい。これにより、第１の対象物を含む学習対象画像と、第２の対象物を含む学習対象画像と、非対象物を含む学習対象画像とのそれぞれについて組合せ毎に分布情報を作成し、第１の対象物分布情報と第２の対象物分布情報と非対象物分布情報とに基づいて、評価値を算出する際に用いられる組合せと閾値とを決定し、この決定された閾値の下の範囲に含まれるその組合せに係る第１の対象物分布情報と第２の対象物分布情報と非対象物分布情報との各情報と、その上の範囲に含まれるその組合せに係る第１の対象物分布情報と第２の対象物分布情報と非対象物分布情報との各情報とに基づいて、その２つの範囲に応じて絶対値が異なる２つの値として、第１の対象物および第２の対象物のそれぞれについて重み付き多数決の値を算出するという作用をもたらす。

本発明によれば、対象物の検出精度を向上させることができるという優れた効果を奏し得る。

本発明の第１の実施の形態における撮像装置１００の機能構成例を示すブロック図である。本発明の第１の実施の形態におけるカメラ制御部２００の機能構成例を示すブロック図である。本発明の第１の実施の形態における顔検出部２３０の機能構成例を示すブロック図である。本発明の実施の第１の形態における学習装置８００の機能構成例を示すブロック図である。本発明の第１の実施の形態における学習装置８００による学習の対象となる学習対象画像の例を示す図である。本発明の第１の実施の形態におけるウエイト保持部８１０の保持内容を模式的に示す図である。本発明の第１の実施の形態におけるウエイト分布情報作成部８０３によるウエイト分布情報の作成方法の概略を示す図である。本発明の第１の実施の形態におけるウエイト分布情報作成部８０３により作成されたウエイト分布情報と、学習対象画像との関係の概略を示す図である。本発明の第１の実施の形態におけるウエイト分布情報作成部８０３により作成されたウエイト分布情報と、最適スレッショルド決定部８０４により決定されたスレッショルドとの関係を概略的に示す図である。本発明の第１の実施の形態における弱仮説決定部８０５により決定された弱仮説に対応する各値を顔検出辞書に記録する記録方法を概略的に示す図である。学習対象画像における２点の組合せについて作成された２つのウエイト分布曲線を示す図である。本発明の第１の実施の形態における学習装置８００による学習の対象となる学習対象画像の例を示す図である。本発明の第１の実施の形態におけるウエイト保持部８１０の保持内容を模式的に示す図である。本発明の第１の実施の形態におけるウエイト分布情報作成部８０３によるウエイト分布情報の作成方法の概略を示す図である。本発明の第１の実施の形態におけるウエイト分布情報作成部８０３により作成されたウエイト分布情報と、学習対象画像との関係の概略を示す図である。本発明の第１の実施の形態におけるウエイト分布情報作成部８０３により作成されたウエイト分布情報と、最適スレッショルド決定部８０４により決定されたスレッショルドとの関係を概略的に示す図である。本発明の第１の実施の形態における弱仮説決定部８０５により決定された弱仮説に対応する各値を顔検出辞書に記録する記録方法を概略的に示す図である。本発明の第１の実施の形態における学習装置８００による対象物検出辞書作成処理の処理手順を示すフローチャートである。本発明の第１の実施の形態における学習装置８００による対象物検出辞書作成処理の処理手順のうちの弱仮説決定処理手順を示すフローチャートである。本発明の第１の実施の形態における判定対象画像について複数の評価値を算出するための評価値算出辞書の一例を示す図である。本発明の第１の実施の形態における判定対象画像に顔が含まれるか否かを判定するための顔判定辞書の例を示す図である。本発明の第１の実施の形態における顔検出部２３０による顔検出処理の対象となる判定対象画像を取り出す画像取出方法の概略を示す図である。本発明の第１の実施の形態における画像取出部２３３より取り出された判定対象画像と、この判定対象画像について評価値算出部２３５により算出された評価値との一例を示す図である。本発明の第１の実施の形態における画像取出部２３３より取り出された判定対象画像と、この判定対象画像について顔判定部２３７により算出された評価値との一例を示す図である。本発明の第１の実施の形態における顔検出部２３０により顔検出を行う場合における流れを模式的に示す図である。本発明の第１の実施の形態における顔検出部２３０による顔検出処理の対象となった撮像画像４００と、顔検出部２３０による顔検出処理の検出結果とを示す図である。本発明の第１の実施の形態における撮像装置１００による撮像画像記録処理の処理手順を示すフローチャートである。本発明の第１の実施の形態における撮像装置１００による撮像画像記録処理の処理手順のうちの顔検出処理手順を示すフローチャートである。本発明の第１の実施の形態における撮像装置１００による顔検出処理の処理手順のうちの判定処理手順を示すフローチャートである。本発明の第１の実施の形態における撮像装置１００による顔検出処理の処理手順のうちの第１評価値算出処理手順を示すフローチャートである。本発明の第１の実施の形態における撮像装置１００による顔検出処理の処理手順のうちの第２評価値算出処理手順を示すフローチャートである。本発明の第２の実施の形態における顔検出部２５０の機能構成例を示すブロック図である。本発明の第２の実施の形態における位置算出部２５１による新たな２点の位置の算出により評価値算出が可能となる対象物の例を示す図である。本発明の第２の実施の形態における位置算出部２５１により算出された新たな２点の位置と、この新たな２点の位置を用いて算出される評価値との関係例を示す図である。本発明の第２の実施の形態における顔検出部２５０により顔検出を行う場合における流れを模式的に示す図である。本発明の第２の実施の形態における顔検出部２５０により検出が可能な顔と、これらの検出結果との例を示す図である。本発明の第２の実施の形態における撮像装置１００による顔検出処理の処理手順を示すフローチャートである。

以下、本発明を実施するための最良の形態（以下、実施の形態と称する）について説明する。説明は以下の順序により行う。
１．第１の実施の形態（顔検出制御：画像から顔を検出する例および顔検出に用いられる辞書情報の作成例）
２．第２の実施の形態（顔検出制御：画像から顔を検出する変形例）

＜１．第１の実施の形態＞
［撮像装置の構成例］
図１は、本発明の第１の実施の形態における撮像装置１００の機能構成例を示すブロック図である。撮像装置１００は、レンズ１１１と、撮像部１１２と、システム制御部１２０と、記憶装置部１３０と、外部Ｉ／Ｆ（インターフェース）部１４０と、記録部１５０と、操作入力部１６０と、表示部１７０と、音声出力部１８０と、カメラ制御部２００とを備える。撮像装置１００は、例えば、被写体を撮像して画像データを生成し、この画像データについて画像解析により各特徴量を抽出し、この抽出された各特徴量を用いて各種画像処理を施すことが可能なデジタルスチルカメラによって実現することができる。

レンズ１１１は、被写体からの光を集光する複数のレンズ（ズームレンズ、フォーカスレンズ等）から構成され、入射された被写体からの光がこれらのレンズを介して撮像部１１２に供給される。

撮像部１１２は、電子シャッター機能を有する撮像素子（図示せず）と、この撮像素子の出力信号を処理して撮像画像（画像データ）を生成する信号処理部（図示せず）とを備える。すなわち、撮像部１１２において、レンズ１１１を介して入射された被写体の光学像が撮像素子の撮像面に結像され、この状態で撮像素子が撮像動作を行い、信号処理部が撮像信号に対して信号処理を行うことにより、撮像画像が生成される。そして、生成された撮像画像が記憶装置部１３０に供給されて記憶される。なお、撮像画像の生成に用いられるカメラパラメータ（撮像パラメータ）が、カメラ制御部２００により順次決定される。

カメラ制御部２００は、記憶装置部１３０を介して撮像部１１２から供給される撮像画像、および、システム制御部１２０からの制御に基づいて、撮像部１１２を制御するものである。なお、カメラ制御部２００については、図２を参照して詳細に説明する。

システム制御部１２０は、撮像装置１００全体の制御を行うものである。例えば、システム制御部１２０は、操作入力部１６０により受け付けられたユーザからの操作入力に応じた制御を行う。また、システム制御部１２０は、表示部１７０に表示されるメニュー画面等の表示、記録部１５０に対する撮像画像の記録や読出し、外部Ｉ／Ｆ部１４０を介して行われる外部コンピュータやネットワークとの通信等を制御する。さらに、システム制御部１２０は、撮像動作中のモニタリング時には、撮像部１１２により生成された撮像画像を表示部１７０に表示させる制御を行う。

記憶装置部１３０は、撮像装置１００のシステム上で撮像画像等を一時的に保存するための主記憶装置であり、例えば、ＤＲＡＭ（Dynamic Random Access Memory）により構成される。すなわち、撮像装置１００内における各部間の撮像画像のやりとりは、主に記憶装置部１３０を介して行われる。

外部Ｉ／Ｆ部１４０は、ＵＳＢ（Universal Serial Bus）等の入出力端子を備える外部インターフェースであり、外部コンピュータとの接続やネットワーク接続のためのインターフェースを提供する。

記録部１５０は、システム制御部１２０の制御に基づいて、撮像部１１２により生成された撮像画像を記録するものである。また、記録部１５０は、システム制御部１２０の制御に基づいて、記録されている撮像画像を読み出してシステム制御部１２０に供給する。記録部１５０として、例えば、フラッシュメモリ等の記録媒体を用いることができる。また、記録部１５０は、撮像装置１００に内蔵するようにしてもよく、着脱可能に撮像装置１００に装着されるようにしてもよい。

操作入力部１６０は、ユーザからの操作入力を受ける操作入力部であり、受け付けられた操作入力に応じた信号をシステム制御部１２０に出力する。例えば、撮像画像の記録を指示するためのシャッターボタンが押下されると、シャッターボタン押下に応じた信号がシステム制御部１２０に出力される。

表示部１７０は、システム制御部１２０の制御に基づいて、各種画像を表示する表示部である。例えば、表示部１７０は、撮像部１１２により生成された撮影画像、記録部１５０から読み出された撮像画像、ユーザに提供されるメニュー画面等を表示する。

音声出力部１８０は、システム制御部１２０の制御に基づいて、各種の音声情報を出力するものである。音声出力部１８０は、例えば、スピーカにより実現することができる。

図２は、本発明の第１の実施の形態におけるカメラ制御部２００の機能構成例を示すブロック図である。図２では、カメラ制御部２００の機能構成例とともに、図１に示す撮像部１１２、システム制御部１２０および記憶装置部１３０の構成についても図示する。カメラ制御部２００は、シーケンス制御部２１０と、カメラパラメータ制御部２２０と、顔検出部２３０と、記憶装置Ｉ／Ｆ２４０とを備える。ここで、記憶装置部１３０およびカメラパラメータ制御部２２０の間、また、記憶装置部１３０および顔検出部２３０の間で行われる撮像画像のやりとりは、記憶装置Ｉ／Ｆ２４０を介して行われる。

シーケンス制御部２１０は、システム制御部１２０からの撮像画像記録待機命令で起動し、撮像部１１２により生成される撮像画像を記録することが可能な状態を保持するものである。この撮像画像記録待機状態では、撮像部１１２により生成される撮像画像が、記憶装置部１３０に順次記憶される。例えば、１／６０秒の間隔で、記憶装置部１３０に記憶される撮像画像が順次更新される。また、シーケンス制御部２１０は、記憶装置部１３０に記憶されている現在の撮像画像（撮像部１１２により生成された最新の撮像画像）に基づいて、カメラパラメータ制御部２２０がカメラパラメータを決定するように制御を行う。また、シーケンス制御部２１０は、記憶装置部１３０に記憶されている現在の撮像画像について顔検出部２３０が顔検出処理を行うための制御を行う。ここで、シーケンス制御部２１０は、顔を検出したことを示す顔検出情報が顔検出部２３０から出力された場合には、顔が検出された旨をシステム制御部１２０およびカメラパラメータ制御部２２０に出力する。

カメラパラメータ制御部２２０は、撮像画像に関するカメラパラメータを決定するものであり、決定されたカメラパラメータを用いて、撮像部１１２に対する撮像制御を行う。具体的には、カメラパラメータ制御部２２０は、シーケンス制御部２１０からのトリガに基づいて、記憶装置Ｉ／Ｆ２４０を介して、記憶装置部１３０に記憶されている現在の撮像画像を取得する。そして、この現在の撮像画像を評価して、シャッター速度、露出、ホワイトバランス等のカメラパラメータを決定する。また、カメラパラメータ制御部２２０は、現在の撮像画像から顔が検出された場合には、検出された顔および現在の撮像画像の評価に基づいてシャッター速度、露出、ホワイトバランス等のカメラパラメータを決定する。例えば、顔が検出された場合には、検出された顔の撮像画像における位置および大きさに基づいて、検出された顔に最適なカメラパラメータが決定される。

顔検出部２３０は、記憶装置部１３０に記憶されている現在の撮像画像について顔検出処理を行うものであり、顔が検出された場合には顔検出情報をシーケンス制御部２１０に出力する。具体的には、顔検出部２３０は、シーケンス制御部２１０からのトリガに基づいて、記憶装置Ｉ／Ｆ２４０を介して、記憶装置部１３０に記憶されている現在の撮像画像を取得し、この現在の撮像画像について、顔検出処理を行う。ここで、顔検出情報は、検出された顔に関する情報であり、例えば、検出された顔の撮像画像における位置、大きさ、種類（顔の向き等）、その顔の度合いを表すスコアを含む情報である。なお、顔検出部２３０については、図３を参照して詳細に説明する。

図３は、本発明の第１の実施の形態における顔検出部２３０の機能構成例を示すブロック図である。顔検出部２３０は、画像取得部２３１と、画像縮小部２３２と、画像取出部２３３と、評価値算出部２３５と、選択部２３６と、顔判定部２３７と、判定結果出力部２３８と、評価値算出辞書記憶部３００と、顔判定辞書記憶部３１０とを備える。

画像取得部２３１は、記憶装置Ｉ／Ｆ２４０を介して、記憶装置部１３０に記憶されている撮像画像を取得するものであり、取得された撮像画像を画像縮小部２３２に出力する。

画像縮小部２３２は、画像取得部２３１から出力された撮像画像について、予め定められている割合で順次縮小させることにより、大きさの異なる複数の画像を生成するものであり、生成された各画像を画像取出部２３３に順次出力する。なお、この撮像画像の縮小については、図２２を参照して詳細に説明する。

画像取出部２３３は、画像縮小部２３２から出力された各画像について、画像毎に所定領域に含まれる画像を順次取り出すものであり、取り出された画像（判定対象画像）を評価値算出部２３５および顔判定部２３７に出力する。なお、この画像の取り出しについては、図２２を参照して詳細に説明する。

評価値算出辞書記憶部３００は、画像取出部２３３から出力された画像について、複数の対象物の何れが含まれるかを評価する評価値を対象物毎に算出するための評価値算出辞書を記憶するものである。そして、記憶されている評価値算出辞書を評価値算出部２３５に供給する。この複数の対象物として、本発明の第１の実施の形態では、異なる方向を向いている複数の顔を例にして説明する。なお、この評価値算出辞書の作成方法については、図５乃至図１７等を参照して詳細に説明する。また、この評価値算出辞書の記憶内容については、図２０を参照して詳細に説明する。なお、評価値算出辞書記憶部３００は、特許請求の範囲に記載の判定情報記憶部の一例である。

顔判定辞書記憶部３１０は、画像取出部２３３から出力された画像について、特定の対象物が含まれるか否かを判定するための顔判定辞書を対象物毎に関連付けて記憶するものである。そして、記憶されている顔判定辞書を顔判定辞書メモリ２３９に供給する。ここで、顔判定辞書記憶部３１０には、評価値算出辞書記憶部３００に記憶されている評価値算出辞書を用いて算出される評価値に対応する複数の対象物のそれぞれについて、顔判定辞書が記憶される。なお、この顔判定辞書の作成方法については、図５乃至図１７等を参照して詳細に説明する。また、この顔判定辞書の記憶内容については、図２１を参照して詳細に説明する。なお、顔判定辞書記憶部３１０は、特許請求の範囲に記載の判定情報記憶部の一例である。

顔判定辞書メモリ２３９は、顔判定辞書記憶部３１０に記憶されている複数の顔判定辞書のうちの１または複数の顔判定辞書を記憶する作業用メモリであり、記憶されている顔判定辞書の内容を顔判定部２３７に供給する。

評価値算出部２３５は、画像取出部２３３から出力された判定対象画像における複数の領域から特徴量を抽出し、この抽出された各特徴量のうち２つの特徴量を比較することにより、複数の対象物の評価値を同時に算出するものである。そして、算出された対象物毎の評価値を選択部２３６に出力する。この評価値の算出には、評価値算出辞書記憶部３００に記憶されている評価値算出辞書が用いられる。なお、評価値算出部２３５による評価値の算出については、図２３乃至図２５を参照して詳細に説明する。また、評価値算出部２３５は、特許請求の範囲に記載の比較部および算出部の一例である。

選択部２３６は、評価値算出部２３５から出力された対象物毎の評価値のうちから、一定条件を満たす評価値を選択するものであり、この選択された評価値に係る対象物に関する情報（選択対象物情報）を顔判定部２３７に出力する。この一定条件として、例えば、対象物毎の評価値のうちから、高い値の所定数の評価値とすることができる。また、例えば、この所定数の評価値のうち、一定値を超えている評価値とすることができる。なお、選択部２３６による評価値の選択方法については、図２３乃至図２５を参照して詳細に説明する。

顔判定部２３７は、画像取出部２３３から出力された判定対象画像に顔が含まれるか否かを判定する顔判定処理を行うものである。そして、この判定結果を判定結果出力部２３８に出力する。この判定結果として、例えば、検出された顔の撮像画像における位置および大きさと、種類（顔の向き等）、その顔の度合いを表すスコアとが出力される。具体的には、顔判定部２３７は、選択部２３６により選択された評価値に係る対象物に関連付けて顔判定辞書記憶部３１０に記憶されている顔判定辞書を顔判定辞書メモリ２３９に保持させる。そして、顔判定辞書メモリ２３９に保持された顔判定辞書を用いて、画像取出部２３３から出力された判定対象画像における複数の領域から特徴量を抽出し、この抽出された各特徴量のうち２つの特徴量を比較することにより、評価値を顔判定辞書毎に算出する。そして、この評価値に基づいて、画像取出部２３３から出力された判定対象画像に顔が含まれるか否かを判定する。なお、顔判定部２３７による顔判定処理については、図２３乃至図２５を参照して詳細に説明する。また、顔判定部２３７は、特許請求の範囲に記載の比較部および算出部の一例である。

判定結果出力部２３８は、画像取出部２３３から出力された判定対象画像に顔が含まれると判定された判定結果が顔判定部２３７から出力された場合には、撮像画像から顔が検出された旨を示す顔検出情報をシーケンス制御部２１０に出力するものである。この顔検出情報には、例えば、検出された顔の撮像画像における位置および大きさと、種類（顔の向き等）と、その顔の度合いを表すスコアとが含まれる。

［学習装置の構成例］
次に、本発明の第１の実施の形態における顔検出処理で用いられる評価値算出辞書および顔判定辞書を作成する学習装置について図面を参照して詳細に説明する。なお、本発明の実施の形態で示す学習は、多量のデータに基づいて、これらのデータの背後にある規則性を見出すことを意味するものとする。

図４は、本発明の実施の第１の形態における学習装置８００の機能構成例を示すブロック図である。学習装置８００は、学習対象画像入力部８０１と、輝度差分値算出部８０２と、ウエイト分布情報作成部８０３と、最適スレッショルド決定部８０４と、弱仮説（Weak Learner）決定部８０５と、重み算出部８０６とを備える。また、学習装置８００は、ウエイト更新部８０７と、記録制御部８０８と、ウエイト保持部８１０と、顔検出辞書記憶部８２０とを備える。この例では、人物の顔を検出するための顔検出辞書を作成する例について説明する。この顔検出辞書は、図３に示す評価値算出辞書記憶部３００に記憶されている評価値算出辞書と、顔判定辞書記憶部３１０に記憶されている顔判定辞書とに対応するものである。なお、学習装置８００は、リアルアダブースト（Real AdaBoost）等の学習アルゴリズムにより実現される。

学習対象画像入力部８０１は、学習サンプルとなる学習対象画像を入力するものであり、入力された学習対象画像をその種類毎に輝度差分値算出部８０２およびウエイト更新部８０７に出力する。本発明の第１の実施の形態では、学習対象画像入力部８０１に入力される学習対象画像として、２４画素×２４画素に正規化された画像を用いる例を示す。また、人物の顔を検出するための顔検出辞書を作成する場合には、人物の顔を含むサンプル画像（学習対象正面顔画像）および人物の顔を含まないサンプル画像（学習対象非顔画像）が、学習対象画像として学習対象画像入力部８０１に入力される。この場合に、学習対象正面顔画像として、例えば、顔の両目の位置が各学習対象画像において同一の位置となるように正規化された画像を用いることができる。また、例えば、学習対象正面顔画像として１万程度の画像が入力され、学習対象非顔画像として１０万程度の画像が入力される。これらの画像例については、図５および図１２を参照して詳細に説明する。

輝度差分値算出部８０２は、学習対象画像入力部８０１から出力された学習対象画像における各２点間の輝度の差分値を学習対象画像毎に算出するものである。そして、算出された差分値を、算出対象となった学習対象画像および２点間の位置に関連付けてウエイト分布情報作成部８０３に出力する。ここで、学習対象画像における同一の２点間における２通りの演算（例えば、２点の輝度値をＡおよびＢとする場合における「Ａ−Ｂ」、「Ｂ−Ａ」）では、正負の符号が異なるのみで絶対値が同一の値となる。このため、その２通りの演算については、何れか１つの演算を行い、他の演算については省略することができる。すなわち、輝度差分値算出部８０２は、学習対象画像入力部８０１から出力された学習対象画像を構成する各画素の２点間の各組合せ（_５７６Ｃ_２＝１６５６００通り）について輝度の差分値を算出する。なお、輝度差分値算出部８０２は、特許請求の範囲に記載の差分値算出部の一例である。

ウエイト分布情報作成部８０３は、輝度差分値算出部８０２から出力された２点間の輝度の差分値に対するその算出対象となった学習対象画像に付与されているウエイトの分布状態を示すウエイト分布情報を、２点間の組合せ毎に作成するものである。なお、このウエイト分布情報は、学習対象正面顔画像および学習対象非顔画像に分類して作成される。そして、算出されたウエイト分布情報を、作成対象となった２点間の組合せに関連付けて最適スレッショルド決定部８０４およびウエイト更新部８０７に出力する。なお、学習対象画像に付与されるウエイトは、ウエイト保持部８１０に保持されている。また、ウエイト分布情報の作成については、図７、図８、図１４および図１５を参照して詳細に説明する。なお、ウエイト分布情報作成部８０３は、特許請求の範囲に記載の分布情報作成部の一例である。

最適スレッショルド決定部８０４は、ウエイト分布情報作成部８０３から出力されたウエイト分布情報に基づいて、最適となるスレッショルド（最適スレッショルド）を２点間の組合せ毎に決定するものである。そして、決定された最適スレッショルドと、決定対象となったウエイト分布情報と、２点間の組合せとを関連付けて弱仮説決定部８０５に出力する。この最適スレッショルドの決定については、図８および図１５を参照して詳細に説明する。

弱仮説決定部８０５は、ウエイト分布情報作成部８０３により作成されたウエイト分布情報に基づいて、最良の弱仮説を決定するものである。具体的には、弱仮説決定部８０５は、最適スレッショルド決定部８０４から出力された各最適スレッショルドの中から１つのスレッショルドを決定し、このスレッショルドに対応するウエイト分布情報の弱仮説を最良の弱仮説として決定する。そして、決定されたスレッショルドと、最良の弱仮説と、この弱仮説に対応するウエイト分布情報とを関連付けて重み算出部８０６、ウエイト更新部８０７および記録制御部８０８に出力する。この弱仮説の決定については、図９および図１６を参照して詳細に説明する。なお、弱仮説決定部８０５は、特許請求の範囲に記載の決定部の一例である。

重み算出部８０６は、弱仮説決定部８０５から出力された最良の弱仮説に対応するウエイト分布情報を用いて重み（重み付き多数決の値）を算出するものであり、算出された重みの値を記録制御部８０８に出力する。この重みの算出については、図１０および図１７を参照して詳細に説明する。

ウエイト更新部８０７は、ウエイト保持部８１０に保持されている各学習対象画像に対応するウエイトを更新するものである。具体的には、ウエイト更新部８０７は、ウエイト分布情報作成部８０３からのウエイト分布情報と、弱仮説決定部８０５からの最良の弱仮説に対応する最適スレッショルドと、重み算出部８０６からの重みの値とに基づいて、各ウエイトを更新する。このウエイトの更新については、図１０および図１７を参照して詳細に説明する。

記録制御部８０８は、重み算出部８０６から出力された重みの値と、弱仮説決定部８０５から出力されたスレッショルドおよび最良の弱仮説とを関連付けて、顔検出辞書記憶部８２０に記録させるものである。この顔検出辞書については、図１０および図１７を参照して詳細に説明する。

ウエイト保持部８１０は、学習対象画像入力部８０１から出力された各学習対象画像に付与されるウエイトを保持するものであり、保持されているウエイトをウエイト分布情報作成部８０３に供給する。また、ウエイト保持部８１０に保持されているウエイトは、ウエイト更新部８０７により更新される。なお、ウエイト保持部８１０の保持内容については、図６および図１３を参照して詳細に説明する。

図５は、本発明の第１の実施の形態における学習装置８００による学習の対象となる学習対象画像の例を示す図である。図５（ａ）には、複数の学習対象正面顔画像からなる学習対象正面顔画像群８３０を示し、図５（ｂ）には、複数の学習対象非顔画像からなる学習対象非顔画像群８４０を示す。なお、図５に示す例では、説明の容易のため、簡略化した画像を学習対象画像として示す。

図５（ａ）に示す学習対象正面顔画像８３１乃至８３４等のように、例えば、人物の顔（正面向きの顔）を含む多数のサンプル画像が学習対象正面顔画像として用いられる。また、図５（ｂ）に示す学習対象非顔画像８４１乃至８４４等のように、例えば、人物の顔を含まない多数のサンプル画像が学習対象非顔画像として用いられる。なお、この例では、１万程度の学習対象正面顔画像と、１０万程度の学習対象非顔画像とを用いて、顔検出辞書を作成する場合を例にして説明する。これらの各学習対象画像が、種類毎に学習対象画像入力部８０１に順次入力される。

図６は、本発明の第１の実施の形態におけるウエイト保持部８１０の保持内容を模式的に示す図である。図６（ａ）には、ウエイト保持部８１０にウエイトが保持されている学習対象画像を示し、図６（ｂ）には、その学習対象画像に対応するウエイト保持部８１０の保持内容を示す。また、図６（ａ）および（ｂ）の対応関係を矢印で結んで示す。なお、図６（ａ）に示す学習対象正面顔画像群８３０および学習対象非顔画像群８４０に含まれる学習対象画像として、図５に示す学習対象画像の一部を示し、同一の学習対象画像については、同一の符号を付す。

ウエイト保持部８１０には、学習対象画像識別情報（ｘ_ｉ）８１１と、ウエイト（Ｗ_ｉ ^ｔ）８１２と、顔画像／非顔画像特定情報（ｙ_ｉ）８１３とが保持されている。これらの各情報は、学習対象画像入力部８０１から出力された学習対象画像毎にウエイト更新部８０７により格納され、更新される。

学習対象画像識別情報（ｘ_ｉ）８１１は、学習対象画像入力部８０１に入力された学習対象画像を識別する識別情報であり、例えば、学習対象画像に関連付けて、ｘ_ｉ（ｉは、１≦ｉ≦Ｋを満たす整数）が保持される。図６（ｂ）に示す例では、学習対象画像入力部８０１にＫ個の学習対象画像が入力された場合を示す。例えば、Ｋ＝１１００００とすることができる。

ウエイト（Ｗ_ｉ ^ｔ）８１２は、学習対象画像入力部８０１に入力された学習対象画像毎に付与されるウエイトであり、ウエイト更新部８０７により順次更新される。ここで、ウエイト（Ｗ_ｉ ^ｔ）は、次の式１を満たすように正規化された値である。また、学習対象画像入力部８０１に入力された直後の各学習対象画像には同一の値（１／Ｋ）が、ウエイト（Ｗ_ｉ ^１）として付与される。ここで、ｉは、学習対象画像識別情報（ｘ_ｉ）８１１のｉに対応するものであり、ｔは、ブースティングをする際のループカウンタである。例えば、ｔ＝２０００乃至３０００とすることができる。

顔画像／非顔画像特定情報（ｙ_ｉ）８１３は、学習対象画像入力部８０１に入力された学習対象画像の種類を特定する情報であり、例えば、学習対象正面顔画像には「１」が保持され、学習対象非顔画像には「−１」が保持される。この顔画像／非顔画像特定情報は、学習対象画像入力部８０１から出力された学習対象画像の種類に応じて、ウエイト更新部８０７により格納される。

［顔検出辞書の作成例］
図７は、本発明の第１の実施の形態におけるウエイト分布情報作成部８０３によるウエイト分布情報の作成方法の概略を示す図である。図７（ａ）には、各学習対象画像における２点間の輝度の差分値を算出する算出方法の概略を示す。図７（ａ）では、学習対象正面顔画像群８３０および学習対象非顔画像群８４０に含まれる各学習対象画像のうち、学習対象正面顔画像８３１および８３２、学習対象非顔画像８４２および８４４を示し、輝度の差分値を算出する例を示す。また、他の学習対象画像についても同様に行うことができる。また、各学習対象画像の下部分の破線の矩形内には、各学習対象画像に付与されているウエイト（Ｗ_ｉ ^ｔ）を示す。このウエイト（Ｗ_ｉ ^ｔ）は、各学習対象画像に関連付けてウエイト保持部８１０に保持されている。

最初に、輝度差分値算出部８０２が、各学習対象画像における同一の２点の輝度を抽出し、この抽出された２点の輝度の差分値を学習対象画像毎に算出する。例えば、図７（ａ）に示すように、学習対象正面顔画像８３１および８３２、学習対象非顔画像８４２および８４４における２点（画素位置Ｐ１１およびＰ１２）の輝度が抽出され、この抽出された２点の輝度の差分値が算出される。

図７（ｂ）には、各学習対象画像における２点間の輝度の差分値に基づいてウエイト分布情報を作成する作成方法の概略を示す。図７（ｂ）では、横軸を輝度の差分値（−２５５乃至２５５）を示す軸とし、縦軸をウエイトの積算値を示す軸とするウエイト分布グラフを、ウエイト分布情報として示す。

ウエイト分布情報作成部８０３が、輝度差分値算出部８０２により算出された差分値の階級に、この差分値が算出された学習対象画像に関連付けてウエイト保持部８１０に保持されているウエイト（Ｗ_ｉ ^ｔ）を加算する。例えば、図７（ｂ）に示すように、学習対象正面顔画像８３１および８３２、学習対象非顔画像８４２および８４４について算出された差分値の階級に、各学習対象画像に対応するウエイト（Ｗ_１ ^ｔ、Ｗ_２ ^ｔ、Ｗ_ｉ ^ｔ、Ｗ_Ｋ ^ｔ）が加算される。また、他の学習対象画像についても同様に、算出された差分値の階級に、各学習対象画像に対応するウエイト（Ｗ_ｉ ^ｔ）が順次加算され、ウエイト分布情報が作成される。なお、学習対象画像入力部８０１に入力された直後の各学習対象画像には同一の値（１／Ｋ）がウエイト（Ｗ_ｉ ^ｔ）として付与されているため、ｔ＝１の場合には、同一のウエイト（Ｗ_ｉ ^１）が順次加算される。また、学習対象画像における他の２点の組合せ（ペア）についても、同様に、各学習対象画像に関連付けられているウエイト（Ｗ_ｉ ^ｔ）が順次加算され、ウエイト分布情報が作成される。このように、各学習対象画像における２点（画素位置Ｐ１１およびＰ１２）の組合せについて作成されたウエイト分布情報の例を図８に示す。

図８は、本発明の第１の実施の形態におけるウエイト分布情報作成部８０３により作成されたウエイト分布情報と、学習対象画像との関係の概略を示す図である。図８（ａ）には、学習対象正面顔画像群８３０および学習対象非顔画像群８４０に含まれる各学習対象画像を示す。これらの各学習対象画像は、図５と同様である。

図８（ｂ）には、２点（画素位置Ｐ１１およびＰ１２）の組合せについて作成されたウエイト分布曲線（ウエイト分布情報）８５０を示す。このウエイト分布曲線８５０は、図７に示すウエイト分布情報の作成方法により、順次加算された階級毎のウエイト（Ｗ_ｉ ^ｔ）の積算値を、学習対象画像の種類毎に曲線で結んで作成された曲線である。このウエイト分布曲線により、学習対象画像の種類毎に応じた特徴的なウエイト分布状態を把握することができる。また、このウエイト分布曲線により、顔画像および非顔画像のそれぞれについて独立のウエイト分布を得ることができる。例えば、図８（ｂ）に示すウエイト分布曲線８５０では、右側に山が生成されている曲線を顔画像に対応する曲線とし、左側に山が生成されている曲線を非顔画像に対応する曲線とする。これらのウエイト分布の特徴は、輝度差分値の算出対象となる２点の組合せに応じて異なることが多い。

ここで、顔および非顔の判別を行うためのスレッショルドの決定方法について説明する。例えば、図８（ｂ）に示すウエイト分布曲線８５０における横軸の値をｄ（ｄは、−２５５≦ｄ≦２５５を満たす整数）とし、横軸の定数をｔｈ１（ｔｈ１は、−２５５≦ｔｈ１≦２５５を満たす整数）とする。この場合に、定数ｔｈ１未満の学習対象正面顔画像のウエイト分布曲線上の値をＰ_Ｌ ^＋（ｄ）とし、定数ｔｈ１以上の学習対象正面顔画像のウエイト分布曲線上の値をＰ_Ｈ ^＋（ｄ）とする。また、定数ｔｈ１未満の学習対象非顔画像のウエイト分布曲線上の値をＰ_Ｌ ⁻（ｄ）とし、定数ｔｈ１以上の学習対象非顔画像のウエイト分布曲線上の値をＰ_Ｈ ⁻（ｄ）とする。なお、図８（ｂ）では、定数ｔｈ１未満の顔画像のウエイト分布曲線（Ｐ_Ｌ ^＋（ｄ））を破線の細線で示し、定数ｔｈ１以上の顔画像のウエイト分布曲線（Ｐ_Ｈ ^＋（ｄ））を破線の太線で示す。また、定数ｔｈ１未満の非顔画像のウエイト分布曲線（Ｐ_Ｌ ⁻（ｄ））を太線で示し、定数ｔｈ１以上の非顔画像のウエイト分布曲線（Ｐ_Ｈ ⁻（ｄ））を細線で示す。

この場合に、最適スレッショルド決定部８０４が、定数ｔｈ１の両側のウエイト分布の総和を算出する。例えば、次の式２乃至５を用いて、定数ｔｈ１の両側のウエイト分布の総和Ｐ_Ｈ ^＋、Ｐ_Ｌ ^＋、Ｐ_Ｈ ⁻およびＰ_Ｌ ⁻が算出される。

続いて、最適スレッショルド決定部８０４が、算出されたウエイト分布の総和Ｐ_Ｈ ^＋、Ｐ_Ｌ ^＋、Ｐ_Ｈ ⁻およびＰ_Ｌ ⁻について、次の式６を用いて、値Ｔ１を算出する。
Ｔ１＝√（Ｐ_Ｌ ^＋×Ｐ_Ｌ ⁻）＋√（Ｐ_Ｈ ^＋×Ｐ_Ｈ ⁻）…式６

続いて、最適スレッショルド決定部８０４が、算出された値Ｔ１が最小となる定数ｔｈ１を、図８（ｂ）に示すウエイト分布曲線８５０に対応する２点（画素位置Ｐ１１およびＰ１２）の組合せに関するスレッショルドｔｈ１として決定する。また、学習対象画像における他の２点の組合せ（ペア）についても、同様に、ウエイト分布情報を用いて、スレッショルドを決定することができる。このように、各学習対象画像における２点の組合せについて、作成されたウエイト分布情報と、このウエイト分布情報に基づいて決定されたスレッショルドの例を図９に示す。

図９は、本発明の第１の実施の形態におけるウエイト分布情報作成部８０３により作成されたウエイト分布情報と、最適スレッショルド決定部８０４により決定されたスレッショルドとの関係を概略的に示す図である。また、図９には、ウエイト分布情報およびスレッショルドとともに、これらに対応する学習対象画像における２点の組合せを示す。なお、図９では、学習対象正面顔画像群８３０および学習対象非顔画像群８４０に含まれる各学習対象画像のうち、学習対象正面顔画像８３２および学習対象非顔画像８４２のみを示す。また、図９（ａ）に示す学習対象画像における２点の組合せと、ウエイト分布情報と、スレッショルドとの関係は、図８に示す関係と同様である。なお、図９（ａ）に示すウエイト分布曲線８５０について、学習対象非顔画像に対応するウエイト分布曲線を曲線８５１で示し、学習対象正面顔画像に対応するウエイト分布曲線を曲線８５２で示す。

図９（ｂ）には、学習対象画像における２点（画素位置Ｐ２１およびＰ２２）の組合せについて作成されたウエイト分布曲線８５３と、ウエイト分布曲線８５３に基づいて決定されたスレッショルドｔｈ２との関係を示す。また、ウエイト分布曲線８５３について、学習対象非顔画像に対応するウエイト分布曲線を曲線８５４で示し、学習対象正面顔画像に対応するウエイト分布曲線を曲線８５５で示す。

図９（ｃ）には、学習対象画像における２点（画素位置Ｐｊ１およびＰｊ２）の組合せについて作成されたウエイト分布曲線８５６と、ウエイト分布曲線８５６に基づいて決定されたスレッショルドｔｈｊとの関係を示す。また、ウエイト分布曲線８５６について、学習対象非顔画像に対応するウエイト分布曲線を曲線８５７で示し、学習対象正面顔画像に対応するウエイト分布曲線を曲線８５８で示す。

このように、最適スレッショルド決定部８０４が、学習対象画像における２点の各組合せ（ペア）について、ウエイト分布曲線（ウエイト分布情報）を用いて、スレッショルドｔｈ１乃至ｊを決定する。続いて、弱仮説決定部８０５が、決定されたスレッショルドｔｈ１乃至ｊのうち、上記式６を用いて算出された値Ｔ１が最小となるスレッショルドを決定する。そして、この決定されたスレッショルドに対応するウエイト分布情報の弱仮説を最良の弱仮説として決定する。

図１０は、本発明の第１の実施の形態における弱仮説決定部８０５により決定された弱仮説に対応する各値を顔検出辞書に記録する記録方法を概略的に示す図である。図１０（ａ）には、弱仮説決定部８０５により決定されたスレッショルドｔｈｒに対応するウエイト分布曲線８６０および学習対象画像における２点の組合せ（画素位置Ｐｒ１およびＰｒ２）を示す。なお、図１０（ａ）では、スレッショルドｔｈｒの位置を示す線分を太線で示す。また、ウエイト分布曲線８６０について、学習対象非顔画像に対応する曲線を曲線８６１で示し、学習対象正面顔画像に対応する曲線を曲線８６２で示す。

図１０（ｂ）には、弱仮説決定部８０５により決定されたスレッショルドｔｈｒについて２つの重みを算出する重み算出部８０６を示す。この重み算出部８０６が、ウエイト分布曲線８６０におけるスレッショルドｔｈｒの両側のウエイト分布の総和Ｐ_Ｈ ^＋、Ｐ_Ｌ ^＋、Ｐ_Ｈ ⁻およびＰ_Ｌ ⁻に基づいて、次の式７および式８を用いて、重みｈ（ｘ）（２つの重みｈ_Ｈ（ｘ）およびｈ_Ｌ（ｘ））を算出する。なお、式７および式８で示すｘは、検出対象となる画像を識別するものである。

図１０（ｃ）には、弱仮説決定部８０５により決定された弱仮説に対応する各値が、顔検出辞書８２１に記録される例を模式的に示す。この顔検出辞書８２１は、顔検出辞書記憶部８２０に記憶される。具体的には、弱仮説決定部８０５により決定されたスレッショルドｔｈｒの値が、顔検出辞書８２１の閾値（θ）８２４に記録される。また、スレッショルドｔｈｒに対応する２点の組合せ（画素位置Ｐｒ１およびＰｒ２）のうちの１つの点（画素位置Ｐｒ１）が、顔検出辞書８２１の位置１（ｕ１，ｖ１）８２２に記録される。また、スレッショルドｔｈｒに対応する２点の組合せ（画素位置Ｐｒ１およびＰｒ２）のうちの他の点（画素位置Ｐｒ２）が、顔検出辞書８２１の位置２（ｕ２，ｖ２）８２３に記録される。ここで、例えば、学習対象画像における左上隅を原点とする場合に、学習対象画像における水平方向の位置をｕ１およびｕ２とし、学習対象画像における垂直方向の位置をｖ１およびｖ２とする。また、スレッショルドｔｈｒについて算出された重みｈ（ｘ）（２つの重みｈ_Ｈ（ｘ）およびｈ_Ｌ（ｘ））が、顔検出辞書８２１の重み（α）８２５に記録される。例えば、重みｈ_Ｈ（ｘ）が重み（α）８２５の（Ｈ）に記録され、重みｈ_Ｌ（ｘ）が重み（α）８２５の（Ｌ）に記録される。これらの各値は、記録制御部８０８により顔検出辞書８２１に記録される。

続いて、ウエイト更新部８０７が、次の式９を用いて、各学習対象画像に付与するウエイトＷ_ｉ ^ｔ＋１を算出し、ウエイト保持部８１０に保持されているウエイトを更新する。この更新は、ブースティング（Boosting）操作と称される。
ここで、Ｗ_ｉ ^ｔおよびｙ_ｉは、対象となる学習対象画像ｘ_ｉに関連付けてウエイト保持部８１０に保持されている値（図６に示す）である。また、ｈ_ｔ（ｘ_ｉ）は、弱仮説決定部８０５により決定されたスレッショルドｔｈｒに対応する２点の組合せ（画素位置Ｐｒ１およびＰｒ２）について算出された各学習対象画像の輝度の差分値に応じて決定される値である。具体的には、ｈ_ｔ（ｘ_ｉ）として、対象となる学習対象画像ｘ_ｉについて算出された輝度の差分値Ｐｄが、Ｐｄ≧ｔｈｒの場合には、式７を用いて算出される重みｈ_Ｈ（ｘ_ｉ）が用いられる。一方、対象となる学習対象画像ｘ_ｉについて算出された輝度の差分値Ｐｄが、Ｐｄ＜ｔｈｒの場合には、式８を用いて算出される重みｈ_Ｌ（ｘ_ｉ）が用いられる。これにより、例えば、弱仮説決定部８０５により決定されたスレッショルドを基準として、異なる判別をされた学習対象画像については、ウエイトを重くして、次のループで反映され易くすることができる。このように、学習対象画像入力部８０１に入力された直後の各学習対象画像には同一の値（１／Ｋ）がウエイト（Ｗ_ｉ ^１）として付与されるが、ｔ＝２以降のウエイト（Ｗ_ｉ ^ｔ）については、各学習対象画像に応じて変更される。

続いて、予定ループ数に達するまで、または、予定精度に達するまで上述した処理を繰り返す。

このように、本発明の第１の実施の形態では、弱仮説決定部８０５により決定されたスレッショルドの上下に応じて異なる重みを算出する。このため、従来では、顔検出処理において、判別が困難であった画像等についても容易に検出することができるようになり、顔検出精度を向上させることができる。

図１１は、学習対象画像における２点の組合せについて作成された２つのウエイト分布曲線を示す図である。図１１（ａ）に示すウエイト分布曲線８５０は、図９（ａ）に示すウエイト分布曲線８５０と同様である。この場合には、スレッショルドの上下で、学習対象非顔画像に対応する曲線と、学習対象正面顔画像に対応する曲線との特徴がでているため、比較的明確に判別が可能であると想定される。

図１１（ｂ）に示すウエイト分布曲線８６５は、スレッショルドｔｈ１０以下では非顔または顔の判別が難しいが、スレッショルドｔｈ１０以上では比較的明確に判別が可能な場合におけるウエイト分布曲線の一例である。ウエイト分布曲線８６５について、学習対象非顔画像に対応する曲線を曲線８６６で示し、学習対象正面顔画像に対応する曲線を曲線８６７で示す。すなわち、スレッショルドｔｈ１０以下では非顔および顔のウエイトの分布状態が混在しているため、判別が難しいと想定される。しかしながら、スレッショルドｔｈ１０以上では、非顔のウエイト分布がほとんどなく、顔のウエイトの分布がほとんどであるため、比較的明確に判別が可能であると想定される。このような場合でも、スレッショルドｔｈ１０の上下に応じて異なる重みを用いることにより、極めて効果的に顔を検出することができる。これにより、弱仮説を削減させることができるため、顔検出処理を迅速に行うことができる。また、弱仮説を削減させた場合でも、顔検出精度を高めることができる。

このように作成された顔検出辞書８２１を用いて顔検出処理を行う場合には、顔検出辞書８２１に含まれるｔ＝１からＴまでの各情報を用いて、検出対象となる画像ｘ（２４画素×２４画素）について次の式１０により最終仮説Ｈ（ｘ）を算出する。そして、Ｈ（ｘ）≧０であるか、Ｈ（ｘ）＜０であるかに応じて、検出対象となる画像ｘに顔が含まれているか否かが判定される。

ここで、式７および式８を用いて、式１０に示す最終仮説Ｈ（ｘ）を算出し、顔判定を行う場合の流れを以下に示す。

例えば、画像ｘについて顔検出処理を行う場合には、顔検出辞書８２１に含まれるｔ行の位置１（ｕ１，ｖ１）８２２および位置２（ｕ２，ｖ２）８２３に対応する画像ｘ上の２点の輝度の値が抽出される。続いて、この２点間の輝度の差分値が算出され、この差分値と、顔検出辞書８２１の閾値（θ）８２４に格納されている値とが比較される。例えば、２点間の輝度の差分値をＤｔとし、閾値（θ）８２４に格納されている値をｔｈｔとする場合に、Ｄｔ≧ｔｈｔであれば、重み（α）８２５の（Ｈ）に格納されている値（すなわち、式７に示す重みｈ_Ｈ（ｘ））が選択される。一方、Ｄｔ＜ｔｈｔであれば、重み（α）８２５の（Ｌ）に格納されている値（すなわち、式８に示す重みｈ_Ｌ（ｘ））が選択される。そして、ｔ＝１からＴまでの各重み（α）８２５について、選択された重み（α）８２５の値（ＨまたはＬ）を順次加算することにより、最終仮説Ｈ（ｘ）が算出される。そして、Ｈ（ｘ）＜０である場合には、検出対象となる画像ｘに顔が含まれていないと判定され、Ｈ（ｘ）≧０である場合には、検出対象となる画像ｘに顔が含まれていると判定される。なお、これらの顔判定処理については、図２２乃至図２５を参照して詳細に説明する。

［複数の異なる対象物を検出するための辞書作成例］
以上では、対象物となる人物の顔が含まれる学習対象正面顔画像と、人物の顔が含まれない学習対象非顔画像とを用いて、顔検出辞書を作成する例を示した。しかしながら、上述した算出方法を適用することにより、異なる複数の対象物の検出処理を同時に行うための辞書を作成することができる。具体的には、異なる複数の対象物の検出処理を行う場合に、これらの対象物が画像に含まれるか否かを判定する際に用いられる評価値の算出を、異なる複数の対象物のそれぞれについて同時に行うための辞書を作成することができる。すなわち、複数のクラスについて同時に判定処理を行うための辞書を作成することができる。以下では、異なる複数の対象物として、正面顔および左向きの側面顔の検出処理を同時に行うための顔検出辞書を作成する例について説明する。なお、機能構成については、図４に示す機能構成と同様であるため、同一の符号を付して、異なる機能を中心に説明し、他の説明を省略する。

図１２は、本発明の第１の実施の形態における学習装置８００による学習の対象となる学習対象画像の例を示す図である。図１２（ａ）には、複数の学習対象正面顔画像からなる学習対象正面顔画像群８３０を示し、図１２（ｂ）には、複数の学習対象側面顔画像からなる学習対象側面顔画像群８７０を示す。また、図１２（ｃ）には、複数の学習対象非顔画像からなる学習対象非顔画像群８４０を示す。なお、図１２（ａ）および（ｃ）に示す学習対象正面顔画像群８３０および学習対象非顔画像群８４０は、図５に示す学習対象正面顔画像群８３０および学習対象非顔画像群８４０と同一である。このため、これらについては、図５と同一の符号を付して説明を省略する。また、図１２に示す例でも、説明の容易のため、簡略化した画像を学習対象画像として示す。

図１２（ｂ）に示す学習対象側面顔画像８７１乃至８７４等のように、例えば、人物の顔（左向きの顔）を含む多数のサンプル画像が学習対象側面顔画像として用いられる。また、この例では、１万程度の学習対象正面顔画像と、１万程度の学習対象側面顔画像と、１０万程度の学習対象非顔画像とを用いて、顔検出辞書を作成する場合を例にして説明する。これらの各学習対象画像が、種類毎に学習対象画像入力部８０１に順次入力される。

図１３は、本発明の第１の実施の形態におけるウエイト保持部８１０の保持内容を模式的に示す図である。図１３に示すウエイト保持部８１０に保持される各項目は、クラス情報８１４が追加され、クラス毎にウエイトが保持される点以外は、図６に示すウエイト保持部８１０と同一である。そこで、以下では、図６と同様の構成については同一の符号を付して説明を省略し、図６と異なる部分を中心に説明する。図１３（ａ）には、ウエイト保持部８１０にウエイトが保持されている学習対象画像を示し、図１３（ｂ）には、その学習対象画像に対応するウエイト保持部８１０の保持内容を示す。また、図１３（ａ）および（ｂ）の対応関係を矢印で結んで示す。なお、図１３（ａ）に示す学習対象側面顔画像群８７０等に含まれる学習対象画像として、図１２に示す学習対象画像の一部を示し、同一の学習対象画像については、同一の符号を付す。また、この例では、学習対象正面顔画像群８３０に含まれる画像の数と、学習対象側面顔画像群８７０に含まれる画像の数とが同一の場合を例にして説明する。

学習対象画像識別情報（ｘ_ｉ）８１１には、学習対象画像を識別するためのｘ_ｉ（ｉは、１≦ｉ≦Ｋを満たす整数）が保持される。図１３（ｂ）に示す例では、学習対象正面顔画像群８３０および学習対象非顔画像群８４０に含まれる画像の数の合計がＫであり、学習対象側面顔画像群８７０および学習対象非顔画像群８４０に含まれる画像の数の合計がＫである場合を示す。例えば、Ｋ＝１１００００とすることができる。また、例えば、学習対象画像識別情報（ｘ_ｉ）８１１には、学習対象側面顔画像８７１に関連付けてｘ_１が保持される。

ウエイト（Ｗ_ｉ，ｃｊ ^ｔ）８１２には、上述したように、クラス毎にウエイトが保持される。すなわち、図１３（ｂ）に示すように、学習対象正面顔画像群８３０および学習対象非顔画像群８４０に含まれる各学習対象画像と、学習対象側面顔画像群８７０および学習対象非顔画像群８４０に含まれる各学習対象画像とのクラス毎にウエイトが保持される。ここで、学習対象非顔画像群８４０に含まれる各学習対象画像については、各クラスにおいて共通の画像を用いるが、ウエイト更新部８０７により順次更新されるウエイトが異なる値となる。また、学習対象画像入力部８０１に入力された直後の各学習対象画像には同一の値（１／Ｋ）が、ウエイト（Ｗ_ｉ，ｃｊ ^１）として付与される。また、例えば、ウエイト（Ｗ_ｉ，ｃｊ ^ｔ）８１２には、学習対象側面顔画像８７１に関連付けてＷ_１，ｃ２ ^ｔが保持される。ここで、ｃ_ｊは、クラス情報（ｃ_ｊ）８１４のｃ_ｊに対応するものであり、属するクラスを表すものである。

顔画像／非顔画像特定情報（ｙ_ｉ）８１３には、学習対象正面顔画像と同様に、学習対象側面顔画像には「１」が保持される。例えば、顔画像／非顔画像特定情報（ｙ_ｉ）８１３には、学習対象側面顔画像８７１に関連付けて「１」が保持される。

クラス情報（ｃ_ｊ）８１４は、クラスを特定するための情報であり、例えば、学習対象正面顔画像には「ｃ_１」が保持され、学習対象側面顔画像には「ｃ_２」が保持される。また、学習対象正面顔画像のクラスに属する学習対象非顔画像のウエイトには「ｃ_１」が保持され、学習対象側面顔画像のクラスに属する学習対象非顔画像のウエイトには「ｃ_２」が保持される。例えば、クラス情報（ｃ_ｊ）８１４には、学習対象正面顔画像のクラスに属する学習対象非顔画像８４４のウエイトに「ｃ_１」が保持され、学習対象側面顔画像のクラスに属する学習対象非顔画像８４４のウエイトに「ｃ_２」が保持される。

図１４は、本発明の第１の実施の形態におけるウエイト分布情報作成部８０３によるウエイト分布情報の作成方法の概略を示す図である。図１４に示す例は、図７の変形例であり、学習対象正面顔画像および学習対象非顔画像に関するウエイト分布情報の作成以外に、学習対象側面顔画像および学習対象非顔画像に関するウエイト分布情報を作成する点が図７とは異なる。そこで、以下では、図７と同様の構成については同一の符号を付して説明を省略し、図７と異なる部分を中心に説明する。

図１４（ａ）に示すように、各学習対象画像における２点間の輝度の差分値の算出方法は、図７（ａ）に示す例と同様である。また、図１４（ｂ）に示すように、各学習対象正面顔画像および学習対象非顔画像における２点間の輝度の差分値に基づいてウエイト分布情報を作成する作成方法は、図７（ｂ）に示す例と同様である。

ここで、図１４（ｃ）に示すウエイト分布情報は、学習対象側面顔画像および学習対象非顔画像に関するウエイト分布情報である点が、図７（ｂ）に示す例と異なる。しかし、各学習対象側面顔画像および学習対象非顔画像における２点間の輝度の差分値に基づくウエイト分布情報の作成方法は、図７（ｂ）に示す例と同様である。

具体的には、ウエイト分布情報作成部８０３が、輝度差分値算出部８０２により算出された差分値の階級に、この差分値が算出された学習対象画像に関連付けてウエイト保持部８１０に保持されているウエイト（Ｗ_ｉ，ｃｊ ^ｔ）を加算する。この加算処理は、クラス毎に行われる。すなわち、図１４（ｂ）に示す学習対象正面顔画像および学習対象非顔画像に関するウエイト分布グラフと、図１４（ｃ）に示す学習対象側面顔画像および学習対象非顔画像に関するウエイト分布グラフとについて行われる。例えば、図１４（ｂ）に示すように、学習対象正面顔画像８３１、学習対象非顔画像８４４について算出された差分値の階級に、各学習対象画像に対応するウエイト（Ｗ_１，ｃ１ ^ｔ、Ｗ_Ｋ，ｃ１ ^ｔ）が加算される。また、図１４（ｃ）に示すように、学習対象側面顔画像８７１、学習対象非顔画像８４４について算出された差分値の階級に、各学習対象画像に対応するウエイト（Ｗ_１，ｃ２ ^ｔ、Ｗ_Ｋ，ｃ２ ^ｔ）が加算される。このように、学習対象非顔画像については、図１４（ｂ）に示すウエイト分布グラフと、図１４（ｃ）に示すウエイト分布グラフとについて同時に加算処理が行われる。また、他の学習対象画像についても同様に、算出された差分値の階級に、各学習対象画像に対応するウエイト（Ｗ_ｉ，ｃｊ ^ｔ）が順次加算され、ウエイト分布情報が作成される。また、学習対象画像における他の２点の組合せ（ペア）についても、同様に、各学習対象画像に関連付けられているウエイト（Ｗ_ｉ ^ｔ）が順次加算され、ウエイト分布情報が作成される。このように、各学習対象画像における２点（画素位置Ｐ１１およびＰ１２）の組合せについて作成されたウエイト分布情報の例を図１５に示す。

図１５は、本発明の第１の実施の形態におけるウエイト分布情報作成部８０３により作成されたウエイト分布情報と、学習対象画像との関係の概略を示す図である。図１５（ａ）には、学習対象正面顔画像群８３０、学習対象側面顔画像群８７０および学習対象非顔画像群８４０に含まれる各学習対象画像を示す。これらの各学習対象画像は、図１２の一部と同様である。

図１５（ｂ）には、２点（画素位置Ｐ１１およびＰ１２）の組合せについて作成されたウエイト分布曲線（ウエイト分布情報）８７５および８７６を示す。ウエイト分布曲線８７５は、図１４（ｂ）に示すように、順次加算された階級毎のウエイト（Ｗ_ｉ，ｃ１ ^ｔ）の積算値を、学習対象正面顔画像群および学習対象非顔画像群に含まれる各学習対象画像の種類毎に曲線で結んで作成された曲線である。また、ウエイト分布曲線８７６は、図１４（ｃ）に示すように、順次加算された階級毎のウエイト（Ｗ_ｉ，ｃ２ ^ｔ）の積算値を、学習対象側面顔画像群および学習対象非顔画像群に含まれる各学習対象画像の種類毎に曲線で結んで作成された曲線である。これらのウエイト分布曲線により、学習対象画像の種類毎に応じた特徴的なウエイト分布状態を把握することができる。また、このウエイト分布曲線により、正面顔画像および非顔画像、左向き側面顔画像および非顔画像のそれぞれについて独立のウエイト分布を得ることができる。例えば、ウエイト分布曲線８７５では、右側に山が生成されている曲線を正面顔画像に対応する曲線とし、左側に山が生成されている曲線を非顔画像に対応する曲線とする。また、ウエイト分布曲線８７６では、右側に山が生成されている曲線を左向き側面顔画像に対応する曲線とし、左側に山が生成されている曲線を非顔画像に対応する曲線とする。例えば、ウエイト分布曲線８７５および８７６のうち、非顔画像に対応する曲線は、ｔ＝１の場合には、加算対象となる学習対象画像が同一であるため共通する。また、例えば、ウエイト分布曲線８７５および８７６のうち、正面顔画像に対応する曲線と、左向き側面顔画像に対応する曲線とは、加算対象となる学習対象画像が異なるため、互いに異なる曲線となる。

ここで、正面顔、左向き側面顔および非顔の判別を行うためのスレッショルドの決定方法について説明する。例えば、図１５（ｂ）に示すウエイト分布曲線８７５および８７６における横軸の値をｄ（ｄは、−２５５≦ｄ≦２５５を満たす整数）とし、横軸の定数をｔｈ１１（ｔｈ１１は、−２５５≦ｔｈ１１≦２５５を満たす整数）とする。この場合に、定数ｔｈ１１未満の学習対象正面顔画像のウエイト分布曲線上の値をＰ_Ｌ ^ｃ１＋（ｄ）とし、定数ｔｈ１１以上の学習対象正面顔画像のウエイト分布曲線上の値をＰ_Ｈ ^ｃ１＋（ｄ）とする。また、定数ｔｈ１１未満の学習対象側面顔画像のウエイト分布曲線上の値をＰ_Ｌ ^ｃ２＋（ｄ）とし、定数ｔｈ１１以上の学習対象側面顔画像のウエイト分布曲線上の値をＰ_Ｈ ^ｃ２＋（ｄ）とする。また、クラス（ｃ_１）について、定数ｔｈ１１未満の学習対象非顔画像のウエイト分布曲線上の値をＰ_Ｌ ^ｃ１−（ｄ）とし、定数ｔｈ１１以上の学習対象非顔画像のウエイト分布曲線上の値をＰ_Ｈ ^ｃ１−（ｄ）とする。また、クラス（ｃ_２）について、定数ｔｈ１１未満の学習対象非顔画像のウエイト分布曲線上の値をＰ_Ｌ ^ｃ２−（ｄ）とし、定数ｔｈ１１以上の学習対象非顔画像のウエイト分布曲線上の値をＰ_Ｈ ^ｃ２−（ｄ）とする。

この場合に、最適スレッショルド決定部８０４が、ウエイト分布曲線８７５および８７６のそれぞれについて、定数ｔｈ１１の両側のウエイト分布の総和を算出する。例えば、ウエイト分布曲線８７５については、次の式１１乃至１４を用いて、定数ｔｈ１１の両側のウエイト分布の総和Ｐ_Ｈ ^ｃ１＋、Ｐ_Ｌ ^ｃ１＋、Ｐ_Ｈ ^ｃ１−およびＰ_Ｌ ^ｃ１−が算出される。

また、例えば、ウエイト分布曲線８７６については、次の式１５乃至１８を用いて、定数ｔｈ１１の両側のウエイト分布の総和Ｐ_Ｈ ^ｃ２＋、Ｐ_Ｌ ^ｃ２＋、Ｐ_Ｈ ^ｃ２−およびＰ_Ｌ ^ｃ２−が算出される。
ここで、上述したように、ウエイト分布曲線８７５および８７６のうち、ｔ＝１の場合には、非顔画像に対応する曲線は共通するため、式１３に示すＰ_Ｈ ^ｃ１−と、式１７に示すＰ_Ｈ ^ｃ２−とは、同一の値となる。同様に、ｔ＝１の場合には、式１４に示すＰ_Ｌ ^ｃ１−と、式１８に示すＰ_Ｌ ^ｃ２−とは、同一の値となる。

続いて、最適スレッショルド決定部８０４が、算出されたウエイト分布の総和Ｐ_Ｈ ^ｃ１＋、Ｐ_Ｌ ^ｃ１＋、Ｐ_Ｈ ^ｃ１−、Ｐ_Ｌ ^ｃ１−、Ｐ_Ｈ ^ｃ２＋、Ｐ_Ｌ ^ｃ２＋、Ｐ_Ｈ ^ｃ２−およびＰ_Ｌ ^ｃ２−について、次の式１９を用いて、値Ｔ１１を算出する。
Ｔ１１＝√（Ｐ_Ｌ ^ｃ１＋×Ｐ_Ｌ ^ｃ１−）＋√（Ｐ_Ｈ ^ｃ１＋×Ｐ_Ｈ ^ｃ１−）＋√（Ｐ_Ｌ ^ｃ２＋×Ｐ_Ｌ ^ｃ２−）＋√（Ｐ_Ｈ ^ｃ２＋×Ｐ_Ｈ ^ｃ２−）…式１９

続いて、最適スレッショルド決定部８０４が、算出された値Ｔ１１が最小となる定数ｔｈ１１を、図１５（ｂ）に示すウエイト分布曲線８７５および８７６に対応する２点（画素位置Ｐ１１およびＰ１２）の組合せに関するスレッショルドｔｈ１１として決定する。また、学習対象画像における他の２点の組合せ（ペア）についても、同様に、ウエイト分布曲線（ウエイト分布情報）を用いて、スレッショルドを決定することができる。このように、各学習対象画像における２点の組合せについて、作成されたウエイト分布情報と、このウエイト分布情報に基づいて決定されたスレッショルドの例を図１６に示す。

図１６は、本発明の第１の実施の形態におけるウエイト分布情報作成部８０３により作成されたウエイト分布情報と、最適スレッショルド決定部８０４により決定されたスレッショルドとの関係を概略的に示す図である。また、図１６には、ウエイト分布情報およびスレッショルドとともに、これらに対応する学習対象画像における２点の組合せを示す。なお、図１６では、学習対象正面顔画像群８３０、学習対象側面顔画像群８７０および学習対象非顔画像群８４０に含まれる各学習対象画像のうち、学習対象正面顔画像８３１、学習対象側面顔画像８７１および学習対象非顔画像８４４のみを示す。また、図１６（ａ）に示す学習対象画像における２点の組合せと、ウエイト分布情報と、スレッショルドとの関係は、図１５に示す関係と同様である。

図１６（ｂ）には、学習対象画像における２点（画素位置Ｐｑ１およびＰｑ２）の組合せについて作成されたウエイト分布曲線８７７および８７８と、ウエイト分布曲線８７７および８７８に基づいて決定されたスレッショルドｔｈｑ１との関係を示す。

このように、最適スレッショルド決定部８０４が、学習対象画像における２点の各組合せ（ペア）について、ウエイト分布情報を用いて、スレッショルドｔｈ１１乃至ｔｈｑ１を決定する。続いて、弱仮説決定部８０５が、決定されたスレッショルドｔｈ１１乃至ｔｈｑ１のうち、上記式１９を用いて算出された値Ｔ１１が最小となるスレッショルドを決定する。そして、この決定されたスレッショルドに対応するウエイト分布情報の弱仮説を最良の弱仮説として決定する。

図１７は、本発明の第１の実施の形態における弱仮説決定部８０５により決定された弱仮説に対応する各値を顔検出辞書に記録する記録方法を概略的に示す図である。図１７（ａ）には、弱仮説決定部８０５により決定されたスレッショルドｔｈｒ１１に対応するウエイト分布曲線８８０および８８１と、学習対象画像における２点の組合せ（画素位置Ｐｒ１１およびＰｒ１２）とを示す。なお、図１７（ａ）では、スレッショルドｔｈｒ１１の位置を示す線分を太線で示す。また、ウエイト分布曲線８８０（クラス：ｃ_１）について、学習対象非顔画像に対応する曲線を曲線８８２で示し、学習対象正面顔画像に対応する曲線を曲線８８３で示す。また、ウエイト分布曲線８８１（クラス：ｃ_２）について、学習対象非顔画像に対応する曲線を曲線８８４で示し、学習対象側面顔画像に対応する曲線を曲線８８５で示す。

図１７（ｂ）には、弱仮説決定部８０５により決定されたスレッショルドｔｈｒ１１について４つの重みを算出する重み算出部８０６を示す。この重み算出部８０６が、ウエイト分布曲線８８０および８８１におけるスレッショルドｔｈｒ１１の両側のウエイト分布の総和に基づいて、正面顔に関する重みｈ（ｘ，ｃ_１）と、左向き側面顔に関する重みｈ（ｘ，ｃ_２）とを算出する。ここで、スレッショルドｔｈｒ１１の両側のウエイト分布の各総和は、Ｐ_Ｈ ^ｃ１＋、Ｐ_Ｌ ^ｃ１＋、Ｐ_Ｈ ^ｃ１−、Ｐ_Ｌ ^ｃ１−、Ｐ_Ｈ ^ｃ２＋、Ｐ_Ｌ ^ｃ２＋、Ｐ_Ｈ ^ｃ２−およびＰ_Ｌ ^ｃ２−である。また、正面顔に関する重みｈ（ｘ，ｃ_１）は、２つの重みｈ_Ｈ（ｘ，ｃ_１）およびｈ_Ｌ（ｘ，ｃ_１）であり、左向き側面顔に関する重みｈ（ｘ，ｃ_２）は、２つの重みｈ_Ｈ（ｘ，ｃ_２）およびｈ_Ｌ（ｘ，ｃ_２）である。具体的には、ウエイト分布曲線８８０におけるスレッショルドｔｈｒ１１の両側のウエイト分布の総和に基づいて、次の式２０および式２１を用いて、重みｈ（ｘ，ｃ_１）が算出される。また、ウエイト分布曲線８８１におけるスレッショルドｔｈｒ１１の両側のウエイト分布の総和に基づいて、次の式２２および式２３を用いて、重みｈ（ｘ，ｃ_２）が算出される。なお、式２０乃至２３で示すｘは、検出対象となる画像を識別するものである。

図１７（ｃ）には、弱仮説決定部８０５により決定された弱仮説に対応する各値が、顔検出辞書８２６に記録される例を模式的に示す。この顔検出辞書８２６は、顔検出辞書記憶部８２０に記憶される。具体的には、弱仮説決定部８０５により決定されたスレッショルドｔｈｒ１１の値が、顔検出辞書８２６の閾値（θ）８２４に記録される。また、スレッショルドｔｈｒ１１に対応する２点の組合せ（画素位置Ｐｒ１１およびＰｒ１２）のうちの１つの点（画素位置Ｐｒ１１）が、顔検出辞書８２６の位置１（ｕ１，ｖ１）８２２に記録される。また、スレッショルドｔｈｒ１１に対応する２点の組合せ（画素位置Ｐｒ１１およびＰｒ１２）のうちの他の点（画素位置Ｐｒ１２）が、顔検出辞書８２６の位置２（ｕ２，ｖ２）８２３に記録される。また、スレッショルドｔｈｒ１１について算出された重みｈ（ｘ，ｃ_１）と、重みｈ（ｘ，ｃ_２）とが、顔検出辞書８２６の重み（α１およびα２）８２７に記録される。例えば、重みｈ（ｘ，ｃ_１）のｈ_Ｈ（ｘ，ｃ_１）が重み（α１）８２７の（Ｈ）に記録され、重みｈ（ｘ，ｃ_１）のｈ_Ｌ（ｘ，ｃ_１）が重み（α１）８２７の（Ｌ）に記録される。また、重みｈ（ｘ，ｃ_２）のｈ_Ｈ（ｘ，ｃ_２）が重み（α２）８２７の（Ｈ）に記録され、重みｈ（ｘ，ｃ_２）のｈ_Ｌ（ｘ，ｃ_２）が重み（α２）８２７の（Ｌ）に記録される。これらの各値は、記録制御部８０８により顔検出辞書８２６に記録される。

続いて、ウエイト更新部８０７が、次の式２４を用いて、各学習対象画像に付与するウエイトＷ_ｉ，ｃｊ ^ｔ＋１を算出し、ウエイト保持部８１０に保持されているウエイトを更新する。
ここで、Ｗ_ｉ，ｃｊ ^ｔおよびｙ_ｉは、学習対象画像ｘ_ｉに関連付けてウエイト保持部８１０に保持されている値（図１３に示す）である。また、ｈ_ｔ（ｘ_ｉ，ｃ_ｉ）は、弱仮説決定部８０５により決定されたスレッショルドｔｈｒ１１に対応する２点の組合せ（画素位置Ｐｒ１１およびＰｒ１２）について算出された各学習対象画像の輝度の差分値に応じて決定される値である。ここで、ｃ_ｉは、学習対象画像ｘ_ｉに関連付けてウエイト保持部８１０に保持されているクラス（図１３に示す）を表す。具体的には、学習対象画像ｘ_ｉに関連付けてウエイト保持部８１０に保持されているクラス情報（ｃ_ｉ）８１４に「ｃ_１」が格納されている場合には、式２０および式２１の何れかの重みｈ（ｘ，ｃ_１）が用いられる。また、学習対象画像ｘ_ｉに関連付けてウエイト保持部８１０に保持されているクラス情報（ｃ_ｉ）８１４に「ｃ_２」が格納されている場合には、式２２および式２３の何れかの重みｈ（ｘ，ｃ_２）が用いられる。ここで、学習対象画像ｘ_ｉにおける２点の組合せ（画素位置Ｐｒ１１およびＰｒ１２）について算出された輝度の差分値を差分値Ｐｄとする。例えば、クラス情報（ｃ_ｉ）８１４が「ｃ_１」である場合において、Ｐｄ≧ｔｈｒ１１の場合には、式２０に示すｈ_Ｈ（ｘ，ｃ_１）が用いられる。一方、Ｐｄ＜ｔｈｒ１１の場合には、式２１に示すｈ_Ｌ（ｘ，ｃ_１）が用いられる。また、クラス情報（ｃ_ｉ）８１４が「ｃ_２」である場合において、Ｐｄ≧ｔｈｒ１１の場合には、式２２に示すｈ_Ｈ（ｘ，ｃ_２）が用いられる。一方、Ｐｄ＜ｔｈｒ１１の場合には、式２３に示すｈ_Ｌ（ｘ，ｃ_２）が用いられる。このように、輝度の差分値に応じて、ｈ_ｔ（ｘ_ｉ，ｃ_ｉ）を選択して用いる。これにより、例えば、弱仮説決定部８０５により決定されたスレッショルドを基準として、異なる判別をされた学習対象画像については、ウエイトを重くして、次のループで反映され易くすることができる。このように、学習対象画像入力部８０１に入力された直後の各学習対象画像には同一の値（１／Ｋ）がウエイト（Ｗ_ｉ，ｃｊ ^ｔ）として付与されるが、ｔ＝２以降のウエイト（Ｗ_ｉ，ｃｊ ^ｔ）については、各学習対象画像に応じて変更される。

このように、本発明の第１の実施の形態によれば、対象物が２つ以上の場合でも、弱仮説決定部８０５により決定されたスレッショルドの上下に応じて異なる重みを算出することができる。このため、複数の対象物を同時に検出する顔検出処理において、判別が困難であった画像等についても容易に検出することができるようになり、顔検出精度を向上させることができる。

また、以上で示した例では、正面顔および左向きの側面顔の２つの対象物を検出するための対象物検出辞書を作成する例にして説明した。しかしながら、３以上の対象物を検出するための対象物検出辞書についても、この例を適用して作成することができる。この場合には、各クラス（ｃ_ｊ）の重みｈ（ｘ，ｃ_ｊ）については、次の式２５および式２６を用いて算出することができる。

また、以上で示した例では、複数の対象物として、向きが互いに異なる人物の顔とする例について説明したが、例えば、犬および猫のように、種別が異なる複数の対象物に関する対象物検出辞書を作成する場合についても、この例を適用することができる。さらに、男女判定や年代判定等の属性判定を行うための属性判定辞書を作成する場合についても、この例を適用することができる。

このように作成された顔検出辞書８２６を用いて顔検出処理を行う場合には、顔検出辞書８２６に含まれるｔ＝１からＴまでの各情報を用いて、検出対象となる画像ｘ（２４画素×２４画素）について、２つの対象物に関する最終仮説を算出する。すなわち、次の式２７および式２８を用いて、正面顔に関する最終仮説Ｈ（ｘ，ｃ_１）と、左向きの側面顔に関する最終仮説Ｈ（ｘ，ｃ_２）とが算出される。そして、Ｈ（ｘ，ｃ_１）≧０であるか、Ｈ（ｘ，ｃ_１）＜０であるかに応じて、検出対象となる画像ｘに正面顔が含まれているか否かが判定される。また、Ｈ（ｘ，ｃ_２）≧０であるか、Ｈ（ｘ，ｃ_２）＜０であるかに応じて、検出対象となる画像ｘに左向きの側面顔が含まれているか否かが判定される。なお、これらの顔判定については、図２２乃至図２５を参照して詳細に説明する。

このように、本発明の第１の実施の形態では、異なる２つの対象物に関する判定処理を同一の輝度差分値を用いて同時に行うことができる。これにより、顔検出処理を迅速に行うことができる。

［学習装置の動作例］
次に、本発明の第１の実施の形態における学習装置８００の動作について図面を参照して説明する。

図１８は、本発明の第１の実施の形態における学習装置８００による対象物検出辞書作成処理の処理手順を示すフローチャートである。この例では、対象物として正面顔を検出するための顔検出辞書を作成する例について説明する。また、この例では、予定回数に達するまで、対象物検出辞書作成処理を繰り返す例について説明する。

最初に、学習対象画像入力部８０１に複数の学習対象正面顔画像および学習対象非顔画像が入力される（ステップＳ１００１）。続いて、ウエイト更新部８０７が、各学習対象画像に付与されるウエイト（Ｗ_ｉ ^ｔ）を初期化する（ステップＳ１００２）。すなわち、各学習対象画像には同一の値がウエイト（Ｗ_ｉ ^ｔ）として付与される。続いて、弱仮説決定処理が行われる（ステップＳ１０１０）。この弱仮説決定処理については、図１９を参照して詳細に説明する。

続いて、重み算出部８０６が、決定された最良の弱仮説に対応するウエイト分布情報に基づいて重みを算出する（ステップＳ１００３）。続いて、記録制御部８０８が、決定された弱仮説に対応する２点の組合せ（２点の画素位置）と、スレッショルドの値と、重みの値とを顔検出辞書に記録する（ステップＳ１００４）。続いて、ウエイト更新部８０７が、決定された弱仮説に基づいて、各学習対象画像に付与するウエイトＷ_ｉ ^ｔ＋１を算出し、ウエイト保持部８１０に保持されているウエイトを更新する（ステップＳ１００５）。続いて、予定回数に達したか否かが判断され（ステップＳ１００６）、予定回数に達していない場合には（ステップＳ１００６）、ステップＳ１０１０に戻る。一方、予定回数に達した場合には（ステップＳ１００６）、対象物検出辞書作成処理の動作を終了する。

図１９は、本発明の第１の実施の形態における学習装置８００による対象物検出辞書作成処理の処理手順のうちの弱仮説決定処理手順（図１８に示すステップＳ１０１０の処理手順）を示すフローチャートである。

最初に、輝度差分値算出部８０２が、各学習対象画像における画素位置の２点の組合せ（ペア）を１つ選択し（ステップＳ１０１１）、ウエイト加算の対象となる学習対象画像を１つ選択する（ステップＳ１０１２）。続いて、輝度差分値算出部８０２が、選択された学習対象画像における２点間の輝度を抽出し（ステップＳ１０１３）、この抽出された２点の輝度の差分値を算出する（ステップＳ１０１４）。続いて、ウエイト分布情報作成部８０３が、算出された差分値の階級に、この差分値が算出された学習対象画像に関連付けてウエイト保持部８１０に保持されているウエイトを加算する（ステップＳ１０１５）。このウエイト加算処理では、学習対象画像の種類毎にウエイトが加算され、学習対象画像の種類毎のウエイト分布情報が作成される。

続いて、学習対象画像入力部８０１に入力された全ての学習対象正面顔画像および学習対象非顔画像について、同一の２点間に関するウエイト加算処理が行われたか否かが判断される（ステップＳ１０１６）。全ての学習対象正面顔画像および学習対象非顔画像について、同一の２点間に関するウエイト加算処理が行われていない場合には（ステップＳ１０１６）、ステップＳ１０１２に戻る。一方、同一の２点間に関するウエイト加算処理が行われた場合には（ステップＳ１０１６）、最適スレッショルド決定部８０４が、作成されたウエイト分布情報について、上述した式６を用いて最適スレッショルドを決定する（ステップＳ１０１７）。

続いて、各学習対象画像における画素位置の２点の組合せの全てについてウエイト分布情報が作成されたか否かが判断される（ステップＳ１０１８）。画素位置の２点の組合せの全てについてウエイト分布情報が作成されていない場合には（ステップＳ１０１８）、ステップＳ１０１１に戻る。一方、画素位置の２点の組合せの全てについてウエイト分布情報が作成された場合には（ステップＳ１０１８）、弱仮説決定部８０５が、決定された最適スレッショルドに基づいて、最良の弱仮説を決定する（ステップＳ１０１９）。

次に、学習装置８００により作成が可能な各辞書を撮像装置１００に備える例について図面を参照して詳細に説明する。

［評価値算出辞書の構成例］
図２０は、本発明の第１の実施の形態における判定対象画像について複数の評価値を算出するための評価値算出辞書の一例を示す図である。図２０（ａ）には、評価値の算出対象となる複数の対象物を表す画像６０１乃至６０９を含む対象物画像群６００を示す。ここで、本発明の第１の実施の形態では、複数の対象物として、いろいろな方向を向いている人物の顔を例にして説明する。すなわち、画像６０１乃至６０９は、いろいろな方向を向いている人物の顔を表す画像である。例えば、画像６０５は、正面向きの顔を含む画像であり、画像６０１乃至６０４、６０６乃至６０９は、正面以外の方向を向いている顔を含む画像である。

図２０（ｂ）には、図２０（ａ）に示す画像６０１乃至６０９に対応する各評価値を同時に算出するための評価値算出辞書３０１を示す。評価値算出辞書３０１は、画像取出部２３３により取り出された判定対象画像について、評価値算出部２３５による評価値算出処理を行うための判断情報（例えば、ベクトル型弱仮説）であり、評価値算出辞書記憶部３００に記憶されている。また、評価値算出辞書３０１に記憶されている各値は、例えば、学習装置８００により作成される。また、評価値算出辞書３０１は、判断基準のみに関するデータを保持する判断情報であり、画像そのものを保持するものではない。このため、記憶容量を削減することができるとともに、判定処理を迅速に行うことができる。

評価値算出辞書３０１には、位置１（ｕ１，ｖ１）３０２と、位置２（ｕ２，ｖ２）３０３と、閾値（θ）３０４と、重み（α１乃至α９）３０５との組合せがそれぞれＴ組格納されている。

位置１（ｕ１，ｖ１）３０２および位置２（ｕ２，ｖ２）３０３は、判定対象画像における２点の位置である。ここで、例えば、判定対象画像における左上隅を原点とする場合に、判定対象画像における水平方向の位置をｕ１およびｕ２とし、学習対象画像における垂直方向の位置をｖ１およびｖ２とする。

閾値（θ）３０４は、位置１（ｕ１，ｖ１）３０２の輝度値と、位置２（ｕ２，ｖ２）３０３の輝度値との差分値に関する閾値である。

重み（α１乃至α９）３０５は、位置１（ｕ１，ｖ１）３０２の輝度値と、位置２（ｕ２，ｖ２）３０３の輝度値との差分値と、閾値（θ）３０４との比較結果に基づいて加算される重みα１乃至α９である。この重みα１乃至α９は、図２０（ａ）に示す画像６０１乃至６０９に対応する各評価値を算出するための値であり、図２０では、図２０（ａ）に示す画像６０１乃至６０９と、これに対応する重みα１乃至α９とを矢印で結んで示す。また、重みα１乃至α９のそれぞれについては、２つの異なる値（ＨおよびＬ）が格納されている。

ここで、評価値算出辞書３０１は、図２１に示す顔判定辞書３１１乃至３１９による顔判定処理を行う対象となる対象物を絞り込むための評価値を算出するものであり、単独で顔検出を行うものではない。そこで、評価値算出辞書３０１は、顔判定辞書３１１乃至３１９を用いた評価値の算出精度よりも条件を緩和したものが用いられる。例えば、評価値算出辞書３０１を作成する場合には、数千から数万のサンプル画像を用いて、Ｔ＝１００程度とすることができる。なお、本発明の第１の実施の形態では、各レコードの閾値として共通の値を用いる例を示すが、各対象物（クラス）に応じて変更した閾値を用いるようにしてもよい。また、例えば、複数の対象物に関する評価値を同時に算出する評価値算出辞書を作成する際に、各対象物について用いられたサンプル画像の数が大きく異なっている場合が想定される。この場合には、評価値算出処理の際に、サンプル画像の数に応じて正規化または調整操作等を行うようにしてもよい。なお、これらの各値を用いて行われる評価値の算出については、図２３等を参照して詳細に説明する。

［顔判定辞書の構成例］
図２１は、本発明の第１の実施の形態における判定対象画像に顔が含まれるか否かを判定するための顔判定辞書の例を示す図である。図２１（ａ）には、図２０（ａ）および図２１（ｂ）に示す画像６０１乃至６０９に対応する評価値を算出して顔判定を行うための顔判定辞書３１１乃至３１９を示す。顔判定辞書３１１乃至３１９は、画像取出部２３３により取り出された判定対象画像について、顔判定部２３７による顔判定処理を行うための判断情報（例えば、スカラ型弱仮説）であり、顔判定辞書記憶部３１０に記憶されている。また、顔判定辞書３１１乃至３１９に記憶されている各値は、例えば、学習装置８００により作成される。なお、顔判定辞書３１１乃至３１９は、判断基準のみに関するデータを保持する判断情報であり、画像そのものを保持するものではない。このため、記憶容量を削減することができるとともに、判定処理を迅速に行うことができる。ここで、顔判定辞書３１１乃至３１９は、各項目の値が異なるが、各項目の形式は同一である。このため、図２１（ａ）では、顔判定辞書３１１および３１９の記憶内容のみを代表して示し、他の記憶内容についての図示は省略する。なお、図２１（ｂ）に示す画像６０１乃至６０９は、図２０（ａ）に示す画像６０１乃至６０９と同一であり、判定対象となる複数の対象物を表す画像である。また、図２１では、図２１（ｂ）に示す画像６０１乃至６０９と、これに対応する顔判定辞書３１１乃至３１９とを矢印で結んで示す。

顔判定辞書３１１には、位置１（ｕ１，ｖ１）３２１と、位置２（ｕ２，ｖ２）３２２と、閾値（θ）３２３と、重み（α）３２４との組合せがそれぞれＺ組格納されている。

位置１（ｕ１，ｖ１）３２１および位置２（ｕ２，ｖ２）３２２は、判定対象画像における２点の位置である。

閾値（θ）３２３は、位置１（ｕ１，ｖ１）３２１の輝度値と、位置２（ｕ２，ｖ２）３２２の輝度値との差分値に関する閾値である。

重み（α）３２４は、位置１（ｕ１，ｖ１）３２１の輝度値と、位置２（ｕ２，ｖ２）３２２の輝度値との差分値と、閾値（θ）３２３との比較結果に基づいて加算される重みαである。また、重み（α）３２４には、２つの異なる値（ＨおよびＬ）が格納されている。

ここで、顔判定辞書３１１乃至３１９は、上述したように、評価値算出辞書３０１を用いた評価値の算出精度よりも条件を厳密にしたものが用いられる。例えば、顔判定辞書３１１乃至３１９を作成する場合には、数万のサンプル画像を用いて、Ｚ＝２０００乃至３０００とすることができる。ここで、例えば、複数の対象物に関する評価値を算出する顔判定辞書を作成する際に、各対象物について用いられたサンプル画像の数が大きく異なっている場合が想定される。この場合には、評価値算出処理の際に、サンプル画像の数に応じて正規化または調整操作等を行うようにしてもよい。また、これらの各値を用いて行われる評価値の算出については、図２４等を参照して詳細に説明する。

［画像に含まれる顔の検出例］
図２２は、本発明の第１の実施の形態における顔検出部２３０による顔検出処理の対象となる判定対象画像を取り出す画像取出方法の概略を示す図である。図２２（ａ）には、画像取得部２３１により取得された撮像画像４００を示し、図２２（ｂ）乃至（ｄ）には、画像縮小部２３２により撮像画像４００に縮小処理が施された画像４１０、４２０、４３０を示す。なお、この判定対象画像の取出しは、画像取出部２３３により行われる。

図２２（ａ）に示す撮像画像４００は、互いに異なる方向を向いている３人の人物を被写体とする撮像画像である。この撮像画像４００から判定対象画像を取り出す場合には、図２２（ｂ）乃至（ｄ）に示すように、画像縮小部２３２により撮像画像４００が順次縮小された画像４１０、４２０、４３０が生成される。例えば、画像４１０の左上隅に取出枠４０１が配置され、取出枠４０１内に含まれる画像が取り出される。続いて、取出枠が右側方向（矢印４１１および４１２に示す方向）に１画素シフトされて、取出枠内に含まれる画像が取り出される。同様に、取出枠が１画素ずつ右側方向に順次シフトされて、取出枠内に含まれる画像が順次取り出される。そして、画像４１０の右端の位置にシフトされて、その位置の取出枠内に含まれる画像が取り出されると、取出枠が１画素下側にシフトされるとともに画像４１０の左端に移動される。続いて、画像４１０の左端に移動直後の取出枠内に含まれる画像が取り出された後に、取出枠が１画素ずつ右側方向に順次シフトされて、取出枠内に含まれる画像が順次取り出される。以下、同様に取出枠内に含まれる画像が順次取り出される。そして、画像４１０の右端および下端となる取出枠の位置４１３にシフトされて、その位置４１３の取出枠内に含まれる画像が取り出されると、画像４１０からの判定対象画像の取出処理を終了する。

また、図２２（ｃ）および（ｄ）に示す画像４２０および４３０では、最初の配置位置に取出枠４０１を配置した例を示すとともに、取出枠４０１の最後の配置位置を位置４２１および４３１として示す。なお、取出枠４０１の最初の配置位置から最後の配置位置までの移動については、図２２（ｂ）に示す移動と同様である。また、取出枠４０１の大きさは、取出の対象となる画像の大きさにかかわらず一定である。そして、画像縮小部２３２により縮小処理が施された画像の大きさが、取出枠４０１よりも小さくなるまで、画像の取出処理が行われる。なお、縮小処理の対象となる元の画像は、例えば、３２０画素×２４０画素の画像である。また、画像縮小部２３２により行われる縮小処理は、例えば、前の画像を０．８３倍に縮小する縮小処理とすることができる。

次に、判定対象画像について評価値算出辞書を用いて評価値算出処理を行う例について図面を参照して詳細に説明する。

図２３は、本発明の第１の実施の形態における画像取出部２３３より取り出された判定対象画像と、この判定対象画像について評価値算出部２３５により算出された評価値との一例を示す図である。図２３（ａ）には、判定対象画像の一例として判定対象画像４４０を示す。また、図２３（ａ）に示す例では、判定対象画像４４０の左上隅を原点とし、横軸をｕ軸とし、縦軸をｖ軸とする判定対象画像４４０について、評価値算出処理を行う場合を例にして説明する。

例えば、図２０（ｂ）に示す評価値算出辞書３０１の１行目に格納されている位置１（ｕ１，ｖ１）３０２の値に対応する判定対象画像４４０の位置を位置４４１とし、位置２（ｕ２，ｖ２）３０３の値に対応する判定対象画像４４０の位置を位置４４２とする。また、評価値算出辞書３０１の２行目に格納されている位置１（ｕ１，ｖ１）３０２の値に対応する判定対象画像４４０の位置を位置４４３とし、位置２（ｕ２，ｖ２）３０３の値に対応する判定対象画像４４０の位置を位置４４４とする。さらに、評価値算出辞書３０１の３行目に格納されている位置１（ｕ１，ｖ１）３０２の値に対応する判定対象画像４４０の位置を位置４４５とし、位置２（ｕ２，ｖ２）３０３の値に対応する判定対象画像４４０の位置を位置４４６とする。

最初に、評価値を示すスコアＳ１乃至Ｓ９の値に０がセットされ、評価値算出辞書３０１の１行目に格納されている各値を用いた演算が行われる。具体的には、評価値算出辞書３０１の１行目に格納されている位置１（ｕ１，ｖ１）３０２の値に対応する位置４４１における輝度値Ａ（１）と、位置２（ｕ２，ｖ２）３０３の値に対応する位置４４２における輝度値Ｂ（１）とが抽出される。そして、次式を用いて、抽出された各輝度値の差分値Ｃ（１）が算出される。
Ｃ（１）＝Ａ（１）−Ｂ（１）

続いて、算出された各輝度値の差分値Ｃ（１）と、評価値算出辞書３０１の１行目に格納されている閾値（θ）３０４の閾値θ（１）とが比較され、算出された差分値Ｃ（１）が閾値θ（１）のよりも小さいか否かが判断される。算出された差分値Ｃ（１）が閾値θ（１）よりも小さい場合には、評価値算出辞書３０１の１行目に格納されている重み（α１乃至α９）３０５のＬの各値が、対応するスコアＳ１乃至Ｓ９に順次加算される。具体的には、スコアＳ１に重みα１（Ｌ）の値が加算され、スコアＳ２に重みα２（Ｌ）の値が加算され、スコアＳ３に重みα３（Ｌ）の値が加算される。また、スコアＳ４に重みα４（Ｌ）の値が加算され、スコアＳ５に重みα５（Ｌ）の値が加算され、スコアＳ６に重みα６（Ｌ）の値が加算される。また、スコアＳ７に重みα７（Ｌ）の値が加算され、スコアＳ８に重みα８（Ｌ）の値が加算され、スコアＳ９に重みα９（Ｌ）の値が加算される。

一方、算出された差分値Ｃ（１）が閾値θ（１）以上である場合には、評価値算出辞書３０１の１行目に格納されている重み（α１乃至α９）３０５のＨの各値が、対応するスコアＳ１乃至Ｓ９に順次加算される。具体的には、スコアＳ１に重みα１（Ｈ）の値が加算され、スコアＳ２に重みα２（Ｈ）の値が加算され、スコアＳ３に重みα３（Ｈ）の値が加算される。また、スコアＳ４に重みα４（Ｈ）の値が加算され、スコアＳ５に重みα５（Ｈ）の値が加算され、スコアＳ６に重みα６（Ｈ）の値が加算される。また、スコアＳ７に重みα７（Ｈ）の値が加算され、スコアＳ８に重みα８（Ｈ）の値が加算され、スコアＳ９に重みα９（Ｈ）の値が加算される。

続いて、評価値算出辞書３０１の２行目に格納されている各値を用いて、上述した各演算を繰り返す。具体的には、評価値算出辞書３０１の２行目に格納されている位置１（ｕ１，ｖ１）３０２の値に対応する位置４４３における輝度値Ａ（２）と、位置２（ｕ２，ｖ２）３０３の値に対応する位置４４４における輝度値Ｂ（２）とが抽出される。そして、次式を用いて、抽出された各輝度値の差分値Ｃ（２）が算出される。
Ｃ（２）＝Ａ（２）−Ｂ（２）

続いて、算出された各輝度値の差分値Ｃ（２）と、評価値算出辞書３０１の２行目に格納されている閾値（θ）３０４の閾値θ（２）とが比較され、算出された差分値Ｃ（２）が閾値θ（２）よりも小さいか否かが判断される。算出された差分値Ｃ（２）が閾値θ（２）よりも小さい場合には、評価値算出辞書３０１の２行目に格納されている重み（α１乃至α９）３０５のＬの各値が、対応するスコアＳ１乃至Ｓ９に加算される。一方、算出された差分値Ｃ（２）が閾値θ（２）以上である場合には、評価値算出辞書３０１の２行目に格納されている重み（α１乃至α９）３０５のＨの各値が、対応するスコアＳ１乃至Ｓ９に順次加算される。続いて、評価値算出辞書３０１の３行目以降、Ｔ行目までに格納されている各値を順次用いて、上述した各演算を繰り返す。

すなわち、評価値算出部２３５が、判定対象画像４４０について評価値算出辞書３０１を用いた評価値算出処理を行う場合には、評価値算出辞書３０１の１行目乃至Ｔ行目に格納されている各値を順次用いて、式２９を用いてＣ（ｉ）を算出する。そして、算出されたＣ（ｉ）が式３０を満たすか否かを判定する。ここで、変数ｉは整数であり、１からＴまでの値を示す。
Ｃ（ｉ）＝Ａ（ｉ）−Ｂ（ｉ）… 式２９
Ｃ（ｉ）＜θ（ｉ） … 式３０

そして、算出されたＣ（ｉ）が式３０を満たす場合には、評価値算出部２３５が、α１Ｌ（ｉ）乃至α９Ｌ（ｉ）の各値を、対応するスコアＳ１乃至Ｓ９に加算する。一方、算出されたＣ（ｉ）が式３０を満たさない場合には、評価値算出部２３５が、α１Ｈ（ｉ）乃至α９Ｈ（ｉ）の各値を、対応するスコアＳ１乃至Ｓ９に加算する。ここで、Ａ（ｉ）は、ｉ行目に格納されている位置１（ｕ１，ｖ１）３０２に対応する輝度値を表し、Ｂ（ｉ）は、ｉ行目に格納されている位置２（ｕ２，ｖ２）３０３に対応する輝度値を表す。また、θ（ｉ）は、ｉ行目に格納されている閾値（θ）３０４の値を表す。また、α１Ｈ（ｉ）乃至α９Ｈ（ｉ）は、ｉ行目に格納されている重み（α１乃至α９）３０５のＨの各値を表し、α１Ｌ（ｉ）乃至α９Ｌ（ｉ）は、重み（α１乃至α９）３０５のＬの各値を表す。

ここで、評価値算出辞書３０１の１乃至Ｔ行目に格納されている各値を用いた各演算の終了後におけるスコア（評価値）Ｓ１乃至Ｓ９は、次の式３１により表すことができる。
ここで、ｈ（ｘ_ｉ，ｃ_ｊ）は、Ｃ（ｉ）≧θ（ｉ）の場合には、式２５により算出されたαｊＨ（ｉ）を表し、Ｃ（ｉ）＜θ（ｉ）の場合には、式２６により算出されたαｊＬ（ｉ）を表すものとする。また、ｊ＝１乃至９とする。

図２３（ｂ）には、評価値の算出対象となった顔を表す画像６０１乃至６０９と、判定対象画像４４０について評価値算出部２３５により算出された評価値Ｓ１乃至Ｓ９との関係を示す。図２３（ｂ）に示すように、評価値算出辞書３０１のＴ行目に格納されている各値を用いた各演算が終了すると、９つの評価値Ｓ１乃至Ｓ９が算出される。なお、図２３（ｂ）では、評価値Ｓ１乃至Ｓ９の大きさを棒グラフで模式的に表す。

このように、評価値算出部２３５により算出された評価値Ｓ１乃至Ｓ９が選択部２３６に出力される。そして、選択部２３６が、評価値Ｓ１乃至Ｓ９のうち、閾値４４７以上の評価値を抽出する。例えば、図２３（ｂ）に示す評価値Ｓ１乃至Ｓ９のうち、画像６０１、６０２、６０６乃至６０８に対応する評価値Ｓ１、Ｓ２、Ｓ６乃至Ｓ８が抽出される。続いて、選択部２３６が、抽出された評価値のうち、値が高い上位３つの評価値を選択し、選択された評価値に対応する対象物に関する情報（選択対象物情報）を顔判定部２３７に出力する。例えば、抽出された評価値Ｓ１、Ｓ２、Ｓ６乃至Ｓ８のうち、値が高い上位３つの評価値として評価値Ｓ１、Ｓ７およびＳ８が選択される。図２３（ｂ）では、選択された評価値Ｓ１、Ｓ７およびＳ８を示す棒グラフ内に斜線を付して示す。続いて、選択された評価値Ｓ１、Ｓ７およびＳ８に対応する選択対象物情報が顔判定部２３７に出力される。

なお、選択部２３６は、評価値Ｓ１乃至Ｓ９のうち、閾値４４７以上の評価値が存在しない場合には、その旨を顔判定部２３７に出力する。また、選択部２３６は、評価値Ｓ１乃至Ｓ９のうち、閾値４４７以上の評価値が１または２のみ存在する場合には、その１または２の評価値に対応する選択対象物情報を顔判定部２３７に出力する。ここで、閾値４４７として、例えば、０を用いることができる。また、比較的低い信頼度とするため、０以下の値を用いるようにしてもよく、他の値を用いるようにしてもよい。

次に、判定対象画像について顔判定辞書を用いて顔判定処理を行う例について図面を参照して詳細に説明する。

図２４は、本発明の第１の実施の形態における画像取出部２３３より取り出された判定対象画像と、この判定対象画像について顔判定部２３７により算出された評価値との一例を示す図である。図２４（ａ）には、判定対象画像の一例として判定対象画像４４０を示す。なお、判定対象画像４４０は、図２３（ａ）に示す判定対象画像４４０と同一である。また、この例では、図２３（ａ）に示す例と同様に判定対象画像４４０について２次元座標を設定し、顔判定処理を行う場合を例にして説明する。

最初に、顔判定部２３７は、選択部２３６により選択された評価値に対応する対象物を判定するための顔判定辞書を顔判定辞書記憶部３１０から取得し、顔判定辞書メモリ２３９に保持させる。例えば、図２３（ｂ）に示すように、選択部２３６により評価値Ｓ１、Ｓ７およびＳ８が選択された場合には、評価値Ｓ１、Ｓ７およびＳ８に対応する顔判定辞書３１１、３１７および３１８が取得され、顔判定辞書メモリ２３９に保持される。続いて、顔判定部２３７が、顔判定辞書メモリ２３９に保持された各顔判定辞書を用いて、各顔判定辞書に関する評価値を順次算出する。なお、顔判定部２３７による顔判定辞書を用いた評価値の算出は、重み（α）の数が異なる以外は、評価値算出部２３５による評価値算出辞書を用いた評価値の算出と同様である。

例えば、顔判定辞書３１１のｉ行目に格納されている位置１（ｕ１，ｖ１）３２１に対応する輝度値をＡ（ｉ）で表し、位置２（ｕ２，ｖ２）３２２に対応する輝度値をＢ（ｉ）で表し、輝度値Ａ（ｉ）と輝度値Ｂ（ｉ）との差分値をＣ（ｉ）で表す。また、顔判定辞書３１１のｉ行目に格納されている閾値（θ）３２３の値を閾値θ（ｉ）で表し、ｉ行目に格納されている重み（α）３２４のＨの値をαＨ（ｉ）で表し、重み（α）３２４のＬの値をαＬ（ｉ）で表す。

例えば、判定対象画像４４０について顔判定辞書３１１を用いて評価値算出処理を行う場合には、評価値を示すスコアＳの値に０がセットされる。そして、顔判定部２３７が、顔判定辞書３１１の１行目乃至Ｚ行目に格納されている各値を順次用いて、式３２を用いてＣ（ｉ）を算出する。続いて、算出されたＣ（ｉ）が式３３を満たすか否かを判定する。ここで、変数ｉは整数であり、１からＺまでの値を示す。
Ｃ（ｉ）＝Ａ（ｉ）−Ｂ（ｉ）… 式３２
Ｃ（ｉ）＜θ（ｉ） … 式３３

そして、算出されたＣ（ｉ）が式３３を満たす場合には、顔判定部２３７が、αＬ（ｉ）の値をスコアＳに加算する。一方、算出されたＣ（ｉ）が式３３を満たさない場合には、顔判定部２３７が、αＨ（ｉ）の値をスコアＳに加算する。

ここで、顔判定辞書３１１の１乃至Ｚ行目に格納されている各値を用いた各演算の終了後におけるスコア（評価値）Ｓは、次の式３４により表すことができる。
ここで、ｈ（ｘ_ｉ）は、Ｃ（ｉ）≧θ（ｉ）の場合には、式７により算出されたαＨ（ｉ）を表し、Ｃ（ｉ）＜θ（ｉ）の場合には、式８により算出されたαＬ（ｉ）を表すものとする。なお、他の顔判定辞書３１２乃至３１９についても同様にスコア（評価値）Ｓを算出することができる。なお、図２４および図２５では、顔判定辞書３１１乃至３１９を用いて算出される各評価値を評価値ＳＳ１乃至ＳＳ９で示す。

図２４（ｂ）には、評価値の算出対象となった顔を表す画像６０１、６０７および６０８と、判定対象画像４４０について顔判定部２３７により算出された評価値ＳＳ１、ＳＳ７およびＳＳ８との関係を示す。図２４（ｂ）に示すように、顔判定辞書３１１のＺ行目に格納されている各値を用いた各演算が終了すると、１つの評価値ＳＳ１が算出される。同様に、顔判定辞書３１７のＺ行目に格納されている各値を用いた各演算が終了すると、１つの評価値ＳＳ７が算出され、顔判定辞書３１８のＺ行目に格納されている各値を用いた各演算が終了すると、１つの評価値ＳＳ８が算出される。なお、図２４（ｂ）では、評価値ＳＳ１、ＳＳ７およびＳＳ８の大きさを棒グラフで模式的に表す。

このように、算出された評価値ＳＳ１、ＳＳ７およびＳＳ８に基づいて、顔判定部２３７が、判定対象画像４４０に顔が含まれるか否かを判定する。すなわち、顔判定部２３７が、算出された評価値のうち、閾値以上であるとともに、最も高い値の評価値を選択し、この選択された評価値に対応する顔が、判定対象画像４４０に含まれていると判定する。例えば、図２４（ｂ）に示す評価値ＳＳ１、ＳＳ７およびＳＳ８のうち、閾値４４８以上となる評価値は評価値ＳＳ７およびＳＳ８である。また、評価値ＳＳ７およびＳＳ８のうち、最も値が高い評価値ＳＳ７が選択される。そして、評価値ＳＳ７に対応する画像６０７に含まれる顔が、判定対象画像４４０に含まれていると判定される。この判定結果が、判定結果出力部２３８に出力される。

なお、顔判定部２３７は、算出された評価値のうち、閾値４４８以上の評価値が存在しない場合には、判定対象画像４４０に対象となる顔が含まれていないと判定し、その旨を判定結果出力部２３８に出力する。ここで、閾値４４８として、例えば、０を用いることができる。また、比較的高い信頼度とするため、０以上の値を用いるようにしてもよく、他の値を用いるようにしてもよい。

このように、判定対象画像の解像度を同一の解像度とし、評価値算出に用いる特徴量を２点間の輝度値に統一することにより、複数の顔判定辞書を切り替え可能とすることができ、複数の評価値を同一のアルゴリズムで作成することができる。

図２５は、本発明の第１の実施の形態における顔検出部２３０により顔検出を行う場合における流れを模式的に示す図である。図２５（ａ）には、画像取出部２３３より取り出された判定対象画像４４０を示す。この判定対象画像４４０は、図２３および図２４に示す判定対象画像４４０と同一である。

図２５（ｂ）には、判定対象となる顔を表す画像６０１乃至６０９と、判定対象画像４４０について評価値算出部２３５により算出された評価値Ｓ１乃至Ｓ９との関係を示す。なお、図２５（ｂ）に示す関係は、図２３（ｂ）に示す関係と同様である。また、図２５（ｂ）では、選択部２３６により選択された評価値に対応する領域を太枠で囲んで表す。

図２５（ｃ）には、判定対象となる顔を表す画像６０１乃至６０９と、判定対象画像４４０について顔判定部２３７により算出された評価値ＳＳ１、ＳＳ７およびＳＳ８との関係を示す。なお、図２５（ｃ）では、顔判定部２３７により評価値が算出された領域を太枠で囲んで表す。

ここで、図２５（ｂ）に示す評価値Ｓ１乃至Ｓ９は、図２５（ｃ）に示す評価値ＳＳ１乃至ＳＳ９を算出するための対象物を絞り込むための評価値である。このため、例えば、評価値Ｓ１乃至Ｓ９の信頼度を比較的低いものとすることができる。これにより、評価値算出の演算量を削減することができ、評価値算出処理を迅速に行うことができる。なお、評価値Ｓ１乃至Ｓ９の信頼度を比較的低いものとするため、例えば、図２５（ｂ）に示すように、判定対象画像４４０に含まれる顔と類似していない画像６０１に対応する評価値Ｓ１の値が大きくなることが想定される。このような場合でも、顔判定辞書３１１乃至３１９を用いた評価値の信頼度を高くしているため、例えば、図２５（ｃ）に示すように、判定対象画像４４０に含まれる顔との類似度が高い画像６０７を最終的に判定することができる。このように、信頼度が比較的低い第１段階の評価値に基づいて、判定対象となる対象物を絞り込むことにより、信頼度が高い第２段階の評価値の算出処理の対象を削減させるができるため、顔検出処理を迅速に行うことができる。また、例えば、第１段階において１または２程度の評価値が誤って算出されたような場合でも、信頼度が高い第２段階の評価値に基づいて、正確な判定を行うことができるため、高精度の対象物検出を実現することができる。

ここで、例えば、木構造を採用し、顔の向きの種類毎に作成された複数の判別器を用いて、ツリーが示す分岐に従って顔の向きを順次判別させながら、いろいろな方向を向いている顔を検出する検出方法を考える。この検出方法では、顔の向きを順次判別させながら顔を検出するため、例えば、結論にいたるまでの平均弱仮説が長くなり効率が悪くなるおそれがある。また、リーフに辿りつくまでの判定に誤りがあり、ノード分岐を間違えてしまうと、後戻りができず、適切な顔検出を行うことができないおそれがある。

これに対して、本発明の第１の実施の形態では、ノード分岐ロジックがないため、結論にいたるまでの平均弱仮説を短くすることができ、効率を高めることができる。また、第１段階において算出された評価値については、顔の向きの種類にかかわらず、全体の対象物の中から顔判定対象となる候補を選択するため、例えば、何れの対象物に対応するかが微妙な顔であっても検出もれを少なくすることができる。また、木構造を採用せずに、顔検出処理の第１段階において同時評価を行うため、実現形態が容易であり、誤分岐の影響をなくすことができる。また、顔検出処理の第１段階において、複数の対象物に関する評価値を同一の特徴量を用いて同時に算出することができるため、評価値算出処理に係る効率を高めることができる。また、第１段階において用いられる複数の対象物に関する評価値を同時に算出することが可能な辞書を作成する場合には、各対象物に関する辞書を同時に作成することができるため、学習の収束性を高めることができる。

また、評価値算出の際には、各辞書における閾値よりも小さい場合と大きい場合とに応じて、スコアに乗算する重みを変更して演算を行う。これにより、判定対象画像における物理量に対する分布が複雑な場合でも、その分布から効率よく判別を行うことが可能になる。

図２６は、本発明の第１の実施の形態における顔検出部２３０による顔検出処理の対象となった撮像画像４００と、顔検出部２３０による顔検出処理の検出結果とを示す図である。撮像画像４００は、図２２（ａ）に示す撮像画像４００と同一であり、３人の人物が含まれる。また、撮像画像４００において、３人の人物の顔が検出された場合における検出結果を枠４６１乃至４６３で模式的に示す。この枠４６１乃至４６３は、顔検出部２３０による顔検出処理の検出結果として、位置および大きさを表す枠である。この検出結果に基づいて、例えば、カメラパラメータ制御部２２０が、検出された顔に最適なカメラパラメータを決定することができる。また、例えば、表示部１７０に撮像画像４００が表示されている場合には、撮像画像４００に枠４６１乃至４６３を重ねて表示させることができる。図２６に示すように、例えば、傾いている顔や寝転んでいる人物の顔等についても、適切に検出することができる。

［撮像装置の動作例］
次に、本発明の第１の実施の形態における撮像装置１００の動作について図面を参照して説明する。

図２７は、本発明の第１の実施の形態における撮像装置１００による撮像画像記録処理の処理手順を示すフローチャートである。この例では、撮像画像記録待機状態である場合に、撮像画像を生成し、この撮像画像について顔検出処理を行う例について説明する。

最初に、撮像画像記録待機状態であるか否かが判断される（ステップＳ９０１）。撮像画像記録待機状態である場合には（ステップＳ９０１）、撮像部１１２が撮像画像を生成し（ステップＳ９０２）、生成された撮像画像について顔検出部２３０が顔検出処理を行う（ステップＳ９２０）。この顔検出処理については、図２８を参照して詳細に説明する。なお、この顔検出処理は各フレームに対して行うようにしてもよく、一定間隔毎のフレームに対して行うようにしてもよい。一方、撮像画像記録待機状態でない場合には（ステップＳ９０１）、撮像画像記録処理の動作を終了する。

続いて、カメラパラメータ制御部２２０がカメラパラメータを決定する（ステップＳ９０３）。例えば、顔検出部２３０から顔検出情報が出力された場合には、カメラパラメータ制御部２２０が、検出された顔の撮像画像における位置および大きさに基づいて、検出された顔に最適なカメラパラメータを決定する。続いて、シャッターボタンが押下されたか否かが判断され（ステップＳ９０４）、シャッターボタンが押下された場合には、生成された撮像画像が記録部１５０に記録される（ステップＳ９０５）。一方、シャッターボタンが押下されない場合には（ステップＳ９０４）、撮像画像記録処理の動作を終了する。

図２８は、本発明の第１の実施の形態における撮像装置１００による撮像画像記録処理の処理手順のうちの顔検出処理手順（図２７に示すステップＳ９２０の処理手順）を示すフローチャートである。

最初に、記憶装置部１３０に記憶されている現在の撮像画像が取得される（ステップＳ９２１）。続いて、取得された撮像画像上の左上隅に取出枠が配置され（ステップＳ９２２）、この取出枠内の画像が取り出される（ステップＳ９２３）。続いて、取出枠内から取り出された画像（判定対象画像）について判定処理が実行される（ステップＳ９４０）。なお、この判定処理については、図２９を参照して詳細に説明する。

続いて、判定対象画像が取出枠よりも小さいか否かが判断される（ステップＳ９２４）。判定対象画像が取出枠よりも小さくない場合には（ステップＳ９２４）、判定対象画像の右端に取出枠が存在するか否かが判断される（ステップＳ９２５）。判定対象画像の右端に取出枠が存在しない場合には（ステップＳ９２５）、判定対象画像上において取出枠が１画素右側にシフトして配置され（ステップＳ９２６）、ステップＳ９２３に戻る。一方、判定対象画像の右端に取出枠が存在する場合には（ステップＳ９２５）、判定対象画像の下端に取出枠が存在するか否かが判断される（ステップＳ９２７）。判定対象画像の下端に取出枠が存在しない場合には（ステップＳ９２７）、判定対象画像上において取出枠が１画素下側にシフトされるとともに、判定対象画像の左端に配置され（ステップＳ９２８）、ステップＳ９２３に戻る。判定対象画像の下端に取出枠が存在する場合には（ステップＳ９２７）、判定対象画像が所定倍率で縮小処理され（ステップＳ９２９）、縮小処理後の画像上の左上隅に取出枠が配置される（ステップＳ９２２）。

一方、判定対象画像が取出枠よりも小さい場合には（ステップＳ９２４）、判定対象画像に顔が含まれていると判定されたか否かが判断される（ステップＳ９３０）。判定対象画像に顔が含まれていると判定された場合には（ステップＳ９３０）、判定結果として顔を検出した旨を示す顔検出情報が出力される（ステップＳ９３２）。ここで、判定対象画像に複数の顔が含まれていると判定された場合には、複数の顔に関する顔検出情報を出力する。また、重複する領域について、顔が含まれていると複数回判定された場合には、例えば、ステップＳ９４０の判定処理において顔判定辞書を用いて算出されるスコア（評価値）が最大となる取出枠の位置および大きさに基づいて顔検出情報を出力する。一方、判定対象画像に顔が含まれていると判定されない場合には（ステップＳ９３０）、判定結果として顔を検出しない旨を示す顔無検出情報が出力される（ステップＳ９３１）。

なお、この例では、判定対象画像に顔が含まれていると一度判定された場合でも、判定対象画像が取出枠よりも小さくなるまで判定処理を繰り返し行い、この判定結果に基づいて、現在の撮像画像から顔が検出されたか否かを判定する例について説明した。しかし、判定対象画像に顔が含まれていると一度判定された場合には、他の判定対象画像を判定処理することなく、現在の撮像画像から顔が検出された旨を示す顔検出情報を出力するようにしてもよい。

図２９は、本発明の第１の実施の形態における撮像装置１００による顔検出処理の処理手順のうちの判定処理手順（図２８に示すステップＳ９４０の処理手順）を示すフローチャートである。

最初に、評価値算出部２３５が、第１評価値算出処理を行う（ステップＳ９５０）。この第１評価値算出処理については、図３０を参照して詳細に説明する。続いて、選択部２３６が、評価値算出部２３５により算出された複数の評価値のうち、閾値以上の評価値が存在するか否かを判断する（ステップＳ９４１）。評価値算出部２３５により算出された複数の評価値のうち、閾値以上の評価値が存在する場合には（ステップＳ９４１）、選択部２３６が、閾値以上の評価値のうちから、値が高い所定数の評価値を選択する（ステップＳ９４２）。例えば、評価値算出部２３５により算出される評価値が９の場合には、値が高い順に最大で３つの評価値を選択する。

続いて、顔判定部２３７が、選択された評価値に対応する対象物に係る顔判定辞書を顔判定辞書記憶部３１０から取得し、顔判定辞書メモリ２３９に保持させる（ステップＳ９４３）。続いて、顔判定部２３７が、顔判定辞書メモリ２３９に保持されている顔判定辞書を用いて、第２評価値算出処理を行う（ステップＳ９７０）。この第２評価値算出処理については、図３１を参照して詳細に説明する。

続いて、顔判定部２３７が、算出された１または複数の評価値のうち、閾値以上の評価値が存在するか否かを判断する（ステップＳ９４４）。算出された１または複数の評価値のうち、閾値以上の評価値が存在する場合には（ステップＳ９４４）、顔判定部２３７が、閾値以上の評価値のうちから、最も値が高い評価値を選択する。そして、この評価値に対応する対象物が、判定対象画像に含まれていると判定する（ステップＳ９４５）。

なお、評価値算出部２３５により算出された評価値のうち閾値以上の評価値が存在しない場合（ステップＳ９４１）、または、顔判定部２３７により算出された評価値のうち閾値以上の評価値が存在しない場合には（ステップＳ９４４）、判定処理の動作を終了する。

図３０は、本発明の第１の実施の形態における撮像装置１００による顔検出処理の処理手順のうちの第１評価値算出処理手順（図２９に示すステップＳ９５０の処理手順）を示すフローチャートである。

最初に、スコアＳ１乃至Ｓ９が「０」に初期化され（ステップＳ９５１）、変数ｉが「１」に初期化される（ステップＳ９５２）。続いて、評価値算出部２３５が、評価値算出辞書３０１のｉ行目に格納されている位置１（ｕ１，ｖ１）および位置２（ｕ２，ｖ２）に対応する輝度値を判定対象画像から抽出する（ステップＳ９５３）。この例では、位置１（ｕ１，ｖ１）に対応する輝度値をＡ（ｉ）とし、位置２（ｕ２，ｖ２）に対応する輝度値をＢ（ｉ）とする。続いて、評価値算出部２３５が、抽出された２つの輝度値の差分値（Ａ（ｉ）−Ｂ（ｉ））を算出する（ステップＳ９５４）。なお、ステップＳ９５３およびＳ９５４は、特許請求の範囲に記載の比較手順の一例である。

続いて、評価値算出部２３５が、算出された差分値（Ａ（ｉ）−Ｂ（ｉ））が、評価値算出辞書３０１のｉ行目に格納されている閾値θ（ｉ）よりも小さいか否かを判断する（ステップＳ９５５）。算出された差分値（Ａ（ｉ）−Ｂ（ｉ））が閾値θ（ｉ）よりも小さい場合には（ステップＳ９５５）、評価値算出部２３５が、評価値算出辞書３０１のｉ行目に格納されているα１Ｌ（ｉ）乃至α９Ｌ（ｉ）をスコアＳ１乃至Ｓ９に順次加算する（ステップＳ９５６）。一方、算出された差分値（Ａ（ｉ）−Ｂ（ｉ））が閾値θ（ｉ）よりも小さくない場合には（ステップＳ９５５）、評価値算出部２３５が、ｉ行目に格納されているα１Ｈ（ｉ）乃至α９Ｈ（ｉ）をスコアＳ１乃至Ｓ９に順次加算する（ステップＳ９５７）。なお、ステップＳ９５５乃至Ｓ９５７は、特許請求の範囲に記載の算出手順の一例である。

続いて、変数ｉに「１」が加算され（ステップＳ９５８）、変数ｉがＴよりも大きいか否かが判断される（ステップＳ９５９）。変数ｉがＴよりも大きくない場合には（ステップＳ９５９）、ステップＳ９５３に戻り、評価値算出処理を繰り返す（ステップＳ９５３乃至Ｓ９５８）。一方、変数ｉがＴよりも大きい場合には（ステップＳ９５９）、第１評価値算出処理の動作を終了する。

図３１は、本発明の第１の実施の形態における撮像装置１００による顔検出処理の処理手順のうちの第２評価値算出処理手順（図２９に示すステップＳ９７０の処理手順）を示すフローチャートである。

最初に、スコアＳが「０」に初期化され（ステップＳ９７１）、変数ｉが「１」に初期化される（ステップＳ９７２）。続いて、顔判定部２３７が、顔判定辞書メモリ２３９に保持されている１つの顔判定辞書について、この顔判定辞書のｉ行目に格納されている位置１（ｕ１，ｖ１）および位置２（ｕ２，ｖ２）に対応する輝度値を判定対象画像から抽出する（ステップＳ９７３）。この例では、位置１（ｕ１，ｖ１）に対応する輝度値をＡ（ｉ）とし、位置２（ｕ２，ｖ２）に対応する輝度値をＢ（ｉ）とする。続いて、顔判定部２３７が、抽出された２つの輝度値の差分値（Ａ（ｉ）−Ｂ（ｉ））を算出する（ステップＳ９７４）。なお、ステップＳ９７３およびＳ９７４は、特許請求の範囲に記載の比較手順の一例である。

続いて、顔判定部２３７が、算出された差分値（Ａ（ｉ）−Ｂ（ｉ））が、現在の顔判定辞書のｉ行目に格納されている閾値θ（ｉ）よりも小さいか否かを判断する（ステップＳ９７５）。算出された差分値（Ａ（ｉ）−Ｂ（ｉ））が閾値θ（ｉ）よりも小さい場合には（ステップＳ９７５）、顔判定部２３７が、現在の顔判定辞書のｉ行目に格納されているαＬ（ｉ）をスコアＳに加算する（ステップＳ９７６）。一方、算出された差分値（Ａ（ｉ）−Ｂ（ｉ））が閾値θ（ｉ）よりも小さくない場合には（ステップＳ９７５）、顔判定部２３７が、現在の顔判定辞書のｉ行目に格納されているαＨ（ｉ）をスコアＳに加算する（ステップＳ９７７）。なお、ステップＳ９７５乃至Ｓ９７７は、特許請求の範囲に記載の算出手順の一例である。

続いて、変数ｉに「１」が加算され（ステップＳ９７８）、変数ｉがＺよりも大きいか否かが判断される（ステップＳ９７９）。変数ｉがＺよりも大きくない場合には（ステップＳ９７９）、ステップＳ９７３に戻り、現在の顔判定辞書を用いた評価値算出処理を繰り返す（ステップＳ９７３乃至Ｓ９７８）。一方、変数ｉがＺよりも大きい場合には（ステップＳ９７９）、顔判定部２３７が、現在の顔判定辞書に対応する対象物に関連付けて、算出された評価値Ｓを保持する（ステップＳ９８０）。

続いて、顔判定部２３７が、顔判定辞書メモリ２３９に保持されている顔判定辞書のうち、評価値を算出していない他の顔判定辞書が存在するか否かを判断する（ステップＳ９８１）。評価値を算出していない他の顔判定辞書が存在する場合には（ステップＳ９８１）、ステップＳ９７１に戻り、顔判定辞書メモリ２３９に保持されている全ての顔判定辞書についての評価値算出が終了するまで、評価値算出処理を繰り返す。一方、評価値を算出していない他の顔判定辞書が存在しない場合には（ステップＳ９８１）、第２評価値算出処理の動作を終了する。

また、この例では、各顔判定辞書の１行目からＺ行目までの各値を用いてスコアＳを算出する例について説明した。しかし、例えば、各顔判定辞書の各レコードに対応させて打切閾値を格納しておき、ステップＳ９７６またはＳ９７７で求められたスコアＳが、現在のレコードの打切閾値を下回った場合に、現在の顔判定辞書を用いた評価値算出処理を打ち切るようにしてもよい。これにより、顔検出処理をさらに高速化することができる。

以上で示したように、本発明の第１の実施の形態によれば、２段階の評価値算出処理により顔検出を行うため、弱仮説を少なくして検出処理を迅速に行うとともに、検出精度を高めることができる。また、顔検出処理の際に、各辞書における閾値よりも小さい場合と大きい場合とに応じて、スコアに乗算する重みを変更して演算を行うため、検出精度をさらに高めることができる。

＜２．第２の実施の形態＞
［撮像装置の構成例］
本発明の第１の実施の形態では、１つの評価値算出辞書を用いて複数の対象物に関する評価値を同時に算出する例を示した。本発明の第２の実施の形態では、１つの評価値算出辞書に格納されている輝度差分値の算出対象となる２点の位置を変換することにより、その評価値算出辞書を用いて算出することが可能な対象物の数の４倍の対象物に関する評価値を算出する例を示す。なお、本発明の第２の実施の形態における撮像装置は、本発明の第１の実施における撮像装置１００において、顔検出部２３０の代わりに顔検出部２５０を設けた点が異なる。そこで、以下では、本発明の第１の実施の形態と共通する部分の説明を省略し、異なる部分を中心に説明する。

図３２は、本発明の第２の実施の形態における顔検出部２５０の機能構成例を示すブロック図である。顔検出部２５０は、図３に示す顔検出部２３０の変形例であり、位置算出部２５１と、評価値算出部２５２と、顔判定辞書記憶部２５３とを備える。なお、図３に示す顔検出部２３０と共通する部分については、同一の符号を付して、これらの説明を省略する。

位置算出部２５１は、評価値算出辞書記憶部３００に記憶されている評価値算出辞書３０１に格納されている位置１（ｕ１，ｖ１）３０２および位置２（ｕ２，ｖ２）３０３の値を変換して新たな２点の位置を算出するものである。そして、変換後の２点の位置と、変換前の２点の位置に関連付けられて評価値算出辞書３０１に格納されている閾値（θ）３０４および重み（α１乃至α９）３０５の各値とを評価値算出部２５２に出力する。例えば、位置算出部２５１は、判定対象画像の中心位置を基準とし、位置１（ｕ１，ｖ１）３０２および位置２（ｕ２，ｖ２）３０３の値をアフィン変換して新たな２点の位置を算出する。このアフィン変換では、例えば、時計回りに９０度回転させる変換と、時計周りとは反対側に９０度回転させる変換と、１８０度回転させる変換とを行う。なお、この位置算出方法については、図３３および図３４を参照して詳細に説明する。

評価値算出部２５２は、評価値算出辞書記憶部３００に記憶されている評価値算出辞書３０１の各値と、位置算出部２５１により算出された２点の位置およびこれに対応する各値とを用いて、対象物毎の評価値を算出するものである。ここで、位置算出部２５１により、時計回りの９０度回転と、時計回りの反対側への９０度回転と、１８０度回転とがそれぞれ行われた場合を想定する。この場合には、評価値算出部２５２により算出される評価値が、評価値算出辞書３０１のみを用いて算出される評価値の数の４倍となる。このように算出された対象物毎の評価値が選択部２３６に出力される。なお、対象物毎の評価値の算出方法については、本発明の第１の実施の形態と同様であるため、ここでの説明を省略する。

顔判定辞書記憶部２５３は、画像取出部２３３から出力された画像について、特定の対象物が含まれるか否かを判定するための顔判定辞書を対象物毎に関連付けて記憶するものである。そして、記憶されている顔判定辞書を顔判定辞書メモリ２３９に供給する。ここで、顔判定辞書記憶部２５３には、評価値算出部２５２により評価値が算出される対象物に対応する複数の対象物のそれぞれについて、顔判定辞書が記憶される。なお、顔判定辞書記憶部２５３に顔判定辞書が記憶される対象物については、図３３を参照して詳細に説明する。

図３３は、本発明の第２の実施の形態における位置算出部２５１による新たな２点の位置の算出により評価値算出が可能となる対象物の例を示す図である。図３３（ａ）には、図２０（ｂ）に示す評価値算出辞書３０１を用いて評価値の算出が可能な対象物を表す顔画像を含む対象物画像群５００を示す。この対象物画像群５００は、図２０（ａ）に示す対象物画像群６００に対応するものである。また、図３３（ｂ）乃至（ｄ）には、図２０（ｂ）に示す評価値算出辞書３０１の位置１（ｕ１，ｖ１）３０２および位置２（ｕ２，ｖ２）３０３の値の変換により評価値算出が可能となる対象物を表す顔画像を含む対象物画像群５０１乃至５０３を示す。

本発明の第１の実施の形態で示したように、図２０（ｂ）に示す評価値算出辞書３０１を用いて、いろいろな方向を向いている９種類の顔に関する評価値を同時に算出することができる。ここで、例えば、評価値算出辞書３０１の位置１（ｕ１，ｖ１）３０２および位置２（ｕ２，ｖ２）３０３に格納されている２点の位置を、判定対象画像の中心位置を回転基準とし、時計回りとは反対側に９０度回転させる。そして、この回転後の２点の位置と、この２点の位置に関連付けられて評価値算出辞書３０１に格納されている閾値（θ）３０４および重み（α１乃至α９）３０５の各値を用いて、上述した評価値算出処理を行う。これにより、例えば、図３３（ｂ）に示す対象物画像群５０１に含まれる顔画像に対応する対象物に関する評価値を同時に算出することができる。

同様に、例えば、評価値算出辞書３０１の位置１（ｕ１，ｖ１）３０２および位置２（ｕ２，ｖ２）３０３に格納されている２点の位置を、判定対象画像の中心位置を回転基準とし、時計回りに９０度回転させる。そして、この回転後の２点の位置を用いて、上述した評価値算出処理を行うことにより、例えば、図３３（ｃ）に示す対象物画像群５０２に含まれる顔画像に対応する対象物に関する評価値を算出することができる。

同様に、例えば、評価値算出辞書３０１の位置１（ｕ１，ｖ１）３０２および位置２（ｕ２，ｖ２）３０３に格納されている２点の位置を、判定対象画像の中心位置を回転基準とし、１８０度回転させる。そして、この回転後の２点の位置を用いて、上述した評価値算出処理を行うことにより、例えば、図３３（ｄ）に示す対象物画像群５０３に含まれる顔画像に対応する対象物に関する評価値を算出することができる。

これらの位置の変換は、位置算出部２５１により行われる。また、これらの位置変換方法として、例えば、２次元座標上において、３×３の行列（アフィン行列）を用いて、２点の位置を変換するアフィン変換を用いることができる。また、顔判定辞書記憶部２５３には、図３３（ａ）乃至（ｄ）に示す対象物画像群５００乃至５０３に含まれる各顔画像に対応する対象物に関する顔判定辞書がそれぞれ記憶されている。すなわち、顔判定辞書記憶部２５３には、本発明の第１の実施の形態における顔判定辞書記憶部３１０に記憶されている顔判定辞書の数の４倍の顔判定辞書が記憶されている。

図３４は、本発明の第２の実施の形態における位置算出部２５１により算出された新たな２点の位置と、この新たな２点の位置を用いて算出される評価値との関係例を示す図である。なお。図３４（ａ）乃至（ｄ）に示す各評価値Ｓ１乃至Ｓ９は、図２３（ｂ）に示す評価値Ｓ１乃至Ｓ９に対応するものである。

図３４（ａ）には、変換前の２点の位置を用いて算出される評価値の例を示す。なお、図３４（ａ）では、評価値の算出対象となる判定対象画像４７０と、この判定対象画像４７０上における２点の位置の組合せのうち、１つの組合せ（２点の位置４７１および４７２）を示す。

図３４（ｂ）には、位置算出部２５１により時計回りの反対側に９０度回転された２点の位置と、この２点の位置を用いて算出される評価値の例を示す。例えば、図３４（ａ）に示す２点の位置４７１および４７２が、位置算出部２５１により時計回りの反対側に９０度回転されて、２点の位置４７３および４７４に変換される。このように変換された各２点の位置を用いて図３４（ｂ）に示す評価値が、評価値算出部２５２により算出される。

図３４（ｃ）には、位置算出部２５１により時計回りに９０度回転された２点の位置と、この２点の位置を用いて算出される評価値の例を示す。例えば、図３４（ａ）に示す２点の位置４７１および４７２が、位置算出部２５１により時計回りに９０度回転されて、２点の位置４７５および４７６に変換される。このように変換された各２点の位置を用いて図３４（ｃ）に示す評価値が、評価値算出部２５２により算出される。

図３４（ｄ）には、位置算出部２５１により１８０度回転された２点の位置と、この２点の位置を用いて算出される評価値の例を示す。例えば、図３４（ａ）に示す２点の位置４７１および４７２が、位置算出部２５１により１８０度回転されて、２点の位置４７７および４７８に変換される。このように変換された各２点の位置を用いて図３４（ｄ）に示す評価値が、評価値算出部２５２により算出される。

このように、評価値算出辞書３０１の位置１（ｕ１，ｖ１）３０２および位置２（ｕ２，ｖ２）３０３に格納されている２点の位置を変換し、変換後の２点の位置を用いて評価値を算出することができる。これにより、１つの評価値算出辞書を用いて、さらに多くの評価値を迅速に算出することができる。例えば、図３４に示すように、９つの評価値を同時に算出することができる評価値算出辞書３０１を用いて、３通りの変換を行うことにより、３６つの評価値を算出することができる。これにより、評価値算出辞書に関する記憶容量を削減することができる。

また、このように算出された図３４（ａ）乃至（ｄ）に示す各評価値Ｓ１乃至Ｓ９が選択部２３６に出力される。そして、選択部２３６が、本発明の第１の実施の形態と同様に、９つの評価値Ｓ１乃至Ｓ９のうち、閾値４４７以上の評価値を抽出する。そして、抽出された評価値のうち、値が高い上位３つの評価値を選択し、選択された評価値に対応する対象物に関する情報（選択対象物情報）を顔判定部２３７に出力する。例えば、閾値４４７以上であるとともに、値が高い上位３つの評価値として、図３４（ｂ）に示す画像６１１および６１４、図３４（ｄ）に示す画像６３１に対応する評価値が選択される。図３４では、選択された評価値を示す棒グラフ内に斜線を付して示す。

図３５は、本発明の第２の実施の形態における顔検出部２５０により顔検出を行う場合における流れを模式的に示す図である。図３５（ａ）には、画像取出部２３３より取り出された判定対象画像４８０を示す。図３５（ｂ）には、評価値の算出対象となる顔を表す画像を含む対象物画像群５００乃至５０３を示す。なお、図３４と同様に、対象物画像群５００乃至５０３に含まれる画像６０１乃至６０９、６１１乃至６１９、６２１乃至６２９、６３１乃至６３９に対応する各評価値が、評価値算出部２５２により算出されるものとする。例えば、図３４と同様に評価値が算出され、図３５（ｂ）に示す画像６１１、６１４および６３１に対応する評価値が選択されたものとする。

図３５（ｃ）には、選択部２３６により選択された評価値に対応する顔を表す画像６１１、６１４および６３１と、判定対象画像４８０について顔判定部２３７により算出された評価値ＳＳ１０乃至ＳＳ１２との関係を示す。なお、顔判定部２３７による顔判定については、本発明の第１の実施の形態と同様であるため、ここでの詳細に説明を省略する。例えば、図３５（ｂ）に示す画像６１１、６１４および６３１に対応する評価値ＳＳ１０、ＳＳ１１およびＳＳ１２のうち、値が最も高く、閾値４４８以上となる評価値は評価値ＳＳ１０である。このため、評価値ＳＳ１０に対応する画像６１１に含まれる顔が、判定対象画像４８０に含まれていると判定される。

図３６は、本発明の第２の実施の形態における顔検出部２５０により検出が可能な顔と、これらの検出結果との例を示す図である。図３６には、３６０度の範囲を所定間隔で回転された正面顔を含む画像とともに、これらの画像において検出された検出結果を枠で示す。図３６に示すように、本発明の第２の実施の形態によれば、いろいろな角度の顔であっても検出が可能である。例えば、地面に寝ている人物の顔、逆立ちをしている人物の顔、撮像装置１００を傾けて撮影された顔等のように、いろいろな角度の顔を検出することができる。また、図３６では、正面顔の向きをロール（roll）方向に傾けた例のみを示すが、ピッチ（pitch）またはヨー（yaw）方向に傾けた顔についても同様に検出が可能である。

このように、本発明の第２の実施の形態によれば、同一の辞書における２点の位置を変換するのみで、その辞書の数倍の対象物に関する評価値を同一の辞書を用いて迅速に算出することができる。このため、極めて効率よく評価値を算出することができ、対象物の検出精度を向上させることができる。

なお、例えば、上下方向を逆にした状態で撮像装置１００により撮影されることが少ないと想定される場合には、位置算出部２５１による１８０度回転を省略するようにしてもよい。また、顔判定辞書記憶部２５３には、評価値算出辞書３０１を用いて評価値の算出が可能な対象物に対応する顔判定辞書のみを記憶しておく。そして、上述した評価値算出処理と同様に、これらの顔判定辞書の値または２点の位置を変換した値を用いて顔判定部２３７が各評価値を算出するようにしてもよい。

［撮像装置の動作例］
図３７は、本発明の第２の実施の形態における撮像装置１００による顔検出処理の処理手順を示すフローチャートである。なお、この例は、本発明の第１の実施の形態における顔検出処理（図２９に示すステップＳ９４０の処理手順）の変形例である。このため、図２９に示す処理手順と同一の部分については、同一の符号を付して説明を省略する。

最初に、評価値算出部２５２が、第１評価値算出処理を行う（ステップＳ９５０）。続いて、評価値を算出していない角度が存在するか否かが判断される（ステップＳ９９１）。例えば、時計回りに９０度、時計回りの反対側に９０度、１８０度の各角度について評価値を算出する場合には、これらの各角度について評価値が算出されたか否かが判断される。評価値を算出していない角度が存在する場合には（ステップＳ９９１）、位置算出部２５１が、評価値算出辞書３０１の位置１（ｕ１，ｖ１）３０２および位置２（ｕ２，ｖ２）３０３に格納されている２点の位置を変換する。そして、新たな２点の位置を算出する（ステップＳ９９２）。続いて、変換後の２点の位置と、変換前の２点の位置に関連付けられて評価値算出辞書３０１に格納されている閾値（θ）３０４および重み（α１乃至α９）３０５の各値とが評価値算出部２５２に出力され、第１評価値算出処理が行われる（ステップＳ９５０）。

なお、本発明の実施の形態では、判定対象画像における２点の輝度値の差分値を用いて対象物を検出する例を示したが、判定対象画像における２つの領域の他の物理量の差分値を用いて対象物を検出する検出方法に、本発明の実施の形態を適用することができる。例えば、判定対象画像内の２つの領域における矩形特徴（RECTANGLE FEATURE）を用いて評価値を算出し、対象物を検出する対象物検出方法に本発明の実施の形態を適用することができる。また、判定対象画像内の２つの領域における輝度のヒストグラム（度数分布）の所定階級の差分値を用いて評価値を算出し、対象物を検出する対象物検出方法に本発明の実施の形態を適用することができる。このヒストグラムとして、例えば、輝度のヒストグラムの一種である勾配方向ヒストグラム（ＨＯＧ：Histograms of Oriented Gradients）を用いることができる。この勾配方向ヒストグラムは、例えば、対象となる画像を複数の領域に分割し、この各領域について輝度の勾配強度および勾配方向を算出し、これらの輝度の勾配強度および勾配方向に基づいて作成される。

また、本発明の実施の形態では、対象物検出処理の対象となる複数の対象物として、いろいろな方向を向いている顔を例にして説明したが、顔以外の物体についても本発明の実施の形態を適用することができる。例えば、哺乳類、爬虫類、魚類等の動物（例えば、ペット）、自動車、飛行機等の１つまたは複数を対象物とする場合について本発明の実施の形態を適用することができる。この場合に、例えば、同一の物体に対する種別を変更したもの（例えば、いろいろな方向を向いている犬）や複数の物体を混合したもの（例えば、犬および猫）を複数の対象物とするようにしてもよい。

また、静止画および動画を撮像するデジタルビデオカメラ（例えば、カメラ一体型レコーダ）や撮像機能を備える携帯電話機の各種の撮像装置に本発明の実施の形態を適用することができる。また、例えば、監視カメラに接続されて、人物の顔を検出する顔検出装置等の対象物検出装置に本発明の実施の形態を適用することができる。

なお、本発明の実施の形態は本発明を具現化するための一例を示したものであり、上述のように特許請求の範囲における発明特定事項とそれぞれ対応関係を有する。ただし、本発明は実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変形を施すことができる。

また、本発明の実施の形態において説明した処理手順は、これら一連の手順を有する方法として捉えてもよく、また、これら一連の手順をコンピュータに実行させるためのプログラム乃至そのプログラムを記憶する記録媒体として捉えてもよい。この記録媒体として、例えば、ＣＤ（Compact Disc）、ＭＤ（MiniDisc）、ＤＶＤ（Digital Versatile Disk）、メモリカード、ブルーレイディスク（Blu-ray Disc（登録商標））等を用いることができる。

１００撮像装置
１１１レンズ
１１２撮像部
１２０システム制御部
１３０記憶装置部
１４０外部Ｉ／Ｆ部
１５０記録部
１６０操作入力部
１７０表示部
１８０音声出力部
２００カメラ制御部
２１０シーケンス制御部
２２０カメラパラメータ制御部
２３０顔検出部
２３１画像取得部
２３２画像縮小部
２３３画像取出部
２３５評価値算出部
２３６選択部
２３７顔判定部
２３８判定結果出力部
２３９顔判定辞書メモリ
２５０顔検出部
２５１位置算出部
２５２評価値算出部
２５３、３１０顔判定辞書記憶部
３００評価値算出辞書記憶部
８００学習装置
８０１学習対象画像入力部
８０２輝度差分値算出部
８０３ウエイト分布情報作成部
８０４最適スレッショルド決定部
８０５弱仮説決定部
８０６重み算出部
８０７ウエイト更新部
８０８記録制御部
８１０ウエイト保持部
８２０顔検出辞書記憶部

Claims

判定対象画像における２つの領域について特徴量を抽出して前記抽出された２つの特徴量の差と閾値とを比較する比較部と、
絶対値が異なる２つの重み付き多数決の値である第１の値および第２の値のうち前記２つの特徴量の差が前記閾値を基準として小さい場合には前記第１の値を選択して前記２つの特徴量の差が前記閾値を基準として大きい場合には前記第２の値を選択して前記選択された値を加算する演算を行うことにより前記判定対象画像に対象物が含まれるか否かをその大きさに基づいて判定するための評価値を算出する算出部と
を具備する対象物検出装置。
前記判定対象画像における２つの位置と、前記閾値と、前記２つの重み付き多数決の値との組合せを複数含む判定情報を記憶する判定情報記憶部をさらに具備し、
前記比較部は、前記２つの位置により特定される前記判定対象画像における２つの領域について抽出された２つの特徴量の差と前記閾値とを前記組合せ毎に比較し、
前記算出部は、前記２つの重み付き多数決の値の前記選択を前記組合せ毎に行い、前記組合せ毎に選択された値を加算する演算を順次行うことにより前記評価値を算出する
請求項１記載の対象物検出装置。
前記算出部は、複数の対象物毎に関連付けられている前記２つの重み付き多数決の値の前記選択を前記対象物毎に行い、前記対象物毎に選択された値を加算する演算を前記対象物毎に行うことにより前記判定対象画像に前記複数の対象物のうちの何れかが含まれるか否かを前記対象物毎の演算結果の値の大きさに基づいて判定するための前記評価値を前記対象物毎に算出する
請求項１記載の対象物検出装置。
前記判定対象画像における２つの位置と、前記閾値と、前記複数の対象物毎に関連付けられている前記２つの重み付き多数決の値との組合せを複数含む判定情報を記憶する判定情報記憶部をさらに具備し、
前記比較部は、前記２つの位置により特定される前記判定対象画像における２つの領域について抽出された２つの特徴量の差と前記閾値とを前記組合せ毎に比較し、
前記算出部は、前記対象物毎に選択された値を加算する演算を前記対象物毎に前記複数の組合せについて行うことにより前記評価値を前記対象物毎に算出する
請求項３記載の対象物検出装置。
前記特徴量は、前記判定対象画像における２点の位置における輝度値であり、
前記比較部は、前記抽出された２つの輝度値の差分値を算出して当該差分値と前記閾値とを比較する
請求項１記載の対象物検出装置。
対象物および非対象物の何れかを含む複数の学習対象画像にウエイトを付与するウエイト付与部と、
前記学習対象画像における２つの領域について特徴量を抽出して当該抽出された２つの特徴量の差分値を前記学習対象画像毎に前記学習対象画像における２つの領域の各組合せについて算出する差分値算出部と、
前記算出された差分値に対する前記学習対象画像に付与されているウエイトの分布状態を示す分布情報を前記対象物を含む学習対象画像および前記非対象物を含む学習対象画像毎に前記各組合せについて作成する分布情報作成部と、
前記対象物を含む学習対象画像について作成された分布情報を対象物分布情報とし前記非対象物を含む学習対象画像について作成された分布情報を非対象物分布情報として、前記差分値に対応する階級のうち１つの値を基準値とした場合における前記基準値の上下の２つの範囲のうち下の範囲に含まれる前記対象物分布情報および前記非対象物分布情報のそれぞれに係るウエイトの分布の総和と、当該２つの範囲のうち上の範囲に含まれる前記対象物分布情報および前記非対象物分布情報のそれぞれに係るウエイトの分布の総和とに基づいて算出される値が最小となる基準値を前記各組合せについて決定して、前記決定された前記各組合せに係る基準値のうち、前記各ウエイトの分布の総和に基づいて算出される値が最小となる基準値を、前記対象物が含まれるか否かをその大きさに基づいて判定するための評価値を算出する際に用いられる閾値として決定し、前記閾値として決定された基準値に係る組合せを前記評価値を算出する際に用いられる組合せとして決定する決定部と、
前記決定された閾値の上下の２つの範囲のうち下の範囲に含まれる前記決定された組合せに係る前記対象物分布情報および前記非対象物分布情報のそれぞれに係るウエイトの分布の総和に基づいて、前記評価値を算出する際に用いられる２つの重み付き多数決の値のうちの１つの値を算出し、当該２つの範囲のうち上の範囲に含まれる前記決定された組合せに係る前記対象物分布情報および前記非対象物分布情報のそれぞれに係るウエイトの分布の総和に基づいて、前記２つの重み付き多数決の値のうちの他の値を算出する重み算出部と
を具備する学習装置。
前記重み算出部は、前記２つの重み付き多数決の値として絶対値が異なる２つの値を算出する請求項６記載の学習装置。
前記ウエイト付与部は、前記学習対象画像が前記決定された閾値の上下の２つの範囲のうち下の範囲に属するか上の範囲に属するかに応じて前記算出された２つの重み付き多数決の値のうち何れかを前記学習対象画像毎に選択して当該学習対象画像毎に選択された値を用いて前記学習対象画像毎にウエイトを算出して更新する請求項６記載の学習装置。
前記対象物は、異なる２つの第１の対象物および第２の対象物からなり、
前記分布情報作成部は、前記第１の対象物を含む学習対象画像と前記第２の対象物を含む学習対象画像と前記非対象物を含む学習対象画像とのそれぞれについて前記組合せ毎に前記分布情報を作成し、
前記決定部は、前記第１の対象物を含む学習対象画像について作成された分布情報を第１の対象物分布情報とし前記第２の対象物を含む学習対象画像について作成された分布情報を第２の対象物分布情報として、前記差分値に対応する階級のうち１つの値を基準値とした場合における当該基準値の上下の２つの範囲のうち下の範囲に含まれる前記第１の対象物分布情報および前記非対象物分布情報のそれぞれに係るウエイトの分布の総和と、当該２つの範囲のうち上の範囲に含まれる前記第１の対象物分布情報および前記非対象物分布情報のそれぞれに係るウエイトの分布の総和と、当該２つの範囲のうち下の範囲に含まれる前記第２の対象物分布情報および前記非対象物分布情報のそれぞれに係るウエイトの分布の総和と、当該２つの範囲のうち上の範囲に含まれる前記第２の対象物分布情報および前記非対象物分布情報のそれぞれに係るウエイトの分布の総和とに基づいて算出される値が最小となる基準値を前記各組合せについて決定して、前記決定された前記各組合せに係る基準値のうち、当該各ウエイトの分布の総和に基づいて算出される値が最小となる基準値を、前記第１の対象物が含まれるか否かをその大きさに基づいて判定するための第１の評価値と前記第２の対象物が含まれるか否かをその大きさに基づいて判定するための第２の評価値とを算出する際に用いられる閾値として決定し、当該閾値として決定された基準値に係る組合せを前記第１の評価値および前記第２の評価値を算出する際に用いられる組合せとして決定し、
前記重み算出部は、前記第１の評価値および前記第２の評価値について決定された閾値の上下の２つの範囲のうち下の範囲に含まれる前記第１の評価値および前記第２の評価値について決定された組合せに係る前記第１の対象物分布情報および前記非対象物分布情報のそれぞれに係るウエイトの分布の総和に基づいて、前記第１の評価値を算出する際に用いられる２つの重み付き多数決の値のうちの１つの値を算出し、当該２つの範囲のうち上の範囲に含まれる当該組合せに係る前記第１の対象物分布情報および前記非対象物分布情報のそれぞれに係るウエイトの分布の総和に基づいて、当該２つの重み付き多数決の値のうちの他の値を算出し、当該２つの範囲のうち下の範囲に含まれる当該組合せに係る前記第２の対象物分布情報および前記非対象物分布情報のそれぞれに係るウエイトの分布の総和に基づいて、前記第２の評価値を算出する際に用いられる２つの重み付き多数決の値のうちの１つの値を算出し、当該２つの範囲のうち上の範囲に含まれる当該組合せに係る前記第２の対象物分布情報および前記非対象物分布情報のそれぞれに係るウエイトの分布の総和に基づいて、当該２つの重み付き多数決の値のうちの他の値を算出する
請求項６記載の学習装置。
判定対象画像における２つの領域について特徴量を抽出して前記抽出された２つの特徴量の差と閾値とを比較する比較手順と、
絶対値が異なる２つの重み付き多数決の値である第１の値および第２の値のうち前記２つの特徴量の差が前記閾値を基準として小さい場合には前記第１の値を選択して前記２つの特徴量の差が前記閾値を基準として大きい場合には前記第２の値を選択して前記選択された値を加算する演算を行うことにより前記判定対象画像に対象物が含まれるか否かをその大きさに基づいて判定するための評価値を算出する算出手順と
を具備する対象物検出方法。
判定対象画像における２つの領域について特徴量を抽出して前記抽出された２つの特徴量の差と閾値とを比較する比較手順と、
絶対値が異なる２つの重み付き多数決の値である第１の値および第２の値のうち前記２つの特徴量の差が前記閾値を基準として小さい場合には前記第１の値を選択して前記２つの特徴量の差が前記閾値を基準として大きい場合には前記第２の値を選択して前記選択された値を加算する演算を行うことにより前記判定対象画像に対象物が含まれるか否かをその大きさに基づいて判定するための評価値を算出する算出手順と
をコンピュータに実行させるプログラム。