JP2011170890A

JP2011170890A - 顔検出方法および装置並びにプログラム

Info

Publication number: JP2011170890A
Application number: JP2011126103A
Authority: JP
Inventors: Yoshiro Kitamura; 嘉郎北村
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2011-06-06
Filing date: 2011-06-06
Publication date: 2011-09-01

Abstract

【課題】検出対象画像から顔画像を検出する処理において、検出対象画像に施す前処理としての正規化処理につき、種類の異なる各正規化処理の利点をより活かし、高精度、かつ、効率のよい顔検出を可能にする。
【解決手段】処理対象となる画像に対する前処理として、検出対象画像から顔画像候補を抽出するラフな検出段階においては、処理時間が短い、画像全体の画素値を一つの変換曲線にしたがって変換する全体正規化処理を採用し（ステップＳ３）、顔画像候補が真の顔画像であるか否かを判別する絞込み段階においては、処理時間は長いが高い効果が期待できる、局所正規化処理を採用する（ステップＳ１１）。
【選択図】図９

Description

本発明は、対象画像の中から顔画像を検出する顔検出方法および装置並びにそのためのプログラムに関するものである。

従来、デジタルカメラによって撮影されたスナップ写真における人物の顔領域の色分布を調べてその肌色を補正したり、監視システムのデジタルビデオカメラで撮影されたデジタル映像中の人物を認識したりすることが行われている。このような場合、デジタル画像中の人物の顔に対応する顔領域を検出する必要があるため、これまでに、デジタル画像中の顔を検出する手法が種々提案されている。その中でも特に検出精度、ロバスト性が優れているとされる顔検出の手法として、サンプル画像を用いたマシンラーニングの学習により生成された判別器モジュール（以下、単に判別器という）を用いる手法が知られている（例えば、非特許文献１，特許文献１〜３等参照）。

この手法は、顔の向きおよび天地方向が略揃った複数の異なる顔サンプル画像からなる顔サンプル画像群と、顔でないことが分かっている複数の異なる非顔サンプル画像からなる非顔サンプル画像群とを用いて、顔であることの特徴を学習させ、ある画像が所定の向きおよび天地方向にある顔の画像であるか否かを判別できる判別器を生成して用意しておき、顔の検出対象となる画像（以下、検出対象画像という）において部分画像を順次切り出し、その部分画像が顔であるか否かを上記の判別器を用いて判別することにより、検出対象画像上の顔を検出する手法である。

なお、この手法では、順次切り出した部分画像の各々に対して顔であるか否かの判別を行うので、はじめから精査しようとするとその処理量が膨大となり、顔の検出に時間がかかるという問題がある。そこで、この判別器を用いた手法において、判別処理の効率化を図るため、まず、検出対象画像に対して比較的ラフな顔検出処理（例えば、順次切り出す部分画像の位置を間引きする等）を施して顔候補を抽出し、次に、抽出された顔候補近傍の画像に対して、精細な判別処理を施して真の顔であるか否かを判別する手法がある。

ところで、上記の判別器は、一般的に、比較的画質が整ったサンプル画像を用いて学習されるため、基本的に画質のきれいな画像を対象に作られたものである。一方、検出対象画像としては、撮影シーンの明るさやコントラストが種々異なる画像が想定される。したがって、例えば、検出対象画像が暗い場所で撮影された画像である場合、この画像において顔の特徴を表す目の暗い部分と鼻の明るい部分を探そうとしても、画像の明るさが影響し、探索が難しい場合がある。

このため、検出対象画像の明るさやコントラストが違っても顔を検出することができるように、検出もしくは判別の対象となる画像に前処理として、画像のコントラストをある一定レベルに揃えるべく、正規化処理を施す手法が提案されている。この正規化処理を施す手法としては、主に下記３つの手法が提案されている。

第１の手法は、検出対象画像の画像全体の画素値をその画像における被写体の輝度の対数を表す値に近づける変換曲線（ルックアップテーブル）にしたがって変換する手法である。第２の手法は、検出対象画像から切り出された部分画像毎にその領域内の画素値（輝度値）の分散の程度を一定レベルに揃えるべくこの画素値を変換する手法である。そして、第３の手法は、検出対象画像から切り出された部分画像の領域内で所定サイズの局所領域を走査しながらその局所領域における画素値の分散の程度を一定レベルに揃えるべく、この画素値を変換する手法である。

「高速全方向顔検出」，Shihong LAO他，画像の認識・理解シンポジウム（MIRU2004），２００４年７月，P.II-271−II-276

特願２００３−３１６９２４号特願２００３−３１６９２５号特願２００３−３１６９２６号

しかしながら、第１の手法は、処理時間は短いが、処理結果が検出対象画像中の斜光や背景による影響を受けやすいという特徴があり、第３の手法は、処理結果は検出対象画像中の斜光や背景、入力モダリティの違いによる影響を受けにくいが、処理時間が長いという特徴があり、また、第２の手法は、処理時間、処理結果への検出対象画像中の斜光や背景による影響の大きさについて、共に平均的であるという特徴がある。

すなわち、いずれの手法も一長一短であり、これらの各正規化処理の利点をより活かした手法が未だ提案されておらず、このことが、高精度、かつ、効率のよい顔検出を目指す上での障害の一つとなっている。

本発明は、上記事情に鑑み、これらの各正規化処理の利点をより活かし、高精度、かつ、効率のよい顔検出が可能な顔検出方法および装置並びにそのためのプログラムを提供することを目的とするものである。

本発明の顔検出方法は、顔を検出する対象となる入力された検出対象画像に対して、画像全体の画素値を該画像における被写体の輝度の対数を表す値に近づける変換曲線にしたがって変換する全体正規化処理を施す全体正規化ステップと、前記全体正規化処理が施された検出対象画像に基づいて該画像の画素値の分布に係る特徴量を算出し、該特徴量を用いて前記検出対象画像における顔画像候補を検出する顔画像候補検出ステップと、前記全体正規化処理が施された検出対象画像における前記顔画像候補に対応する部分画像に対して、画像上の画素値を該画像領域内における所定サイズの局所領域毎の画素値の分散の程度が所定レベルに近づくように変換する局所正規化処理を施す局所正規化ステップと、前記局所正規化処理が施された部分画像に基づいて該画像の画素値の分布に係る特徴量を算出し、該特徴量を用いて前記部分画像に対応する顔画像候補が顔画像であるか否かを判別する判別ステップとを有することを特徴とするものである。

本発明の顔検出装置は、顔を検出する対象となる入力された検出対象画像に対して、画像全体の画素値を該画像における被写体の輝度の対数を表す値に近づける変換曲線にしたがって変換する全体正規化処理を施す全体正規化手段と、前記全体正規化処理が施された検出対象画像に基づいて該画像の画素値の分布に係る特徴量を算出し、該特徴量を用いて前記検出対象画像における顔画像候補を検出する顔画像候補検出手段と、前記全体正規化処理が施された検出対象画像における前記顔画像候補に対応する部分画像に対して、画像上の画素値を該画像領域内における所定サイズの局所領域毎の画素値の分散の程度が所定レベルに近づくように変換する局所正規化処理を施す局所正規化手段と、前記局所正規化処理が施された部分画像に基づいて該画像の画素値の分布に係る特徴量を算出し、該特徴量を用いて前記部分画像に対応する顔画像候補が顔画像であるか否かを判別する判別手段とを備えたことを特徴とするものである。

本発明のプログラムは、コンピュータを、顔を検出する対象となる入力された検出対象画像に対して、画像全体の画素値を該画像における被写体の輝度の対数を表す値に近づける変換曲線にしたがって変換する全体正規化処理を施す全体正規化手段と、前記全体正規化処理が施された検出対象画像に基づいて該画像の画素値の分布に係る特徴量を算出し、該特徴量を用いて前記検出対象画像における顔画像候補を検出する顔画像候補検出手段と、前記全体正規化処理が施された検出対象画像における前記顔画像候補に対応する部分画像に対して、画像上の画素値を該画像領域内における所定サイズの局所領域毎の画素値の分散が所定レベルに近づくように変換する局所正規化処理を施す局所正規化手段と、前記局所正規化処理が施された部分画像に基づいて該画像の画素値の分布に係る特徴量を算出し、該特徴量を用いて前記部分画像に対応する顔画像候補が顔画像であるか否かを判別する判別手段として機能させるためのものである。

ここで、「全体正規化処理」としては、例えば、検出対象画像が、ｓＲＧＢの色空間、すなわち、画像出力機器のガンマ値（γout）が２．２で、画像取得時のガンマ値が０．４５（＝１／γout）となる規格で取得された画像であることが想定される場合には、検出対象画像の画像全体における画素値を、γout（＝２．２）乗した後にさらに対数をとるような変換曲線（図１５参照）にしたがって変換する処理を考えることができる。

なお、「全体正規化処理」は、常に固定の変換曲線にしたがって画素値の変換を行うものであってもよいが、検出対象画像毎に、画像全体の画素値の分散や画素値のヒストグラムを求め、これらの情報に基づいてより画像のコントラストを顔検出処理に適したレベルに近づけるための変換曲線を選択しもしくは計算により導出し、この変換曲線にしたがって画素値の変換を行うものであってもよい。

また、「画素値の分散の程度」とは、画素値のばらつきの度合を意味するものであり、例えば、画素値のいわゆる数学的な分散値のほか、画素値の最大値と最小値の差分値等とすることができる。また、ここでの「所定レベル」とは、上記分散値あるいは上記差分値等が取り得る値の一つであり、顔の額や頬、背景となる空等を表すコントラストがもともと平坦である画像とその他の画像とを区別し得る境界に相当する上記分散値あるいは上記差分値等とすることができる。

「画素値の統計学上の所定の代表値」とは、画素値の分布の特徴を代表するこの分布の中心的な値であり、例えば、画素値の、統計学上の平均値、中央値、中間値、最頻値等とすることができる。

「局所領域」は、便宜上、矩形領域であることが好ましいが、真円、楕円等の形状であってもよい。

本発明の顔検出装置において、前記判別手段は、互いに異なる複数の顔サンプル画像により顔画像の画素値の分布に係る特徴を予め学習させた判別器であって、前記局所正規化処理が施された部分画像に係る前記特徴量を用いて該部分画像に対応する顔画像候補が顔画像であるか否かを判別する判別器を備えたものであってもよい。

また、前記局所正規化手段は、前記部分画像における各局所領域について、画素値の分散の程度を算出し、前記局所正規化処理として、前記算出された分散の程度が所定レベル以上である局所領域に対して、画素値の分散の程度を前記所定レベルより高い一定レベルに近づける第１の輝度階調変換処理を施し、前記算出された分散の程度が前記所定レベル未満である局所領域に対して、画素値の分散の程度を前記一定レベルより低いレベルに抑える第２の輝度階調変換処理を施すものであってもよい。

ここで、「局所正規化処理」としては、前記部分画像における各画素を注目画素として順次設定するとともに、前記注目画素毎に、該注目画素を中心とする所定の大きさの局所領域における画素値の分散を算出し、少なくとも該分散が前記所定レベルに対応する閾値以上のときに、前記第１の輝度階調変換処理として、該分散が前記一定レベルに対応する基準値より大きいほど、前記注目画素の画素値と該注目画素を中心とする前記局所領域における画素値の統計学上の所定の代表値との差を小さくし、該分散が前記基準値より小さいほど、前記注目画素の画素値と前記所定の代表値との差を大きくする階調変換を行う処理とすることができる。

なお、ここでの「所定レベル」は、前記局所領域における全体または一部の輝度に応じて変化させるようにしてもよい。例えば、上記の、注目画素毎に階調変換を行う局所正規化処理において、前記閾値を、前記注目画素の画素値に応じて変化させるようにしてもよい。すなわち、前記所定レベルに対応する閾値を、前記注目画素の輝度が相対的に高いときにはより高く設定し、その輝度が相対的に低いときにはより低く設定するようにしてもよい。このようにすることにより、輝度の低い（暗い）領域に低いコントラスト（小さい分散値）で存在している顔も正しく正規化することができる。

本発明の顔検出方法および装置並びにそのためのプログラムによれば、検出対象画像に対して比較的ラフな顔検出処理を施して顔候補を抽出する段階、すなわち、処理の対象となる領域が広いため高速性が重視される一方、ここではあくまで顔候補を抽出できればよいことから信頼性がそれほど要求されないという場面においては、画像中の斜光や背景による影響は受けやすいが、その反面、処理時間が短いという利点を有する全体正規化処理を採用し、抽出された顔候補近傍の画像に対して精細な判別処理を施して真の顔であるか否かを判別する絞込み段階、すなわち、顔候補の中から非顔を厳格に排除する必要があるため信頼性が重視される一方、処理の対象となる領域が限定されることから高速性がそれほど要求されないという場面においては、処理時間は長いが、画像中の斜光や背景の違いによる影響を受けにくいという利点を有する局所正規化処理を採用しているので、各処理段階において、要求される処理の信頼性と高速性を満足させるのに適当な特徴を有する正規化処理をそれぞれ適用することができ、各正規化処理の利点をより活かし、高精度、かつ、効率のよい顔検出が可能となる。

顔検出システム１の構成を示すブロック図検出対象画像の多重解像度化の工程を示す図顔検出部３０の構成を示すブロック図第１および第２の判別器群の構成を示すブロック図判別器における大局的な処理フローを示す図弱判別器における処理フローを示す図弱判別器における特徴量の算出を説明するための図顔検出対象となる解像度画像の切替えとその画像上でのサブウィンドウの移動を説明するための図顔検出システム１において行われる処理を示すフローチャート判別器の学習方法を示すフローチャート弱判別器のヒストグラムを導出する方法を示す図局所正規化処理の概念を示す図局所正規化部における処理フローを示す図目の位置が所定の位置にくるように規格化された顔のサンプル画像を示す図全体正規化処理に用いる変換曲線の一例を示す図

以下、本発明の実施形態について説明する。図１は本発明の顔検出装置が適用された顔検出システムの構成を示す概略ブロック図である。この顔検出システムは、デジタル画像中に含まれる顔を、顔の位置、大きさ、向き、回転方向によらず検出するものである。図１に示すように、顔検出システム１は、顔を検出する対象となる入力画像Ｓ０を多重解像度化して解像度の異なる複数の画像（以下、解像度画像という）からなる解像度画像群Ｓ１（＝Ｓ１＿１，Ｓ１＿２，・・・，Ｓ１＿ｎ）を得る多重解像度化部１０と、後に実行される顔検出処理の精度向上を目的とした前処理として、各解像度画像についてコントラストを顔検出処理に適した所定のレベル（後述の判別器の性能を引き出すのに適したレベル）に近づけるべく、解像度画像群Ｓ１の各々対して、画像全体の画素値をこの画像における被写体の輝度の対数を表す値に近づける変換曲線にしたがって変換する全体正規化処理を施し、全体正規化済みの解像度画像群Ｓ１′（＝Ｓ１′＿１，Ｓ１′＿２，・・・，Ｓ１′＿ｎ）を得る全体正規化部２０と、全体正規化済みの解像度画像群Ｓ１′の各々に対して顔検出処理を施すことにより、解像度画像群Ｓ１′の各解像度画像に含まれる顔を表す画像（以下、顔画像という）Ｓ２を検出する顔検出部３０と、各解像度画像上で検出された顔画像Ｓ２の各々について、同一の顔が重複して検出されたものであるか否かをその位置関係から判定して整理し、重複検出のない顔画像Ｓ３を得る重複検出判定部４０とを備える。

多重解像度化部１０は、入力画像Ｓ０の解像度（画像サイズ）を変換することにより、その解像度を所定の解像度、例えば、短辺が４１６画素の矩形サイズの画像に規格化し、規格化済みの入力画像Ｓ０′を得る。そして、この規格化済みの入力画像Ｓ０′を基本としてさらに解像度変換を行うことにより、解像度の異なる複数の解像度画像を生成し、解像度画像群Ｓ１を得る。このような解像度画像群を生成する理由は、通常、入力画像に含まれる顔の大きさは不明であるが、一方、検出しようとする顔の大きさ（画像サイズ）は、後述の判別器の生成方法と関連して一定の大きさに固定されるため、大きさの異なる顔を検出するためには、解像度の異なる画像上で位置をずらしながら所定サイズの部分画像をそれぞれ切り出し、その部分画像が顔か非顔かを判別してゆく必要があるためである。具体的には、図２に示すように、規格化済みの入力画像Ｓ０′を基本となる解像度画像Ｓ１＿１とし、解像度画像Ｓ１＿１に対して２の−１／３乗倍サイズの解像度画像Ｓ１＿２と、解像度画像Ｓ１＿２に対して２の−１／３乗倍サイズ（基本画像Ｓ１＿１に対しては２の−２／３乗倍サイズ）の解像度画像Ｓ１＿３とを先に生成し、その後、解像度画像Ｓ１＿１，Ｓ１＿２，Ｓ１＿３のそれぞれを１／２倍サイズに縮小した解像度画像を生成し、それら縮小した解像度画像をさらに１／２倍サイズに縮小した解像度画像を生成する、といった処理を繰り返し行い、複数の解像度画像を所定の数だけ生成するようにする。このようにすることで、輝度を表す画素値の補間処理を必要としない１／２倍の縮小処理を主な処理とし、基本となる解像度画像から２の−１／３乗倍ずつサイズが縮小された複数の画像が高速に生成できる。例えば、解像度画像Ｓ１＿１が短辺４１６画素の矩形サイズである場合、解像度画像Ｓ１＿２，Ｓ１＿３，・・・は、短辺がそれぞれ、３３０画素，２６２画素，２０８画素，１６５画素，１３１画素，１０４画素，８２画素，６５画素，・・・の矩形サイズとなり、２の−１／３乗倍ずつ縮小された複数の解像度画像を生成することができる。なお、このように画素値を補間しないで生成される画像は、元の画像パターンの特徴をそのまま担持する傾向が強いので、顔検出処理において精度向上が期待できる点で好ましい。

全体正規化部２０は、解像度画像群Ｓ１の各々に対して全体正規化処理を施すものであるが、具体的には、例えば、図１５に示すような、画素値をｓＲＧＢ空間におけるいわゆる逆ガンマ変換（＝２．２乗する）した後にさらに対数をとるような変換曲線（ルックアップテーブル）にしたがって、画像全体における画素値を変換する処理を考えることができる。これは、次のような理由による。

画像として観測される光強度Ｉは、通常、被写体の反射率Ｒと光源の強度Ｌの積として表現される（Ｉ＝Ｒ×Ｌ）。したがって、光源の強度Ｌが変化すると、画像として観測される光強度Ｉも変化することになるが、被写体の反射率Ｒのみを評価することができれば、光源の強度Ｌに依存しない、すなわち、画像の明るさの影響を受けない精度の高い顔判別を行うことができる。

ここで、光源の強度がＬの場合において、被写体上で反射率がＲ１の部分から観測される光強度をＩ１、被写体上で反射率がＲ２の部分から観測される光強度をＩ２としたとき、それぞれの対数をとった空間では、下記の式が成り立つ。
ｌｏｇ（Ｉ１）−ｌｏｇ（Ｉ２）＝ｌｏｇ（Ｒ１×Ｌ）−ｌｏｇ（Ｒ２×Ｌ）＝ｌｏｇ（Ｒ１）＋ｌｏｇ（Ｌ）−（ｌｏｇ（Ｒ２）＋ｌｏｇ（Ｌ））＝ｌｏｇ（Ｒ１）−ｌｏｇ（Ｒ２）＝ｌｏｇ（Ｒ１／Ｒ２）

すなわち、画像における画素値を対数変換することは、反射率の比が差として表現された空間へ変換することとなり、このような空間では、光源の強度Ｌに依存しない被写体の反射率のみを評価することが可能となる。言い換えると、画像中の明るさによって異なるコントラスト（ここでは画素値の差分そのもの）を揃えることができる。

一方、一般的なデジタルカメラ等の機器で取得された画像の色空間はｓＲＧＢである。ｓＲＧＢとは、機器間の色再現の違いを統一するために、色彩、彩度等を規定・統一した国際標準の色空間のことであり、この色空間においては、ガンマ値（γout）が２．２の画像出力機器において適正な色再現を可能にするため、画像の画素値は、入力輝度を１／γout（＝０．４５）乗して得られる値となっている。

そこで、画像全体における画素値を、いわゆる逆ガンマ変換、すなわち、２．２乗した後にさらに対数をとるような変換曲線にしたがって変換することにより、光源の強度に依存しない被写体の反射率のみによる評価を適正に行うことができるようになる。

なお、このような全体正規化処理は、別の言い方をすれば、画像全体における画素値を、特定の色空間を別の特性を有する色空間に変換する変換曲線にしたがって変換する処理ということができる。

このような処理を検出対象画像に施すことにより、画像中の明るさによって異なるコントラストを揃えることができ、顔検出処理の精度が向上することとなる。なお、この全体正規化処理は、処理結果が検出対象画像中の斜光や背景、入力モダリティの違いによる影響を受けやすい反面、処理時間が短いという特徴を有する。

顔検出部３０は、全体正規化部２０により全体正規化処理がなされた解像度画像群Ｓ１′の各々に対して顔検出処理を施し、各解像度画像における顔画像Ｓ２を検出するものである。図３は、この顔検出部３０の構成を示すブロック図である。顔検出部３０は、図３に示すように、後述の各部を制御して顔検出処理におけるシーケンス制御を主に行う検出制御部３１と、解像度画像群Ｓ１′の中から顔検出処理に供する解像度画像をサイズの小さいものから順に順次選択する解像度画像選択部３２と、解像度画像選択部３２により選択された解像度画像において、顔画像であるか否かの判別対象となる部分画像Ｗを切り出すサブウィンドウを、その位置をずらしながら順次設定するサブウィンドウ設定部３３と、その切り出された部分画像Ｗが顔画像であるか否かを判別する第１の判別器群３４および第２の判別器群３５と、第２の判別器群３５に入力される部分画像Ｗに対して局所正規化処理を施す局所正規化部３６とから構成されている。

検出制御部３１は、解像度画像群Ｓ１′の各画像に対して、顔画像の候補となる顔画像候補をラフに検出し、さらにその顔画像候補の中から真の顔画像Ｓ２を抽出するという段階的な顔検出処理を行うべく、解像度画像選択部３２およびサブウィンドウ設定部３３を制御するものである。例えば、適宜、解像度画像選択部３２に対して解像度画像の選択を指示したり、サブウィンドウ設定部３３に対してサブウィンドウの設定条件を指示したり、また、得られた検出結果を重複検出判定部４０に出力したりする。なお、サブウィンドウ設定条件には、サブウィンドウを設定する画像上の範囲、サブウィンドウの移動間隔（検出の粗さ）の他、判別に用いる判別器群の別（ラフ／高精度の検出モード）等が含まれる。

解像度画像選択部３２は、検出制御部３１の制御により、解像度画像群Ｓ１′の中から顔検出処理に供する解像度画像をサイズの小さい順に（解像度の粗い順に）順次選択するものである。なお、本実施形態における顔検出の手法が、各解像度画像上で順次切り出された同じサイズの部分画像Ｗについてその部分画像Ｗが顔画像であるか否かを判別することにより入力画像Ｓ０における顔を検出する手法であるから、この解像度画像選択部３２は、入力画像Ｓ０における検出すべき顔の大きさを毎回変えながら設定するものであって、検出すべき顔の大きさを大から小へ変えながら設定するものと同等なものということができる。

サブウィンドウ設定部３３は、検出制御部３１により設定されたサブウィンドウ設定条件に基づいて、解像度画像選択部３２により選択された解像度画像上でサブウィンドウを移動させながら順次設定する。例えば、上記のラフな検出を行う場合には、上記の選択された解像度画像において、所定のサイズすなわち３２×３２画素サイズの部分画像Ｗを切り出すサブウィンドウを、所定画素数分、例えば５画素ずつ移動させながら順次設定し、その切り出された部分画像Ｗを第１の判別器群３４へ入力する。判別器群を構成する各判別器は、後述のように、それぞれ所定の向きおよび天地方向にある顔の顔画像を判別するものであるから、このようにすることで、あらゆる向きおよび天地方向にある顔の顔画像を判別することが可能となる。また、上記の顔画像候補の絞込みを行う場合には、その解像度画像のうち顔画像候補を含む所定の大きさの近傍領域内に限定して、またサブウィンドウをより短い間隔で、例えば１画素ずつ移動させながら順次設定し、上記と同様に部分画像Ｗの切り出しを行い、その切り出された部分画像Ｗを局所正規化部３６を介して第２の判別器群３５へ入力する。

第１の判別器群３４は、部分画像Ｗが顔画像であるか否かを比較的高速に判別する判別器群であり、解像度画像における顔画像の候補をラフに検出するために用いられる。この第１の判別器群３４は、図４に示すように、判別可能な顔の向きがそれぞれ異なる複数種類の判別器群、すなわち、主に正面顔を判別する第１の正面顔判別器群３４＿Ｆ、主に左横顔を判別する第１の左横顔判別器群３４＿Ｌおよび主に右横顔を判別する第１の右横顔判別器群３４＿Ｒが並列に接続された構成である。さらに、これら３種の判別器群はそれぞれ、判別可能な顔の天地方向が画像の天地方向を基準として３０度ずつ異なる計１２方向に対応した判別器、すなわち、第１の正面顔判別器群３４＿Ｆは、判別器３４＿Ｆ３０，３４＿Ｆ６０，・・・，３４＿Ｆ３３０、第１の左横顔判別器群３４＿Ｌは、判別器３４＿Ｌ３０，３４＿Ｌ６０，・・・，３４＿Ｌ３３０、第１の右横顔判別器群３４＿Ｒは、判別器３４＿Ｒ３０，３４＿Ｒ６０，・・・，３４＿Ｒ３３０から構成されている。

一方、第２の判別器群３５は、部分画像Ｗ（厳密には、局所正規化部３６により局所正規化処理がなされた部分画像Ｗ′）が顔画像であるか否かを比較的高精度に判別する判別器群であり、上記のラフな検出によって検出された顔画像候補についてより細かい検出処理を施し、顔画像候補の中から真の顔画像Ｓ２を抽出する（絞り込む）ために用いられる。この第２の判別器群３５も、第１の判別器群と同様、図４に示すように、判別可能な顔の向きがそれぞれ異なる複数種類の判別器群、すなわち、主に正面顔を判別する第２の正面顔判別器群３５＿Ｆ、主に左横顔を判別する第２の左横顔判別器群３５＿Ｌおよび主に右横顔を判別する第２の右横顔判別器群３５＿Ｒが並列に接続された構成である。さらに、これら３種の判別器群は第１の判別器群と同様、それぞれ、判別可能な顔の天地方向が画像の天地方向を基準として３０度ずつ異なる計１２方向に対応した判別器、すなわち、第２の正面顔判別器群３５＿Ｆは、判別器３５＿Ｆ３０，３５＿Ｆ６０，・・・，３５＿Ｆ３３０、第２の左横顔判別器群３５＿Ｌは、判別器３５＿Ｌ３０，３５＿Ｌ６０，・・・，３５＿Ｌ３３０、第２の右横顔判別器群３５＿Ｒは、判別器３５＿Ｒ３０，３５＿Ｒ６０，・・・，３５＿Ｒ３３０から構成されている。

局所正規化部３６は、抽出された顔画像候補を絞り込むために、その顔画像候補に対応する部分画像Ｗを第２の判別器群に入力する際に、前処理として、部分画像Ｗに対して、画像上の局所的な領域におけるコントラストのばらつきを抑制するための局所正規化処理を施すものである。すなわち、局所正規化部３６は、入力された部分画像Ｗに対して、この部分画像における各局所領域について、輝度を表す画素値の分散の程度が所定レベル以上である局所領域に対して、この分散の程度を上記の所定レベルより高い一定レベルに近づける第１の輝度階調変換処理を施し、画素値の分散の程度が上記の所定レベル未満である局所領域に対して、この分散の程度を上記の一定レベルより低いレベルに抑える第２の輝度階調変換処理を施すものである。なお、この局所正規化処理は、処理時間は長いが、検出対象画像中の斜光や背景、入力モダリティの違いによる判別結果への影響は小さいという特徴を有する。ここで、局所正規化部３６における具体的な処理について説明する。

図１２は局所正規化処理の概念を示した図であり、図１３は局所正規化部３６における処理フロー示す図である。また、式（１），（２）は、この局所正規化処理のための画素値の階調変換の式である。

ここで、Ｘは注目画素の画素値、Ｘ′は注目画素の変換後の画素値、ｍlocalは注目画素を中心とする局所領域における画素値の平均、Ｖlocalはこの局所領域における画素値の分散、ＳＤlocalはこの局所領域における画素値の標準偏差、（Ｃ１×Ｃ１）は上記の一定レベルに対応する基準値、Ｃ２は上記の所定レベルに対応する閾値、ＳＤｃは所定の定数である。なお、本実施形態において、輝度の階調数は８ｂｉｔとし、画素値の取り得る値は０から２５５とする。

局所正規化部３６は、図１３に示すように、部分画像Ｗにおける１つの画素を注目画素として設定し（ステップＳ３１）、この注目画素を中心とする所定の大きさ、例えば１１×１１画素サイズの局所領域における画素値の分散Ｖlocalを算出し（ステップＳ３２）、分散Ｖlocalが上記所定のレベルに対応する閾値Ｃ２以上であるか否かを判定する（ステップＳ３３）。ステップＳ３３において、分散Ｖlocalが閾値Ｃ２以上であると判定された場合には、上記第１の輝度階調変換処理として、分散Ｖlocalが上記一定のレベルに対応する基準値（Ｃ１×Ｃ１）より大きいほど、注目画素の画素値Ｘと平均ｍlocalとの差を小さくし、分散ｍlocalが基準値（Ｃ１×Ｃ１）より小さいほど、注目画素の画素値Ｘと平均ｍlocalとの差を大きくする階調変換を式（１）にしたがって行う（ステップＳ３４）。一方、ステップＳ３３において、分散Ｖlocalが閾値Ｃ２未満であると判定された場合には、上記第２の輝度階調変換処理として、分散Ｖlocalに依らない線形な階調変換を式（２）にしたがって行う（ステップＳ３５）。そして、ステップＳ３１で設定した注目画素が最後の画素であるか否かを判定する（ステップＳ３６）。ステップＳ３６において、その注目画素が最後の画素でないと判定された場合には、ステップＳ３１に戻り、同じ部分画像上の次の画素を注目画素として設定する。一方、ステップＳ３６において、その注目画素が最後の画素であると判定された場合には、その部分画像に対する局所正規化を終了する。このように、上記ステップＳ３１からＳ３６の処理を繰り返すことにより、部分画像全体に局所正規化が施された部分画像Ｗ′を得る。

なお、上記の所定レベルは、局所領域における全体または一部の輝度に応じて変化させるようにしてもよい。例えば、上記の、注目画素毎に階調変換を行う正規化処理において、閾値Ｃ２を注目画素の画素値に応じて変化させるようにしてもよい。すなわち、上記の所定レベルに対応する閾値Ｃ２を、注目画素の輝度が相対的に高いときにはより高く設定し、その輝度が相対的に低いときにはより低く設定するようにしてもよい。このようにすることで、輝度の低い、いわゆる暗い領域に低いコントラスト（画素値の分散が小さい状態）で存在している顔も正しく正規化することができる。

なお、上記の各判別器は、図４に示すように、複数の弱判別器ＷＣが線形に結合したカスケード構造を有しており、弱判別器は、部分画像Ｗの画素値（輝度）の分布に係る少なくとも１つの特徴量を算出し、この特徴量を用いてこの部分画像Ｗが顔画像であるか否かを判別するものである。

また、上記第１および第２の判別器群３４，３５は、いずれも、判別可能な主な顔の向きを正面顔、左横顔および右横顔の３種としているが、斜め向きの顔の検出精度を上げるため、右斜め顔、左斜め顔をそれぞれ判別する判別器をさらに設けるようにしてもよい。

ここで、これら各判別器における具体的な処理について説明する。図５は、各判別器における大局的な処理フローを示したものであり、図６は、その中の各弱判別器による処理フローを示したものである。

まず、１番目の弱判別器ＷＣが、所定の解像度画像Ｓ１′＿ｉ上で切り出された所定サイズの部分画像Ｗに対してこの部分画像Ｗが顔であるか否かを判別する（ステップＳＳ１）。具体的には、１番目の弱判別器ＷＣは、図７に示すように、解像度画像Ｓ１′＿ｉ上で切り出された所定サイズの部分画像Ｗ、すなわち、３２×３２画素サイズの画像に対して、４近傍画素平均（画像を２×２画素サイズ毎に複数のブロックに区分し、各ブロックの４画素における画素値の平均値をそのブロックに対応する１つの画素の画素値とする処理）を行うことにより、１６×１６画素サイズの画像と、８×８画素サイズの縮小した画像を得、これら３つの画像の平面内に設定される所定の２点を１ペアとして、複数種類のペアからなる１つのペア群を構成する各ペアにおける２点間の画素値（輝度）の差分値をそれぞれ計算し、これらの差分値の組合せを特徴量とする（ステップＳＳ１−１）。各ペアの所定の２点は、例えば、画像上の顔の濃淡の特徴が反映されるよう決められた縦方向に並んだ所定の２点や、横方向に並んだ所定の２点とする。そして、特徴量である差分値の組合せに応じて所定のスコアテーブルを参照してスコアを算出し（ステップＳＳ１−２）、直前の弱判別器が算出したスコアに自己の算出したスコアを加算して累積スコアを算出するが（ステップＳＳ１−３）、最初の弱判別器ＷＣ１では、直前の弱判別器がないので、自己の算出したスコアをそのまま累積スコアとする。この累積スコアが所定の閾値以上であるか否かによって部分画像が顔であるか否かを判別する（ステップＳＳ１−４）。ここで、上記部分画像Ｗが顔と判別されたときには、次の弱判別器ＷＣ２による判別に移行し（ステップＳＳ２）、部分画像Ｗが非顔と判別されたときには、部分画像は、即、非顔と断定され（ステップＳＳＢ）、処理が終了する。

ステップＳＳ２においても、ステップＳＳ１と同様に、２番目の弱判別器ＷＣが部分画像に基づいて画像上の特徴を表す上記のような特徴量を算出し（ステップＳＳ２−１）、スコアテーブルを参照して特徴量からスコアを算出する（ステップＳＳ２−２）。そして、自ら算出したスコアを直前の１番目の弱判別器ＷＣが算出した累積スコアに加算して累積スコアを更新し（ステップＳＳ２−３）、この累積スコアが所定の閾値以上であるか否かによって部分画像Ｗが顔であるか否かを判別する（ステップＳＳ２−４）。ここでも、部分画像Ｗが顔と判別されたときには、次の３番目の弱判別器ＷＣによる判別に移行し（ステップＳＳ３）、部分画像Ｗが非顔と判別されたときには、部分画像Ｗは、即、非顔と断定され（ステップＳＳＢ）、処理が終了する。このようにして、判別器を構成する全Ｎ個の弱判別器ＷＣにおいて部分画像Ｗが顔であると判別されたときには、その部分画像Ｗを最終的に顔画像候補として抽出する（ステップＳＳＡ）。

上記の各判別器は、独自の、特徴量の種類、スコアテーブル、および閾値によって定められた複数の弱判別器ＷＣからなる判別器であり、それぞれ所定の向きおよび天地方向にある顔を判別する。

重複検出判定部４０は、顔検出部３０によって検出された真の顔画像Ｓ２の位置情報に基づいて、解像度画像群Ｓ１′の各解像度画像上で検出された顔画像のうち同一の顔を表す画像、すなわち重複して検出された顔画像をそれぞれ１つの顔画像としてまとめる処理を行い、入力画像Ｓ０において検出された真の顔画像Ｓ３を出力する。判別器は、学習方法にもよるが、一般的に部分画像Ｗのサイズに対して検出できる顔の大きさにはある程度幅があるので、解像度レベルが隣接する複数の解像度画像において、同一の顔を表す画像が重複して検出される場合があるからである。

なお、本実施形態において、全体正規化部２０は本発明の全体正規化手段として機能し、局所正規化部３６は本発明の局所正規化手段として機能し、検出制御部３１、解像度画像選択部３２、サブウィンドウ設定部３３および第１の判別器群３４は本発明の顔画像候補検出手段として機能し、検出制御部３１、サブウィンドウ設定部３３および第２の判別器群３５は本発明の判別手段として機能する。

次に、顔検出システム１における処理の流れについて説明する。図９は、上記顔検出システムにおける処理の流れを示したフローチャートである。図９に示すように、多重解像度化部１０に入力画像Ｓ０が供給されると（ステップＳ１）、この入力画像Ｓ０の画像サイズが所定のサイズに変換された画像Ｓ０′が生成され、この画像Ｓ０′から２の−１／３乗倍ずつサイズ（解像度）が縮小された複数の解像度画像からなる解像度画像群Ｓ１が生成される（ステップＳ２）。そして、全体正規化部２０において、解像度画像群Ｓ１の各々に対し、画像全体のコントラストのばらつきを抑制する全体正規化処理、すなわち、画像全体の画素値をこの画像における被写体の輝度の対数を表す値に近づける変換曲線にしたがって変換する処理を施し、全体正規化済みの解像度画像群Ｓ１′が得られる（ステップＳ３）。顔検出部３０においては、検出制御部３１からの指示を受けた解像度画像選択部３２により、解像度画像群Ｓ１′の中から画像サイズの小さい順、すなわち、Ｓ１′＿ｎ，Ｓ１′＿ｎ−１，・・・，Ｓ１′＿１の順に所定の解像度画像Ｓ１′＿ｉを選択する（ステップＳ４）。次に検出制御部３１が、サブウィンドウ設定部３３に対して、検出モードをラフな検出のモードとするサブウィンドウ設定条件を設定する。これにより、サブウィンドウ設定部３３は、解像度画像Ｓ１′＿ｉ上でサブウィンドウを広めのピッチ、例えば５画素間隔で移動しながら設定して所定サイズの部分画像Ｗを順次切り出し（ステップＳ５）、その部分画像Ｗを第１の判別器群３４へ入力する（ステップＳ６）。第１の判別器群３４は、順次入力される部分画像Ｗに対して、上記の３６種類の判別器を用いて判別を行い、検出制御部３１がその判別結果Ｒを取得する（ステップＳ７）。そして、検出制御部３１は、現在切り出された部分画像Ｗが最後の順番に位置する部分画像であるか否かを判定し（ステップＳ８）、部分画像Ｗが最後の部分画像であると判定された場合には、次のステップＳ９へ移行し、部分画像Ｗが最後の部分画像でないと判定された場合には、ステップＳ５に戻って新たな部分画像Ｗが切り出される。このようにして解像度画像Ｓ１′＿ｉについての顔画像候補をラフに検出する。

この顔画像候補のラフな検出が終了すると、検出制御部３１は、顔画像候補が検出されたか否かを判定し、顔画像候補が検出されていると判定された場合には、さらに絞込みモードの検出を行うためステップＳ１０に移行し、一方、顔画像候補が検出されていないと判定された場合には、絞込みモードでの検出を行わずに現在選択されている解像度画像Ｓ１′＿ｉに対する検出は終了し、ステップＳ１４に移行する。

ステップＳ１０では、検出制御部３１が、サブウィンドウ設定部３３に対して、検出対象領域を顔画像候補を含む所定の大きさの領域内に限定し、検出モードを絞込みモードとするサブウィンドウ設定条件を設定する。これにより、サブウィンドウ設定部３３は、顔画像候補近傍で、サブウィンドウを狭いピッチ、例えば１画素ずつ移動しながら設定して所定サイズの部分画像Ｗを順次切り出し（ステップＳ１０）、その部分画像Ｗを局所正規化部３６へ入力する。局所正規化部３６は、部分画像Ｗの画素値の分散が所定の閾値以上の領域に対してはその分散をある一定レベルに近づける輝度階調変換をし、画素値の分散がその所定の閾値を下回る領域に対してはその分散を上記一定レベルより低いレベルに抑える輝度階調変換をする局所正規化を行い（ステップＳ１１）、この局所正規化済みの部分画像Ｗ′を第２の判別器群３５へ入力する（ステップＳ１２）。第２の判別器群３５は、順次入力される部分画像Ｗ′に対して、顔の向きについては正面顔、右横顔および左横顔の３種、天地方向については３０度ずつ異なる１２種、計３６種類の顔について各判別器を用いて判別を行い、検出制御部３１がその判別結果Ｒを取得する（ステップＳ１３）。そして、検出制御部３１は、現在切り出された部分画像Ｗが最後の順番に位置する部分画像であるか否かを判定し（ステップＳ１４）、部分画像Ｗが最後の部分画像であると判定された場合には、次のステップＳ１５へ移行し、部分画像Ｗが最後の部分画像でないと判定された場合には、ステップＳ１０に戻って新たな部分画像Ｗが切り出される。このようにして、検出された顔画像候補の絞込みを行い、解像度画像Ｓ１′＿ｉにおける真の顔画像Ｓ２を抽出する。

顔画像候補の近傍領域における絞込みモードの検出が終了すると、検出制御部３１は、現在選択されている解像度画像Ｓ１′＿ｉが最後の順番に位置する画像であるか否かを判定し（ステップＳ１５）、最後の解像度画像であると判定された場合には、検出処理を終了し、重複検出判定に移行する（ステップＳ１６）。一方、最後の解像度画像ではないと判定された場合には、ステップＳ１０に戻り、解像度画像選択部３２により、現在選択されている解像度画像Ｓ１′＿ｉより１段階サイズが大きい解像度画像Ｓ１′＿ｉ−１が選択され、さらに顔画像の検出が実行される。

このように、ステップＳ４からＳ１５までの処理を繰り返すことにより、各解像度画像における顔画像Ｓ２を検出することができる。図８は、解像度画像がサイズの小さい順に選択されて顔検出が実施される様子を示した図である。

ステップＳ１６では、重複検出判定部４０により、真の顔画像Ｓ２のうち重複して検出された顔画像をそれぞれ１つの顔画像としてまとめる処理を行い、入力画像Ｓ０において検出された真の顔画像Ｓ３を出力する。

次に、判別器の学習方法（生成方法）について説明する。なお、学習は、判別器の種類、すなわち、判別すべき顔の向きおよび天地方向の各組合せ毎に行われる。

学習の対象となるサンプル画像群は、所定のサイズ、例えば３２×３２画素サイズで規格化された、顔であることが分かっている複数のサンプル画像（顔サンプル画像群）と、顔でないことが分かっている複数のサンプル画像（非顔サンプル画像群）とからなる。顔であることが分かっているサンプル画像としては、顔の向きが判別器の判別すべき顔の向きと同一であって顔の天地方向が揃ったものを用いる。顔であることが分かっているサンプル画像は、１つのサンプル画像につき、縦および／または横を０．７倍から１．２倍の範囲にて０．１倍単位で段階的に拡縮して得られる各サンプル画像に対し、平面上±１５度の範囲にて３度単位で段階的に回転させて得られる複数の変形バリエーションを用いる。なおこのとき、顔のサンプル画像は、目の位置が所定の位置に来るように顔のサイズと位置を規格化し、上記の平面上の回転、拡縮は目の位置を基準として行うようにする。例えば、ｄ×ｄサイズの正面顔のサンプル画像の場合においては、図１４に示すように、両目の位置が、サンプル画像の最左上の頂点と最右上の頂点から、それぞれ、内側に１／４ｄ、下側に１／４ｄ移動した各位置とに来るように顔のサイズと位置を規格化し、また、上記の平面上の回転、拡縮は、両目の中間点を中心に行うようにする。

このような顔サンプル画像群を、正面顔、右横顔、左横顔のそれぞれについて顔の天地方向が３０度ずつ異なる１２種類、合計３６種類について用意する。これら３６種類の顔サンプル画像群の各々と非顔サンプル画像群とを用いて各種類毎に判別器の学習を行い、３６種類の判別器を生成する。以下、その具体的な学習手法について説明する。

図１０は、この判別器の学習方法を示すフローチャートである。なお、顔サンプル画像群および非顔サンプル画像群を構成する各サンプル画像は、前もって、前述のデータ変換処理部２０によるデータ変換処理と同等のデータ変換処理が施されているものとする。

これら各サンプル画像には、重みすなわち重要度が割り当てられる。まず、すべてのサンプル画像の重みの初期値が等しく１に設定される（ステップＳ２１）。

次に、サンプル画像およびその縮小画像の平面内に設定される所定の２点を１ペアとして複数のペアからなるペア群を複数種類設定したときの、この複数種類のペア群のそれぞれについて弱半別器が作成される（ステップＳ２２）。ここで、それぞれの弱判別器とは、サブウィンドウＷで切り出された部分画像とその縮小画像の平面内に設定される所定の２点を１ペアとして複数のペアからなる１つのペア群を設定したときの、この１つのペア群を構成する各ペアにおける２点間の画素値（輝度）の差分値の組合せを用いて、顔の画像と顔でない画像とを判別する基準を提供するものである。本実施形態においては、１つのペア群を構成する各ペアにおける２点間の画素値の差分値の組合せについてのヒストグラムを弱判別器のスコアテーブルの基礎として使用する。

図１１を参照しながらある判別器の作成について説明する。図１１の左側のサンプル画像に示すように、この判別器を作成するためのペア群を構成する各ペアの２点は、顔であることが分かっている複数のサンプル画像において、サンプル画像上の右目の中心にある点をＰ１、右側の頬の部分にある点をＰ２、眉間の部分にある点をＰ３、サンプル画像を４近傍画素平均で縮小した１６×１６画素サイズの縮小画像上の右目の中心にある点をＰ４、右側の頬の部分にある点をＰ５、さらに４近傍画素平均で縮小した８×８画素サイズの縮小画像上の額の部分にある点をＰ６、口の部分にある点をＰ７として、Ｐ１−Ｐ２、Ｐ１−Ｐ３、Ｐ４−Ｐ５、Ｐ４−Ｐ６、Ｐ６−Ｐ７の５ペアである。なお、ある判別器を作成するための１つのペア群を構成する各ペアの２点の座標位置はすべてのサンプル画像において同一である。そして顔であることが分かっているすべてのサンプル画像について上記５ペアを構成する各ペアの２点間の画素値の差分値の組合せが求められ、そのヒストグラムが作成される。ここで、画素値の差分値の組合せとしてとり得る値は、画像の輝度階調数に依存するが、仮に１６ビット階調である場合には、１つの画素値の差分値につき６５５３６通りあり、全体では階調数の（ペア数）乗、すなわち６５５３６の５乗通りとなってしまい、学習および検出のために多大なサンプルの数、時間およびメモリを要することとなる。このため、本実施形態においては、画素値の差分値を適当な数値幅で区切って量子化し、ｎ値化する（例えばｎ＝１００）。

これにより、画素値の差分値の組合せの数はｎの５乗通りとなるため、画素値の差分値の組合せを表すデータ数を低減できる。

同様に、顔でないことが分かっている複数のサンプル画像についても、ヒストグラムが作成される。なお、顔でないことが分かっているサンプル画像については、顔であることが分かっているサンプル画像上における上記各ペアの所定の２点の位置に対応する位置（同様に参照符号Ｐ１からＰ７を用いる）が用いられる。これらの２つのヒストグラムが示す頻度値の比の対数値を取ってヒストグラムで表したものが、図１１の一番右側に示す、弱判別器のスコアテーブルの基礎として用いられるヒストグラムである。この弱判別器のヒストグラムが示す各縦軸の値を、以下、判別ポイントと称する。この弱判別器によれば、正の判別ポイントに対応する、画素値の差分値の組合せの分布を示す画像は顔である可能性が高く、判別ポイントの絶対値が大きいほどその可能性は高まると言える。逆に、負の判別ポイントに対応する画素値の差分値の組合せの分布を示す画像は顔でない可能性が高く、やはり判別ポイントの絶対値が大きいほどその可能性は高まる。ステップＳ２２では、判別に使用され得る複数種類のペア群を構成する各ペアの所定の２点間の画素値の差分値の組合せについて、上記のヒストグラム形式の複数の弱判別器が作成される。

続いて、ステップＳ２２で作成した複数の弱半別器のうち、画像が顔であるか否かを判別するのに最も有効な弱判別器が選択される。最も有効な弱判別器の選択は、各サンプル画像の重みを考慮して行われる。この例では、各弱判別器の重み付き正答率が比較され、最も高い重み付き正答率を示す弱判別器が選択される（ステップＳ２３）。すなわち、最初のステップＳ２３では、各サンプル画像の重みは等しく１であるので、単純にその弱判別器によって画像が顔であるか否かが正しく判別されるサンプル画像の数が最も多いものが、最も有効な弱判別器として選択される。一方、後述するステップＳ２５において各サンプル画像の重みが更新された後の２回目のステップＳ２３では、重みが１のサンプル画像、重みが１よりも大きいサンプル画像、および重みが１よりも小さいサンプル画像が混在しており、重みが１よりも大きいサンプル画像は、正答率の評価において、重みが１のサンプル画像よりも重みが大きい分多くカウントされる。これにより、２回目以降のステップＳ２３では、重みが小さいサンプル画像よりも、重みが大きいサンプル画像が正しく判別されることに、より重点が置かれる。

次に、それまでに選択した弱判別器の組合せの正答率、すなわち、それまでに選択した弱判別器を組み合わせて使用して（学習段階では、弱判別器は必ずしも線形に結合させる必要はない）各サンプル画像が顔の画像であるか否かを判別した結果が、実際に顔の画像であるか否かの答えと一致する率が、所定の閾値を超えたか否かが確かめられる（ステップＳ２４）。ここで、弱判別器の組合せの正答率の評価に用いられるのは、現在の重みが付けられたサンプル画像群でも、重みが等しくされたサンプル画像群でもよい。所定の閾値を超えた場合は、それまでに選択した弱判別器を用いれば画像が顔であるか否かを十分に高い確率で判別できるため、学習は終了する。所定の閾値以下である場合は、それまでに選択した弱判別器と組み合わせて用いるための追加の弱判別器を選択するために、ステップＳ２６へと進む。

ステップＳ２６では、直近のステップＳ２３で選択された弱判別器が再び選択されないようにするため、その弱判別器が除外される。

次に、直近のステップＳ２３で選択された弱判別器では顔であるか否かを正しく判別できなかったサンプル画像の重みが大きくされ、画像が顔であるか否かを正しく判別できたサンプル画像の重みが小さくされる（ステップＳ２５）。このように重みを大小させる理由は、次の弱判別器の選択において、既に選択された弱判別器では正しく判別できなかった画像を重要視し、それらの画像が顔であるか否かを正しく判別できる弱判別器が選択されるようにして、弱判別器の組合せの効果を高めるためである。

続いて、ステップＳ２３へと戻り、上記したように重み付き正答率を基準にして次に有効な弱判別器が選択される。

以上のステップＳ２３からＳ２６を繰り返して、顔であるか否かを判別するのに適した弱判別器として、特定のペア群を構成する各ペアの所定の２点間の画素値の差分値の組合せに対応する弱判別器が選択されたところで、ステップＳ２４で確認される正答率が閾値を超えたとすると、顔であるか否かの判別に用いる弱判別器の種類と判別条件とが確定され（ステップＳ２７）、これにより学習を終了する。なお、選択された弱判別器は、その重み付き正答率が高い順に線形結合され、１つの判別器が構成される。また、各弱判別器については、それぞれ得られたヒストグラムを基に、画素値の差分値の組合せに応じてスコアを算出するためのスコアテーブルが生成される。なお、ヒストグラム自身をスコアテーブルとして用いることもでき、この場合、ヒストグラムの判別ポイントがそのままスコアとなる。

このようにして、各顔サンプル画像群毎に学習を行うことにより、上述の３６種類の判別器が生成される。

なお、上記の学習手法を採用する場合において、弱判別器は、特定のペア群を構成する各ペアの所定の２点間の画素値の差分値の組合せを用いて顔の画像と顔でない画像とを判別する基準を提供するものであれば、上記のヒストグラムの形式のものに限られずいかなるものであってもよく、例えば２値データ、閾値または関数等であってもよい。また、同じヒストグラムの形式であっても、図１１の中央に示した２つのヒストグラムの差分値の分布を示すヒストグラム等を用いてもよい。

また、学習の方法としては上記手法に限定されるものではなく、ニューラルネットワーク等他のマシンラーニングの手法を用いることができる。

このように、本発明の実施形態に係る顔検出システムによれば、検出対象画像に対して比較的ラフな顔検出処理を施して顔候補を抽出する段階、すなわち、処理の対象となる領域が広いため高速性が重視される一方、ここではあくまで顔候補を抽出できればよいことから信頼性がそれほど要求されないという場面においては、画像中の斜光や背景による影響は受けやすいが、その反面、処理時間が短いという利点を有する全体正規化処理を採用し、抽出された顔候補近傍の画像に対して精細な判別処理を施して真の顔であるか否かを判別する絞込み段階、すなわち、顔候補の中から非顔を厳格に排除する必要があるため信頼性が重視される一方、処理の対象となる領域が限定されることから高速性がそれほど要求されないという場面においては、処理時間は長いが、画像中の斜光や背景の違いによる影響を受けにくいという利点を有する局所正規化処理を採用しているので、各処理段階において、要求される処理の信頼性と高速性を満足させるのに適当な特徴を有する正規化処理をそれぞれ適用することができ、各正規化処理の利点をより活かし、高精度、かつ、効率のよい顔検出が可能となる。

以上、本発明の実施形態に係る顔検出システムについて説明したが、この顔検出システムのうちの本発明の顔検出装置に対応する部分における各処理をコンピュータに実行させるためのプログラムも、本発明の実施形態の１つである。また、そのようなプログラムを記録したコンピュータ読取可能な記録媒体も、本発明の実施形態の１つである。

１顔検出システム
１０多重解像度化部
２０全体正規化部（全体正規化手段）
３０顔検出部
３１検出制御部（顔画像候補検出手段／判別手段の構成要素）
３２解像度画像選択部（顔画像候補検出手段の構成要素）
３３サブウィンドウ設定部（顔画像候補検出手段／判別手段の構成要素）
３４第１の判別器群（顔画像候補検出手段の構成要素）
３５第２の判別器群（判別手段の構成要素）
３６局所正規化部（局所正規化手段）
４０重複検出判定部

Claims

顔を検出する対象となる入力された検出対象画像に対して、画像全体の画素値を該画像における被写体の輝度の対数を表す値に近づける変換曲線にしたがって変換する全体正規化処理を施す全体正規化ステップと、
前記全体正規化処理が施された検出対象画像に基づいて該画像の画素値の分布に係る特徴量を算出し、該特徴量を用いて前記検出対象画像における顔画像候補を検出する顔画像候補検出ステップと、
前記全体正規化処理が施された検出対象画像における前記顔画像候補に対応する部分画像に対して、画像上の画素値を該画像領域内における所定サイズの局所領域毎の画素値の分散の程度を算出し、該局所領域毎に局所正規化処理を施す局所正規化ステップと、
前記局所正規化処理が施された部分画像に基づいて該画像の画素値の分布に係る特徴量を算出し、該特徴量を用いて前記部分画像に対応する顔画像候補が顔画像であるか否かを判別する判別ステップとを有し、
前記局所正規化ステップとは、前記局所正規化処理として、前記算出された分散の程度が所定レベル以上である局所領域に対して、画素値の分散の程度を前記所定レベルより高い一定レベルに近づけるよう画素値を変換する第１の輝度階調変換処理を施し、前記算出された分散の程度が前記所定レベル未満である局所領域に対して、画素値の分散の程度を前記一定レベルより低いレベルに抑えるよう画素値を変換する第２の輝度階調変換処理を施すものであり、
前記所定レベルとは、輝度を表す画素値の分散の程度が低くコントラストが平坦である画像と他の画像とを区別する境界に相当する値であることを特徴とする顔検出方法。
顔を検出する対象となる入力された検出対象画像に対して、画像全体の画素値を該画像における被写体の輝度の対数を表す値に近づける変換曲線にしたがって変換する全体正規化処理を施す全体正規化手段と、
前記全体正規化処理が施された検出対象画像に基づいて該画像の画素値の分布に係る特徴量を算出し、該特徴量を用いて前記検出対象画像における顔画像候補を検出する顔画像候補検出手段と、
前記全体正規化処理が施された検出対象画像における前記顔画像候補に対応する部分画像に対して、画像上の画素値を該画像領域内における所定サイズの局所領域毎の画素値の分散の程度を算出し、該局所領域毎に局所正規化処理を施す局所正規化手段と、
前記局所正規化処理が施された部分画像に基づいて該画像の画素値の分布に係る特徴量を算出し、該特徴量を用いて前記部分画像に対応する顔画像候補が顔画像であるか否かを判別する判別手段とを備え、
前記局所正規化手段が、前記局所正規化処理として、前記算出された分散の程度が所定レベル以上である局所領域に対して、画素値の分散の程度を前記所定レベルより高い一定レベルに近づけるよう画素値を変換する第１の輝度階調変換処理を施し、前記算出された分散の程度が前記所定レベル未満である局所領域に対して、画素値の分散の程度を前記一定レベルより低いレベルに抑えるよう画素値を変換する第２の輝度階調変換処理を施すものであり、
前記所定レベルとは、輝度を表す画素値の分散の程度が低くコントラストが平坦である画像と他の画像とを区別する境界に相当する値であることを特徴とする顔検出装置。
前記判別手段が、
互いに異なる複数の顔サンプル画像により顔画像の画素値の分布に係る特徴を予め学習させた判別器であって、前記局所正規化処理が施された部分画像に係る前記特徴量を用いて該部分画像に対応する顔画像候補が顔画像であるか否かを判別する判別器を備えたものであることを特徴とする請求項２記載の顔検出装置。
コンピュータを、
顔を検出する対象となる入力された検出対象画像に対して、画像全体の画素値を該画像における被写体の輝度の対数を表す値に近づける変換曲線にしたがって変換する全体正規化処理を施す全体正規化手段と、
前記全体正規化処理が施された検出対象画像に基づいて該画像の画素値の分布に係る特徴量を算出し、該特徴量を用いて前記検出対象画像における顔画像候補を検出する顔画像候補検出手段と、
前記全体正規化処理が施された検出対象画像における前記顔画像候補に対応する部分画像に対して、画像上の画素値を該画像領域内における所定サイズの局所領域毎の画素値の分散を算出し、該局所領域毎に局所正規化処理を施す局所正規化手段と、
前記局所正規化処理が施された部分画像に基づいて該画像の画素値の分布に係る特徴量を算出し、該特徴量を用いて前記部分画像に対応する顔画像候補が顔画像であるか否かを判別する判別手段として機能させるためのプログラムであって、
前記局所正規化手段が、前記局所正規化処理として、前記算出された分散の程度が所定レベル以上である局所領域に対して、画素値の分散の程度を前記所定レベルより高い一定レベルに近づけるよう画素値を変換する第１の輝度階調変換処理を施し、前記算出された分散の程度が前記所定レベル未満である局所領域に対して、画素値の分散の程度を前記一定レベルより低いレベルに抑えるよう画素値を変換する第２の輝度階調変換処理を施すものであり、
前記所定レベルとは、輝度を表す画素値の分散の程度が低くコントラストが平坦である画像と他の画像とを区別する境界に相当する値であることを特徴とするプログラム。