JP4657930B2

JP4657930B2 - 顔検出方法および装置並びにプログラム

Info

Publication number: JP4657930B2
Application number: JP2006008417A
Authority: JP
Inventors: 賢祐寺川
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2006-01-17
Filing date: 2006-01-17
Publication date: 2011-03-23
Anticipated expiration: 2026-01-17
Also published as: JP2007193404A

Description

本発明は、デジタル画像の中から顔画像を検出する顔検出方法および装置並びにそのためのプログラムに関するものである。

従来、デジタルカメラによって撮影されたスナップ写真における人物の顔領域の色分布を調べてその肌色を補正したり、監視システムのデジタルビデオカメラで撮影されたデジタル映像中の人物を認識したりすることが行われている。このような場合、デジタル画像中の人物の顔に対応する顔領域を検出する必要があるため、これまでに、デジタル画像中の顔を含む顔画像を検出する方法が種々提案されている。

例えば、検出対象画像上の複数の異なる位置で部分画像を切り出し、その部分画像が顔を含む画像（顔画像）であるか否かを判別して、検出対象画像上の顔画像を検出する方法が挙げられる。特に、顔の傾きが特定できない顔画像を検出しようとする場合には、検出対象画像上で検出すべき顔の位置および傾きを変えながら、検出すべき顔の位置および傾き毎に、その位置における部分画像がその傾きの顔を含む顔画像であるか否かを逐次判別することを要する。

部分画像が顔画像であるか否かを判別するには、例えば、テンプレートマッチングによる手法や、マシンラーニングの学習手法により顔の特徴を学習させた判別器モジュールを用いる手法等を用いることが考えられるが（例えば、非特許文献１、特許文献１〜３等による手法）、いずれの手法においても、この判別には、部分画像の画像パターンに基づいてその部分画像が顔画像である蓋然性を示す指標値を算出し、その指標値が所定の閾値以上である場合に、その部分画像を顔画像と判別する手法を用いるのが一般的である。
「高速全方向顔検出」，Shihong LAO他，画像の認識・理解シンポジウム（MIRU2004），２００４年７月，P.II-271−II-276 特願２００３−３１６９２４号特願２００３−３１６９２５号特願２００３−３１６９２６号

しかしながら、前記のような、検出すべき顔の位置および傾きを変えながら、検出すべき顔の位置および傾き毎に、その位置における部分画像がその傾きの顔を含む顔画像であるか否かを逐次判別する顔検出方法によれば、検出すべき顔の位置と傾きの組合せの数だけ前記判別を行う必要があり、この判別に要する処理量が膨大となって、顔検出処理の高速化を妨げる一要因となっている。

本発明は、前記事情に鑑み、検出対象画像上で検出すべき顔の位置および傾きを変えながら顔を検出する顔検出処理において、当該処理の高速化を実現し得る顔検出方法および装置並びにそのためのプログラムを提供することを目的とするものである。

本発明の第１の顔検出方法は、入力画像上で検出すべき顔の位置および傾きを変えながら、前記検出すべき顔の位置および傾き毎に、該位置における部分画像が該傾きの顔を含む顔画像である蓋然性を示す指標値を算出し、該指標値が第１の閾値以上である前記部分画像を顔画像として抽出することにより、前記入力画像に含まれる顔画像を検出する顔検出方法において、算出された前記指標値が前記第１の閾値より大きい第２の閾値以上であったとき、その後の前記指標値の算出を、前記検出すべき顔の傾きを該指標値が算出されたときの傾きに限定して行うことを特徴とするものである。

本発明の第１の顔検出方法において、検出すべき全ての顔の傾きを、近接する複数の異なる傾きからなる複数のグループに分割し、前記指標値の算出を該グループ毎に行うようにしてもよい。

本発明の第２の顔検出方法は、入力画像上で検出すべき顔の位置および傾きを変えながら、前記検出すべき顔の位置および傾き毎に、該位置における部分画像が該傾きの顔を含む顔画像である蓋然性を示す指標値を算出し、該指標値が第１の閾値以上である前記部分画像を顔画像として抽出することにより、前記入力画像に含まれる顔画像を検出する顔検出方法において、検出すべき全ての顔の傾きを、近接する複数の異なる傾きからなる複数のグループに分割し、前記指標値の算出を該グループ毎に行い、算出された前記指標値が前記第１の閾値より大きい第２の閾値以上であったとき、その後の前記指標値の算出を、前記検出すべき顔の傾きを該指標値が算出されたときの傾きが属するグループ内の傾きに限定して行うことを特徴とするものである。

本発明の第１および第２の顔検出方法において、前記検出すべき顔の傾きを限定する前に検出された顔画像のうち、限定された前記傾きとは異なる傾きの顔を含む顔画像を非顔画像として削除するようにしてもよい。

また、本発明の第１および第２の顔検出方法において、前記複数のグループは、例えば、前記入力画像の天地方向を基準としたときの、０度、９０度、１８０度および２７０度の傾きをそれぞれ別々に含む４つのグループからなるものとすることができる。

この場合、前記検出すべき顔の傾きを限定する前において、前記検出すべき顔の傾きを、前記１８０度の傾きを含むグループを最後とする所定の順序で変えることが望ましい。

本発明の第３の顔検出方法は、入力画像上で検出すべき顔の位置および大きさを変えながら、前記検出すべき顔の位置および大きさ毎に、該位置における部分画像が該大きさの顔を含む顔画像である蓋然性を示す指標値を算出し、該指標値が第１の閾値以上である前記部分画像を顔画像として抽出することにより、前記入力画像に含まれる顔画像を検出する顔検出方法において、算出された前記指標値が前記第１の閾値より大きい第２の閾値以上であったとき、その後の前記指標値の算出を、前記検出すべき顔の大きさを該指標値が算出されたときの大きさに限定して行うことを特徴とするものである。

本発明の第１の顔検出装置は、入力画像上で検出すべき顔の位置および傾きを変えながら、前記検出すべき顔の位置および傾き毎に、該位置における部分画像が該傾きの顔を含む顔画像である蓋然性を示す指標値を算出する指標値算出手段と、該指標値が第１の閾値以上である前記部分画像を顔画像として抽出する顔画像抽出手段とを備え、前記入力画像に含まれる顔画像を検出する顔検出装置において、前記指標値算出手段が、算出された前記指標値が前記第１の閾値より大きい第２の閾値以上であったとき、その後の前記指標値の算出を、前記検出すべき顔の傾きを該指標値が算出されたときの傾きに限定して行うものであることを特徴とするものである。

本発明の第１の顔検出装置において、前記指標値算出手段は、前記指標値の算出を、検出すべき全ての顔の傾きを近接する複数の異なる傾きからなる複数のグループに分割したときの該グループ毎に行うものであってもよい。

本発明の第２の顔検出装置は、入力画像上で検出すべき顔の位置および傾きを変えながら、前記検出すべき顔の位置および傾き毎に、該位置における部分画像が該傾きの顔を含む顔画像である蓋然性を示す指標値を算出する指標値算出手段と、該指標値が第１の閾値以上である前記部分画像を顔画像として抽出する顔画像抽出手段とを備え、前記入力画像に含まれる顔画像を検出する顔検出装置において、前記指標値算出手段が、前記指標値の算出を、検出すべき全ての顔の傾きを近接する複数の異なる傾きからなる複数のグループに分割したときの該グループ毎に行い、算出された前記指標値が前記第１の閾値より大きい第２の閾値以上であったとき、その後の前記指標値の算出を、前記検出すべき顔の傾きを該指標値が算出されたときの傾きが属するグループ内の傾きに限定して行うものであることを特徴とするものである。

本発明の第１および第２の顔検出装置において、前記検出すべき顔の傾きを限定する前に検出された顔画像のうち、限定された前記傾きとは異なる傾きの顔を含む顔画像を非顔画像として削除する顔画像削除手段をさらに備えるようにしてもよい。

また、本発明の第１および第２の顔検出装置において、前記複数のグループは、例えば、前記入力画像の天地方向を基準としたときの、０度、９０度、１８０度および２７０度の傾きをそれぞれ別々に含む４つのグループからなるものとすることができる。

この場合、前記指標値算出手段は、前記検出すべき顔の傾きを限定する前において、前記検出すべき顔の傾きを、前記１８０度の傾きを含むグループを最後とする所定の順序で変えるものであることが望ましい。

本発明の第３の顔検出装置は、入力画像上で検出すべき顔の位置および大きさを変えながら、前記検出すべき顔の位置および大きさ毎に、該位置における部分画像が該大きさの顔を含む顔画像である蓋然性を示す指標値を算出する指標値算出手段と、該指標値が第１の閾値以上である前記部分画像を顔画像として抽出する顔画像抽出手段とを備え、前記入力画像に含まれる顔画像を検出する顔検出装置において、前記指標値算出手段が、算出された前記指標値が前記第１の閾値より大きい第２の閾値以上であったとき、その後の前記指標値の算出を、前記検出すべき顔の大きさを該指標値が算出されたときの大きさに限定して行うものであることを特徴とするものである。

本発明の第１のプログラムは、コンピュータを、入力画像上で検出すべき顔の位置および傾きを変えながら、前記検出すべき顔の位置および傾き毎に、該位置における部分画像が該傾きの顔を含む顔画像である蓋然性を示す指標値を算出する指標値算出手段と、該指標値が第１の閾値以上である前記部分画像を顔画像として抽出する顔画像抽出手段として機能させることにより、該コンピュータを、前記入力画像に含まれる顔画像を検出する顔検出装置として機能させるためのプログラムにおいて、前記指標値算出手段が、算出された前記指標値が前記第１の閾値より大きい第２の閾値以上であったとき、その後の前記指標値の算出を、前記検出すべき顔の傾きを該指標値が算出されたときの傾きに限定して行うものであることを特徴とするものである。

本発明の第１のプログラムにおいて、前記指標値算出手段は、前記指標値の算出を、検出すべき全ての顔の傾きを近接する複数の異なる傾きからなる複数のグループに分割したときの該グループ毎に行うものであってもよい。

本発明の第２のプログラムは、コンピュータを、入力画像上で検出すべき顔の位置および傾きを変えながら、前記検出すべき顔の位置および傾き毎に、該位置における部分画像が該傾きの顔を含む顔画像である蓋然性を示す指標値を算出する指標値算出手段と、該指標値が第１の閾値以上である前記部分画像を顔画像として抽出する顔画像抽出手段として機能させることにより、該コンピュータを、前記入力画像に含まれる顔画像を検出する顔検出装置として機能させるためのプログラムにおいて、前記指標値算出手段が、前記指標値の算出を、検出すべき全ての顔の傾きを近接する複数の異なる傾きからなる複数のグループに分割したときの該グループ毎に行い、算出された前記指標値が前記第１の閾値より大きい第２の閾値以上であったとき、その後の前記指標値の算出を、前記検出すべき顔の傾きを該指標値が算出されたときの傾きが属するグループ内の傾きに限定して行うものであることを特徴とするものである。

本発明の第１および第２のプログラムにおいて、前記コンピュータを、さらに、前記検出すべき顔の傾きを限定する前に検出された顔画像のうち、限定された前記傾きとは異なる傾きの顔を含む顔画像を非顔画像として削除する顔画像削除手段として機能させるようにしてもよい。

本発明の第１および第２のプログラムにおいて、前記複数のグループは、例えば、前記入力画像の天地方向を基準としたときの、０度、９０度、１８０度および２７０度の傾きをそれぞれ別々に含む４つのグループからなるものとすることができる。

本発明の第３のプログラムは、コンピュータを、入力画像上で検出すべき顔の位置および大きさを変えながら、前記検出すべき顔の位置および大きさ毎に、該位置における部分画像が該大きさの顔を含む顔画像である蓋然性を示す指標値を算出する指標値算出手段と、該指標値が第１の閾値以上である前記部分画像を顔画像として抽出する顔画像抽出手段として機能させることにより、該コンピュータを、前記入力画像に含まれる顔画像を検出する顔検出装置として機能させるためのプログラムにおいて、前記指標値算出手段が、算出された前記指標値が前記第１の閾値より大きい第２の閾値以上であったとき、その後の前記指標値の算出を、前記検出すべき顔の大きさを該指標値が算出されたときの大きさに限定して行うものであることを特徴とするものである。

本発明において、「顔画像」とは、顔を構成する画像を含む画像のことを言う。

また、「顔の傾き」とは、インプレーン（画像面内）方向での傾きを意味し、別の言い方をすれば、顔の画像上での回転位置を意味するものである。

本発明の第１の顔検出方法および装置並びにプログラムによれば、入力画像上で検出すべき顔の位置および傾きを変えながら、検出すべき顔の位置および傾き毎に、当該位置における部分画像が当該傾きの顔を含む顔画像である蓋然性を示す指標値を算出し、その指標値が第１の閾値以上である部分画像を顔画像として抽出することにより、入力画像に含まれる顔画像を検出する顔検出処理において、算出された指標値が前記第１の閾値より大きい第２の閾値以上であったとき、その後の指標値の算出を、検出すべき顔の傾きを当該指標値が算出されたときの傾きに限定して行うようにしているので、誤検出されたものでなく真の顔画像とみなすことができる信頼性の高い顔画像が検出された場合には、同一画像上に含まれる顔の傾きは略同じ傾きに揃うことが多いという経験則に基づいて、顔画像が検出される可能性が低くその必要性が乏しいと考えられる、前記信頼性の高い顔画像の顔の傾きとは異なる顔の傾きに対する検出処理を省略することができ、顔検出処理の高速化を実現することが可能となる。

本発明の第２の顔検出方法および装置並びにプログラムによれば、入力画像上で検出すべき顔の位置および傾きを変えながら、検出すべき顔の位置および傾き毎に、当該位置における部分画像が当該傾きの顔を含む顔画像である蓋然性を示す指標値を算出し、その指標値が第１の閾値以上である部分画像を顔画像として抽出することにより、入力画像に含まれる顔画像を検出する顔検出処理において、検出すべき全ての顔の傾きを、近接する複数の異なる傾きからなる複数のグループに分割し、指標値の算出を当該グループ毎に行い、算出された指標値が前記第１の閾値より大きい第２の閾値以上であったとき、その後の指標値の算出を、検出すべき顔の傾きを当該指標値が算出されたときの傾きが属するグループ内の傾きに限定して行うようにしているので、誤検出されたものでなく真の顔画像とみなすことができる信頼性の高い顔画像が検出された場合には、同一画像上に含まれる顔の傾きは略同じ傾きに揃うことが多いという経験則に基づいて、顔画像が検出される可能性が低くその必要性が乏しいと考えられる、前記信頼性の高い顔画像の顔の傾きが属するグループとは異なるグループの顔の傾きに対する検出処理を省略することができ、顔検出処理の高速化を実現することが可能となる。

この場合、前記信頼性の高い顔画像が検出された後に限定する、検出すべき顔の傾きを、前記信頼性の高い顔画像の顔の傾きだけとせず、当該顔の傾きに近接する傾きにまで幅を広げて限定するようにしているので、入力画像上に被写体の姿勢等の違いによって顔の傾きが少しずれた複数の顔が存在する場合であっても、このような顔を検出できる確率が高くなる。

なお、本発明の第１および第２の、顔検出方法および装置並びにプログラムにおいて、検出すべき顔の傾きを限定する前に検出された顔画像のうち、限定した傾きとは異なる傾きの顔画像を非顔画像として削除するようにすれば、既に顔画像として検出された画像のうち、真の顔画像である可能性が低い画像を排除することができ、誤検出を抑制することができる。

本発明の第３の顔検出方法および装置並びにプログラムによれば、入力画像上で検出すべき顔の位置および大きさを変えながら、検出すべき顔の位置および大きさ毎に、当該位置における部分画像が当該大きさの顔を含む顔画像である蓋然性を示す指標値を算出し、その指標値が第１の閾値以上である部分画像を顔画像として抽出することにより、入力画像に含まれる顔画像を検出する顔検出処理において、算出された指標値が前記第１の閾値より大きい第２の閾値以上であったとき、その後の指標値の算出を、検出すべき顔の大きさを当該指標値が算出されたときの大きさに限定して行うようにしているので、誤検出されたものでなく真の顔画像とみなすことができる信頼性の高い顔画像が検出された場合には、同一画像上に含まれる顔の大きさは略同じ大きさに揃うことが多いという経験則に基づいて、顔画像が検出される可能性が低くその必要性が乏しいと考えられる、前記信頼性の高い顔画像の顔の大きさとは異なる顔の大きさに対する検出処理を省略することができ、顔検出処理の高速化を実現することが可能となる。

以下、本発明の実施形態について図を参照しながら説明する。

図１は本発明の第１の実施形態である顔検出システム１の構成を示す概略ブロック図である。この顔検出システム１は、入力されたデジタル画像上の顔を含む画像（以下、顔画像という）を、顔の位置、大きさ、傾き（画像面内での回転位置）、向き（左右首振り方向での向き）によらず検出するものである。

本顔検出システム１は、特に検出精度、ロバスト性が優れているとされる顔検出の手法として、サンプル画像を用いたマシンラーニングの学習により生成された判別器モジュール（以下、単に判別器という）を用いる手法を採用したものである。この手法は、所定の傾きおよび向きの顔を表す複数の異なる顔サンプル画像と、非顔を表す複数の異なる非顔サンプル画像とを用いて、顔の特徴を学習させ、ある画像が、所定の傾きおよび向きの顔を含む顔画像であるか否かを判別できる判別器を生成して用意しておき、顔の検出対象となる画像（以下、検出対象画像という）上の異なる位置において部分画像を順次切り出し、その部分画像が顔画像である蓋然性を示す指標値を前記の判別器を用いて算出し、その指標値の大小に基づいてその部分画像が顔画像であるか否かを判別することにより、検出対象画像に含まれる顔画像を検出する手法である。

顔検出システム１は、図１に示すように、多重解像度化部１０と、正規化部２０と、顔検出部３０と、重複検出判定部４０とを備えている。

多重解像度化部１０は、入力された検出対象画像Ｓ０を多重解像度化して解像度の異なる複数の画像（以下、解像度画像という）からなる解像度画像群Ｓ１を得るものである。

検出対象画像Ｓ０の画像サイズ、すなわち、解像度を変換することにより、その解像度を所定の解像度、例えば、短辺が４１６画素の矩形サイズの画像に規格化し、規格化済みの検出対象画像Ｓ０′を得る。そして、この規格化済みの検出対象画像Ｓ０′を基本としてさらに解像度変換を行うことにより、解像度の異なる複数の解像度画像Ｓ１_1〜Ｓ１_M（Ｍは解像度の段階数）を生成し、解像度画像群Ｓ１を得る。このような解像度画像群を生成する理由は、通常、検出対象画像Ｓ０に含まれる顔の大きさは不明であるが、一方、検出しようとする顔の大きさは、後述の判別器の生成方法と関連して一定の大きさに固定されるため、大きさの異なる顔を検出するためには、解像度の異なる画像上で位置をずらしながら所定サイズの部分画像をそれぞれ切り出し、その部分画像が顔画像であるか否かを判別してゆく必要があるためである。

図２は、検出対象画像Ｓ０の多重解像度化の工程を示した図である。多重解像度化、すなわち、解像度画像群の生成は、具体的には、図２に示すように、規格化済みの検出対象画像Ｓ０′を基本となる解像度画像Ｓ１_1とし、解像度画像Ｓ１_1に対して２の−１／３乗倍サイズの解像度画像Ｓ１_2と、解像度画像Ｓ１_2に対して２の−１／３乗倍サイズ（基本画像Ｓ１_1に対しては２の−２／３乗倍サイズ）の解像度画像Ｓ１_3とを先に生成し、その後、解像度画像Ｓ１_1，Ｓ１_2，Ｓ１_3のそれぞれを１／２倍サイズに縮小した解像度画像を生成し、それら縮小した解像度画像をさらに１／２倍サイズに縮小した解像度画像を生成する、といった処理を繰り返し行い、複数の解像度画像を所定の数だけ生成するようにする。このようにすることで、輝度を表す画素値の補間処理を必要としない１／２倍の縮小処理を主な処理とし、基本となる解像度画像から２の−１／３乗倍ずつサイズが縮小された複数の画像が高速に生成できる。例えば、解像度画像Ｓ１_1が短辺４１６画素の矩形サイズである場合、解像度画像Ｓ１_2，Ｓ１_3，・・・は、短辺がそれぞれ、３３０画素，２６２画素，２０８画素，１６５画素，１３１画素，１０４画素，８２画素，６５画素，・・・の矩形サイズとなり、２の−１／３乗倍ずつ縮小された複数の解像度画像を生成することができる。なお、このように画素値を補間しないで生成される画像は、元の画像パターンの特徴をそのまま担持する傾向が強いので、顔検出処理において精度向上が期待できる点で好ましい。

正規化部２０は、解像度画像のコントラストが顔検出処理に適した状態となるように、解像度画像の各々に対して全体正規化処理および局所正規化処理を施し、正規化済みの複数の解像度画像Ｓ１′_1〜Ｓ１′_Mからなる解像度画像群Ｓ１′を得るものである。

まず、全体正規化処理について説明する、全体正規化処理は、解像度画像のコントラストを顔検出処理に適した所定のレベル、すなわち、後述の判別器の性能を引き出すのに適したレベルに近づけるべく、解像度画像全体の画素値をこの画像における被写体の輝度の対数を表す値に近づける変換曲線にしたがって変換する処理である。

図３は全体正規化処理に用いる変換曲線の一例を示した図である。全体正規化処理としては、例えば、図３に示すような、画素値をｓＲＧＢ空間におけるいわゆる逆ガンマ変換（＝２．２乗する）した後にさらに対数をとるような変換曲線（ルックアップテーブル）にしたがって、画像全体における画素値を変換する処理を考えることができる。これは、次のような理由による。

画像として観測される光強度Ｉは、通常、被写体の反射率Ｒと光源の強度Ｌの積として表現される（Ｉ＝Ｒ×Ｌ）。したがって、光源の強度Ｌが変化すると、画像として観測される光強度Ｉも変化することになるが、被写体の反射率Ｒのみを評価することができれば、光源の強度Ｌに依存しない、すなわち、画像の明るさの影響を受けない精度の高い顔判別を行うことができる。

ここで、光源の強度がＬの場合において、被写体上で反射率がＲ１の部分から観測される光強度をＩ１、被写体上で反射率がＲ２の部分から観測される光強度をＩ２としたとき、それぞれの対数をとった空間では、下記の式が成り立つ。

すなわち、画像における画素値を対数変換することは、反射率の比が差として表現された空間へ変換することとなり、このような空間では、光源の強度Ｌに依存しない被写体の反射率のみを評価することが可能となる。言い換えると、画像中の明るさによって異なるコントラスト（ここでは画素値の差分そのもの）を揃えることができる。

一方、一般的なデジタルカメラ等の機器で取得された画像の色空間はｓＲＧＢである。ｓＲＧＢとは、機器間の色再現の違いを統一するために、色彩、彩度等を規定・統一した国際標準の色空間のことであり、この色空間においては、ガンマ値（γout）が２．２の画像出力機器において適正な色再現を可能にするため、画像の画素値は、入力輝度を１／γout（＝０．４５）乗して得られる値となっている。

そこで、画像全体における画素値を、いわゆる逆ガンマ変換、すなわち、２．２乗した後にさらに対数をとるような変換曲線にしたがって変換することにより、光源の強度に依存しない被写体の反射率のみによる評価を適正に行うことができるようになる。

なお、このような全体正規化処理は、別の言い方をすれば、画像全体における画素値を、特定の色空間を別の特性を有する色空間に変換する変換曲線にしたがって変換する処理ということができる。

このような処理を検出対象画像に施すことにより、画像中の明るさによって異なるコントラストを揃えることができ、顔検出処理の精度が向上することとなる。なお、この全体正規化処理は、処理結果が検出対象画像中の斜光や背景、入力モダリティの違いによる影響を受けやすい反面、処理時間が短いという特徴を有する。

次に、局所正規化処理について説明する。局所正規化処理は、解像度画像上の局所的な領域におけるコントラストのばらつきを抑制するための処理である。すなわち、解像度画像における各局所領域について、輝度を表す画素値の分散の程度が所定レベル以上である局所領域に対しては、この分散の程度を前記の所定レベルより高い一定レベルに近づける第１の輝度階調変換処理を施し、画素値の分散の程度が前記の所定レベル未満である局所領域に対しては、この分散の程度を前記の一定レベルより低いレベルに抑える第２の輝度階調変換処理を施すものである。なお、この局所正規化処理は、処理時間は長いが、検出対象画像中の斜光や背景、入力モダリティの違いによる判別結果への影響は小さいという特徴を有する。

図４は局所正規化処理の概念を示した図であり、図５は局所正規化処理のフローを示した図である。また、式（２），（３）は、この局所正規化処理のための画素値の階調変換の式である。

ここで、Ｘは注目画素の画素値、Ｘ′は注目画素の変換後の画素値、ｍlocalは注目画素を中心とする局所領域における画素値の平均、Ｖlocalはこの局所領域における画素値の分散、ＳＤlocalはこの局所領域における画素値の標準偏差、Ｃ１は、（Ｃ１×Ｃ１）が前記の一定レベルに対応する基準値となるような値、Ｃ２は前記の所定レベルに対応する閾値、ＳＤｃは所定の定数である。なお、本実施形態において、輝度の階調数は８ｂｉｔとし、画素値の取り得る値は０から２５５とする。

図４に示すように、まず、解像度画像における１つの画素を注目画素として設定し（ステップＳＴ１）、この注目画素を中心とする所定の大きさ、例えば１１×１１画素サイズの局所領域における画素値の分散Ｖlocalを算出し（ステップＳＴ２）、分散Ｖlocalが前記所定のレベルに対応する閾値Ｃ２以上であるか否かを判定する（ステップＳＴ３）。ステップＳＴ３において、分散Ｖlocalが閾値Ｃ２以上であると判定された場合には、前記第１の輝度階調変換処理として、分散Ｖlocalが前記一定のレベルに対応する基準値（Ｃ１×Ｃ１）より大きいほど、注目画素の画素値Ｘと平均ｍlocalとの差を小さくし、分散ｍlocalが基準値（Ｃ１×Ｃ１）より小さいほど、注目画素の画素値Ｘと平均ｍlocalとの差を大きくする階調変換を式（２）にしたがって行う（ステップＳＴ４）。一方、ステップＳＴ３において、分散Ｖlocalが閾値Ｃ２未満であると判定された場合には、前記第２の輝度階調変換処理として、分散Ｖlocalに依らない線形な階調変換を式（３）にしたがって行う（ステップＳＴ５）。そして、ステップＳＴ１で設定した注目画素が最後の画素であるか否かを判定する（ステップＳＴ６）。ステップＳＴ６において、その注目画素が最後の画素でないと判定された場合には、ステップＳＴ１に戻り、同じ解像度画像上の次の画素を注目画素として設定する。一方、ステップＳＴ６において、その注目画素が最後の画素であると判定された場合には、その解像度画像に対する局所正規化を終了する。このように、前記ステップＳＴ１からＳＴ６の処理を繰り返すことにより、解像度画像全体に局所正規化を施すことができる。

なお、前記の所定レベルは、局所領域における全体または一部の輝度に応じて変化させるようにしてもよい。例えば、前記の、注目画素毎に階調変換を行う正規化処理において、閾値Ｃ２を注目画素の画素値に応じて変化させるようにしてもよい。すなわち、前記の所定レベルに対応する閾値Ｃ２を、注目画素の輝度が相対的に高いときにはより高く設定し、その輝度が相対的に低いときにはより低く設定するようにしてもよい。このようにすることで、輝度の低い、いわゆる暗い領域に低いコントラスト（画素値の分散が小さい状態）で存在している顔も正しく正規化することができる。

顔検出部３０は、正規化部２０により正規化処理がなされた解像度画像群Ｓ１′の各解像度画像Ｓ１′_m（ｍ＝１〜Ｍ）に対して、検出すべき顔の位置および傾きを所定の順序にしたがって変えながら顔検出処理を施すことにより、すべての解像度画像に含まれる顔画像Ｓ２を検出するものである。

なお、本実施例では、検出すべき顔の位置毎に検出すべき顔の傾きを変えて顔画像を検出するようにするが、検出すべき顔の傾き毎に検出すべき顔の位置を変えて顔画像を検出するようにしてもよい。

また、本実施例では、検出すべき全ての顔の傾きを、近接する複数の異なる傾きからなる複数のグループに分割し、後述のスコアの算出および顔画像の抽出をこのグループ毎に行う。具体的には、図１２に示すように、検出すべき全ての顔の傾きを、検出対象画像Ｓ０の天地方向を基準に検出対象画像Ｓ０の画像面内において３０度刻みで回転して設定される計１２種類の傾きとし、検出すべき顔の傾きを所定の順序、すなわち、この傾きを検出対象画像Ｓ０の天地方向を基準に時計回りの回転角度で表すとして、上向き３方向である０度、３３０度、３０度（第１のグループ）、右向き３方向である９０度、６０度、１２０度（第２のグループ）、左向き３方向である２７０度、２４０度、３００度（第３のグループ）、そして、下向き３方向である１８０度、１５０度、２１０度（第４のグループ）の順序で切り替える。

顔検出部３０は、図１に示すように、解像度画像選択部３１と、サブウィンドウ設定部３２と、判別器群３３と、顔画像削除部３４とから構成されている。なお、サブウィンドウ設定部３２および判別器群３３が本発明の第１の顔検出装置における指標値算出手段として機能し、判別器群３３が本発明の第１の顔検出装置における顔画像抽出手段として機能し、顔画像削除部３４が本発明の第１の顔検出装置における顔画像削除手段として機能するものである。

解像度画像選択部３１は、多重解像度化部２０により生成された解像度画像群Ｓ１′の中から顔検出処理に供する解像度画像をサイズの小さい順に、すなわち、解像度の粗い順に１つずつ選択するものである。なお、本実施形態における顔検出の手法が、各解像度画像上で順次切り出された同じサイズの部分画像Ｗについて、その部分画像Ｗが顔画像であるか否かを判別することにより検出対象画像Ｓ０における顔を検出する手法であるから、この解像度画像選択部３１は、検出対象画像Ｓ０に対する部分画像Ｗの相対的な大きさ、すなわち、検出対象画像Ｓ０における検出すべき顔の大きさを大から小へ毎回変えながら設定するものと考えることができる。

サブウィンドウ設定部３２は、解像度画像選択部３１により選択された解像度画像において、顔画像であるか否かの判別対象となる部分画像Ｗを切り出すサブウィンドウを、その位置を所定幅ずつずらしながら設定するものである。

例えば、前記の選択された解像度画像において、所定のサイズ、すなわち、３２×３２画素サイズの部分画像Ｗを切り出すサブウィンドウを、所定画素数分、例えば２画素ずつ移動させながら順次設定し、その切り出された部分画像Ｗを判別器群３３へ入力する。判別器群３３を構成する各判別器は、後述のように、それぞれ、入力された部分画像Ｗが所定の傾きおよび向きの顔を含む顔画像であるか否かを判別するものであるから、このようにすることで、あらゆる傾きおよび向きにある顔の顔画像について判別することが可能となる。

判別器群３３は、判別すべき顔の傾きおよび向きがそれぞれ異なる複数種類の判別器から構成されたものであり、各判別器は、入力された部分画像Ｗの画像パターンに基づいて、この部分画像Ｗが所定の傾きおよび向きの顔を含む顔画像である蓋然性を示すスコア（指標値）ｓｃを算出し、算出されたスコアｓｃが第１の閾値Ｔｈ１以上であるときに、その部分画像Ｗをその所定の傾きおよび向きの顔を含む顔画像の候補Ｄiとして判別し抽出するものである。

図６は判別器群３３の構成を示した図である。判別器群３３は、図６に示すように、判別すべき顔の向きがそれぞれ異なる複数種類の判別器群、すなわち、主に正面顔を判別する正面顔判別器群３３＿Ｆ、主に左横顔を判別する左横顔判別器群３３＿Ｌおよび主に右横顔を判別する右横顔判別器群３３＿Ｒから構成され、さらに、これら３種の判別器群はそれぞれ、判別すべき顔の傾きが画像の天地方向を基準として３０度ずつ異なる計１２方向に対応した判別器、すなわち、正面顔判別器群３３＿Ｆは、判別器３３＿Ｆ０，３３＿Ｆ３０，・・・，３３＿Ｆ３３０、左横顔判別器群３３＿Ｌは、判別器３３＿Ｌ０，３３＿Ｌ３０，・・・，３３＿Ｌ３３０、右横顔判別器群３３＿Ｒは、判別器３３＿Ｒ０，３３＿Ｒ３０，・・・，３３＿Ｒ３３０から構成されている。

なお、前記サブウィンドウ設定部３２は、検出すべき顔の位置毎に検出すべき顔の傾きを前記所定の順序で切り替えるため、切り出した部分画像Ｗを入力する判別器を適切な順序で切り替えて選択し、部分画像Ｗをその選択された判別器に順次入力するようにする。すなわち、検出すべき顔の位置毎に検出すべき顔の傾きを０度、３３０度、３０度（第１のグループ）、９０度、６０度、１２０度（第２のグループ）・・・と切り替えるため、はじめ、検出すべき顔の傾きが０度である場合に対応する判別器３３＿Ｆ０，３３＿Ｌ０，３３＿Ｒ０を選択して、これらの判別器に部分画像Ｗを入力し、次に、検出すべき顔の傾きが３３０度である場合に対応する判別器３３＿Ｆ３３０，３３＿Ｌ３３０，３３＿Ｒ３３０を選択して、これらの判別器に同部分画像Ｗを入力する。このようにして、切り出した１つの部分画像Ｗを所定の順序で選択された各判別器に順次入力してゆき、検出すべき全ての顔の位置および傾きについてスコア算出および判別を行うようにする。ただし、途中、いずれかの判別器によって算出されたスコアｓｃが、第１の閾値Ｔｈ１より大きい第２の閾値Ｔｈ２以上であったとき、その後のスコア算出および判別を、検出すべき顔の傾きをそのスコアが算出されたときの傾きに限定して行うべく、部分画像Ｗを入力する判別器を、判別すべき顔の傾きがその傾きである判別器に限定する。このようにする理由は、誤検出されたものでなく真の顔画像とみなすことができる信頼性の高い顔画像が検出されたときには、同一画像上に含まれる顔の傾きは略同じ傾きに揃うことが多いという経験則に基づき、顔画像が検出される可能性が低くその必要性が乏しいと考えられる、その信頼性の高い顔画像の顔の傾きとは異なる顔の傾きに対する検出処理を省略して、顔検出処理の高速化を図るためである。

なお、このような手法で顔検出処理の高速化を図る場合には、できるだけ早い段階で前記信頼性の高い顔画像が検出された方がよいわけであるが、顔の傾き（天地）は、経験則上、検出対象画像Ｓ０に対して真逆になるケースが少ないので、検出すべき顔の傾きを切り替える順序は、前記のように、１８０度を中心とした第４のグループの傾きを最後とする順序であることが好ましい。特に、検出すべき顔の傾き毎に検出すべき顔の位置を変えて顔画像を検出するような場合に、効果が大きいと思われる。

また、前記の判別器群３３は、いずれも、判別可能な主な顔の向きを正面顔、左横顔および右横顔の３種としているが、斜め向きの顔の検出精度を上げるため、右斜め顔、左斜め顔をそれぞれ判別する判別器をさらに設けるようにしてもよい。

ここで、判別器群３３を構成する各判別器の構成、判別器における処理の流れおよび判別器の学習方法について説明する。

判別器は、後述の学習により多数の弱判別器ＷＣの中から選定された判別に有効な複数の弱判別器ＷＣを有している。弱判別器ＷＣは、それぞれ、部分画像Ｗから弱判別器ＷＣ毎に固有の所定のアルゴリズムにしたがって特徴量を算出し、その特徴量と所定のスコアテーブルとしての後述の自己のヒストグラムとに基づいて、部分画像Ｗが所定の傾きおよび向きの顔を含む顔画像である蓋然性を示すスコアｓｃｗを求めるものである。判別器は、これら複数の弱判別器ＷＣから得られた個々のスコアｓｃｗを合算してスコアｓｃを求め、このスコアｓｃが閾値Ｔｈ１以上である部分画像Ｗをその所定の傾きおよび向きの顔を含む顔画像Ｄiとして抽出する。

図７は１つの判別器における処理の流れを示すフローチャートである。部分画像Ｗが判別器に入力されると、複数の弱判別器ＷＣにおいてそれぞれ種類の異なる特徴量ｘが算出される（ステップＳＴ１１）。例えば、図８に示すように、所定のサイズ、例えば、３２×３２画素サイズの部分画像Ｗに対して、４近傍画素平均（画像を２×２画素サイズ毎に複数のブロックに区分し、各ブロックの４画素における画素値の平均値をそのブロックに対応する１つの画素の画素値とする処理）を段階的に行うことにより、１６×１６画素サイズに縮小した画像Ｗ′と、８×８画素サイズに縮小した画像Ｗ″を得、もとの画像Ｗを含めたこれら３つの画像の平面内に設定される所定の２点を１ペアとして、複数種類のペアからなる１つのペア群を構成する各ペアにおける２点間の画素値（輝度）の差分値をそれぞれ計算し、これらの差分値の組合せを特徴量とする。各ペアの所定の２点は、例えば、画像上の顔の濃淡の特徴が反映されるよう決められた縦方向に並んだ所定の２点や、横方向に並んだ所定の２点とする。そして、特徴量である差分値の組合せに対応する値をｘとして算出する。次に、その値ｘに応じて所定のスコアテーブル（自己のヒストグラム）から部分画像Ｗが判別すべき顔（例えば、判別器３３＿Ｆ３０の場合には「顔の向きが正面で傾きが回転角度３０度の顔」）を含む顔画像である蓋然性を示すスコアｓｃｗが弱判別器毎に算出される（ステップＳＴ１２）。そして、弱判別器毎に算出された個々のスコアｓｃｗを合算してスコアｓｃが得られ（ステップＳＴ１３）、このスコアｓｃが第１の閾値Ｔｈ1以上であるか否かを判定し（ステップＳＴ１４）、肯定される場合に、その部分画像Ｗを、この判別器が判別すべき所定の傾きおよび向きの顔を含む顔画像の候補Ｄi（ｉ＝１，２，・・・）として抽出する（ステップＳＴ１５）。

次に、判別器の学習（生成）方法について説明する。

図９は判別器の学習方法を示すフローチャートである。判別器の学習には、所定のサイズ、例えば３２×３２画素サイズで規格化され、さらに、前述の正規化部２０による正規化処理と同様の処理が施された複数のサンプル画像を用いる。サンプル画像としては、顔であることが分かっている複数の異なる顔サンプル画像（顔サンプル画像群）と、顔でないことが分かっている複数の異なる非顔サンプル画像（非顔サンプル画像群）とを用意する。

顔サンプル画像群は、１つの顔サンプル画像につき、縦および／または横を０．７倍から１．２倍の範囲にて０．１倍単位で段階的に拡縮して得られる各サンプル画像に対し、平面上±１５度の範囲にて３度単位で段階的に回転させて得られる複数の変形バリエーションを用いる。なおこのとき、顔サンプル画像は、目の位置が所定の位置に来るように顔のサイズと位置を規格化し、前記の平面上の回転、拡縮は目の位置を基準として行うようにする。例えば、ｄ×ｄサイズのサンプル画像の場合においては、図１０に示すように、両目の位置が、サンプル画像の最左上の頂点と最右上の頂点から、それぞれ、内側に１／４ｄ、下側に１／４ｄ移動した各位置とに来るように顔のサイズと位置を規格化し、また、前記の平面上の回転、拡縮は、両目の中間点を中心に行うようにする。

これら各サンプル画像には、重みすなわち重要度が割り当てられる。まず、すべてのサンプル画像の重みの初期値が等しく１に設定される（ステップＳＴ２１）。

次に、サンプル画像およびその縮小画像の平面内に設定される所定の２点を１ペアとして複数のペアからなるペア群を複数種類設定したときの、この複数種類のペア群のそれぞれについて弱半別器が作成される（ステップＳＴ２２）。ここで、それぞれの弱判別器とは、サブウィンドウＷで切り出された部分画像とその縮小画像の平面内に設定される所定の２点を１ペアとして複数のペアからなる１つのペア群を設定したときの、この１つのペア群を構成する各ペアにおける２点間の画素値（輝度）の差分値の組合せを用いて、顔の画像と顔でない画像とを判別する基準を提供するものである。本実施形態においては、１つのペア群を構成する各ペアにおける２点間の画素値の差分値の組合せについてのヒストグラムを弱判別器のスコアテーブルの基礎として使用する。

図１１はサンプル画像からヒストグラムが生成される様子を示した図である。図１１の左側のサンプル画像に示すように、この判別器を作成するためのペア群を構成する各ペアの２点は、顔であることが分かっている複数のサンプル画像において、サンプル画像上の右目の中心にある点をＰ１、右側の頬の部分にある点をＰ２、眉間の部分にある点をＰ３、サンプル画像を４近傍画素平均で縮小した１６×１６画素サイズの縮小画像上の右目の中心にある点をＰ４、右側の頬の部分にある点をＰ５、さらに４近傍画素平均で縮小した８×８画素サイズの縮小画像上の額の部分にある点をＰ６、口の部分にある点をＰ７として、Ｐ１−Ｐ２、Ｐ１−Ｐ３、Ｐ４−Ｐ５、Ｐ４−Ｐ６、Ｐ６−Ｐ７の５ペアである。なお、ある判別器を作成するための１つのペア群を構成する各ペアの２点の座標位置はすべてのサンプル画像において同一である。そして顔であることが分かっているすべてのサンプル画像について前記５ペアを構成する各ペアの２点間の画素値の差分値の組合せが求められ、そのヒストグラムが作成される。ここで、画素値の差分値の組合せとしてとり得る値は、画像の輝度階調数に依存するが、仮に１６ビット階調である場合には、１つの画素値の差分値につき６５５３６通りあり、全体では階調数の（ペア数）乗、すなわち６５５３６の５乗通りとなってしまい、学習および検出のために多大なサンプルの数、時間およびメモリを要することとなる。このため、本実施形態においては、画素値の差分値を適当な数値幅で区切って量子化し、ｎ値化する（例えばｎ＝１００）。これにより、画素値の差分値の組合せの数はｎの５乗通りとなるため、画素値の差分値の組合せを表すデータ数を低減できる。

同様に、非顔サンプル画像群についても、ヒストグラムが作成される。なお、非顔サンプル画像については、顔サンプル画像上における前記各ペアの所定の２点の位置に対応する位置（同様に参照符号Ｐ１からＰ７を用いる）が用いられる。これらの２つのヒストグラムが示す頻度値の比の対数値を取ってヒストグラムで表したものが、図１１の一番右側に示す、弱判別器のスコアテーブルの基礎として用いられるヒストグラムである。この弱判別器のヒストグラムが示す各縦軸の値を、以下、判別ポイントと称する。この弱判別器によれば、正の判別ポイントに対応する、画素値の差分値の組合せの分布を示す画像は顔である可能性が高く、判別ポイントの絶対値が大きいほどその可能性は高まると言える。逆に、負の判別ポイントに対応する画素値の差分値の組合せの分布を示す画像は顔でない可能性が高く、やはり判別ポイントの絶対値が大きいほどその可能性は高まる。ステップＳＴ２２では、判別に使用され得る複数種類のペア群を構成する各ペアの所定の２点間の画素値の差分値の組合せについて、前記のヒストグラム形式の複数の弱判別器が作成される。

続いて、ステップＳＴ２２で作成した複数の弱半別器のうち、画像が顔画像であるか否かを判別するのに最も有効な弱判別器が選択される。最も有効な弱判別器の選択は、各サンプル画像の重みを考慮して行われる。この例では、各弱判別器の重み付き正答率が比較され、最も高い重み付き正答率を示す弱判別器が選択される（ステップＳＴ２３）。すなわち、最初のステップＳＴ２３では、各サンプル画像の重みは等しく１であるので、単純にその弱判別器によって画像が顔画像であるか否かが正しく判別されるサンプル画像の数が最も多いものが、最も有効な弱判別器として選択される。一方、後述するステップＳＴ２５において各サンプル画像の重みが更新された後の２回目のステップＳＴ２３では、重みが１のサンプル画像、重みが１よりも大きいサンプル画像、および重みが１よりも小さいサンプル画像が混在しており、重みが１よりも大きいサンプル画像は、正答率の評価において、重みが１のサンプル画像よりも重みが大きい分多くカウントされる。これにより、２回目以降のステップＳＴ２３では、重みが小さいサンプル画像よりも、重みが大きいサンプル画像が正しく判別されることに、より重点が置かれる。

次に、それまでに選択した弱判別器の組合せの正答率、すなわち、それまでに選択した弱判別器を組み合わせて使用して（学習段階では、弱判別器は必ずしも線形に結合させる必要はない）各サンプル画像が顔画像であるか否かを判別した結果が、実際に顔画像であるか否かの答えと一致する率が、所定の閾値を超えたか否かが確かめられる（ステップＳＴ２４）。ここで、弱判別器の組合せの正答率の評価に用いられるのは、現在の重みが付けられたサンプル画像群でも、重みが等しくされたサンプル画像群でもよい。所定の閾値を超えた場合は、それまでに選択した弱判別器を用いれば画像が顔であるか否かを十分に高い確率で判別できるため、学習は終了する。所定の閾値以下である場合は、それまでに選択した弱判別器と組み合わせて用いるための追加の弱判別器を選択するために、ステップＳＴ２６へと進む。

ステップＳＴ２６では、直近のステップＳＴ２３で選択された弱判別器が再び選択されないようにするため、その弱判別器が除外される。

次に、直近のステップＳＴ２３で選択された弱判別器では顔であるか否かを正しく判別できなかったサンプル画像の重みが大きくされ、画像が顔画像であるか否かを正しく判別できたサンプル画像の重みが小さくされる（ステップＳＴ２５）。このように重みを大小させる理由は、次の弱判別器の選択において、既に選択された弱判別器では正しく判別できなかった画像を重要視し、それらの画像が顔画像であるか否かを正しく判別できる弱判別器が選択されるようにして、弱判別器の組合せの効果を高めるためである。

続いて、ステップＳＴ２３へと戻り、前記したように重み付き正答率を基準にして次に有効な弱判別器が選択される。

以上のステップＳＴ２３からＳ２６を繰り返して、顔画像であるか否かを判別するのに適した弱判別器として、特定のペア群を構成する各ペアの所定の２点間の画素値の差分値の組合せに対応する弱判別器が選択されたところで、ステップＳＴ２４で確認される正答率が閾値を超えたとすると、顔画像であるか否かの判別に用いる弱判別器の種類と判別条件とが確定され（ステップＳＴ２７）、これにより学習を終了する。なお、選択された弱判別器は、その重み付き正答率が高い順に線形結合され、１つの判別器が構成される。また、各弱判別器については、それぞれ得られたヒストグラムを基に、画素値の差分値の組合せに応じてスコアを算出するためのスコアテーブルが生成される。なお、ヒストグラム自身をスコアテーブルとして用いることもでき、この場合、ヒストグラムの判別ポイントがそのままスコアとなる。

このようにして、顔サンプル画像群と非顔サンプル画像群とを用いた学習により、判別器が生成されるわけであるが、前記のように、判別したい顔の傾きおよび向き毎に異なる複数の判別器を生成するには、顔の各傾きおよび各向きに対応した複数種類の顔サンプル画像群を用意し、その顔サンプル画像群と非顔サンプル画像群とを用いた学習を顔サンプル画像群の種類毎に行うこととなる。

すなわち、本実施形態においては、顔の向きについては、正面、左横、右横の計３種類、傾きについては、回転角度０度から３３０度まで３０度刻みの計１２種類、合計３６種類の顔サンプル画像群を用意する。

前記の複数の顔サンプル画像群が得られたら、顔サンプル画像群の種類毎に、その顔サンプル画像群と非顔サンプル画像群とを用いて、前記の学習を行うことにより、判別器群３３を構成する複数の判別器を生成することができる。

このように、顔の向き毎に、かつ、顔の傾き毎に学習された複数の判別器を用いることにより、多種の傾きおよび向きの顔を含む顔画像を判別することが可能となる。

なお、前記の学習手法を採用する場合において、弱判別器は、特定のペア群を構成する各ペアの所定の２点間の画素値の差分値の組合せを用いて顔の画像と顔でない画像とを判別する基準を提供するものであれば、前記のヒストグラムの形式のものに限られずいかなるものであってもよく、例えば２値データ、閾値または関数等であってもよい。また、同じヒストグラムの形式であっても、図１１の中央に示した２つのヒストグラムの差分値の分布を示すヒストグラム等を用いてもよい。

また、学習の方法としては前記手法に限定されるものではなく、ニューラルネットワーク等他のマシンラーニングの手法を用いることができる。

顔画像削除部３４は、前記信頼性の高い顔画像が検出されて、検出すべき顔の傾きを所定の傾きに限定した場合、判別器群３３によって検出されたすべての顔画像の候補Ｄiの中の、検出すべき傾きを限定する前に検出された顔画像の候補のうち、限定した傾きとは異なる傾きの顔画像の候補を非顔画像として削除し、残った顔画像の候補を顔画像Ｓ２として決定するものである。このようにすれば、既に顔画像の候補として検出された画像のうち、真の顔画像である可能性が低い画像を排除することができ、誤検出を抑制することができる。

重複検出判定部４０は、各解像度画像上で検出された顔画像Ｓ２の各々に対して、顔画像の位置関係から、その顔画像が、検出対象画像Ｓ０上では同一の顔を表す顔画像であって解像度の隣接する複数の解像度画像上で重複して検出されたものであるか否かを判定し、重複して検出されたと認められる複数の顔画像を１つにまとめる処理を行い、重複検出のない真の顔画像Ｓ３を出力するものである。

検出対象画像Ｓ０を多重解像度化して複数の解像度画像を得る際には、顔画像の検出漏れを防ぐため、隣接する解像度画像間での解像度のギャップは、あまり大きくとることができない。また、判別器は、通常、判別可能な顔の大きさとしてある程度の許容範囲を有している。このような場合、検出対象画像Ｓ０上の同一の顔が、隣接する複数の解像度画像において重複して検出される場合がある。重複検出判定部４０による前記の処理は、このような重複検出を排除し、正確な検出結果を得るために行われる処理である。

次に、第１の実施形態による顔検出システム１における処理の流れについて説明する。

図１３ａ，１３ｂは、第１の実施形態による顔検出システム１における処理の流れを示したフローチャートである。これらの図に示すように、本システムに検出対象画像Ｓ０が供給されると（ステップＳＴ３１）、多重解像度化部１０が、この検出対象画像Ｓ０の画像サイズが所定のサイズに変換された画像Ｓ０′を生成し、この画像Ｓ０′から２の−１／３乗倍ずつサイズ（解像度）が縮小された複数の解像度画像からなる解像度画像群Ｓ１が生成される（ステップＳＴ３２）。そして、正規化部２０が、解像度画像群Ｓ１の各解像度化像に対して、上述の全体正規化処理と局所正規化処理を施し、正規化済みの解像度画像群Ｓ１′を得る（ステップＳＴ３３）。

次に、顔検出部３０の解像度画像選択部３１が、解像度画像群Ｓ１′の中から画像サイズの小さい順、すなわち、Ｓ１′_M，Ｓ１′_M-1，・・・，Ｓ１′_1の順に所定の解像度画像Ｓ１′_mを１つ選択する（ステップＳＴ３４）。サブウィンドウ設定部３２は、選択された解像度画像Ｓ１′_m上でサブウィンドウを所定のピッチ、例えば２画素間隔で移動しながら順番に設定して所定サイズの部分画像Ｗを切り出す（ステップＳＴ３５）。そして、検出すべき顔の傾きを所定の順序で１つ設定し（ステップＳＴ３６）、すなわち、判別すべき顔の傾きがこの設定された顔の傾きである所定の判別器を選択し、切り出された現在の部分画像Ｗをこの選択された判別器に入力する（ステップＳＴ３７）。部分画像Ｗが入力された判別器は、複数の弱判別器を用いて、部分画像Ｗがその判別器に対応する所定の傾きおよび向きの顔を含む顔画像である蓋然性を示すスコアｓｃを算出し（ステップＳＴ３８）、算出されたスコアｓｃが第１の閾値Ｔｈ１以上であるときに、この部分画像Ｗを顔画像の候補Ｄiとして抽出する（ステップＳＴ３９）。

サブウィンドウ設定部３２は、顔画像の候補Ｄiが抽出された場合に、検出すべき顔の傾きが既に限定されているか否かを判定し（ステップＳＴ４０）、検出すべき顔の傾きが既に限定されていると判定された場合には、ステップＳＴ４３に移行する。一方、検出すべき顔の傾きが未だ限定されていないと判定された場合には、さらに、その算出されたスコアｓｃが第１の閾値Ｔｈ１より大きい第２の閾値Ｔｈ２以上であるか否かを判定する（ステップＳＴ４１）。ここで、スコアｓｃが第２の閾値Ｔｈ２以上であると判定された場合には、これ以降に設定する検出すべき顔の傾きを、当該スコアが算出されたときの特定の顔の傾きに限定する設定を行う（ステップＳＴ４２）。

そして、現在設定されている検出すべき顔の傾きが、順番として最後の傾きであるか否かを判定し（ステップＳＴ４３）、現在設定されている顔の傾きが最後の傾きでないと判定された場合には、ステップＳＴ３６に戻り、検出すべき顔の傾きとして次の順番となる新たな傾きを設定し、すなわち、判別すべき顔の傾きがこの設定された傾きである所定の判別器を選択し、切り出された現在の部分画像Ｗをこの選択された判別器に入力する。一方、現在設定されている検出すべき顔の傾きが最後の傾きであると判定された場合には、ステップＳＴ４４に移行する。

ステップＳＴ４４では、現在の部分画像Ｗが現在の解像度画像上で最後の部分画像であるか否かを判定する。ここで、現在の部分画像Ｗが最後の部分画像でないと判定された場合には、ステップＳＴ３５に戻り、現在の解像度画像上で新たな部分画像Ｗを切り出し、検出処理を続行する。一方、現在の部分画像Ｗが最後の部分画像であると判定された場合には、ステップＳＴ４５に移行する。

ステップＳＴ４５では、顔像度画像選択部３１が、現在の解像度画像が最後の解像度画像であるか否かを判定する。ここで、現在の解像度画像が最後の解像度画像でないと判定された場合には、ステップＳＴ３４に戻り、新たな解像度画像を選択し、顔画像の検出処理を続行する。一方、現在の解像度画像が最後の解像度画像であると判定された場合には、ステップＳＴ４６に移行する。

ステップＳＴ４６では、顔画像削除部３４が、検出すべき顔の傾きが限定された場合に、検出されたすべての顔画像の候補Ｄiの中の、検出すべき顔の傾きが限定される前に検出された顔画像の候補のうち、限定された傾きとは異なる傾きの顔を含む顔画像の候補を非顔画像として削除するとともに、残りの顔画像の候補を顔画像Ｓ２として決定する。

そして、重複検出判定部４０が、検出された顔画像Ｓ２の位置関係に基づいて、顔画像Ｓ２の各々に対して、その顔画像が、入力された検出対象画像Ｓ０上では同一の顔を表す顔画像であって解像度の隣接する複数の解像度画像上で重複して検出されたものであるか否かを判定し、重複して検出されたと認められる複数の顔画像を１つにまとめる処理を行い、重複検出のない顔画像Ｓ３を得る（ステップＳＴ４７）。

図１４は、前記のステップＳＴ３４からステップＳＴ４５までを繰り返すことにより、解像度画像がサイズの小さい順に選択されて、各解像度画像Ｓ１′_m上で部分画像Ｗが順次切り出され、顔検出が実施される様子を示した図である。

また、図１５は、解像度画像Ｓ１′_m上で各部分画像Ｗ毎に検出すべき顔の傾きを変えながら顔検出を行い、途中、スコアｓｃが第２の閾値Ｔｈ２以上である信頼性の高い顔画像の候補Ｄiが検出されたら、それ以降、検出すべき顔の傾きをその傾きに固定して、検出処理を続行する様子の一例を示した図である。なおこの例では、各部分画像Ｗ毎に、検出すべき顔の傾きを(1)０度，(2)３３０度，(3)３０度，・・・，(10)１８０度，(11)１５０度，(12)２１０度の順序で判別してゆき、途中、検出すべき顔の傾きが(3)３０度のとき、ｓｃ≧Ｔｈ２で顔画像の候補Ｄiが検出され、その後、検出すべき顔の傾きを(3)３０度に固定して顔検出を続行した場合を示している。

このような第１の実施形態による顔検出システムによれば、入力画像上で検出すべき顔の位置および傾きを変えながら、検出すべき顔の位置および傾き毎に、当該位置における部分画像が当該傾きの顔を含む顔画像である蓋然性を示す指標値を算出し、その指標値が第１の閾値以上である部分画像を顔画像として抽出することにより、入力画像に含まれる顔画像を検出する顔検出処理において、算出された指標値が前記第１の閾値より大きい第２の閾値以上であったとき、その後の指標値の算出を、検出すべき顔の傾きを当該指標値が算出されたときの傾きに限定して行うようにしているので、誤検出されたものでなく真の顔画像とみなすことができる信頼性の高い顔画像が検出された場合には、同一画像上に含まれる顔の傾きは略同じ傾きに揃うことが多いという経験則に基づいて、顔画像が検出される可能性が低くその必要性が乏しいと考えられる、前記信頼性の高い顔画像の顔の傾きとは異なる顔の傾きに対する検出処理を省略することができ、顔検出処理の高速化を実現することが可能となる。

次に、本発明の第２の実施形態である顔検出システムについて説明する。

第２の実施形態による顔検出システムの構成およびその構成要素の機能は、基本的に、第１の実施形態による顔検出システムと同様であるが、サブウィンドウ設定部３２の処理が若干異なるものである。

すなわち、本実施形態におけるサブウィンドウ設定部３２は、第１の実施形態と同様に、切り出した１つの部分画像Ｗを所定の順序で選択された各判別器に順次入力してゆき、検出すべき全ての顔の位置および傾きについてスコア算出および判別を行うようにするのであるが、途中、いずれかの判別器によって算出されたスコアｓｃが、第１の閾値Ｔｈ１より大きい第２の閾値Ｔｈ２以上であったとき、その後のスコア算出および判別を、検出すべき顔の傾きを“そのスコアが算出されたときの傾きが属するグループ内の傾き”に限定して行うべく、部分画像Ｗを入力する判別器を、判別すべき顔の傾きが“そのグループ内の傾き”である判別器に限定するものである。

この場合、第２の閾値Ｔｈ２以上のスコアで顔画像の候補が検出された後、すなわち、信頼性の高い顔画像の候補が検出された後に限定する、検出すべき顔の傾きを、その信頼性の高い顔画像の候補の顔の傾きだけとせず、当該顔の傾きに近接する傾きにまで幅を広げて限定するようにしているので、入力画像上に被写体の姿勢等の違いによって顔の傾きが少しずれた複数の顔が存在する場合であっても、このような顔を検出できる確率が高くなる。

図１６ａ，１６ｂは、第２の実施形態による顔検出システム１における処理の流れを示したフローチャートである。これらの図に示すように、本システムに検出対象画像Ｓ０が供給されると（ステップＳＴ５１）、多重解像度化部１０が、この検出対象画像Ｓ０の画像サイズが所定のサイズに変換された画像Ｓ０′を生成し、この画像Ｓ０′から２の−１／３乗倍ずつサイズ（解像度）が縮小された複数の解像度画像からなる解像度画像群Ｓ１が生成される（ステップＳＴ５２）。そして、正規化部２０が、解像度画像群Ｓ１の各解像度化像に対して、上述の全体正規化処理と局所正規化処理を施し、正規化済みの解像度画像群Ｓ１′を得る（ステップＳＴ５３）。

次に、顔検出部３０の解像度画像選択部３１が、解像度画像群Ｓ１′の中から画像サイズの小さい順、すなわち、Ｓ１′_M，Ｓ１′_M-1，・・・，Ｓ１′_1の順に所定の解像度画像Ｓ１′_mを１つ選択する（ステップＳＴ５４）。サブウィンドウ設定部３２は、選択された解像度画像Ｓ１′_m上でサブウィンドウを所定のピッチ、例えば２画素間隔で移動しながら順番に設定して所定サイズの部分画像Ｗを切り出す（ステップＳＴ５５）。そして、検出すべき顔の傾きを前記グループ単位で設定し（ステップＳＴ５６）、すなわち、判別すべき顔の傾きがこの設定されたグループに属する傾きである所定の判別器を選択し、切り出された現在の部分画像Ｗをこの選択された判別器に入力する（ステップＳＴ５７）。部分画像Ｗが入力された判別器は、複数の弱判別器を用いて、部分画像Ｗがその判別器に対応する所定の傾きおよび向きの顔を含む顔画像である蓋然性を示すスコアｓｃを算出し（ステップＳＴ５８）、算出されたスコアｓｃが第１の閾値Ｔｈ１以上であるときに、この部分画像Ｗを顔画像の候補Ｄiとして抽出する（ステップＳＴ５９）。

サブウィンドウ設定部３２は、顔画像の候補Ｄiが抽出された場合に、検出すべき顔の傾きが既に限定されているか否かを判定し（ステップＳＴ６０）、検出すべき顔の傾きが既に限定がされていると判定された場合には、ステップＳＴ６３に移行する。一方、検出すべき顔の傾きが未だ限定されていないと判定された場合には、さらに、その算出されたスコアｓｃが第１の閾値Ｔｈ１より大きい第２の閾値Ｔｈ２以上であるか否かを判定する（ステップＳＴ６１）。ここで、スコアｓｃが第２の閾値Ｔｈ２以上であると判定された場合には、これ以降に設定する検出すべき顔の傾きを、現在設定されている顔の傾きのグループに限定する設定を行う（ステップＳＴ６２）。

そして、現在設定されている検出すべき顔の傾きのグループが、順番として最後のグループであるか否かを判定し（ステップＳＴ６３）、現在設定されているグループが最後のグループでないと判定された場合には、ステップＳＴ５６に戻り、検出すべき顔の傾きのグループとして次の順番となる新たなグループを設定して、判別すべき顔の傾きがこの設定されたグループに属する傾きである所定の判別器を選択し、切り出された現在の部分画像Ｗをこの選択された判別器に入力する。一方、現在設定されているグループが最後のグループであると判定された場合には、ステップＳＴ６４に移行する。

ステップＳＴ６４では、現在の部分画像Ｗが現在の解像度画像上で最後の部分画像であるか否かを判定する。ここで、現在の部分画像Ｗが最後の部分画像でないと判定された場合には、ステップＳＴ５５に戻り、現在の解像度画像上で新たな部分画像Ｗを切り出し、検出処理を続行する。一方、現在の部分画像Ｗが最後の部分画像であると判定された場合には、ステップＳＴ６５に移行する。

ステップＳＴ６５では、顔像度画像選択部３１が、現在の解像度画像が最後の解像度画像であるか否かを判定する。ここで、現在の解像度画像が最後の解像度画像でないと判定された場合には、ステップＳＴ５４に戻り、新たな解像度画像を選択し、顔画像の検出処理を続行する。一方、現在の解像度画像が最後の解像度画像であると判定された場合には、ステップＳＴ６６に移行する。

ステップＳＴ６６では、顔画像削除部３４が、検出すべき顔の傾きがいずれかのグループに限定された場合に、検出されたすべての顔画像の候補Ｄiの中の、検出すべき顔の傾きが限定される前に検出された顔画像のうち、限定された傾きとは異なる傾きの顔を含む顔画像の候補を非顔画像として削除するとともに、残りの顔画像の候補を顔画像Ｓ２として決定する。

そして、重複検出判定部４０が、検出された顔画像Ｓ２の位置関係に基づいて、顔画像Ｓ２の各々に対して、その顔画像が、入力された検出対象画像Ｓ０上では同一の顔を表す顔画像であって解像度の隣接する複数の解像度画像上で重複して検出されたものであるか否かを判定し、重複して検出されたと認められる複数の顔画像を１つにまとめる処理を行い、重複検出のない顔画像Ｓ３を得る（ステップＳＴ６７）。

図１７は、解像度画像Ｓ１′_m上で各部分画像Ｗ毎に検出すべき顔の傾きをグループ単位で変えながら顔検出を行い、途中、スコアｓｃが第２の閾値Ｔｈ２以上である信頼性の高い顔画像の候補Ｄiが検出されたら、それ以降、検出すべき顔の傾きのグループをその傾きが属するグループに限定して、検出処理を続行する様子の一例を示した図である。なおこの例では、各部分画像Ｗ毎に、検出すべき顔の傾きを第１のグループ（(1)０度，(2)３３０度，(3)３０度），・・・，第４のグループ（(10)１８０度，(11)１５０度，(12)２１０度）の順序で判別してゆき、途中、検出すべき顔の傾きが(3)３０度のとき、ｓｃ≧Ｔｈ２で顔画像の候補Ｄiが検出され、その後、検出すべき顔の傾きを(3)３０度が属する第１のグループに限定して顔検出を続行した場合を示している。

このような第２の実施形態による顔検出システムによれば、入力画像上で検出すべき顔の位置および傾きを変えながら、検出すべき顔の位置および傾き毎に、当該位置における部分画像が当該傾きの顔を含む顔画像である蓋然性を示す指標値を算出し、その指標値が第１の閾値以上である部分画像を顔画像として抽出することにより、入力画像に含まれる顔画像を検出する顔検出処理において、検出すべき全ての顔の傾きを、近接する複数の異なる傾きからなる複数のグループに分割し、指標値の算出を当該グループ毎に行い、算出された指標値が前記第１の閾値より大きい第２の閾値以上であったとき、その後の指標値の算出を、検出すべき顔の傾きを当該指標値が算出されたときの傾きが属するグループ内の傾きに限定して行うようにしているので、誤検出されたものでなく真の顔画像とみなすことができる信頼性の高い顔画像が検出された場合には、同一画像上に含まれる顔の傾きは略同じ傾きに揃うことが多いという経験則に基づいて、顔画像が検出される可能性が低くその必要性が乏しいと考えられる、前記信頼性の高い顔画像の顔の傾きが属するグループとは異なるグループの顔の傾きに対する検出処理を省略することができ、顔検出処理の高速化を実現することが可能となる。

次に、本発明の第３の実施形態である顔検出システムについて説明する。

第１および第２の実施形態では、検出すべき顔の位置毎に検出すべき顔の傾きを変えて顔画像を検出するようにしているが、この第３の実施形態は、検出すべき顔の傾き毎に検出すべき顔の位置を変えて、顔画像を検出するようにしたものである。

この第３の実施形態による顔検出システムは、第２の実施形態の場合と同様、図１の示すように、多重解像度化部１０、正規化部２０、顔検出部３０、重複検出判定部４０により構成されており、さらに、顔検出部３０は、解像度画像選択部３１、サブウィンドウ設定部３２、判別器群３３、顔画像削除部３４により構成されるものであるが、顔検出部３０における処理が、第２の実施形態とは異なるものである。

この第３の実施形態において、判別器群３３は、第２の実施形態と同様に、合計３６種類（顔の傾きが、０度から３３０度まで３０度刻みの計１２種類、顔の向きが、正面、左横、右横の計３種類）の判別器により構成されており、検出すべき顔の傾きについても、図１２に示すように、近接する複数の異なる傾きからなる複数のグループ、すなわち、検出すべき顔の傾きが０度、３３０度、３０度である第１のグループ、検出すべき顔の傾きが９０度、６０度、１２０度である第２のグループ、検出すべき顔の傾きが２７０度、２４０度、３００度である第３のグループ、検出すべき顔の傾きが１８０度、１５０度、２１０度である第４のグループに分割されている。

そして、サブウィンドウ設定部３２が、検出すべき顔の傾きを第１のグループから第４のグループまでグループ単位で順番に設定し、設定された検出すべき顔の傾きに対応した判別器に、解像度画像上で切り出した部分画像Ｗを順次入力し、部分画像Ｗが入力された判別器が、その部分画像Ｗが顔画像であるか否かを判別して顔画像の候補Ｄiを検出する。

このとき、ある顔の傾きのグループに対応した判別器により、信頼するに足るほど十分高いスコアである第２の閾値Ｔｈ２以上のスコアが算出されて信頼性の高い顔画像の候補が検出された場合には、サブウィンドウ設定部３２は、以後、部分画像Ｗに適用する順番がそれ以降となる傾きのグループに対応する判別器については適用しないようにする。すなわち、検出すべき顔の傾きをその信頼性の高い顔画像の候補における顔の傾きと略同じ傾きに固定する。このようにする理由は、上述のように、ひとつの画像上に複数の顔が含まれる場合には、各顔の傾き（画像上の回転位置）が揃う場合が多いという経験則に基づき、用いる順番がそれ以降となるグループの判別器に対応する顔の傾きについては、顔画像の検出を省略することができ、これにより、顔検出の高速化を図ることができるからである。ただし、首をかしげている顔等にも対処するため、±３０度程度の傾きのバラツキを許容できるように、上記のように、検出すべき顔の傾きを近接する複数の異なる傾きからなるグループ毎にまとめ、グループ単位で顔画像を検出するようにしている。

具体例を挙げると、例えば、第１のグループに対応した判別器を用いて顔画像の候補を検出した後、第２のグループのうち検出すべき顔の傾きが６０度である場合に対応する判別器を用いて顔画像の候補を検出しているときに、第２の閾値Ｔｈ２以上のスコアが算出され、信頼性の高い顔画像の候補が検出された場合には、用いる順番がそれ以降となる第３、第４のグループに対応する判別器はその後用いない。各グループについての平均的な検出処理時間を１とすると、上記のような検出すべき顔の傾きの固定を行わない場合には、１×４方向＝４の時間がかかるのに対し、上記のような検出すべき顔の傾きの固定を行う場合には、各グループに対応する判別器を適用して顔画像の候補が検出される確率が顔の傾きに依らず等しいと仮定する（すなわち、各グループについて顔が検出される確率が1/4であるとする）と、計算時間の期待値は、１×1/4＋２×1/4＋３×1/4＋４×1/4＝２．５となり、上記のような検出すべき顔の傾きの固定を行う場合の方が、検出処理時間が短くより高速である。

また、信頼性の高い顔画像の候補が検出された場合には、それ以前のグループに対応する判別器を用いて検出された顔画像の候補については、誤検出とみなして削除するようにする。上記のような検出すべき顔の傾きの固定を行う場合には、例えば、第２のグループに対応する判別器を用いた際に信頼性の高い顔画像の候補が検出されて、検出すべき顔の傾きの固定が行われたときには、第３、第４のグループに対応する判別器は用いず、これらのグループに属する傾きの顔については検出が行われないため、これらの傾きの顔については誤検出が発生することはない。しかし、第１のグループに対応する判別器を用いた際には、スコアが比較的低い顔画像の候補が検出されている可能性がある。それらは誤検出である可能性が高いと考えることができるため、第１のグループに対応する判別器による検出結果は誤検出とみなして削除することで、誤検出抑制が実現できる。

次に、本発明の第４の実施形態である顔検出システムについて説明する。

第４の実施形態による顔検出システムの構成およびその構成要素の機能は、基本的に、第１の実施形態による顔検出システムと同様であるが、解像度画像選択部３１の処理が若干異なるものである。

すなわち、本実施形態では、第１の実施形態と同様に、解像度画像選択部３１が多重解像度化部１０により生成された複数の解像度画像を１つずつ選択し、その選択された解像度画像上でサブウィンドウ設定部３２が切り出した１つの部分画像Ｗを所定の順序で選択された各判別器に順次入力してゆき、検出すべき全ての顔の位置および傾きについてスコア算出および判別を行うようにするのであるが、途中、いずれかの判別器によって算出されたスコアｓｃが、第１の閾値Ｔｈ１より大きい第２の閾値Ｔｈ２以上であったとき、その後のスコア算出および判別を、検出すべき顔の大きさ、すなわち、“そのスコアが算出されたときの顔の大きさに対応する解像度画像”に限定して行うものである。

図１８ａ，１８ｂは、第４の実施形態による顔検出システム１における処理の流れを示したフローチャートである。これらの図に示すように、本システムに検出対象画像Ｓ０が供給されると（ステップＳＴ７１）、多重解像度化部１０が、この検出対象画像Ｓ０の画像サイズが所定のサイズに変換された画像Ｓ０′を生成し、この画像Ｓ０′から２の−１／３乗倍ずつサイズ（解像度）が縮小された複数の解像度画像からなる解像度画像群Ｓ１が生成される（ステップＳＴ７２）。そして、正規化部２０が、解像度画像群Ｓ１の各解像度化像に対して、上述の全体正規化処理と局所正規化処理を施し、正規化済みの解像度画像群Ｓ１′を得る（ステップＳＴ７３）。

次に、顔検出部３０の解像度画像選択部３１が、解像度画像群Ｓ１′の中から画像サイズの小さい順、すなわち、Ｓ１′_M，Ｓ１′_M-1，・・・，Ｓ１′_1の順に所定の解像度画像Ｓ１′_mを１つ選択することにより、検出すべき顔の大きさを選択する（ステップＳＴ７４）。サブウィンドウ設定部３２は、選択された解像度画像Ｓ１′_m上でサブウィンドウを所定のピッチ、例えば２画素間隔で移動しながら順番に設定して所定サイズの部分画像Ｗを切り出す（ステップＳＴ７５）。そして、検出すべき顔の傾きを所定の順序で１つ設定し（ステップＳＴ７６）、すなわち、判別すべき顔の傾きがこの設定された顔の傾きである所定の判別器を選択し、切り出された現在の部分画像Ｗをこの選択された判別器に入力する（ステップＳＴ７７）。部分画像Ｗが入力された判別器は、複数の弱判別器を用いて、部分画像Ｗがその判別器に対応する所定の傾きおよび向きの顔を含む顔画像である蓋然性を示すスコアｓｃを算出し（ステップＳＴ７８）、算出されたスコアｓｃが第１の閾値Ｔｈ１以上であるときに、この部分画像Ｗを顔画像の候補Ｄiとして抽出する（ステップＳＴ７９）。

サブウィンドウ設定部３２は、顔画像の候補Ｄiが抽出された場合に、検出すべき顔の大きさが既に限定されているか否かを判定し（ステップＳＴ８０）、検出すべき顔の大きさが既に限定されていると判定された場合には、ステップＳＴ４３に移行する。一方、検出すべき顔の大きさが未だ限定されていないと判定された場合には、さらに、その算出されたスコアｓｃが第１の閾値Ｔｈ１より大きい第２の閾値Ｔｈ２以上であるか否かを判定する（ステップＳＴ８１）。ここで、スコアｓｃが第２の閾値Ｔｈ２以上であると判定された場合には、これ以降に設定する検出すべき顔の大きさを、当該スコアが算出されたときの特定の顔の大きさと当該大きさから１段階大きい大きさに限定する設定を行う（ステップＳＴ４２）。

そして、現在設定されている検出すべき顔の傾きが、順番として最後の傾きであるか否かを判定し（ステップＳＴ８３）、現在設定されている顔の傾きが最後の傾きでないと判定された場合には、ステップＳＴ７６に戻り、検出すべき顔の傾きとして次の順番となる新たな傾きを設定し、すなわち、判別すべき顔の傾きがこの設定された傾きである所定の判別器を選択し、切り出された現在の部分画像Ｗをこの選択された判別器に入力する。一方、現在設定されている検出すべき顔の傾きが最後の傾きであると判定された場合には、ステップＳＴ８４に移行する。

ステップＳＴ８４では、現在の部分画像Ｗが現在の解像度画像上で最後の部分画像であるか否かを判定する。ここで、現在の部分画像Ｗが最後の部分画像でないと判定された場合には、ステップＳＴ７５に戻り、現在の解像度画像上で新たな部分画像Ｗを切り出し、検出処理を続行する。一方、現在の部分画像Ｗが最後の部分画像であると判定された場合には、ステップＳＴ８５に移行する。

ステップＳＴ８５では、顔像度画像選択部３１が、現在の解像度画像が最後の解像度画像であるか否かを判定する。すなわち、既にすべての解像度画像に対して顔検出処理を行ったか、もしくは、検出すべき顔の大きさがステップ８２により限定されることにより、次に顔検出処理を行うべき解像度画像があるか否かを判定する。ここで、現在の解像度画像が最後の解像度画像でないと判定された場合には、ステップＳＴ７４に戻り、新たな解像度画像を選択し、顔画像の検出処理を続行する。一方、現在の解像度画像が最後の解像度画像であると判定された場合には、ステップＳＴ８６に移行する。

ステップＳＴ８６では、顔画像削除部３４が、検出すべき顔の大きさを限定する設定がなされた場合に、検出されたすべての顔画像の候補Ｄiの中のうち、検出すべき顔の大きさが検出すべき顔の大きさを限定する設定がなされたときに選択されていた、検出すべき顔の大きさおよび当該大きさ±１段階異なる大きさとは異なる大きさの顔を含む顔画像の候補を非顔画像として削除するとともに、残りの顔画像の候補を顔画像Ｓ２として決定する。

そして、重複検出判定部４０が、検出された顔画像Ｓ２の位置関係に基づいて、顔画像Ｓ２の各々に対して、その顔画像が、入力された検出対象画像Ｓ０上では同一の顔を表す顔画像であって解像度の隣接する複数の解像度画像上で重複して検出されたものであるか否かを判定し、重複して検出されたと認められる複数の顔画像を１つにまとめる処理を行い、重複検出のない顔画像Ｓ３を得る（ステップＳＴ８７）。

このような第４の実施形態による顔検出システムによれば、入力画像上で検出すべき顔の位置および大きさを変えながら、検出すべき顔の位置および大きさ毎に、当該位置における部分画像が当該大きさの顔を含む顔画像である蓋然性を示す指標値を算出し、その指標値が第１の閾値以上である部分画像を顔画像として抽出することにより、入力画像に含まれる顔画像を検出する顔検出処理において、算出された指標値が前記第１の閾値より大きい第２の閾値以上であったとき、その後の指標値の算出を、検出すべき顔の大きさを当該指標値が算出されたときの大きさに限定して行うようにしているので、誤検出されたものでなく真の顔画像とみなすことができる信頼性の高い顔画像が検出された場合には、同一画像上に含まれる顔の大きさは略同じ大きさに揃うことが多いという経験則に基づいて、顔画像が検出される可能性が低くその必要性が乏しいと考えられる、前記信頼性の高い顔画像の顔の大きさとは異なる顔の大きさに対する検出処理を省略することができ、顔検出処理の高速化を実現することが可能となる。

以上、本発明の実施形態に係る顔検出システムについて説明したが、この顔検出システムのうちの本発明の顔検出装置に対応する部分における各処理をコンピュータに実行させるためのプログラムも、本発明の実施形態の１つである。また、そのようなプログラムを記録したコンピュータ読取可能な記録媒体も、本発明の実施形態の１つである。

顔検出システム１の構成を示すブロック図検出対象画像の多重解像度化の工程を示す図全体正規化処理に用いる変換曲線の一例を示す図局所正規化処理の概念を示す図局所正規化処理のフローを示す図判別器群の構成を示すブロック図判別器における処理フローを示す図弱判別器における特徴量の算出を説明するための図判別器の学習方法を示すフローチャート目の位置が所定の位置にくるように規格化された顔のサンプル画像を示す図弱判別器のヒストグラムを導出する方法を示す図検出すべき顔の傾きがその傾きに応じてグループ分けされる様子を示す図第１の実施形態による顔検出システム１における処理を示すフローチャート（前半部）第１の実施形態による顔検出システム１における処理を示すフローチャート（後半部）顔検出対象となる解像度画像の切替えとその画像上でのサブウィンドウの移動を説明するための図解像度画像上で信頼性の高い顔画像が検出された後、検出すべき顔の傾きをその傾きに固定して検出処理を続行する様子を示した図第２の実施形態による顔検出システム１における処理を示すフローチャート（前半部）第２の実施形態による顔検出システム１における処理を示すフローチャート（後半部）解像度画像上で信頼性の高い顔画像が検出された後、検出すべき顔の傾きのグループをその傾きが属するグループに限定して検出処理を続行する様子を示した図第４の実施形態による顔検出システム１における処理を示すフローチャート（前半部）第４の実施形態による顔検出システム１における処理を示すフローチャート（後半部）

符号の説明

１顔検出システム
１０多重解像度化部
２０正規化部
３０顔検出部
３１解像度画像選択部
３２サブウィンドウ設定部（指標値算出手段）
３３判別器群（指標値算出手段，顔画像抽出手段）
３４顔画像削除部（顔画像削除手段）
４０重複検出判定部

Claims

入力画像上で検出すべき顔の位置および傾きを変えながら、前記検出すべき顔の位置および傾き毎に、該位置における部分画像が該傾きの顔を含む顔画像である蓋然性を示す指標値を算出し、該指標値が第１の閾値以上である前記部分画像を顔画像として抽出することにより、前記入力画像に含まれる顔画像を検出する顔検出方法において、
算出された前記指標値が前記第１の閾値より大きい第２の閾値以上であったとき、その後の前記指標値の算出を、前記検出すべき顔の傾きを該指標値が算出されたときの傾きに限定して行うことを特徴とする顔検出方法。
検出すべき全ての顔の傾きを、近接する複数の異なる傾きからなる複数のグループに分割し、前記指標値の算出を該グループ毎に行うことを特徴とする請求項１記載の顔検出方法。
入力画像上で検出すべき顔の位置および傾きを変えながら、前記検出すべき顔の位置および傾き毎に、該位置における部分画像が該傾きの顔を含む顔画像である蓋然性を示す指標値を算出し、該指標値が第１の閾値以上である前記部分画像を顔画像として抽出することにより、前記入力画像に含まれる顔画像を検出する顔検出方法において、
検出すべき全ての顔の傾きを、近接する複数の異なる傾きからなる複数のグループに分割し、前記指標値の算出を該グループ毎に行い、
算出された前記指標値が前記第１の閾値より大きい第２の閾値以上であったとき、その後の前記指標値の算出を、前記検出すべき顔の傾きを該指標値が算出されたときの傾きが属するグループ内の傾きに限定して行うことを特徴とする顔検出方法。
前記検出すべき顔の傾きを限定する前に検出された顔画像のうち、限定された前記傾きとは異なる傾きの顔を含む顔画像を非顔画像として削除することを特徴とする請求項１、２または３記載の顔検出方法。
前記複数のグループが、前記入力画像の天地方向を基準としたときの、０度、９０度、１８０度および２７０度の傾きをそれぞれ別々に含む４つのグループからなるものであることを特徴とする請求項２、３または４記載の顔検出方法。
前記検出すべき顔の傾きを限定する前において、前記検出すべき顔の傾きを、前記１８０度の傾きを含むグループを最後とする所定の順序で変えることを特徴とする請求項５記載の顔検出方法。
入力画像上で検出すべき顔の位置および大きさを変えながら、前記検出すべき顔の位置および大きさ毎に、該位置における部分画像が該大きさの顔を含む顔画像である蓋然性を示す指標値を算出し、該指標値が第１の閾値以上である前記部分画像を顔画像として抽出することにより、前記入力画像に含まれる顔画像を検出する顔検出方法において、
算出された前記指標値が前記第１の閾値より大きい第２の閾値以上であったとき、その後の前記指標値の算出を、前記検出すべき顔の大きさを該指標値が算出されたときの大きさに限定して行うことを特徴とする顔検出方法。
入力画像上で検出すべき顔の位置および傾きを変えながら、前記検出すべき顔の位置および傾き毎に、該位置における部分画像が該傾きの顔を含む顔画像である蓋然性を示す指標値を算出する指標値算出手段と、該指標値が第１の閾値以上である前記部分画像を顔画像として抽出する顔画像抽出手段とを備え、前記入力画像に含まれる顔画像を検出する顔検出装置において、
前記指標値算出手段が、算出された前記指標値が前記第１の閾値より大きい第２の閾値以上であったとき、その後の前記指標値の算出を、前記検出すべき顔の傾きを該指標値が算出されたときの傾きに限定して行うものであることを特徴とする顔検出装置。
前記指標値算出手段が、前記指標値の算出を、検出すべき全ての顔の傾きを近接する複数の異なる傾きからなる複数のグループに分割したときの該グループ毎に行うものであることを特徴とする請求項８記載の顔検出装置。
入力画像上で検出すべき顔の位置および傾きを変えながら、前記検出すべき顔の位置および傾き毎に、該位置における部分画像が該傾きの顔を含む顔画像である蓋然性を示す指標値を算出する指標値算出手段と、該指標値が第１の閾値以上である前記部分画像を顔画像として抽出する顔画像抽出手段とを備え、前記入力画像に含まれる顔画像を検出する顔検出装置において、
前記指標値算出手段が、前記指標値の算出を、検出すべき全ての顔の傾きを近接する複数の異なる傾きからなる複数のグループに分割したときの該グループ毎に行い、
算出された前記指標値が前記第１の閾値より大きい第２の閾値以上であったとき、その後の前記指標値の算出を、前記検出すべき顔の傾きを該指標値が算出されたときの傾きが属するグループ内の傾きに限定して行うものであることを特徴とする顔検出装置。
前記検出すべき顔の傾きを限定する前に検出された顔画像のうち、限定された前記傾きとは異なる傾きの顔を含む顔画像を非顔画像として削除する顔画像削除手段を備えたことを特徴とする請求項８、９または１０記載の顔検出装置。
前記複数のグループが、前記入力画像の天地方向を基準としたときの、０度、９０度、１８０度および２７０度の傾きをそれぞれ別々に含む４つのグループからなるものであることを特徴とする請求項９、１０または１１記載の顔検出装置。
前記指標値算出手段が、前記検出すべき顔の傾きを限定する前において、前記検出すべき顔の傾きを、前記１８０度の傾きを含むグループを最後とする所定の順序で変えるものであることを特徴とする請求項１２記載の顔検出装置。
入力画像上で検出すべき顔の位置および大きさを変えながら、前記検出すべき顔の位置および大きさ毎に、該位置における部分画像が該大きさの顔を含む顔画像である蓋然性を示す指標値を算出する指標値算出手段と、該指標値が第１の閾値以上である前記部分画像を顔画像として抽出する顔画像抽出手段とを備え、前記入力画像に含まれる顔画像を検出する顔検出装置において、
前記指標値算出手段が、算出された前記指標値が前記第１の閾値より大きい第２の閾値以上であったとき、その後の前記指標値の算出を、前記検出すべき顔の大きさを該指標値が算出されたときの大きさに限定して行うものであることを特徴とする顔検出装置。
コンピュータを、入力画像上で検出すべき顔の位置および傾きを変えながら、前記検出すべき顔の位置および傾き毎に、該位置における部分画像が該傾きの顔を含む顔画像である蓋然性を示す指標値を算出する指標値算出手段と、該指標値が第１の閾値以上である前記部分画像を顔画像として抽出する顔画像抽出手段として機能させることにより、該コンピュータを、前記入力画像に含まれる顔画像を検出する顔検出装置として機能させるためのプログラムにおいて、
前記指標値算出手段が、算出された前記指標値が前記第１の閾値より大きい第２の閾値以上であったとき、その後の前記指標値の算出を、前記検出すべき顔の傾きを該指標値が算出されたときの傾きに限定して行うものであることを特徴とするプログラム。
前記指標値算出手段が、前記指標値の算出を、検出すべき全ての顔の傾きを近接する複数の異なる傾きからなる複数のグループに分割したときの該グループ毎に行うものであることを特徴とする請求項１５記載のプログラム。
コンピュータを、入力画像上で検出すべき顔の位置および傾きを変えながら、前記検出すべき顔の位置および傾き毎に、該位置における部分画像が該傾きの顔を含む顔画像である蓋然性を示す指標値を算出する指標値算出手段と、該指標値が第１の閾値以上である前記部分画像を顔画像として抽出する顔画像抽出手段として機能させることにより、該コンピュータを、前記入力画像に含まれる顔画像を検出する顔検出装置として機能させるためのプログラムにおいて、
前記指標値算出手段が、前記指標値の算出を、検出すべき全ての顔の傾きを近接する複数の異なる傾きからなる複数のグループに分割したときの該グループ毎に行い、
算出された前記指標値が前記第１の閾値より大きい第２の閾値以上であったとき、その後の前記指標値の算出を、前記検出すべき顔の傾きを該指標値が算出されたときの傾きが属するグループ内の傾きに限定して行うものであることを特徴とするプログラム。
前記コンピュータを、さらに、
前記検出すべき顔の傾きを限定する前に検出された顔画像のうち、限定された前記傾きとは異なる傾きの顔を含む顔画像を非顔画像として削除する顔画像削除手段として機能させることを特徴とする請求項１５、１６または１７記載のプログラム。
前記複数のグループが、前記入力画像の天地方向を基準としたときの、０度、９０度、１８０度および２７０度の傾きをそれぞれ別々に含む４つのグループからなるものであることを特徴とする請求項１６、１７または１８記載のプログラム。
前記指標値算出手段が、前記検出すべき顔の傾きを限定する前において、前記検出すべき顔の傾きを、前記１８０度の傾きを含むグループを最後とする所定の順序で変えるものであることを特徴とする請求項１９記載のプログラム。
コンピュータを、入力画像上で検出すべき顔の位置および大きさを変えながら、前記検出すべき顔の位置および大きさ毎に、該位置における部分画像が該大きさの顔を含む顔画像である蓋然性を示す指標値を算出する指標値算出手段と、該指標値が第１の閾値以上である前記部分画像を顔画像として抽出する顔画像抽出手段として機能させることにより、該コンピュータを、前記入力画像に含まれる顔画像を検出する顔検出装置として機能させるためのプログラムにおいて、
前記指標値算出手段が、算出された前記指標値が前記第１の閾値より大きい第２の閾値以上であったとき、その後の前記指標値の算出を、前記検出すべき顔の大きさを該指標値が算出されたときの大きさに限定して行うものであることを特徴とするプログラム。