JP4712563B2 - 顔検出方法および装置並びにプログラム - Google Patents

顔検出方法および装置並びにプログラム Download PDF

Info

Publication number
JP4712563B2
JP4712563B2 JP2006007542A JP2006007542A JP4712563B2 JP 4712563 B2 JP4712563 B2 JP 4712563B2 JP 2006007542 A JP2006007542 A JP 2006007542A JP 2006007542 A JP2006007542 A JP 2006007542A JP 4712563 B2 JP4712563 B2 JP 4712563B2
Authority
JP
Japan
Prior art keywords
image
candidate
face
time
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006007542A
Other languages
English (en)
Other versions
JP2007188419A (ja
Inventor
貞登 赤堀
賢祐 寺川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Priority to JP2006007542A priority Critical patent/JP4712563B2/ja
Priority to US11/652,512 priority patent/US7801337B2/en
Publication of JP2007188419A publication Critical patent/JP2007188419A/ja
Application granted granted Critical
Publication of JP4712563B2 publication Critical patent/JP4712563B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は、デジタル画像の中から顔画像を検出する顔検出方法および装置並びにそのためのプログラムに関するものである。
従来、デジタルカメラによって撮影されたスナップ写真における人物の顔領域の色分布を調べてその肌色を補正したり、監視システムのデジタルビデオカメラで撮影されたデジタル映像中の人物を認識したりすることが行われている。このような場合、デジタル画像中の人物の顔に対応する顔領域を検出する必要があるため、これまでに、デジタル画像中の顔を含む画像(顔画像)を検出する方法が種々提案されている。
例えば、検出対象画像上の複数の異なる位置で部分画像を切り出し、その部分画像が顔画像であるか否かを判別して、検出対象画像上の顔画像を検出する方法が挙げられる。部分画像が顔画像であるか否かを判別するには、例えば、テンプレートマッチングによる手法や、マシンラーニングの学習手法により顔の特徴を学習させた判別器モジュールを用いる手法等が考えられるが(例えば、非特許文献1、特許文献1〜3等による手法)、いずれの手法においても、この判別には、部分画像の画像パターンに基づいてその部分画像が顔画像である蓋然性を示す指標値を算出し、その指標値が所定の閾値を超えた場合に、その部分画像を顔画像と判別する手法を用いるのが一般的である。
「高速全方向顔検出」,Shihong LAO他,画像の認識・理解シンポジウム(MIRU2004),2004年7月,P.II-271−II-276 特願2003−316924号 特願2003−316925号 特願2003−316926号
しかしながら、上記のような、画像パターンに基づく指標値の閾値判定による判別手法を用いた顔検出方法においては、検出対象画像上にたまたま指標値を上げてしまうような非顔の画像パターンが存在すると、その非顔の画像を顔画像として誤検出する場合があるという問題がある。
本発明は、上記事情に鑑み、顔画像の誤検出をより抑制することが可能な顔検出方法および装置並びにそのためのプログラムを提供することを目的とするものである。
本発明による第1の顔検出方法は、入力画像に含まれる顔画像を検出する顔検出方法であって、前記入力画像上の異なる位置で所定の大きさの部分画像を切り出すステップと、前記異なる位置で切り出された複数の部分画像の各々について、該部分画像が顔画像である蓋然性を示す指標値を算出するステップと、算出された指標値が第1の閾値以上である前記部分画像を顔画像の候補としてすべて抽出するステップと、前記候補毎に、該候補を注目候補として設定し、該注目候補とは異なる他の候補のうち、該注目候補からの座標上の距離が所定の距離以下である近傍候補があるときに、前記注目候補と前記近傍候補とを1つの候補群として設定するステップと、前記候補群毎に、該候補群を構成する各候補についてそれぞれ算出された複数の指標値に基づいて、該複数の指標値の大きさが反映された総合的な指標値を算出するステップと、該総合的な指標値が第2の閾値以上であるときに、該総合的な指標値が算出された前記候補群を含む前記入力画像上の所定領域内の画像を前記顔画像として抽出するステップとを有することを特徴とする方法である。
本発明による第2の顔検出方法は、所定の時間間隔で撮像して得られた複数の時系列画像に含まれる顔画像を検出する顔検出方法であって、前記複数の時系列画像の各々について、該時系列画像上の異なる位置で所定の大きさの部分画像を切り出すステップと、前記時系列画像毎に前記異なる位置で切り出された複数の部分画像の各々について、該部分画像が顔画像である蓋然性を示す指標値を算出するステップと、算出された指標値が第1の閾値以上である前記部分画像を顔画像の候補としてすべて抽出するステップと、前記候補毎に、該候補を注目候補として設定し、該注目候補とは異なる他の候補のうち、該注目候補からの座標上の距離が所定の距離以下であって、かつ、撮像時期が前記注目候補を含む時系列画像の撮像時期から所定時間以内である時系列画像に含まれる近傍候補があるときに、前記注目候補と前記近傍候補とを1つの候補群として設定するステップと、前記候補群毎に、該候補群を構成する各候補についてそれぞれ算出された複数の指標値に基づいて、該複数の指標値の大きさが反映された総合的な指標値を算出するステップと、該総合的な指標値が第2の閾値以上であるときに、該総合的な指標値が算出された前記候補群を構成するいずれかの候補を含むすべての前記時系列画像のうち少なくとも1つの時系列画像における、該候補を含む所定領域内の画像を前記顔画像として抽出するステップとを有することを特徴とする方法である。
本発明による第1および第2の顔検出方法において、前記部分画像を切り出すステップは、前記所定の大きさを複数の異なる大きさに変え、該大きさ毎に前記部分画像を切り出すステップであり、前記候補群を設定するステップは、前記注目候補および前記他の候補の少なくとも一方の画像が大きいほど、前記所定の距離をより長くするステップであることが望ましい。
また、本発明による第1および第2の顔検出方法において、前記総合的な指標値は、例えば、前記複数の指標値の和とすることができる。
また、本発明による第1および第2の顔検出方法において、前記第1の閾値は、前記指標値として採り得る最小値としてもよい。すなわち、すべての部分画像の指標値を考慮して、顔画像を抽出するようにしてもよい。
本発明による第1の顔検出装置は、入力画像に含まれる顔画像を検出する顔検出装置であって、前記入力画像上の異なる位置で所定の大きさの部分画像を切り出す部分画像切出し手段と、前記異なる位置で切り出された複数の部分画像の各々について、該部分画像が顔画像である蓋然性を示す指標値を算出する第1の指標値算出手段と、算出された指標値が第1の閾値以上である前記部分画像を顔画像の候補としてすべて抽出する顔画像候補抽出手段と、前記候補毎に、該候補を注目候補として設定し、該注目候補とは異なる他の候補のうち、該注目候補からの座標上の距離が所定の距離以下である近傍候補があるときに、前記注目候補と前記近傍候補とを1つの候補群として設定する候補群設定手段と、前記候補群毎に、該候補群を構成する各候補についてそれぞれ算出された複数の指標値に基づいて、該複数の指標値の大きさが反映された総合的な指標値を算出する第2の指標値算出手段と、該総合的な指標値が第2の閾値以上であるときに、該総合的な指標値が算出された前記候補群を含む前記入力画像上の所定領域内の画像を前記顔画像として抽出する顔画像抽出手段とを備えたことを特徴とするものである。
本発明による第2の顔検出装置は、所定の時間間隔で撮像して得られた複数の時系列画像に含まれる顔画像を検出する顔検出装置であって、前記複数の時系列画像の各々について、該時系列画像上の異なる位置で所定の大きさの部分画像を切り出す部分画像切出し手段と、前記時系列画像毎に前記異なる位置で切り出された複数の部分画像の各々について、該部分画像が顔画像である蓋然性を示す指標値を算出する第1の指標値算出手段と、算出された指標値が第1の閾値以上である前記部分画像を顔画像の候補としてすべて抽出する顔画像候補抽出手段と、前記候補毎に、該候補を注目候補として設定し、該注目候補とは異なる他の候補のうち、該注目候補からの座標上の距離が所定の距離以下であって、かつ、撮像時期が前記注目候補を含む時系列画像の撮像時期から所定時間以内である時系列画像に含まれる近傍候補があるときに、前記注目候補と前記近傍候補とを1つの候補群として設定する候補群設定手段と、前記候補群毎に、該候補群を構成する各候補についてそれぞれ算出された複数の指標値に基づいて、該複数の指標値の大きさが反映された総合的な指標値を算出する第2の指標値算出手段と、該総合的な指標値が第2の閾値以上であるときに、該総合的な指標値が算出された前記候補群を構成するいずれかの候補を含むすべての前記時系列画像のうち少なくとも1つの時系列画像における、該候補を含む所定領域内の画像を前記顔画像として抽出する顔画像抽出手段とを備えたことを特徴とするものである。
本発明による第1および第2の顔検出装置において、前記部分画像切出し手段は、前記所定の大きさを複数の異なる大きさに変え、該大きさ毎に前記部分画像を切り出すものであり、前記候補群設定手段は、前記注目候補および前記他の候補の少なくとも一方の画像が大きいほど、前記所定の距離をより長くするものであることが望ましい。
また、本発明による第1および第2の顔検出装置において、前記総合的な指標値は、例えば、前記複数の指標値の和とすることができきる。
また、本発明による第1および第2の顔検出装置において、前記第1の閾値は、前記指標値として採り得る最小値であってもよい。すなわち、すべての部分画像の指標値を考慮して、顔画像を抽出するようにしてもよい。
本発明による第1のプログラムは、コンピュータを、入力画像に含まれる顔画像を検出する顔検出装置として機能させるためのプログラムであって、該コンピュータを、前記入力画像上の異なる位置で所定の大きさの部分画像を切り出す部分画像切出し手段と、前記異なる位置で切り出された複数の部分画像の各々について、該部分画像が顔画像である蓋然性を示す指標値を算出する第1の指標値算出手段と、算出された指標値が第1の閾値以上である前記部分画像を顔画像の候補としてすべて抽出する顔画像候補抽出手段と、前記候補毎に、該候補を注目候補として設定し、該注目候補とは異なる他の候補のうち、該注目候補からの座標上の距離が所定の距離以下である近傍候補があるときに、前記注目候補と前記近傍候補とを1つの候補群として設定する候補群設定手段と、前記候補群毎に、該候補群を構成する各候補についてそれぞれ算出された複数の指標値に基づいて、該複数の指標値の大きさが反映された総合的な指標値を算出する第2の指標値算出手段と、該総合的な指標値が第2の閾値以上であるときに、該総合的な指標値が算出された前記候補群を含む前記入力画像上の所定領域内の画像を前記顔画像として抽出する顔画像抽出手段として機能させることを特徴とするものである。
本発明による第2のプログラムは、コンピュータを、所定の時間間隔で撮像して得られた複数の時系列画像に含まれる顔画像を検出する顔検出装置として機能させるためのプログラムであって、該コンピュータを、前記複数の時系列画像の各々について、該時系列画像上の異なる位置で所定の大きさの部分画像を切り出す部分画像切出し手段と、前記時系列画像毎に前記異なる位置で切り出された複数の部分画像の各々について、該部分画像が顔画像である蓋然性を示す指標値を算出する第1の指標値算出手段と、算出された指標値が第1の閾値以上である前記部分画像を顔画像の候補としてすべて抽出する顔画像候補抽出手段と、前記候補毎に、該候補を注目候補として設定し、該注目候補とは異なる他の候補のうち、該注目候補からの座標上の距離が所定の距離以下であって、かつ、撮像時期が前記注目候補を含む時系列画像の撮像時期から所定時間以内である時系列画像に含まれる近傍候補があるときに、前記注目候補と前記近傍候補とを1つの候補群として設定する候補群設定手段と、前記候補群毎に、該候補群を構成する各候補についてそれぞれ算出された複数の指標値に基づいて、該複数の指標値の大きさが反映された総合的な指標値を算出する第2の指標値算出手段と、該総合的な指標値が第2の閾値以上であるときに、該総合的な指標値が算出された前記候補群を構成するいずれかの候補を含むすべての前記時系列画像のうち少なくとも1つの時系列画像における、該候補を含む所定領域内の画像を前記顔画像として抽出する顔画像抽出手段として機能させることを特徴とするものである。
本発明による第1および第2のプログラムにおいて、前記部分画像切出し手段は、前記所定の大きさを複数の異なる大きさに変え、該大きさ毎に前記部分画像を切り出すものであり、前記候補群設定手段は、前記注目候補および前記他の候補の少なくとも一方の画像が大きいほど、前記所定の距離をより長くするものであることが望ましい。
また、本発明による第1および第2のプログラムにおいて、前記総合的な指標値は、例えば、前記複数の指標値の和とすることができる。
また、本発明による第1および第2のプログラムにおいて、前記第1の閾値は、前記指標値として採り得る最小値であってもよい。すなわち、すべての部分画像の指標値を考慮して、顔画像を抽出するようにしてもよい。
ここで、顔画像とは、顔を構成する画像を含む画像のことを言う。
また、部分画像が顔画像である蓋然性とは、部分画像がこの部分画像に対して所定の大きさを有する顔を構成する画像を含む画像である蓋然性のことを言う。
また、総合的な指標値としては、最も単純な場合として、上述の通り、複数の指標値の和を考えることができるが、このほかに、例えば、複数の指標値の各々を2乗して和をとったもの、候補群を構成する各候補の座標位置の分散を考慮したもの、複数の指標値のうちの最大値と最小値を除いた他の指標値の和など、種々のバリエーションが考えられる。
本発明による第1の顔検出方法および装置並びにそのためのプログラムは、入力画像に含まれる顔画像を検出するものであって、入力画像上の異なる位置で所定の大きさの部分画像を切り出し、その異なる位置で切り出された複数の部分画像の各々について、部分画像が顔画像である蓋然性を示す指標値を算出し、算出された指標値が第1の閾値以上である部分画像を顔画像の候補としてすべて抽出し、候補毎に、その候補を注目候補として設定し、注目候補とは異なる他の候補のうち、注目候補からの座標上の距離が所定の距離以下である近傍候補があるときに、注目候補と近傍候補とを1つの候補群として設定し、候補群毎に、その候補群を構成する各候補についてそれぞれ算出された複数の指標値に基づいて、これら複数の指標値の大きさが反映された総合的な指標値を算出し、この総合的な指標値が第2の閾値以上であるときに、この総合的な指標値が算出された候補群を含む入力画像上の所定領域内の画像を顔画像として抽出するものである。
このような第1の顔検出方法および装置並びにそのためのプログラムによれば、真の顔画像の特徴である、比較的高い指標値が局所的に集中して算出されるという条件を満たす場合にのみ、それらの指標値が算出された部分画像を同一の顔に対応した画像とみなし、その近傍で顔画像を抽出するようにしているので、切り出した部分画像にたまたま指標値を上げてしまうような非顔の画像パターンが含まれていたとしても、そのような非顔の部分画像を顔画像の検出対象から外すことができ、誤検出を抑制することができる。
また、本発明による第2の顔検出方法および装置並びにそのためのプログラムは、第1の顔検出方法および装置並びにそのためのプログラムを基礎として、検出対象画像を複数の時系列画像に拡張し、比較的高い指標値が局所的に集中して算出されるか否かの判断に、時間軸方向の近さという概念を加えたものである。
すなわち、本発明による第2の顔検出方法および装置並びにそのためのプログラムは、所定の時間間隔で撮像して得られた複数の時系列画像に含まれる顔画像を検出するものであって、複数の時系列画像の各々について、時系列画像上の異なる位置で所定の大きさの部分画像を切り出し、時系列画像毎に、その異なる位置で切り出された複数の部分画像の各々について、部分画像が顔画像である蓋然性を示す指標値を算出し、算出された指標値が第1の閾値以上である部分画像を顔画像の候補としてすべて抽出し、候補毎に、その候補を注目候補として設定し、注目候補とは異なる他の候補のうち、注目候補からの座標上の距離が所定の距離以下であって、かつ、撮像時期が注目候補を含む時系列画像の撮像時期から所定時間以内である時系列画像に含まれる近傍候補があるときに、注目候補と近傍候補とを1つの候補群として設定し、候補群毎に、その候補群を構成する各候補についてそれぞれ算出された複数の指標値に基づいて、これら複数の指標値の大きさが反映された総合的な指標値を算出し、この総合的な指標値が第2の閾値以上であるときに、この総合的な指標値が算出された候補群を構成するいずれかの候補を含むすべての時系列画像のうち少なくとも1つの時系列画像における、その候補を含む所定領域内の画像を顔画像として抽出するものである。
このような第2の顔検出方法および装置並びにそのためのプログラムによれば、時間方向の情報を活かし、連続的な複数の時系列画像に含まれる真の顔画像の特徴である、比較的高い指標値が、空間方向および時間方向において局所的に集中して算出されるという条件を満たす場合にのみ、それらの指標値が算出された部分画像を同一の顔に対応した画像とみなし、その近傍で顔画像を抽出するようにしているので、デジタルムービー等で撮影して得られた連続した複数のフレーム画像のような時系列画像が対象となる場合において、切り出した部分画像にたまたま指標値を上げてしまうような非顔の画像パターンが含まれていたとしても、そのような非顔の部分画像を顔画像の検出対象から外すことができ、誤検出を抑制することができる。
以下、本発明の実施形態について説明する。
図1は本発明による第1の顔検出装置の実施形態(第1の実施形態)である顔検出システム1の構成を示す概略ブロック図である。この顔検出システム1は、入力されたデジタル画像上の顔を含む画像(以下、顔画像という)を、顔の位置、大きさ、傾き(画像面内での回転位置)、向き(左右首振り方向での向き)によらず検出するものである。本顔検出システム1は、特に検出精度、ロバスト性が優れているとされる顔検出の手法として、サンプル画像を用いたマシンラーニングの学習により生成された判別器モジュール(以下、単に判別器という)の指標値算出機能を用いる手法を採用したものである。この手法は、所定の傾きおよび向きの顔を表す複数の異なる顔サンプル画像と、非顔を表す複数の異なる非顔サンプル画像とを用いて、顔の特徴を学習させ、ある画像が、所定の傾きおよび向きの顔を含む顔画像であるか否かを判別できる判別器を生成して用意しておき、顔の検出対象となる画像(以下、検出対象画像という)上の異なる位置において部分画像を順次切り出し、その部分画像が顔画像である蓋然性を示す指標値を上記の判別器を用いて算出し、その指標値の大小に基づいてその部分画像もしくはその近傍の画像が顔画像であるか否かを判別することにより、検出対象画像に含まれる顔画像を検出する手法である。
顔検出システム1は、図1に示すように、多重解像度化部10と、正規化部20と、顔検出部30と、重複検出判定部40とを備えている。
多重解像度化部10は、入力された検出対象画像S0を多重解像度化して解像度の異なる複数の画像(以下、解像度画像という)からなる解像度画像群S1を得るものである。
検出対象画像S0の画像サイズ、すなわち、解像度を変換することにより、その解像度を所定の解像度、例えば、短辺が416画素の矩形サイズの画像に規格化し、規格化済みの検出対象画像S0′を得る。そして、この規格化済みの検出対象画像S0′を基本としてさらに解像度変換を行うことにより、解像度の異なる複数の解像度画像S1_1〜S1_M(Mは解像度の段階数)を生成し、解像度画像群S1を得る。このような解像度画像群を生成する理由は、通常、検出対象画像S0に含まれる顔の大きさは不明であるが、一方、検出しようとする顔の大きさは、後述の判別器の生成方法と関連して一定の大きさに固定されるため、大きさの異なる顔を検出するためには、解像度の異なる画像上で位置をずらしながら所定サイズの部分画像をそれぞれ切り出し、その部分画像が顔画像であるか否かを判別してゆく必要があるためである。
図2は、検出対象画像S0の多重解像度化の工程を示した図である。多重解像度化、すなわち、解像度画像群の生成は、具体的には、図2に示すように、規格化済みの検出対象画像S0′を基本となる解像度画像S1_1とし、解像度画像S1_1に対して2の−1/3乗倍サイズの解像度画像S1_2と、解像度画像S1_2に対して2の−1/3乗倍サイズ(基本画像S1_1に対しては2の−2/3乗倍サイズ)の解像度画像S1_3とを先に生成し、その後、解像度画像S1_1,S1_2,S1_3のそれぞれを1/2倍サイズに縮小した解像度画像を生成し、それら縮小した解像度画像をさらに1/2倍サイズに縮小した解像度画像を生成する、といった処理を繰り返し行い、複数の解像度画像を所定の数だけ生成するようにする。このようにすることで、輝度を表す画素値の補間処理を必要としない1/2倍の縮小処理を主な処理とし、基本となる解像度画像から2の−1/3乗倍ずつサイズが縮小された複数の画像が高速に生成できる。例えば、解像度画像S1_1が短辺416画素の矩形サイズである場合、解像度画像S1_2,S1_3,・・・は、短辺がそれぞれ、330画素,262画素,208画素,165画素,131画素,104画素,82画素,65画素,・・・の矩形サイズとなり、2の−1/3乗倍ずつ縮小された複数の解像度画像を生成することができる。なお、このように画素値を補間しないで生成される画像は、元の画像パターンの特徴をそのまま担持する傾向が強いので、顔検出処理において精度向上が期待できる点で好ましい。
正規化部20は、解像度画像のコントラストが顔検出処理に適した状態となるように、解像度画像の各々に対して全体正規化処理および局所正規化処理を施し、正規化済みの複数の解像度画像S1′_1〜S1′_Mからなる解像度画像群S1′を得るものである。
まず、全体正規化処理について説明する、全体正規化処理は、解像度画像のコントラストを顔検出処理に適した所定のレベル、すなわち、後述の判別器の性能を引き出すのに適したレベルに近づけるべく、解像度画像全体の画素値をこの画像における被写体の輝度の対数を表す値に近づける変換曲線にしたがって変換する処理である。
図3は全体正規化処理に用いる変換曲線の一例を示した図である。全体正規化処理としては、例えば、図3に示すような、画素値をsRGB空間におけるいわゆる逆ガンマ変換(=2.2乗する)した後にさらに対数をとるような変換曲線(ルックアップテーブル)にしたがって、画像全体における画素値を変換する処理を考えることができる。これは、次のような理由による。
画像として観測される光強度Iは、通常、被写体の反射率Rと光源の強度Lの積として表現される(I=R×L)。したがって、光源の強度Lが変化すると、画像として観測される光強度Iも変化することになるが、被写体の反射率Rのみを評価することができれば、光源の強度Lに依存しない、すなわち、画像の明るさの影響を受けない精度の高い顔判別を行うことができる。
ここで、光源の強度がLの場合において、被写体上で反射率がR1の部分から観測される光強度をI1、被写体上で反射率がR2の部分から観測される光強度をI2としたとき、それぞれの対数をとった空間では、下記の式が成り立つ。
log(I1)−log(I2)=log(R1×L)−log(R2×L)=log(R1)+log(L)−(log(R2)+log(L))=log(R1)−log(R2)=log(R1/R2)
すなわち、画像における画素値を対数変換することは、反射率の比が差として表現された空間へ変換することとなり、このような空間では、光源の強度Lに依存しない被写体の反射率のみを評価することが可能となる。言い換えると、画像中の明るさによって異なるコントラスト(ここでは画素値の差分そのもの)を揃えることができる。
一方、一般的なデジタルカメラ等の機器で取得された画像の色空間はsRGBである。sRGBとは、機器間の色再現の違いを統一するために、色彩、彩度等を規定・統一した国際標準の色空間のことであり、この色空間においては、ガンマ値(γout)が2.2の画像出力機器において適正な色再現を可能にするため、画像の画素値は、入力輝度を1/γout(=0.45)乗して得られる値となっている。
そこで、画像全体における画素値を、いわゆる逆ガンマ変換、すなわち、2.2乗した後にさらに対数をとるような変換曲線にしたがって変換することにより、光源の強度に依存しない被写体の反射率のみによる評価を適正に行うことができるようになる。
なお、このような全体正規化処理は、別の言い方をすれば、画像全体における画素値を、特定の色空間を別の特性を有する色空間に変換する変換曲線にしたがって変換する処理ということができる。
このような処理を検出対象画像に施すことにより、画像中の明るさによって異なるコントラストを揃えることができ、顔検出処理の精度が向上することとなる。なお、この全体正規化処理は、処理結果が検出対象画像中の斜光や背景、入力モダリティの違いによる影響を受けやすい反面、処理時間が短いという特徴を有する。
次に、局所正規化処理について説明する。局所正規化処理は、解像度画像上の局所的な領域におけるコントラストのばらつきを抑制するための処理である。すなわち、解像度画像における各局所領域について、輝度を表す画素値の分散の程度が所定レベル以上である局所領域に対しては、この分散の程度を上記の所定レベルより高い一定レベルに近づける第1の輝度階調変換処理を施し、画素値の分散の程度が上記の所定レベル未満である局所領域に対しては、この分散の程度を上記の一定レベルより低いレベルに抑える第2の輝度階調変換処理を施すものである。なお、この局所正規化処理は、処理時間は長いが、検出対象画像中の斜光や背景、入力モダリティの違いによる判別結果への影響は小さいという特徴を有する。
図4は局所正規化処理の概念を示した図であり、図5は局所正規化処理のフローを示した図である。また、式(1),(2)は、この局所正規化処理のための画素値の階調変換の式である。
Figure 0004712563
ここで、Xは注目画素の画素値、X′は注目画素の変換後の画素値、mlocalは注目画素を中心とする局所領域における画素値の平均、Vlocalはこの局所領域における画素値の分散、SDlocalはこの局所領域における画素値の標準偏差、C1は、(C1×C1)が上記の一定レベルに対応する基準値となるような値、C2は上記の所定レベルに対応する閾値、SDcは所定の定数である。なお、本実施形態において、輝度の階調数は8bitとし、画素値の取り得る値は0から255とする。
図4に示すように、まず、解像度画像における1つの画素を注目画素として設定し(ステップST1)、この注目画素を中心とする所定の大きさ、例えば11×11画素サイズの局所領域における画素値の分散Vlocalを算出し(ステップST2)、分散Vlocalが上記所定のレベルに対応する閾値C2以上であるか否かを判定する(ステップST3)。ステップST3において、分散Vlocalが閾値C2以上であると判定された場合には、上記第1の輝度階調変換処理として、分散Vlocalが上記一定のレベルに対応する基準値(C1×C1)より大きいほど、注目画素の画素値Xと平均mlocalとの差を小さくし、分散mlocalが基準値(C1×C1)より小さいほど、注目画素の画素値Xと平均mlocalとの差を大きくする階調変換を式(1)にしたがって行う(ステップST4)。一方、ステップST3において、分散Vlocalが閾値C2未満であると判定された場合には、上記第2の輝度階調変換処理として、分散Vlocalに依らない線形な階調変換を式(2)にしたがって行う(ステップST5)。そして、ステップST1で設定した注目画素が最後の画素であるか否かを判定する(ステップST6)。ステップST6において、その注目画素が最後の画素でないと判定された場合には、ステップST1に戻り、同じ解像度画像上の次の画素を注目画素として設定する。一方、ステップST6において、その注目画素が最後の画素であると判定された場合には、その解像度画像に対する局所正規化を終了する。このように、上記ステップST1からST6の処理を繰り返すことにより、解像度画像全体に局所正規化を施すことができる。
なお、上記の所定レベルは、局所領域における全体または一部の輝度に応じて変化させるようにしてもよい。例えば、上記の、注目画素毎に階調変換を行う正規化処理において、閾値C2を注目画素の画素値に応じて変化させるようにしてもよい。すなわち、上記の所定レベルに対応する閾値C2を、注目画素の輝度が相対的に高いときにはより高く設定し、その輝度が相対的に低いときにはより低く設定するようにしてもよい。このようにすることで、輝度の低い、いわゆる暗い領域に低いコントラスト(画素値の分散が小さい状態)で存在している顔も正しく正規化することができる。
なお、ここでは、検出すべき顔の傾きを、検出対象画像S0の天地方向を基準に検出対象画像S0の画像面内において30度刻みで回転して設定される計12種類の傾きとし、検出すべき顔の傾きの切り替え順序が予め決められているものとする。例えば、その切り替え順序を、検出対象画像S0の天地方向を基準に時計回りの回転角度で表すとして、上向き3方向である0度、330度、30度(0度グループ)、右向き3方向である90度、60度、120度(90度グループ)、左向き3方向である270度、240度、300度(270度グループ)、そして、下向き3方向である180度、150度、210度(180度グループ)の順序とする。
顔検出部30は、正規化部20により正規化処理がなされた解像度画像群S1′の各解像度画像S1′_m(m=1〜M)に対して、検出すべき顔の傾きを予め設定された順序にしたがって変えながら顔検出処理を施すことにより、すべての解像度画像に含まれる顔画像S2(以下、不特定の顔画像をS2で表す)を検出するものであり、さらに複数の要素から構成されている。
顔検出部30は、図1に示すように、解像度画像選択部31と、サブウィンドウ設定部(部分画像切出し手段)32と、判別器群(第1の指標値算出手段,顔画像候補抽出手段)33と、候補群設定部(候補群設定手段)34と、総合的スコア算出部(第2の指標値算出手段)35と、顔画像抽出部(顔画像抽出手段)36とから構成されている。
解像度画像選択部31は、多重解像度化部20により生成された解像度画像群S1′の中から顔検出処理に供する解像度画像をサイズの小さい順に、すなわち、解像度の粗い順に1つずつ選択するものである。なお、本実施形態における顔検出の手法が、各解像度画像上で順次切り出された同じサイズの部分画像Wについて、その部分画像Wが顔画像であるか否かを判別することにより検出対象画像S0における顔を検出する手法であるから、この解像度画像選択部31は、検出対象画像S0に対する部分画像Wの相対的な大きさ、すなわち、検出対象画像S0における検出すべき顔の大きさを大から小へ毎回変えながら設定するものと考えることができる。
サブウィンドウ設定部32は、解像度画像選択部31により選択された解像度画像において、顔画像であるか否かの判別対象となる部分画像Wを切り出すサブウィンドウを、その位置を所定幅ずつずらしながら設定するものである。
例えば、上記の選択された解像度画像において、所定のサイズすなわち32×32画素サイズの部分画像Wを切り出すサブウィンドウを、所定画素数分、例えば2画素ずつ移動させながら順次設定し、その切り出された部分画像Wを判別器群33へ入力する。判別器群33を構成する各判別器は、後述のように、それぞれ、所定の傾きおよび向きの顔を含む顔画像を判別するものであるから、このようにすることで、あらゆる傾きおよび向きにある顔の顔画像を判別することが可能となる。
判別器群33は、部分画像Wの各々について、部分画像Wの画像パターンに基づいて、この部分画像Wが所定の傾きおよび向きの顔を含む顔画像である蓋然性を示すスコア(指標値)scを、その所定の傾きおよび向きを変えてそれぞれ算出し、その算出されたスコアscが第1の閾値Th1以上である部分画像Wを、そのスコアが算出されたときの所定の傾きおよび向きの顔を含む顔画像の候補Dとして抽出するものである。
図6は判別器群33の構成を示した図である。判別器群33は、図6に示すように、判別すべき顔の向きがそれぞれ異なる複数種類の判別器群、すなわち、主に正面顔を判別する正面顔判別器群33_F、主に左横顔を判別する左横顔判別器群33_Lおよび主に右横顔を判別する右横顔判別器群33_Rが並列に接続された構成である。さらに、これら3種の判別器群はそれぞれ、判別すべき顔の傾きが画像の天地方向を基準として30度ずつ異なる計12方向に対応した判別器、すなわち、正面顔判別器群33_Fは、判別器33_F0,33_F30,・・・,33_F330、左横顔判別器群33_Lは、判別器33_L0,33_L30,・・・,33_L330、右横顔判別器群33_Rは、判別器33_R0,33_R30,・・・,33_R330から構成されている。
上記の各判別器は、図6に示すように、複数の弱判別器WCを有しており、弱判別器WCは、部分画像Wの画素値の分布に係る少なくとも1つの特徴量を算出し、この特徴量を用いて、この部分画像Wが所定の傾き及び向きの顔を含む顔画像である蓋然性を示すスコアscwを算出するものである。
なお、上記の判別器群33は、いずれも、判別可能な主な顔の向きを正面顔、左横顔および右横顔の3種としているが、斜め向きの顔の検出精度を上げるため、右斜め顔、左斜め顔をそれぞれ判別する判別器をさらに設けるようにしてもよい。
ここで、判別器群33を構成する各判別器の構成、判別器における処理の流れおよび判別器の学習方法について説明する。
判別器は、後述の学習により多数の弱判別器WCの中から選定された判別に有効な複数の弱判別器WCを有している。弱判別器WCは、それぞれ、部分画像Wから弱判別器WC毎に固有の所定のアルゴリズムにしたがって特徴量を算出し、その特徴量と所定のスコアテーブルとしての後述の自己のヒストグラムとに基づいて、部分画像Wが所定の傾きおよび向きの顔を含む顔画像である蓋然性を示すスコアscwを求めるものである。判別器は、これら複数の弱判別器WCから得られた個々のスコアscwを合算してスコアscを求め、このスコアscが閾値Th1以上である部分画像Wをその所定の傾きおよび向きの顔を含む顔画像S2の候補Dとして抽出する。
図7は1つの判別器における処理の流れを示すフローチャートである。部分画像Wが判別器に入力されると、複数の弱判別器WCにおいてそれぞれ種類の異なる特徴量xが算出される(ステップST11)。例えば、図8に示すように、所定のサイズ、例えば、32×32画素サイズの部分画像Wに対して、4近傍画素平均(画像を2×2画素サイズ毎に複数のブロックに区分し、各ブロックの4画素における画素値の平均値をそのブロックに対応する1つの画素の画素値とする処理)を段階的に行うことにより、16×16画素サイズに縮小した画像W′と、8×8画素サイズに縮小した画像W″を得、もとの画像Wを含めたこれら3つの画像の平面内に設定される所定の2点を1ペアとして、複数種類のペアからなる1つのペア群を構成する各ペアにおける2点間の画素値(輝度)の差分値をそれぞれ計算し、これらの差分値の組合せを特徴量とする。各ペアの所定の2点は、例えば、画像上の顔の濃淡の特徴が反映されるよう決められた縦方向に並んだ所定の2点や、横方向に並んだ所定の2点とする。そして、特徴量である差分値の組合せに対応する値をxとして算出する。次に、その値xに応じて所定のスコアテーブル(自己のヒストグラム)から部分画像Wが判別すべき顔(例えば、判別器33_F30の場合には「顔の向きが正面で傾きが回転角度30度の顔」)を含む顔画像である蓋然性を示すスコアscwが弱判別器毎に算出される(ステップST12)。そして、弱判別器毎に算出された個々のスコアscwを合算してスコアscが得られ(ステップST13)、このスコアscが第1の閾値Th1以上であるか否かを判定し(ステップST14)、肯定される場合に、その部分画像Wを、この判別器が判別すべき所定の傾きおよび向きの顔を含む顔画像S2の候補Di(i=1,2,・・・)として抽出する(ステップST15)。
次に、判別器の学習(生成)方法について説明する。
図9は判別器の学習方法を示すフローチャートである。判別器の学習には、所定のサイズ、例えば32×32画素サイズで規格化され、さらに、前述の正規化部20による正規化処理と同様の処理が施された複数のサンプル画像を用いる。サンプル画像としては、顔であることが分かっている複数の異なる顔サンプル画像(顔サンプル画像群)と、顔でないことが分かっている複数の異なる非顔サンプル画像(非顔サンプル画像群)とを用意する。
顔サンプル画像群は、1つの顔サンプル画像につき、縦および/または横を0.7倍から1.2倍の範囲にて0.1倍単位で段階的に拡縮して得られる各サンプル画像に対し、平面上±15度の範囲にて3度単位で段階的に回転させて得られる複数の変形バリエーションを用いる。なおこのとき、顔サンプル画像は、目の位置が所定の位置に来るように顔のサイズと位置を規格化し、上記の平面上の回転、拡縮は目の位置を基準として行うようにする。例えば、d×dサイズのサンプル画像の場合においては、図10に示すように、両目の位置が、サンプル画像の最左上の頂点と最右上の頂点から、それぞれ、内側に1/4d、下側に1/4d移動した各位置とに来るように顔のサイズと位置を規格化し、また、上記の平面上の回転、拡縮は、両目の中間点を中心に行うようにする。
これら各サンプル画像には、重みすなわち重要度が割り当てられる。まず、すべてのサンプル画像の重みの初期値が等しく1に設定される(ステップST21)。
次に、サンプル画像およびその縮小画像の平面内に設定される所定の2点を1ペアとして複数のペアからなるペア群を複数種類設定したときの、この複数種類のペア群のそれぞれについて弱半別器が作成される(ステップST22)。ここで、それぞれの弱判別器とは、サブウィンドウWで切り出された部分画像とその縮小画像の平面内に設定される所定の2点を1ペアとして複数のペアからなる1つのペア群を設定したときの、この1つのペア群を構成する各ペアにおける2点間の画素値(輝度)の差分値の組合せを用いて、顔の画像と顔でない画像とを判別する基準を提供するものである。本実施形態においては、1つのペア群を構成する各ペアにおける2点間の画素値の差分値の組合せについてのヒストグラムを弱判別器のスコアテーブルの基礎として使用する。
図11はサンプル画像からヒストグラムが生成される様子を示した図である。図11の左側のサンプル画像に示すように、この判別器を作成するためのペア群を構成する各ペアの2点は、顔であることが分かっている複数のサンプル画像において、サンプル画像上の右目の中心にある点をP1、右側の頬の部分にある点をP2、眉間の部分にある点をP3、サンプル画像を4近傍画素平均で縮小した16×16画素サイズの縮小画像上の右目の中心にある点をP4、右側の頬の部分にある点をP5、さらに4近傍画素平均で縮小した8×8画素サイズの縮小画像上の額の部分にある点をP6、口の部分にある点をP7として、P1−P2、P1−P3、P4−P5、P4−P6、P6−P7の5ペアである。なお、ある判別器を作成するための1つのペア群を構成する各ペアの2点の座標位置はすべてのサンプル画像において同一である。そして顔であることが分かっているすべてのサンプル画像について上記5ペアを構成する各ペアの2点間の画素値の差分値の組合せが求められ、そのヒストグラムが作成される。ここで、画素値の差分値の組合せとしてとり得る値は、画像の輝度階調数に依存するが、仮に16ビット階調である場合には、1つの画素値の差分値につき65536通りあり、全体では階調数の(ペア数)乗、すなわち65536の5乗通りとなってしまい、学習および検出のために多大なサンプルの数、時間およびメモリを要することとなる。このため、本実施形態においては、画素値の差分値を適当な数値幅で区切って量子化し、n値化する(例えばn=100)。これにより、画素値の差分値の組合せの数はnの5乗通りとなるため、画素値の差分値の組合せを表すデータ数を低減できる。
同様に、非顔サンプル画像群についても、ヒストグラムが作成される。なお、非顔サンプル画像については、顔サンプル画像上における上記各ペアの所定の2点の位置に対応する位置(同様に参照符号P1からP7を用いる)が用いられる。これらの2つのヒストグラムが示す頻度値の比の対数値を取ってヒストグラムで表したものが、図11の一番右側に示す、弱判別器のスコアテーブルの基礎として用いられるヒストグラムである。この弱判別器のヒストグラムが示す各縦軸の値を、以下、判別ポイントと称する。この弱判別器によれば、正の判別ポイントに対応する、画素値の差分値の組合せの分布を示す画像は顔である可能性が高く、判別ポイントの絶対値が大きいほどその可能性は高まると言える。逆に、負の判別ポイントに対応する画素値の差分値の組合せの分布を示す画像は顔でない可能性が高く、やはり判別ポイントの絶対値が大きいほどその可能性は高まる。ステップST22では、判別に使用され得る複数種類のペア群を構成する各ペアの所定の2点間の画素値の差分値の組合せについて、上記のヒストグラム形式の複数の弱判別器が作成される。
続いて、ステップST22で作成した複数の弱半別器のうち、画像が顔画像であるか否かを判別するのに最も有効な弱判別器が選択される。最も有効な弱判別器の選択は、各サンプル画像の重みを考慮して行われる。この例では、各弱判別器の重み付き正答率が比較され、最も高い重み付き正答率を示す弱判別器が選択される(ステップST23)。すなわち、最初のステップST23では、各サンプル画像の重みは等しく1であるので、単純にその弱判別器によって画像が顔画像であるか否かが正しく判別されるサンプル画像の数が最も多いものが、最も有効な弱判別器として選択される。一方、後述するステップST25において各サンプル画像の重みが更新された後の2回目のステップST23では、重みが1のサンプル画像、重みが1よりも大きいサンプル画像、および重みが1よりも小さいサンプル画像が混在しており、重みが1よりも大きいサンプル画像は、正答率の評価において、重みが1のサンプル画像よりも重みが大きい分多くカウントされる。これにより、2回目以降のステップST23では、重みが小さいサンプル画像よりも、重みが大きいサンプル画像が正しく判別されることに、より重点が置かれる。
次に、それまでに選択した弱判別器の組合せの正答率、すなわち、それまでに選択した弱判別器を組み合わせて使用して(学習段階では、弱判別器は必ずしも線形に結合させる必要はない)各サンプル画像が顔画像であるか否かを判別した結果が、実際に顔画像であるか否かの答えと一致する率が、所定の閾値を超えたか否かが確かめられる(ステップST24)。ここで、弱判別器の組合せの正答率の評価に用いられるのは、現在の重みが付けられたサンプル画像群でも、重みが等しくされたサンプル画像群でもよい。所定の閾値を超えた場合は、それまでに選択した弱判別器を用いれば画像が顔であるか否かを十分に高い確率で判別できるため、学習は終了する。所定の閾値以下である場合は、それまでに選択した弱判別器と組み合わせて用いるための追加の弱判別器を選択するために、ステップST26へと進む。
ステップST26では、直近のステップST23で選択された弱判別器が再び選択されないようにするため、その弱判別器が除外される。
次に、直近のステップST23で選択された弱判別器では顔であるか否かを正しく判別できなかったサンプル画像の重みが大きくされ、画像が顔画像であるか否かを正しく判別できたサンプル画像の重みが小さくされる(ステップST25)。このように重みを大小させる理由は、次の弱判別器の選択において、既に選択された弱判別器では正しく判別できなかった画像を重要視し、それらの画像が顔画像であるか否かを正しく判別できる弱判別器が選択されるようにして、弱判別器の組合せの効果を高めるためである。
続いて、ステップST23へと戻り、上記したように重み付き正答率を基準にして次に有効な弱判別器が選択される。
以上のステップST23からS26を繰り返して、顔画像であるか否かを判別するのに適した弱判別器として、特定のペア群を構成する各ペアの所定の2点間の画素値の差分値の組合せに対応する弱判別器が選択されたところで、ステップST24で確認される正答率が閾値を超えたとすると、顔画像であるか否かの判別に用いる弱判別器の種類と判別条件とが確定され(ステップST27)、これにより学習を終了する。なお、選択された弱判別器は、その重み付き正答率が高い順に線形結合され、1つの判別器が構成される。また、各弱判別器については、それぞれ得られたヒストグラムを基に、画素値の差分値の組合せに応じてスコアを算出するためのスコアテーブルが生成される。なお、ヒストグラム自身をスコアテーブルとして用いることもでき、この場合、ヒストグラムの判別ポイントがそのままスコアとなる。
このようにして、顔サンプル画像群と非顔サンプル画像群とを用いた学習により、判別器が生成されるわけであるが、上記のように、判別したい顔の傾きおよび向き毎に異なる複数の判別器を生成するには、顔の各傾きおよび各向きに対応した複数種類の顔サンプル画像群を用意し、その顔サンプル画像群と非顔サンプル画像群とを用いた学習を顔サンプル画像群の種類毎に行うこととなる。
すなわち、本実施形態においては、顔の向きについては、正面、左横、右横の計3種類、傾きについては、回転角度0度から330度まで30度刻みの計12種類、合計36種類の顔サンプル画像群を用意する。
上記の複数の顔サンプル画像群が得られたら、顔サンプル画像群の種類毎に、その顔サンプル画像群と非顔サンプル画像群とを用いて、上記の学習を行うことにより、判別器群33を構成する複数の判別器を生成することができる。
このように、顔の向き毎に、かつ、顔の傾き毎に学習された複数の判別器を用いることにより、多種の傾きおよび向きの顔を含む顔画像を判別することが可能となる。
なお、上記の学習手法を採用する場合において、弱判別器は、特定のペア群を構成する各ペアの所定の2点間の画素値の差分値の組合せを用いて顔の画像と顔でない画像とを判別する基準を提供するものであれば、上記のヒストグラムの形式のものに限られずいかなるものであってもよく、例えば2値データ、閾値または関数等であってもよい。また、同じヒストグラムの形式であっても、図11の中央に示した2つのヒストグラムの差分値の分布を示すヒストグラム等を用いてもよい。
また、学習の方法としては上記手法に限定されるものではなく、ニューラルネットワーク等他のマシンラーニングの手法を用いることができる。
候補群設定部34は、判別器群33により抽出された各候補Di(i=1〜N;Nは抽出された候補の数)毎に、その1つの候補を注目候補として設定し、その注目候補とは異なる他の候補のうち、その注目候補からの座標上の距離が所定の距離以下である近傍候補があるときに、その注目候補とその近傍候補とを1つの候補群として設定するものである。
すなわち、判別器群33によりN個の候補が抽出された場合に、注目候補がDi、比較対象となる候補がDj(j=1〜N)であるとすると、注目候補Diと候補Djとの間の座標上の距離dist(i,j)が所定の距離δij以下となる候補Dj(j∈dist(i,j)≦δij,i=jの場合を含む)を、1つの候補群DGiとして設定する。そして、各候補を順次、注目候補に設定し、それぞれの場合について候補群を設定する。なお、距離dist(i,j)は、下式(3)のように定義することができる。
Figure 0004712563
ここで、xi,yiは候補Diの中心座標、xj,yjは候補Djの中心座標である。
ところで、所定の距離δijは、候補DiとDjそれぞれの画像の大きさ(抽出時のスケール)を考慮して決定することができる。抽出時のスケールを考慮することは、抽出時の解像度方向を考慮することと同等である。ここで、この理由について説明する
顔検出では、固定されたサイズを単位として検出が行われる。したがって、上述の通り、様々なサイズの顔を検出するためには、様々な解像度の画像を用意する必要がある。様々な解像度の画像において抽出された候補を元の解像度の画像に戻すときは、抽出時の解像度に応じてそれぞれスケール変換されることになる。このため、ある2つの候補Di,Djについて、それぞれの中心位置間の距離が同じであっても、それぞれの抽出された解像度によって顔の大きさが異なることになるから、候補Di,Djが異なる顔と考えるべき場合と、同一の顔と考えるべき場合とが発生することになる。
図12は、2つの候補Di,Djの中心位置間の距離が同じで、抽出された候補の画像の大きさ、すなわち、顔の大きさが異なる2種類のケースの様子を表した図である。この図から理解されるように、候補Di,Djの中心位置間の距離がたとえ同じであっても、その距離が顔の大きさに対して相対的に大きい場合には、候補Di,Djは異なる顔と判断すべきであり(左図,ケース1)、相対的に小さい場合には、同一の顔と判断すべきである(右図,ケース2)。
このことから、所定の距離δijについては、注目候補Diおよび他の候補Dj(j=1〜N,j≠i)の少なくとも一方の画像が大きいほど、所定の距離δijをより長くするよう調整することが好ましく、例えば、δijを下式(4)のように定義することができる。
Figure 0004712563
ここで、c1,c2は定数であり、Sli,Sljはそれぞれ候補Di,Djが抽出された解像度画像の解像度によって決まるスケール変換パラメータである。
総合的スコア算出部35は、候補群設定部34により設定された各候補群Di毎に、その候補群DGiを構成する各候補、すなわち、候補Dj(j∈dist(i,j)≦δij)についてそれぞれ算出された複数のスコアscj(j∈dist(i,j)≦δij)に基づいて、これら複数のスコアscj(j∈dist(i,j)≦δij)の大きさが反映された総合的スコア(総合的な指標値)SCiを算出するものである。ここでは、総合的スコアSCiは、下式(5)に示すように、複数のスコアscj(j∈dist(i,j)≦δij)の和と定義する。
Figure 0004712563
顔画像抽出部36は、総合的スコア算出部35により算出された総合的スコアSCiが第2の閾値Th2以上であるときに、総合的スコアSCiが算出された候補群DGiを含む検出対象画像S0上の所定領域内の画像を顔画像S2として抽出するものである。なお、顔画像S2の抽出方法、すなわち、顔画像の位置、大きさを推定する方法としては、次のような方法が考えられる。
例えば、候補群DGiの中で、スコアscjが最大である候補を採用する方法である。図13は、候補群DGiを構成する候補Diとほかの候補Da,Db,Dc,Ddを表している。このとき、顔画像の位置座標は、候補Di,Da,Db,Dc,Ddの中で最大のスコアが算出された候補の位置座標を顔画像の位置座標と推定し、その候補の画像の大きさを顔画像の大きさと推定する。
また例えば、候補群DGiを構成する各候補Di,Da,Db,Dc,Ddにおける、それぞれの位置座標のスコアによる重み付き平均値を、顔画像の位置座標と推定し、それぞれの画像の大きさ(ここでは、部分画像が正方形であることを想定し、顔画像の一辺の長さとする)のスコアによる重み付き平均値を、顔画像の大きさ(顔画像の一辺の長さ)と推定する方法である。すなわち、顔画像の位置座標xdet,ydet、顔画像の一辺の長さddetを、下式(6),(7),(8)を用いて求める。
Figure 0004712563
ここで、SCiは、候補群DGiを構成する各候補Di,Da,Db,Dc,Ddそれぞれのスコアの総和(式5)である。これにより、偶然、高いスコアが算出されてしまった候補が存在する場合にも、顔画像の位置座標や大きさが大幅にずれることを防ぐことができる。なお本実施例では、後者の方法で顔画像の位置座標および大きさを推定する。
重複検出判定部40は、各解像度画像上で検出された顔画像S2の各々に対して、顔画像の位置関係から、その顔画像が、検出対象画像S0上では同一の顔を表す顔画像であって解像度の隣接する複数の解像度画像上で重複して検出されたものであるか否かを判定し、重複して検出されたと認められる複数の顔画像を1つにまとめる処理を行い、重複検出のない真の顔画像S3を出力するものである。
検出対象画像S0を多重解像度化して複数の解像度画像を得る際には、顔画像の検出漏れを防ぐため、隣接する解像度画像間での解像度のギャップは、あまり大きくとることができない。また、判別器は、通常、判別可能な顔の大きさとしてある程度の許容範囲を有している。このような場合、検出対象画像S0上の同一の顔が、隣接する複数の解像度画像において重複して検出される場合がある。このような重複検出は、候補群設定部34による近隣の顔画像候補を1つの候補群にまとめる処理においてある程度吸収できるが、所定の距離δijを比較的小さめにとると、吸収しきれずに同一の顔に対応する顔画像が重複して検出される場合がある。重複検出判定部40による上記の処理は、このような吸収しきれなかった重複検出を排除し、正確な検出結果を得るために行われる処理である。
次に、第1の実施形態による顔検出システム1における処理の流れについて説明する。
図14a,14bは、第1の実施形態による顔検出システム1における処理の流れを示したフローチャートである。これらの図に示すように、本システムに検出対象画像S0が供給されると(ステップST31)、多重解像度化部10が、この検出対象画像S0の画像サイズが所定のサイズに変換された画像S0′を生成し、この画像S0′から2の−1/3乗倍ずつサイズ(解像度)が縮小された複数の解像度画像からなる解像度画像群S1が生成される(ステップST32)。そして、正規化部20が、解像度画像群S1の各解像度化像に対して、上述の全体正規化処理と局所正規化処理を施し、正規化済みの解像度画像群S1′を得る(ステップST33)。
次に、顔検出部30の解像度画像選択部31が、解像度画像群S1′の中から画像サイズの小さい順、すなわち、S1′_M,S1′_M-1,・・・,S1′_1の順に所定の解像度画像S1′_mを1つ選択する(ステップST34)。サブウィンドウ設定部32は、選択された解像度画像S1′_m上でサブウィンドウを所定のピッチ、例えば2画素間隔で移動しながら設定して所定サイズの部分画像Wを順次切り出し(ステップST35)、その部分画像Wを判別器群33へ入力する。判別器群33を構成する各判別器は、複数の弱判別器を用いて、入力された部分画像Wが所定の傾きおよび向きの顔を含む顔画像である蓋然性を示すスコアscを算出し(ステップST36)、算出されたスコアscが第1の閾値Th1以上である部分画像Wを顔画像の候補として抽出する(ステップST37)。
サブウィンドウ設定部32は、現在の部分画像Wが現在の解像度画像上で最後の部分画像であるか否かを判定する(ステップST38)。ここで、現在の部分画像Wが最後の部分画像でないと判定された場合には、ステップST35に戻り、現在の解像度画像上で新たな部分画像Wを切り出し、顔画像の候補の抽出処理を続行する。一方、現在の部分画像Wが最後の部分画像であると判定された場合には、解像度画像選択部31が、現在の解像度画像が最後の解像度画像であるか否かを判定する(ステップST39)。ここで、現在の解像度画像が最後の解像度画像でないと判定された場合には、ステップST34に戻り、新たな解像度画像を選択し、顔画像の候補の抽出処理を続行する。一方、現在の解像度画像が最後の解像度画像であると判定された場合には、顔画像の候補の抽出処理を終了し、次のステップに移る。
候補群設定部34は、上述のように、判別器群33によりN個の候補が抽出された場合に、注目候補をDi(i=1〜Nのいずれか)、比較対象となる候補をDj(j=1〜N)として、注目候補Diと候補Djとの間の座標上の距離dist(i,j)が所定の距離δij以下となる候補Dj(j∈dist(i,j)≦δij,i=jの場合を含む)を、1つの候補群DGiとして設定する。そして、各候補を順次、注目候補に設定し、それぞれの場合について候補群を設定する(ステップST40)。このとき、注目候補と比較対象となる候補との間の距離dist(i,j)と所定の距離δijは、上記の式(3),(4)で定義されるものであり、各候補の画像の大きさ(顔の大きさ)が考慮される。
すべての候補群DGiが設定されると、総合的スコア算出部35は、各候補群DGi毎に、その候補群DGiを構成する各候補、すなわち、候補Dj(j∈dist(i,j)≦δij)についてそれぞれ算出された複数のスコアscj(j∈dist(i,j)≦δij)の総和を算出し、これを候補群DGiにおける総合的スコアSCiとして出力する(ステップST41)。
そして、顔画像抽出部36は、各候補群DGi毎に、総合的スコアSCiが第2の閾値Th2以上であるか否かを判定し、総合的スコアSCiが第2の閾値Th2以上であるときに、総合的スコアSCiが算出された候補群DGiを構成する各候補における、それぞれの位置座標のスコアによる重み付き平均値を顔画像の位置座標、それぞれの画像の大きさ(画像の一辺の長さ)のスコアによる重み付き平均値を顔画像の大きさ(画像の一辺の長さ)と推定し、その推定された位置座標と大きさをそれぞれ画像の中心および大きさとする部分的な画像を顔画像S2として抽出する(ステップST42)。
顔画像S2がすべて抽出されると、重複検出判定部40が、各解像度画像S1′_m上で検出された顔画像S2の各々に対して、顔画像の位置関係から、その顔画像が、検出対象画像S0上では同一の顔を表す顔画像であって解像度の隣接する複数の解像度画像上で重複して検出されたものであるか否かを判定し、重複して検出されたと認められる複数の顔画像を1つにまとめる処理を行い、重複検出のない真の顔画像S3を出力する(ステップST43)。
図15は、上記のステップST34からステップST39までを繰り返すことにより、解像度画像がサイズの小さい順に選択されて、各解像度画像S1′_m上で部分画像Wが順次切り出され、顔検出が実施される様子を示した図である。
本発明による第1の顔検出装置の実施形態である顔検出システムは、入力された検出対象画像に含まれる顔画像を検出するものであって、検出対象画像上の異なる位置で所定の大きさの部分画像を切り出し、その異なる位置で切り出された複数の部分画像の各々について、部分画像が顔画像である蓋然性を示す指標値を算出し、算出された指標値が第1の閾値以上である部分画像を顔画像の候補としてすべて抽出し、候補毎に、その候補を注目候補として設定し、注目候補とは異なる他の候補のうち、注目候補からの座標上の距離が所定の距離以下である近傍候補があるときに、注目候補と近傍候補とを1つの候補群として設定し、候補群毎に、その候補群を構成する各候補についてそれぞれ算出された複数の指標値に基づいて、これら複数の指標値の大きさが反映された総合的な指標値を算出し、この総合的な指標値が第2の閾値以上であるときに、この総合的な指標値が算出された候補群を含む検出対象画像上の所定領域内の画像を顔画像として抽出するものである。
このような顔検出システムによれば、真の顔画像の特徴である、比較的高い指標値が局所的に集中して算出されるという条件を満たす場合にのみ、それらの指標値が算出された部分画像を同一の顔に対応した画像とみなし、その近傍で顔画像を抽出するようにしているので、切り出した部分画像にたまたま指標値を上げてしまうような非顔の画像パターンが含まれていたとしても、そのような非顔の部分画像を顔画像の検出対象から外すことができ、誤検出を抑制することができる。
次に、本発明による第2の顔検出装置の実施形態(第2の実施形態)について説明する。第2の実施形態による顔検出システムは、本発明による第1の顔検出装置を基礎として、検出対象画像を複数の時系列画像に拡張し、比較的高いスコアが局所的に集中して算出されるか否かの判断に、時間軸方向の近さという概念を加えたものである。
したがって、第2の実施形態による顔検出システムは、第1の実施形態の場合と同様、図1の示すように、多重解像度化部10、正規化部20、顔検出部30、重複検出判定部40により構成されており、さらに、顔検出部30は、解像度画像選択部31と、サブウィンドウ設定部(部分画像切出し手段)32と、判別器群(第1の指標値算出手段,顔画像候補抽出手段)33と、候補群設定部(候補群設定手段)34と、総合的スコア算出部(第2の指標値算出手段)35と、顔画像抽出部(顔画像抽出手段)36とから構成されるものであるが、顔検出部30を構成する各部における処理が、次の通り、第1の実施形態とは若干異なるものである。
多重解像度化部10は、入力された、所定の時間間隔で撮像して得られた複数の時系列画像S0_1〜S0_K(Kは時系列画像の数)、例えば、デジタルムービーカメラ等により撮像して得られた連続的なフレーム画像の各々を多重解像度化し、解像度画像S1_11〜S1_1M,S1_21〜S1_2M,・・・,S1_K1〜S1_KMを得るものである。
正規化部20は、多重解像度化により得られた上記のすべての解像度画像に対して、第1の実施形態における正規化と同様の正規化を行い、S1′_11〜S1′_1M,S1′_21〜S1′_2M,・・・,S1′_K1〜S1′_KMを得るものである。
解像度画像選択部31は、時系列画像S0_k(k=1〜K)毎に、その時系列画像S0_kの解像度画像S1′_km(m=1〜M)を1つずつ選択するものである。
サブウィンドウ設定部32は、選択された解像度画像S1′_km上の異なる位置で所定の大きさの部分画像Wを切り出すものである。
判別器群33は、解像度画像S1′_km上の異なる位置で切り出された複数の部分画像Wの各々について、部分画像Wが顔画像である蓋然性を示すスコアscを算出するとともに、算出されたスコアscが第1の閾値Th1以上である部分画像Wを顔画像の候補Dとして抽出するものである。
候補群設定部34は、抽出された候補毎に、その候補を注目候補として設定し、注目候補とは異なる他の候補のうち、注目候補からの座標上の距離が所定の距離以下であって、かつ、撮像時期が注目候補を含む時系列画像の撮像時期から所定時間以内である時系列画像に含まれる近傍候補があるときに、その注目候補と近傍候補とを1つの候補群として設定するものである。
すなわち、判別器群33によりN個の候補が抽出された場合に、注目候補をDi(i=1〜Nのいずれか)で表し、比較対象となる候補をDj(j=1〜N)で表すとすると、注目候補Diと候補Djとの間の時空間のユークリッド距離dist(i,j)が所定の距離δij以下となる候補Dj(j∈dist(i,j)≦δij,i=jの場合を含む)を、1つの候補群DGiとして設定する。そして、各候補を順次、注目候補に設定し、それぞれの場合について候補群を設定する。なお、ユークリッド距離dist(i,j)および所定の距離δijは、下式(9),(10)のように定義することができる。
Figure 0004712563
ここで、xi,yiは候補Diの中心座標、xj,yjは候補Djの中心座標、c3は定数、ti,tjは候補Di,Djそれぞれが含まれる時系列画像の撮影時期である。
総合的スコア算出部35は、候補群設定部34により設定された各候補群DGi毎に、その候補群DGiを構成する各候補、すなわち、候補Dj(j∈dist(i,j)≦δij)についてそれぞれ算出された複数のスコアscj(j∈dist(i,j)≦δij)の総和を、総合的スコアSCiとして求める。
顔画像抽出部36は、総合的スコア算出部35により算出された総合的スコアSCiが第2の閾値Th2以上であるときに、総合的スコアSCiが算出された候補群DGiを構成するいずれかの候補を含むすべての時系列画像のうち少なくとも1つの時系列画像における、その候補を含む所定領域内の画像を顔画像S2として抽出するものである。なお本実施例では、候補群DGiを構成するいずれかの候補を含むすべての時系列画像の各々において、時系列画像上のその候補を含む所定領域内から顔画像S2をそれぞれ抽出する。
図16は、候補群DGiを構成する各候補Di,Da,Db,Dc,Ddが存在し、時系列画像S0_1上に候補Di,Da、時系列画像S0_2上に候補Db,Dc、時系列画像S0_3上に候補Ddがそれぞれ含まれている様子を示す図である。
例えば、図16に示すような場合には、候補Di,Daそれぞれの位置座標のスコアによる重み付き平均値を、時系列画像S0_1における顔画像S2の位置座標と推定し、また、候補Di,Daそれぞれの画像の大きさのスコアによる平均値を、時系列画像S0_1におけるその顔画像S2の大きさと推定して、顔画像S2を抽出する。同様に、時系列画像S0_2においては、候補Db,Dcに基づく上記平均値により、顔画像S2の位置座標と大きさを推定して、顔画像S2を抽出する。時系列画像S0_3においては、候補Ddのみが含まれるので、候補Ddそのものが顔画像S2として抽出される。
重複検出判定部40は、顔画像S2が検出された時系列画像S0_k毎に、時系列画像S0_kの各解像度画像S1′_km上で検出された顔画像S2の各々に対して、顔画像の位置関係から、その顔画像が、時系列画像S0_k上では同一の顔を表す顔画像であって解像度の隣接する複数の解像度画像上で重複して検出されたものであるか否かを判定し、重複して検出されたと認められる複数の顔画像を1つにまとめる処理を行い、重複検出のない真の顔画像S3を出力するものである。
次に、第2の実施形態による顔検出システムにおける処理の流れについて説明する。
図17a,17bは、第2の実施形態である顔検出システムの処理の流れを示したフローチャートである。これらの図に示すように、本システムに検出対象画像である複数の時系列画像S0_1〜S0_Kが供給されると(ステップST51)、多重解像度化部10が、時系列画像S0_k毎に、時系列画像S0_kの画像サイズが所定のサイズに変換された画像S0′_kを生成し、この画像S0′_kから2の−1/3乗倍ずつサイズ(解像度)が縮小された複数の解像度画像S1_k1〜S1_kMからなる解像度画像群S1_kが生成される(ステップST52)。そして、正規化部20が、すべての解像度画像群S1_1〜S1_Kの各解像度化像S1_11〜S1_KMに対して、上述の全体正規化処理と局所正規化処理を施し、正規化済みの解像度画像群S1′_11〜S1′_KMを得る(ステップST53)。
次に、顔検出部30の解像度画像選択部31が、解像度画像群S1′_k毎に、かつ、解像度画像S1′_k1〜S1′_kMの中から画像サイズの小さい順、すなわち、S1′_kM,S1′_k(M-1),・・・,S1′_k1の順に解像度画像を1つ選択する(ステップST54)。サブウィンドウ設定部32は、選択された解像度画像S1′_km上でサブウィンドウを所定のピッチ、例えば2画素間隔で移動しながら設定して所定サイズの部分画像Wを順次切り出し(ステップST55)、その部分画像Wを判別器群33へ入力する。判別器群33を構成する各判別器は、複数の弱判別器を用いて、入力された部分画像Wが所定の傾きおよび向きの顔を含む顔画像である蓋然性を示すスコアscを算出し(ステップST56)、算出されたスコアscが第1の閾値Th1以上である部分画像Wを顔画像の候補として抽出する(ステップST57)。
サブウィンドウ設定部32は、現在の部分画像Wが現在の解像度画像上で最後の部分画像であるか否かを判定する(ステップST58)。ここで、現在の部分画像Wが最後の部分画像でないと判定された場合には、ステップST55に戻り、現在の解像度画像上で新たな部分画像Wを切り出し、顔画像の候補の抽出処理を続行する。一方、現在の部分画像Wが最後の部分画像であると判定された場合には、解像度画像選択部31が、現在の解像度画像が最後の解像度画像であるか否かを判定する(ステップST59)。ここで、現在の解像度画像が最後の解像度画像でないと判定された場合には、ステップST54に戻り、新たな解像度画像を選択し、顔画像の候補の抽出処理を続行する。一方、現在の解像度画像が最後の解像度画像であると判定された場合には、顔画像の候補の抽出処理を終了し、次のステップに移る。
候補群設定部34は、上述のように、判別器群33によりN個の候補が抽出された場合に、注目候補をDi(i=1〜Nのいずれか)、比較対象となる候補をDj(j=1〜N)として、注目候補Diと候補Djとの間の時空間のユークリッド距離dist(i,j)が所定の距離δij以下となる候補Dj(j∈dist(i,j)≦δij,i=jの場合を含む)を、1つの候補群DGiとして設定する。そして、各候補を順次、注目候補に設定し、それぞれの場合について候補群を設定する(ステップST60)。このとき、注目候補と比較対象となる候補との間のユークリッド距離dist(i,j)と所定の距離δijは、上記の式(9),(10)で定義されるものであり、各候補の画像の大きさ(顔の大きさ)および撮影時期が考慮される。
すべての候補群DGiが設定されると、総合的スコア算出部35は、各候補群DGi毎に、その候補群DGiを構成する各候補、すなわち、候補Dj(j∈dist(i,j)≦δij)についてそれぞれ算出された複数のスコアscj(j∈dist(i,j)≦δij)の総和を算出し、これを候補群DGiにおける総合的スコアSCiとして出力する(ステップST61)。
そして、顔画像抽出部36は、各候補群DGi毎に、総合的スコアSCiが第2の閾値Th2以上であるか否かを判定し、総合的スコアSCiが第2の閾値Th2以上であるときに、特定の時系列画像、すなわち、総合的スコアSCiが算出された候補群DGiを構成するいずれかの候補を含むすべての時系列画像S0_r(r=1,2,・・・)の各々において、その時系列画像S0_rに含まれる候補それぞれの位置座標のスコアによる重み付き平均値を、その時系列画像S0_rにおける顔画像の位置座標と推定し、また、その時系列画像S0_rに含まれる候補それぞれの画像の大きさ(画像の一辺の長さ)のスコアによる重み付き平均値を、その時系列画像S0_rにおける顔画像の大きさ(画像の一辺の長さ)と推定し、その推定された位置座標と大きさをそれぞれ画像の中心および大きさとする部分的な画像を顔画像S2として抽出する(ステップST62)
顔画像S2がすべて抽出されると、重複検出判定部40が、時系列画像S0_r毎に、その時系列画像S0_rの各解像度画像上で検出された顔画像S2の各々に対して、顔画像の位置関係から、その顔画像が、時系列画像S0_r上では同一の顔を表す顔画像であって解像度の隣接する複数の解像度画像上で重複して検出されたものであるか否かを判定し、重複して検出されたと認められる複数の顔画像を1つにまとめる処理を行い、重複検出のない真の顔画像S3を出力する(ステップST63)。
本発明による第2の顔検出装置の実施形態である顔検出システムは、所定の時間間隔で撮像して得られた複数の時系列画像に含まれる顔画像を検出するものであって、複数の時系列画像の各々について、時系列画像上の異なる位置で所定の大きさの部分画像を切り出し、時系列画像毎に、その異なる位置で切り出された複数の部分画像の各々について、部分画像が顔画像である蓋然性を示す指標値を算出し、算出された指標値が第1の閾値以上である部分画像を顔画像の候補としてすべて抽出し、候補毎に、その候補を注目候補として設定し、注目候補とは異なる他の候補のうち、注目候補からの座標上の距離が所定の距離以下であって、かつ、撮像時期が注目候補を含む時系列画像の撮像時期から所定時間以内である時系列画像に含まれる近傍候補があるときに、注目候補と近傍候補とを1つの候補群として設定し、候補群毎に、その候補群を構成する各候補についてそれぞれ算出された複数の指標値に基づいて、これら複数の指標値の大きさが反映された総合的な指標値を算出し、この総合的な指標値が第2の閾値以上であるときに、この総合的な指標値が算出された候補群を構成するいずれかの候補を含むすべての時系列画像のうち少なくとも1つの時系列画像における、その候補を含む所定領域内の画像を顔画像として抽出するものである。
このような顔検出システムによれば、時間方向の情報を活かし、連続的な複数の時系列画像に含まれる真の顔画像の特徴である、比較的高い指標値が、空間方向および時間方向において局所的に集中して算出されるという条件を満たす場合にのみ、それらの指標値が算出された部分画像を同一の顔に対応した画像とみなし、その近傍で顔画像を抽出するようにしているので、デジタルムービー等で撮影して得られた連続した複数のフレーム画像のような時系列画像が対象となる場合において、切り出した部分画像にたまたま指標値を上げてしまうような非顔の画像パターンが含まれていたとしても、そのような非顔の部分画像を顔画像の検出対象から外すことができ、誤検出を抑制することができる。
なお、第2の実施形態による顔検出システムは、デジタルカメラ等に内蔵して利用することができ、例えば、検出された顔の位置にフォーカスを合わせ続けたり、検出された顔の色情報に基づくホワイトバランスの処理をほぼリアルタイムで行ったりすることができる。時系列画像は、当然、過去に撮像したフレーム画像であるが、顔検出処理を高速で行うことができれば、リアルタイムに近い感覚でカメラの制御等を行うことが可能である。
また、上記第1および第2の実施形態においては、判別器群33が、ある一定の確信度が得られた部分画像のみを顔画像の候補として抽出するために、第1の閾値Th1以上のスコアが算出された部分画像を顔画像の候補として抽出しているが、この第1の閾値Th1をスコアとして採り得る最小値に設定して、候補を抽出するようにしてもよい。これは、各部分画像をそのまま顔画像の候補として抽出することと等価であるが、このようにすると、顔画像の候補の抽出に掛かる処理が膨大となり、高速性が損なわれる恐れがあるが、反面、抽出される顔画像の候補の数が増大し、より精度の高い顔検出が期待できる。ただ一般的には、第1の閾値Th1は、この高速性と精度のバランスを考慮して設定するのがよいと考えられる。
また、上記第1および第2の実施形態においては、顔画像の候補同士の近さの指標となる距離dist(i,j)には、位置や時間の概念を含めていたが、さらに、顔の傾き(回転位置)や顔の向き(左右首振り方向での向き)の概念を含めるようにしてもよい。すなわち、注目候補と比較対象となる候補との間における、顔の傾きの差や顔の向きの差が所定角度、例えば30度以内であるときに、その比較対象の候補を近傍候補とみなし、これらを1つの候補群として設定するようにしてもよい。
以上、本発明の実施形態に係る顔検出システムについて説明したが、この顔検出システムのうちの本発明の顔検出装置に対応する部分における各処理をコンピュータに実行させるためのプログラムも、本発明の実施形態の1つである。また、そのようなプログラムを記録したコンピュータ読取可能な記録媒体も、本発明の実施形態の1つである。
顔検出システム1の構成を示すブロック図 検出対象画像の多重解像度化の工程を示す図 全体正規化処理に用いる変換曲線の一例を示す図 局所正規化処理の概念を示す図 局所正規化処理のフローを示す図 判別器群の構成を示すブロック図 判別器における処理フローを示す図 弱判別器における特徴量の算出を説明するための図 判別器の学習方法を示すフローチャート 目の位置が所定の位置にくるように規格化された顔のサンプル画像を示す図 弱判別器のヒストグラムを導出する方法を示す図 中心位置間の距離が同じ2つの候補について、その距離が顔の大きさに対して相対的に異なる2種類のケースを示す図 1つの候補群を構成する各候補の一例を示す図 第1の実施形態による顔検出システム1における処理を示すフローチャート(前半部) 第1の実施形態による顔検出システム1における処理を示すフローチャート(後半部) 顔検出対象となる解像度画像の切替えとその画像上でのサブウィンドウの移動を説明するための図 1つの候補群を構成する複数の時系列画像上の各候補の一例を示す図 第2の実施形態による顔検出システム1における処理を示すフローチャート(前半部) 第2の実施形態による顔検出システム1における処理を示すフローチャート(後半部)
符号の説明
1 顔検出システム
10 多重解像度化部
20 正規化部
30 顔検出部
31 解像度画像選択部
32 サブウィンドウ設定部
33 判別器群
34 候補群設定部
35 総合的スコア算出部
36 顔画像抽出部
40 重複検出判定部

Claims (12)

  1. 所定の時間間隔で撮像して得られた複数の時系列画像に含まれる顔画像を検出する顔検出方法であって、
    前記複数の時系列画像の各々について、該時系列画像上の異なる位置で所定の大きさの部分画像を切り出すステップと、
    前記時系列画像毎に前記異なる位置で切り出された複数の部分画像の各々について、該部分画像が顔画像である蓋然性を示す指標値を算出するステップと、
    算出された指標値が第1の閾値以上である前記部分画像を顔画像の候補としてすべて抽出するステップと、
    前記候補毎に、該候補を注目候補として設定し、該注目候補とは異なる他の候補のうち、該注目候補からの座標上の距離が所定の距離以下であって、かつ、撮像時期が前記注目候補を含む時系列画像の撮像時期から所定時間以内である時系列画像に含まれる近傍候補があるときに、前記注目候補と前記近傍候補とを1つの候補群として設定するステップと、
    前記候補群毎に、該候補群を構成する各候補についてそれぞれ算出された複数の指標値に基づいて、該複数の指標値の大きさが反映された総合的な指標値を算出するステップと、
    該総合的な指標値が第2の閾値以上であるときに、該総合的な指標値が算出された前記候補群を構成するいずれかの候補を含むすべての前記時系列画像のうち少なくとも1つの時系列画像における、該候補を含む所定領域内の画像を前記顔画像として抽出するステップとを有することを特徴とする顔検出方法。
  2. 前記部分画像を切り出すステップが、前記所定の大きさを複数の異なる大きさに変え、該大きさ毎に前記部分画像を切り出すステップであり、
    前記候補群を設定するステップが、前記注目候補および前記他の候補の少なくとも一方の画像が大きいほど、前記所定の距離をより長くするステップであることを特徴とする請求項1記載の顔検出方法。
  3. 前記総合的な指標値が、前記複数の指標値の和であることを特徴とする請求項1または2記載の顔検出方法。
  4. 前記第1の閾値が、前記指標値として採り得る最小値であることを特徴とする請求項1から3のうちいずれか一項記載の顔検出方法。
  5. 所定の時間間隔で撮像して得られた複数の時系列画像に含まれる顔画像を検出する顔検出装置であって、
    前記複数の時系列画像の各々について、該時系列画像上の異なる位置で所定の大きさの部分画像を切り出す部分画像切出し手段と、
    前記時系列画像毎に前記異なる位置で切り出された複数の部分画像の各々について、該部分画像が顔画像である蓋然性を示す指標値を算出する第1の指標値算出手段と、
    算出された指標値が第1の閾値以上である前記部分画像を顔画像の候補としてすべて抽出する顔画像候補抽出手段と、
    前記候補毎に、該候補を注目候補として設定し、該注目候補とは異なる他の候補のうち、該注目候補からの座標上の距離が所定の距離以下であって、かつ、撮像時期が前記注目候補を含む時系列画像の撮像時期から所定時間以内である時系列画像に含まれる近傍候補があるときに、前記注目候補と前記近傍候補とを1つの候補群として設定する候補群設定手段と、
    前記候補群毎に、該候補群を構成する各候補についてそれぞれ算出された複数の指標値に基づいて、該複数の指標値の大きさが反映された総合的な指標値を算出する第2の指標値算出手段と、
    該総合的な指標値が第2の閾値以上であるときに、該総合的な指標値が算出された前記候補群を構成するいずれかの候補を含むすべての前記時系列画像のうち少なくとも1つの時系列画像における、該候補を含む所定領域内の画像を前記顔画像として抽出する顔画像抽出手段とを備えたことを特徴とする顔検出装置。
  6. 前記部分画像切出し手段が、前記所定の大きさを複数の異なる大きさに変え、該大きさ毎に前記部分画像を切り出すものであり、
    前記候補群設定手段が、前記注目候補および前記他の候補の少なくとも一方の画像が大きいほど、前記所定の距離をより長くするものであることを特徴とする請求項5記載の顔検出装置。
  7. 前記総合的な指標値が、前記複数の指標値の和であることを特徴とする請求項5または6記載の顔検出装置。
  8. 前記第1の閾値が、前記指標値として採り得る最小値であることを特徴とする請求項5から7のうちいずれか一項記載の顔検出装置。
  9. コンピュータを、所定の時間間隔で撮像して得られた複数の時系列画像に含まれる顔画像を検出する顔検出装置として機能させるためのプログラムであって、
    該コンピュータを、
    前記複数の時系列画像の各々について、該時系列画像上の異なる位置で所定の大きさの部分画像を切り出す部分画像切出し手段と、
    前記時系列画像毎に前記異なる位置で切り出された複数の部分画像の各々について、該部分画像が顔画像である蓋然性を示す指標値を算出する第1の指標値算出手段と、
    算出された指標値が第1の閾値以上である前記部分画像を顔画像の候補としてすべて抽出する顔画像候補抽出手段と、
    前記候補毎に、該候補を注目候補として設定し、該注目候補とは異なる他の候補のうち、該注目候補からの座標上の距離が所定の距離以下であって、かつ、撮像時期が前記注目候補を含む時系列画像の撮像時期から所定時間以内である時系列画像に含まれる近傍候補があるときに、前記注目候補と前記近傍候補とを1つの候補群として設定する候補群設定手段と、
    前記候補群毎に、該候補群を構成する各候補についてそれぞれ算出された複数の指標値に基づいて、該複数の指標値の大きさが反映された総合的な指標値を算出する第2の指標値算出手段と、
    該総合的な指標値が第2の閾値以上であるときに、該総合的な指標値が算出された前記候補群を構成するいずれかの候補を含むすべての前記時系列画像のうち少なくとも1つの時系列画像における、該候補を含む所定領域内の画像を前記顔画像として抽出する顔画像抽出手段として機能させることを特徴とするプログラム。
  10. 前記部分画像切出し手段が、前記所定の大きさを複数の異なる大きさに変え、該大きさ毎に前記部分画像を切り出すものであり、
    前記候補群設定手段が、前記注目候補および前記他の候補の少なくとも一方の画像が大きいほど、前記所定の距離をより長くするものであることを特徴とする請求項9記載のプログラム。
  11. 前記総合的な指標値が、前記複数の指標値の和であることを特徴とする請求項9または10記載のプログラム。
  12. 前記第1の閾値が、前記指標値として採り得る最小値であることを特徴とする請求項9から11のうちいずれか一項記載のプログラム。
JP2006007542A 2006-01-16 2006-01-16 顔検出方法および装置並びにプログラム Active JP4712563B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006007542A JP4712563B2 (ja) 2006-01-16 2006-01-16 顔検出方法および装置並びにプログラム
US11/652,512 US7801337B2 (en) 2006-01-16 2007-01-12 Face detection method, device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006007542A JP4712563B2 (ja) 2006-01-16 2006-01-16 顔検出方法および装置並びにプログラム

Publications (2)

Publication Number Publication Date
JP2007188419A JP2007188419A (ja) 2007-07-26
JP4712563B2 true JP4712563B2 (ja) 2011-06-29

Family

ID=38263234

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006007542A Active JP4712563B2 (ja) 2006-01-16 2006-01-16 顔検出方法および装置並びにプログラム

Country Status (2)

Country Link
US (1) US7801337B2 (ja)
JP (1) JP4712563B2 (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4657934B2 (ja) * 2006-01-23 2011-03-23 富士フイルム株式会社 顔検出方法および装置並びにプログラム
CN102325257A (zh) 2007-07-20 2012-01-18 富士胶片株式会社 图像处理设备和图像处理方法
JP2009049979A (ja) 2007-07-20 2009-03-05 Fujifilm Corp 画像処理装置、画像処理方法、画像処理システム、及びプログラム
US8447100B2 (en) * 2007-10-10 2013-05-21 Samsung Electronics Co., Ltd. Detecting apparatus of human component and method thereof
JP5096211B2 (ja) 2008-03-31 2012-12-12 富士フイルム株式会社 確率分布構築方法、確率分布構築装置、および確率分布構築プログラム、並びに被写体検出方法、被写体検出装置、および被写体検出プログラム
US8331655B2 (en) * 2008-06-30 2012-12-11 Canon Kabushiki Kaisha Learning apparatus for pattern detector, learning method and computer-readable storage medium
JP5684488B2 (ja) 2009-04-20 2015-03-11 富士フイルム株式会社 画像処理装置、画像処理方法およびプログラム
JP5506272B2 (ja) 2009-07-31 2014-05-28 富士フイルム株式会社 画像処理装置及び方法、データ処理装置及び方法、並びにプログラム
JP5506274B2 (ja) 2009-07-31 2014-05-28 富士フイルム株式会社 画像処理装置及び方法、データ処理装置及び方法、並びにプログラム
JP5506273B2 (ja) 2009-07-31 2014-05-28 富士フイルム株式会社 画像処理装置及び方法、データ処理装置及び方法、並びにプログラム
JP5308391B2 (ja) 2010-03-31 2013-10-09 富士フイルム株式会社 画像符号化装置および方法並びにプログラム
JP5675214B2 (ja) * 2010-08-18 2015-02-25 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム
JP5777390B2 (ja) * 2011-04-20 2015-09-09 キヤノン株式会社 情報処理方法及び装置、パターン識別方法及び装置
WO2012169119A1 (ja) 2011-06-10 2012-12-13 パナソニック株式会社 物体検出枠表示装置及び物体検出枠表示方法
US9111346B2 (en) * 2011-09-13 2015-08-18 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and recording medium
JP6003124B2 (ja) * 2012-03-15 2016-10-05 オムロン株式会社 認証装置、認証装置の制御方法、制御プログラム、および記録媒体
JP6098133B2 (ja) * 2012-11-21 2017-03-22 カシオ計算機株式会社 顔構成部抽出装置、顔構成部抽出方法及びプログラム
US9189503B2 (en) 2012-12-06 2015-11-17 Microsoft Technology Licensing, Llc Database scale-out
JP2014203407A (ja) * 2013-04-09 2014-10-27 キヤノン株式会社 画像処理装置及び画像処理方法、プログラム並びに記憶媒体
JP6266468B2 (ja) * 2014-08-13 2018-01-24 セコム株式会社 対象検出装置
US9721186B2 (en) * 2015-03-05 2017-08-01 Nant Holdings Ip, Llc Global signatures for large-scale image recognition
CN106778585B (zh) * 2016-12-08 2019-04-16 腾讯科技(上海)有限公司 一种人脸关键点跟踪方法和装置
CN108154132A (zh) * 2018-01-10 2018-06-12 马上消费金融股份有限公司 一种身份证文字提取方法、系统及设备和存储介质
CN110163033B (zh) * 2018-02-13 2022-04-22 京东方科技集团股份有限公司 正样本获取方法、行人检测模型生成方法和行人检测方法
JP6977624B2 (ja) * 2018-03-07 2021-12-08 オムロン株式会社 物体検出装置、物体検出方法、およびプログラム
CN108960099B (zh) * 2018-06-22 2021-07-06 哈尔滨工业大学深圳研究生院 人脸左右倾斜角度估计方法、系统、设备及存储介质
CN110210474B (zh) * 2019-04-30 2021-06-01 北京市商汤科技开发有限公司 目标检测方法及装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004295775A (ja) * 2003-03-28 2004-10-21 Minolta Co Ltd 画像認識装置および画像認識プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6292574B1 (en) * 1997-08-29 2001-09-18 Eastman Kodak Company Computer program product for redeye detection
US6895112B2 (en) * 2001-02-13 2005-05-17 Microsoft Corporation Red-eye detection based on red region detection with eye confirmation
US7920725B2 (en) 2003-09-09 2011-04-05 Fujifilm Corporation Apparatus, method, and program for discriminating subjects
GB2432659A (en) * 2005-11-28 2007-05-30 Pixology Software Ltd Face detection in digital images
US8103061B2 (en) * 2006-10-02 2012-01-24 Johnson & Johnson Consumer Companies, Inc. Method and apparatus for identifying facial regions
US20080107341A1 (en) * 2006-11-02 2008-05-08 Juwei Lu Method And Apparatus For Detecting Faces In Digital Images

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004295775A (ja) * 2003-03-28 2004-10-21 Minolta Co Ltd 画像認識装置および画像認識プログラム

Also Published As

Publication number Publication date
US20070165951A1 (en) 2007-07-19
US7801337B2 (en) 2010-09-21
JP2007188419A (ja) 2007-07-26

Similar Documents

Publication Publication Date Title
JP4712563B2 (ja) 顔検出方法および装置並びにプログラム
JP4657934B2 (ja) 顔検出方法および装置並びにプログラム
JP4640825B2 (ja) 特定向き顔判定方法および装置並びにプログラム
JP4708909B2 (ja) デジタル画像の対象物検出方法および装置並びにプログラム
JP4619927B2 (ja) 顔検出方法および装置並びにプログラム
JP4744918B2 (ja) 顔検出方法および装置並びにプログラム
JP4628882B2 (ja) 判別器の学習方法、顔判別方法および装置並びにプログラム
JP4624889B2 (ja) 顔検出方法および装置並びにプログラム
JP4708948B2 (ja) 顔向き特定方法、顔判別方法および装置並びにプログラム
JP6111297B2 (ja) 方法、装置、およびプログラム
JP4757598B2 (ja) 顔検出方法および装置並びにプログラム
JP2007213182A (ja) 対象物状態認識方法および装置並びにプログラム
JP5317934B2 (ja) オブジェクト検出装置および方法並びにプログラム
WO2011092865A1 (ja) 物体検出装置及び物体検出方法
JP4795864B2 (ja) 特徴点検出装置および方法並びにプログラム
JP4657930B2 (ja) 顔検出方法および装置並びにプログラム
JP4749884B2 (ja) 顔判別装置の学習方法、顔判別方法および装置並びにプログラム
JP4749879B2 (ja) 顔判別方法および装置並びにプログラム
JP2011170890A (ja) 顔検出方法および装置並びにプログラム
JP4795737B2 (ja) 顔検出方法および装置並びにプログラム
JP2006244385A (ja) 顔判別装置およびプログラム並びに顔判別装置の学習方法
JP5283267B2 (ja) コンテンツ識別方法及び装置
JP2021064120A (ja) 情報処理装置、情報処理方法、及びプログラム
JP4749880B2 (ja) 顔判別方法および装置並びにプログラム
JP2007011935A (ja) 顔判別方法および装置並びにプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080715

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110323

R150 Certificate of patent or registration of utility model

Ref document number: 4712563

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250