JP4795737B2 - Face detection method, apparatus, and program - Google Patents
Face detection method, apparatus, and program Download PDFInfo
- Publication number
- JP4795737B2 JP4795737B2 JP2005202836A JP2005202836A JP4795737B2 JP 4795737 B2 JP4795737 B2 JP 4795737B2 JP 2005202836 A JP2005202836 A JP 2005202836A JP 2005202836 A JP2005202836 A JP 2005202836A JP 4795737 B2 JP4795737 B2 JP 4795737B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- face
- normalization process
- detection
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 146
- 238000000034 method Methods 0.000 claims description 129
- 238000010606 normalization Methods 0.000 claims description 104
- 230000008569 process Effects 0.000 claims description 96
- 238000006243 chemical reaction Methods 0.000 claims description 46
- 239000006185 dispersion Substances 0.000 claims description 23
- 210000000887 face Anatomy 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 230000008901 benefit Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 6
- 230000001186 cumulative effect Effects 0.000 description 4
- 230000001174 ascending effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Description
本発明は、対象画像の中から顔画像を検出する顔検出方法および装置並びにそのためのプログラムに関するものである。 The present invention relates to a face detection method and apparatus for detecting a face image from a target image, and a program therefor.
従来、デジタルカメラによって撮影されたスナップ写真における人物の顔領域の色分布を調べてその肌色を補正したり、監視システムのデジタルビデオカメラで撮影されたデジタル映像中の人物を認識したりすることが行われている。このような場合、デジタル画像中の人物の顔に対応する顔領域を検出する必要があるため、これまでに、デジタル画像中の顔を検出する手法が種々提案されている。その中でも特に検出精度、ロバスト性が優れているとされる顔検出の手法として、サンプル画像を用いたマシンラーニングの学習により生成された判別器モジュール(以下、単に判別器という)を用いる手法が知られている(例えば、非特許文献1,特許文献1〜3等参照)。
Conventionally, the color distribution of a person's face area in a snapshot photographed by a digital camera is examined to correct the skin color, or a person in a digital image photographed by a digital video camera of a surveillance system is recognized. Has been done. In such a case, since it is necessary to detect a face region corresponding to a person's face in the digital image, various techniques for detecting a face in the digital image have been proposed so far. Among them, a method using a discriminator module (hereinafter simply referred to as a discriminator) generated by machine learning learning using sample images is known as a face detection method that is considered to be particularly excellent in detection accuracy and robustness. (For example, refer
この手法は、顔の向きおよび天地方向が略揃った複数の異なる顔サンプル画像からなる顔サンプル画像群と、顔でないことが分かっている複数の異なる非顔サンプル画像からなる非顔サンプル画像群とを用いて、顔であることの特徴を学習させ、ある画像が所定の向きおよび天地方向にある顔の画像であるか否かを判別できる判別器を生成して用意しておき、顔の検出対象となる画像(以下、検出対象画像という)において部分画像を順次切り出し、その部分画像が顔であるか否かを上記の判別器を用いて判別することにより、検出対象画像上の顔を検出する手法である。 This method includes a face sample image group composed of a plurality of different face sample images having substantially the same face orientation and vertical direction, and a non-face sample image group composed of a plurality of different non-face sample images that are known not to be faces. Is used to learn the characteristics of being a face, and to generate and prepare a discriminator that can determine whether an image is a face image in a predetermined orientation and vertical direction. A face on the detection target image is detected by sequentially cutting out partial images in a target image (hereinafter referred to as a detection target image) and determining whether or not the partial image is a face. It is a technique to do.
なお、この手法では、順次切り出した部分画像の各々に対して顔であるか否かの判別を行うので、はじめから精査しようとするとその処理量が膨大となり、顔の検出に時間がかかるという問題がある。そこで、この判別器を用いた手法において、判別処理の効率化を図るため、まず、検出対象画像に対して比較的ラフな顔検出処理(例えば、順次切り出す部分画像の位置を間引きする等)を施して顔候補を抽出し、次に、抽出された顔候補近傍の画像に対して、精細な判別処理を施して真の顔であるか否かを判別する手法がある。 In this method, since it is determined whether or not each of the sequentially extracted partial images is a face, the amount of processing becomes enormous if it is attempted to scrutinize from the beginning, and it takes time to detect the face. There is. Therefore, in order to increase the efficiency of the discrimination process in the method using this discriminator, first, a relatively rough face detection process (for example, thinning out the positions of partial images to be sequentially cut out) is performed. There is a method of extracting face candidates and then performing fine discrimination processing on the extracted image near the face candidates to determine whether or not the face is a true face.
ところで、上記の判別器は、一般的に、比較的画質が整ったサンプル画像を用いて学習されるため、基本的に画質のきれいな画像を対象に作られたものである。一方、検出対象画像としては、撮影シーンの明るさやコントラストが種々異なる画像が想定される。したがって、例えば、検出対象画像が暗い場所で撮影された画像である場合、この画像において顔の特徴を表す目の暗い部分と鼻の明るい部分を探そうとしても、画像の明るさが影響し、探索が難しい場合がある。 By the way, since the discriminator is generally learned using a sample image with relatively good image quality, it is basically made for an image with a good image quality. On the other hand, as the detection target image, images with various brightness and contrast of the shooting scene are assumed. Therefore, for example, when the detection target image is an image taken in a dark place, even if an attempt is made to search for a dark part of the eye and a bright part of the nose representing facial features in this image, the brightness of the image affects, Searching may be difficult.
このため、検出対象画像の明るさやコントラストが違っても顔を検出することができるように、検出もしくは判別の対象となる画像に前処理として、画像のコントラストをある一定レベルに揃えるべく、正規化処理を施す手法が提案されている。この正規化処理を施す手法としては、主に下記3つの手法が提案されている。 For this reason, normalization is performed so that the contrast of the image is set to a certain level as a pre-process for the image to be detected or discriminated so that the face can be detected even if the brightness and contrast of the detection target image are different. A technique for performing processing has been proposed. The following three methods are mainly proposed as a method for performing this normalization process.
第1の手法は、検出対象画像の画像全体の画素値をその画像における被写体の輝度の対数を表す値に近づける変換曲線(ルックアップテーブル)にしたがって変換する手法である。第2の手法は、検出対象画像から切り出された部分画像毎にその領域内の画素値(輝度値)の分散の程度を一定レベルに揃えるべくこの画素値を変換する手法である。そして、第3の手法は、検出対象画像から切り出された部分画像の領域内で所定サイズの局所領域を走査しながらその局所領域における画素値の分散の程度を一定レベルに揃えるべく、この画素値を変換する手法である。
しかしながら、第1の手法は、処理時間は短いが、処理結果が検出対象画像中の斜光や背景による影響を受けやすいという特徴があり、第3の手法は、処理結果は検出対象画像中の斜光や背景、入力モダリティの違いによる影響を受けにくいが、処理時間が長いという特徴があり、また、第2の手法は、処理時間、処理結果への検出対象画像中の斜光や背景による影響の大きさについて、共に平均的であるという特徴がある。 However, the first method is characterized in that the processing result is short, but the processing result is easily affected by the oblique light and background in the detection target image. The third method has the characteristic that the processing result is oblique light in the detection target image. However, the second method has a feature that the processing time is long, and the second method has a large influence of the processing time, the oblique light in the detection target image on the processing result and the background. Both are characterized by being both average.
すなわち、いずれの手法も一長一短であり、これらの各正規化処理の利点をより活かした手法が未だ提案されておらず、このことが、高精度、かつ、効率のよい顔検出を目指す上での障害の一つとなっている。 In other words, both methods are pros and cons, and no method has been proposed that takes advantage of the benefits of each of these normalization processes. This is in order to achieve highly accurate and efficient face detection. It has become one of the obstacles.
本発明は、上記事情に鑑み、これらの各正規化処理の利点をより活かし、高精度、かつ、効率のよい顔検出が可能な顔検出方法および装置並びにそのためのプログラムを提供することを目的とするものである。 In view of the circumstances described above, the present invention aims to provide a face detection method and apparatus capable of highly accurate and efficient face detection, and a program therefor, by taking advantage of these normalization processes. To do.
本発明の顔検出方法は、顔を検出する対象となる入力された検出対象画像に対して、画像全体の画素値を該画像における被写体の輝度の対数を表す値に近づける変換曲線にしたがって変換する全体正規化処理を施す全体正規化ステップと、前記全体正規化処理が施された検出対象画像に基づいて該画像の画素値の分布に係る特徴量を算出し、該特徴量を用いて前記検出対象画像における顔画像候補を検出する顔画像候補検出ステップと、前記全体正規化処理が施された検出対象画像における前記顔画像候補に対応する部分画像に対して、画像上の画素値を該画像領域内における所定サイズの局所領域毎の画素値の分散の程度が所定レベルに近づくように変換する局所正規化処理を施す局所正規化ステップと、前記局所正規化処理が施された部分画像に基づいて該画像の画素値の分布に係る特徴量を算出し、該特徴量を用いて前記部分画像に対応する顔画像候補が顔画像であるか否かを判別する判別ステップとを有することを特徴とするものである。 The face detection method of the present invention converts an input detection target image, which is a target for detecting a face, according to a conversion curve that approximates the pixel value of the entire image to a value representing the logarithm of the luminance of the subject in the image. An overall normalization step for performing an overall normalization process; and a feature amount relating to a distribution of pixel values of the image based on the detection target image subjected to the overall normalization process; and the detection using the feature amount A face image candidate detecting step for detecting a face image candidate in the target image, and a pixel value on the image for the partial image corresponding to the face image candidate in the detection target image subjected to the overall normalization process; A local normalization step for performing a local normalization process for converting the degree of dispersion of the pixel value for each local area of a predetermined size in the area so as to approach a predetermined level, and the part subjected to the local normalization process And determining a feature amount related to the distribution of pixel values of the image based on the image, and determining whether the face image candidate corresponding to the partial image is a face image using the feature amount. It is characterized by this.
本発明の顔検出装置は、顔を検出する対象となる入力された検出対象画像に対して、画像全体の画素値を該画像における被写体の輝度の対数を表す値に近づける変換曲線にしたがって変換する全体正規化処理を施す全体正規化手段と、前記全体正規化処理が施された検出対象画像に基づいて該画像の画素値の分布に係る特徴量を算出し、該特徴量を用いて前記検出対象画像における顔画像候補を検出する顔画像候補検出手段と、前記全体正規化処理が施された検出対象画像における前記顔画像候補に対応する部分画像に対して、画像上の画素値を該画像領域内における所定サイズの局所領域毎の画素値の分散の程度が所定レベルに近づくように変換する局所正規化処理を施す局所正規化手段と、前記局所正規化処理が施された部分画像に基づいて該画像の画素値の分布に係る特徴量を算出し、該特徴量を用いて前記部分画像に対応する顔画像候補が顔画像であるか否かを判別する判別手段とを備えたことを特徴とするものである。 The face detection device of the present invention converts an input detection target image, which is a target for detecting a face, according to a conversion curve that approximates the pixel value of the entire image to a value representing the logarithm of the luminance of the subject in the image. An overall normalization unit for performing an overall normalization process; and a feature amount related to a distribution of pixel values of the image based on the detection target image subjected to the overall normalization process; and the detection using the feature amount Face image candidate detecting means for detecting a face image candidate in the target image, and a pixel value on the image for the partial image corresponding to the face image candidate in the detection target image subjected to the overall normalization process A local normalization unit for performing local normalization processing for converting the degree of dispersion of pixel values for each local region of a predetermined size in the region so as to approach a predetermined level; and a partial image subjected to the local normalization processing. Z And determining means for calculating a feature amount related to the distribution of pixel values of the image and determining whether the face image candidate corresponding to the partial image is a face image using the feature amount. It is a feature.
本発明のプログラムは、コンピュータを、顔を検出する対象となる入力された検出対象画像に対して、画像全体の画素値を該画像における被写体の輝度の対数を表す値に近づける変換曲線にしたがって変換する全体正規化処理を施す全体正規化手段と、前記全体正規化処理が施された検出対象画像に基づいて該画像の画素値の分布に係る特徴量を算出し、該特徴量を用いて前記検出対象画像における顔画像候補を検出する顔画像候補検出手段と、前記全体正規化処理が施された検出対象画像における前記顔画像候補に対応する部分画像に対して、画像上の画素値を該画像領域内における所定サイズの局所領域毎の画素値の分散が所定レベルに近づくように変換する局所正規化処理を施す局所正規化手段と、前記局所正規化処理が施された部分画像に基づいて該画像の画素値の分布に係る特徴量を算出し、該特徴量を用いて前記部分画像に対応する顔画像候補が顔画像であるか否かを判別する判別手段として機能させるためのものである。 The program of the present invention converts a computer according to a conversion curve that approximates the pixel value of the entire image to a value representing the logarithm of the luminance of the subject in the image for an input detection target image that is a target for detecting a face. An overall normalization means for performing the overall normalization process, and calculating a feature amount related to a distribution of pixel values of the image based on the detection target image subjected to the overall normalization process, and using the feature amount, Face image candidate detection means for detecting a face image candidate in the detection target image, and a pixel value on the image for the partial image corresponding to the face image candidate in the detection target image subjected to the overall normalization process Local normalization means for performing local normalization processing for converting the dispersion of pixel values for each local region of a predetermined size in the image region so as to approach a predetermined level, and the portion subjected to the local normalization processing A feature amount related to the distribution of pixel values of the image is calculated based on the image, and the feature amount is used to function as a determination unit that determines whether a face image candidate corresponding to the partial image is a face image. Is for.
ここで、「全体正規化処理」としては、例えば、検出対象画像が、sRGBの色空間、すなわち、画像出力機器のガンマ値(γout)が2.2で、画像取得時のガンマ値が0.45(=1/γout)となる規格で取得された画像であることが想定される場合には、検出対象画像の画像全体における画素値を、γout(=2.2)乗した後にさらに対数をとるような変換曲線(図15参照)にしたがって変換する処理を考えることができる。 Here, as the “total normalization process”, for example, the detection target image has an sRGB color space, that is, the gamma value (γout) of the image output device is 2.2, and the gamma value at the time of image acquisition is 0. When it is assumed that the image is acquired with a standard of 45 (= 1 / γout), the pixel value in the entire image of the detection target image is multiplied by γout (= 2.2) and then the logarithm is further increased. A process of conversion according to a conversion curve (see FIG. 15) can be considered.
なお、「全体正規化処理」は、常に固定の変換曲線にしたがって画素値の変換を行うものであってもよいが、検出対象画像毎に、画像全体の画素値の分散や画素値のヒストグラムを求め、これらの情報に基づいてより画像のコントラストを顔検出処理に適したレベルに近づけるための変換曲線を選択しもしくは計算により導出し、この変換曲線にしたがって画素値の変換を行うものであってもよい。 Note that the “total normalization process” may always perform pixel value conversion according to a fixed conversion curve, but for each detection target image, the distribution of the pixel values of the entire image and the histogram of the pixel values are calculated. The conversion curve for obtaining the image contrast closer to the level suitable for the face detection process is selected or derived by calculation based on the information, and the pixel value is converted according to the conversion curve. Also good.
また、「画素値の分散の程度」とは、画素値のばらつきの度合を意味するものであり、例えば、画素値のいわゆる数学的な分散値のほか、画素値の最大値と最小値の差分値等とすることができる。また、ここでの「所定レベル」とは、上記分散値あるいは上記差分値等が取り得る値の一つであり、顔の額や頬、背景となる空等を表すコントラストがもともと平坦である画像とその他の画像とを区別し得る境界に相当する上記分散値あるいは上記差分値等とすることができる。 The “degree of dispersion of pixel values” means the degree of dispersion of pixel values. For example, in addition to a so-called mathematical dispersion value of pixel values, the difference between the maximum value and the minimum value of pixel values. It can be a value or the like. Further, the “predetermined level” here is one of the values that the dispersion value or the difference value can take, and an image whose contrast that originally represents the face frame, cheek, background sky, etc. is flat. And the difference value or the like corresponding to a boundary that can distinguish the image from other images.
「画素値の統計学上の所定の代表値」とは、画素値の分布の特徴を代表するこの分布の中心的な値であり、例えば、画素値の、統計学上の平均値、中央値、中間値、最頻値等とすることができる。 The “predetermined representative value in the pixel value statistics” is a central value of the distribution representing the characteristics of the distribution of the pixel value. For example, the statistical average value and the median value of the pixel value , Intermediate values, mode values, and the like.
「局所領域」は、便宜上、矩形領域であることが好ましいが、真円、楕円等の形状であってもよい。 The “local region” is preferably a rectangular region for convenience, but may be a shape such as a perfect circle or an ellipse.
本発明の顔検出装置において、前記判別手段は、互いに異なる複数の顔サンプル画像により顔画像の画素値の分布に係る特徴を予め学習させた判別器であって、前記局所正規化処理が施された部分画像に係る前記特徴量を用いて該部分画像に対応する顔画像候補が顔画像であるか否かを判別する判別器を備えたものであってもよい。 In the face detection apparatus of the present invention, the discrimination means is a discriminator in which features relating to the distribution of pixel values of a face image are learned in advance from a plurality of different face sample images, and the local normalization process is performed. The image processing apparatus may include a discriminator that determines whether or not the face image candidate corresponding to the partial image is a face image using the feature amount related to the partial image.
また、前記局所正規化手段は、前記部分画像における各局所領域について、画素値の分散の程度を算出し、前記局所正規化処理として、前記算出された分散の程度が所定レベル以上である局所領域に対して、画素値の分散の程度を前記所定レベルより高い一定レベルに近づける第1の輝度階調変換処理を施し、前記算出された分散の程度が前記所定レベル未満である局所領域に対して、画素値の分散の程度を前記一定レベルより低いレベルに抑える第2の輝度階調変換処理を施すものであってもよい。 Further, the local normalization means calculates a degree of dispersion of pixel values for each local area in the partial image, and as the local normalization process, the local area where the calculated degree of dispersion is a predetermined level or more The first luminance gradation conversion process is performed to bring the degree of dispersion of pixel values closer to a certain level higher than the predetermined level, and for the local region where the calculated degree of dispersion is less than the predetermined level Further, a second luminance gradation conversion process may be performed in which the degree of dispersion of pixel values is suppressed to a level lower than the predetermined level.
ここで、「局所正規化処理」としては、前記部分画像における各画素を注目画素として順次設定するとともに、前記注目画素毎に、該注目画素を中心とする所定の大きさの局所領域における画素値の分散を算出し、少なくとも該分散が前記所定レベルに対応する閾値以上のときに、前記第1の輝度階調変換処理として、該分散が前記一定レベルに対応する基準値より大きいほど、前記注目画素の画素値と該注目画素を中心とする前記局所領域における画素値の統計学上の所定の代表値との差を小さくし、該分散が前記基準値より小さいほど、前記注目画素の画素値と前記所定の代表値との差を大きくする階調変換を行う処理とすることができる。 Here, as the “local normalization process”, each pixel in the partial image is sequentially set as a target pixel, and for each target pixel, a pixel value in a local region having a predetermined size centered on the target pixel. When the variance is greater than or equal to a threshold value corresponding to the predetermined level, as the first luminance gradation conversion process, as the variance is larger than a reference value corresponding to the certain level, the attention The difference between the pixel value of the pixel and a predetermined statistical value of the pixel value in the local area centered on the pixel of interest is reduced, and the pixel value of the pixel of interest is smaller as the variance is smaller than the reference value. And gradation conversion for increasing the difference between the predetermined representative value and the predetermined representative value.
なお、ここでの「所定レベル」は、前記局所領域における全体または一部の輝度に応じて変化させるようにしてもよい。例えば、上記の、注目画素毎に階調変換を行う局所正規化処理において、前記閾値を、前記注目画素の画素値に応じて変化させるようにしてもよい。すなわち、前記所定レベルに対応する閾値を、前記注目画素の輝度が相対的に高いときにはより高く設定し、その輝度が相対的に低いときにはより低く設定するようにしてもよい。このようにすることにより、輝度の低い(暗い)領域に低いコントラスト(小さい分散値)で存在している顔も正しく正規化することができる。 Here, the “predetermined level” may be changed according to the whole or a part of luminance in the local region. For example, in the above-described local normalization process in which gradation conversion is performed for each target pixel, the threshold value may be changed according to the pixel value of the target pixel. That is, the threshold corresponding to the predetermined level may be set higher when the luminance of the pixel of interest is relatively high, and may be set lower when the luminance is relatively low. In this way, a face that exists in a low-luminance (dark) region with a low contrast (small dispersion value) can be correctly normalized.
本発明の顔検出方法および装置並びにそのためのプログラムによれば、検出対象画像に対して比較的ラフな顔検出処理を施して顔候補を抽出する段階、すなわち、処理の対象となる領域が広いため高速性が重視される一方、ここではあくまで顔候補を抽出できればよいことから信頼性がそれほど要求されないという場面においては、画像中の斜光や背景による影響は受けやすいが、その反面、処理時間が短いという利点を有する全体正規化処理を採用し、抽出された顔候補近傍の画像に対して精細な判別処理を施して真の顔であるか否かを判別する絞込み段階、すなわち、顔候補の中から非顔を厳格に排除する必要があるため信頼性が重視される一方、処理の対象となる領域が限定されることから高速性がそれほど要求されないという場面においては、処理時間は長いが、画像中の斜光や背景の違いによる影響を受けにくいという利点を有する局所正規化処理を採用しているので、各処理段階において、要求される処理の信頼性と高速性を満足させるのに適当な特徴を有する正規化処理をそれぞれ適用することができ、各正規化処理の利点をより活かし、高精度、かつ、効率のよい顔検出が可能となる。 According to the face detection method and apparatus and the program therefor according to the present invention, the stage for extracting face candidates by performing a relatively rough face detection process on the detection target image, that is, the processing target area is wide. While high speed is important, it is easy to extract the face candidates here, so in a situation where reliability is not so required, it is easily affected by oblique light and background in the image, but on the other hand, the processing time is short In the refinement stage that adopts the overall normalization process that has the advantage of the above, and performs a fine discrimination process on the extracted image near the face candidate to determine whether it is a true face, that is, among the face candidates While the importance of reliability is important because non-faces must be rigorously excluded from the image, the area to be processed is limited, so high speed is not so required. However, the processing time is long, but the local normalization process has the advantage that it is less susceptible to the effects of oblique light and background in the image. Normalization processing having characteristics suitable for satisfying high speed can be applied, and the advantages of each normalization processing can be further utilized to enable highly accurate and efficient face detection.
以下、本発明の実施形態について説明する。図1は本発明の顔検出装置が適用された顔検出システムの構成を示す概略ブロック図である。この顔検出システムは、デジタル画像中に含まれる顔を、顔の位置、大きさ、向き、回転方向によらず検出するものである。図1に示すように、顔検出システム1は、顔を検出する対象となる入力画像S0を多重解像度化して解像度の異なる複数の画像(以下、解像度画像という)からなる解像度画像群S1(=S1_1,S1_2,・・・,S1_n)を得る多重解像度化部10と、後に実行される顔検出処理の精度向上を目的とした前処理として、各解像度画像についてコントラストを顔検出処理に適した所定のレベル(後述の判別器の性能を引き出すのに適したレベル)に近づけるべく、解像度画像群S1の各々対して、画像全体の画素値をこの画像における被写体の輝度の対数を表す値に近づける変換曲線にしたがって変換する全体正規化処理を施し、全体正規化済みの解像度画像群S1′(=S1′_1,S1′_2,・・・,S1′_n)を得る全体正規化部20と、全体正規化済みの解像度画像群S1′の各々に対して顔検出処理を施すことにより、解像度画像群S1′の各解像度画像に含まれる顔を表す画像(以下、顔画像という)S2を検出する顔検出部30と、各解像度画像上で検出された顔画像S2の各々について、同一の顔が重複して検出されたものであるか否かをその位置関係から判定して整理し、重複検出のない顔画像S3を得る重複検出判定部40とを備える。
Hereinafter, embodiments of the present invention will be described. FIG. 1 is a schematic block diagram showing the configuration of a face detection system to which the face detection apparatus of the present invention is applied. This face detection system detects a face included in a digital image regardless of the position, size, orientation, and rotation direction of the face. As shown in FIG. 1, the
多重解像度化部10は、入力画像S0の解像度(画像サイズ)を変換することにより、その解像度を所定の解像度、例えば、短辺が416画素の矩形サイズの画像に規格化し、規格化済みの入力画像S0′を得る。そして、この規格化済みの入力画像S0′を基本としてさらに解像度変換を行うことにより、解像度の異なる複数の解像度画像を生成し、解像度画像群S1を得る。このような解像度画像群を生成する理由は、通常、入力画像に含まれる顔の大きさは不明であるが、一方、検出しようとする顔の大きさ(画像サイズ)は、後述の判別器の生成方法と関連して一定の大きさに固定されるため、大きさの異なる顔を検出するためには、解像度の異なる画像上で位置をずらしながら所定サイズの部分画像をそれぞれ切り出し、その部分画像が顔か非顔かを判別してゆく必要があるためである。具体的には、図2に示すように、規格化済みの入力画像S0′を基本となる解像度画像S1_1とし、解像度画像S1_1に対して2の−1/3乗倍サイズの解像度画像S1_2と、解像度画像S1_2に対して2の−1/3乗倍サイズ(基本画像S1_1に対しては2の−2/3乗倍サイズ)の解像度画像S1_3とを先に生成し、その後、解像度画像S1_1,S1_2,S1_3のそれぞれを1/2倍サイズに縮小した解像度画像を生成し、それら縮小した解像度画像をさらに1/2倍サイズに縮小した解像度画像を生成する、といった処理を繰り返し行い、複数の解像度画像を所定の数だけ生成するようにする。このようにすることで、輝度を表す画素値の補間処理を必要としない1/2倍の縮小処理を主な処理とし、基本となる解像度画像から2の−1/3乗倍ずつサイズが縮小された複数の画像が高速に生成できる。例えば、解像度画像S1_1が短辺416画素の矩形サイズである場合、解像度画像S1_2,S1_3,・・・は、短辺がそれぞれ、330画素,262画素,208画素,165画素,131画素,104画素,82画素,65画素,・・・の矩形サイズとなり、2の−1/3乗倍ずつ縮小された複数の解像度画像を生成することができる。なお、このように画素値を補間しないで生成される画像は、元の画像パターンの特徴をそのまま担持する傾向が強いので、顔検出処理において精度向上が期待できる点で好ましい。
The
全体正規化部20は、解像度画像群S1の各々に対して全体正規化処理を施すものであるが、具体的には、例えば、図15に示すような、画素値をsRGB空間におけるいわゆる逆ガンマ変換(=2.2乗する)した後にさらに対数をとるような変換曲線(ルックアップテーブル)にしたがって、画像全体における画素値を変換する処理を考えることができる。これは、次のような理由による。
The
画像として観測される光強度Iは、通常、被写体の反射率Rと光源の強度Lの積として表現される(I=R×L)。したがって、光源の強度Lが変化すると、画像として観測される光強度Iも変化することになるが、被写体の反射率Rのみを評価することができれば、光源の強度Lに依存しない、すなわち、画像の明るさの影響を受けない精度の高い顔判別を行うことができる。 The light intensity I observed as an image is usually expressed as the product of the reflectance R of the subject and the intensity L of the light source (I = R × L). Therefore, when the intensity L of the light source changes, the light intensity I observed as an image also changes. However, if only the reflectance R of the subject can be evaluated, it does not depend on the intensity L of the light source. It is possible to perform highly accurate face discrimination that is not affected by the brightness of the image.
ここで、光源の強度がLの場合において、被写体上で反射率がR1の部分から観測される光強度をI1、被写体上で反射率がR2の部分から観測される光強度をI2としたとき、それぞれの対数をとった空間では、下記の式が成り立つ。
log(I1)−log(I2)=log(R1×L)−log(R2×L)=log(R1)+log(L)−(log(R2)+log(L))=log(R1)−log(R2)=log(R1/R2)
Here, when the intensity of the light source is L, the light intensity observed from the portion with the reflectance R1 on the subject is I1, and the light intensity observed from the portion with the reflectance R2 on the subject is I2. In the space where each logarithm is taken, the following equation holds.
log (I1) −log (I2) = log (R1 × L) −log (R2 × L) = log (R1) + log (L) − (log (R2) + log (L)) = log (R1) −log (R2) = log (R1 / R2)
すなわち、画像における画素値を対数変換することは、反射率の比が差として表現された空間へ変換することとなり、このような空間では、光源の強度Lに依存しない被写体の反射率のみを評価することが可能となる。言い換えると、画像中の明るさによって異なるコントラスト(ここでは画素値の差分そのもの)を揃えることができる。 In other words, logarithmic conversion of pixel values in an image results in conversion into a space where the reflectance ratio is expressed as a difference. In such a space, only the reflectance of the subject that does not depend on the intensity L of the light source is evaluated. It becomes possible to do. In other words, it is possible to align different contrasts (here, the pixel value difference itself) depending on the brightness in the image.
一方、一般的なデジタルカメラ等の機器で取得された画像の色空間はsRGBである。sRGBとは、機器間の色再現の違いを統一するために、色彩、彩度等を規定・統一した国際標準の色空間のことであり、この色空間においては、ガンマ値(γout)が2.2の画像出力機器において適正な色再現を可能にするため、画像の画素値は、入力輝度を1/γout(=0.45)乗して得られる値となっている。 On the other hand, the color space of an image acquired by a device such as a general digital camera is sRGB. sRGB is an international standard color space that defines and unifies color, saturation, etc., in order to unify the differences in color reproduction between devices. In this color space, the gamma value (γout) is 2. The image pixel value is a value obtained by raising the input luminance to 1 / γout (= 0.45) in order to enable proper color reproduction in the .2 image output device.
そこで、画像全体における画素値を、いわゆる逆ガンマ変換、すなわち、2.2乗した後にさらに対数をとるような変換曲線にしたがって変換することにより、光源の強度に依存しない被写体の反射率のみによる評価を適正に行うことができるようになる。 Therefore, the pixel value in the entire image is converted according to a so-called inverse gamma conversion, that is, according to a conversion curve that takes a logarithm after being raised to the power of 2.2, thereby evaluating only by the reflectance of the subject independent of the intensity of the light source. Can be performed properly.
なお、このような全体正規化処理は、別の言い方をすれば、画像全体における画素値を、特定の色空間を別の特性を有する色空間に変換する変換曲線にしたがって変換する処理ということができる。 In other words, such an overall normalization process is a process of converting pixel values in the entire image according to a conversion curve for converting a specific color space into a color space having different characteristics. it can.
このような処理を検出対象画像に施すことにより、画像中の明るさによって異なるコントラストを揃えることができ、顔検出処理の精度が向上することとなる。なお、この全体正規化処理は、処理結果が検出対象画像中の斜光や背景、入力モダリティの違いによる影響を受けやすい反面、処理時間が短いという特徴を有する。 By applying such processing to the detection target image, different contrasts can be provided depending on the brightness in the image, and the accuracy of the face detection processing is improved. The overall normalization process is characterized in that the processing result is easily influenced by the difference in oblique light, background, and input modality in the detection target image, but the processing time is short.
顔検出部30は、全体正規化部20により全体正規化処理がなされた解像度画像群S1′の各々に対して顔検出処理を施し、各解像度画像における顔画像S2を検出するものである。図3は、この顔検出部30の構成を示すブロック図である。顔検出部30は、図3に示すように、後述の各部を制御して顔検出処理におけるシーケンス制御を主に行う検出制御部31と、解像度画像群S1′の中から顔検出処理に供する解像度画像をサイズの小さいものから順に順次選択する解像度画像選択部32と、解像度画像選択部32により選択された解像度画像において、顔画像であるか否かの判別対象となる部分画像Wを切り出すサブウィンドウを、その位置をずらしながら順次設定するサブウィンドウ設定部33と、その切り出された部分画像Wが顔画像であるか否かを判別する第1の判別器群34および第2の判別器群35と、第2の判別器群35に入力される部分画像Wに対して局所正規化処理を施す局所正規化部36とから構成されている。
The
検出制御部31は、解像度画像群S1′の各画像に対して、顔画像の候補となる顔画像候補をラフに検出し、さらにその顔画像候補の中から真の顔画像S2を抽出するという段階的な顔検出処理を行うべく、解像度画像選択部32およびサブウィンドウ設定部33を制御するものである。例えば、適宜、解像度画像選択部32に対して解像度画像の選択を指示したり、サブウィンドウ設定部33に対してサブウィンドウの設定条件を指示したり、また、得られた検出結果を重複検出判定部40に出力したりする。なお、サブウィンドウ設定条件には、サブウィンドウを設定する画像上の範囲、サブウィンドウの移動間隔(検出の粗さ)の他、判別に用いる判別器群の別(ラフ/高精度の検出モード)等が含まれる。
The
解像度画像選択部32は、検出制御部31の制御により、解像度画像群S1′の中から顔検出処理に供する解像度画像をサイズの小さい順に(解像度の粗い順に)順次選択するものである。なお、本実施形態における顔検出の手法が、各解像度画像上で順次切り出された同じサイズの部分画像Wについてその部分画像Wが顔画像であるか否かを判別することにより入力画像S0における顔を検出する手法であるから、この解像度画像選択部32は、入力画像S0における検出すべき顔の大きさを毎回変えながら設定するものであって、検出すべき顔の大きさを大から小へ変えながら設定するものと同等なものということができる。
Under the control of the
サブウィンドウ設定部33は、検出制御部31により設定されたサブウィンドウ設定条件に基づいて、解像度画像選択部32により選択された解像度画像上でサブウィンドウを移動させながら順次設定する。例えば、上記のラフな検出を行う場合には、上記の選択された解像度画像において、所定のサイズすなわち32×32画素サイズの部分画像Wを切り出すサブウィンドウを、所定画素数分、例えば5画素ずつ移動させながら順次設定し、その切り出された部分画像Wを第1の判別器群34へ入力する。判別器群を構成する各判別器は、後述のように、それぞれ所定の向きおよび天地方向にある顔の顔画像を判別するものであるから、このようにすることで、あらゆる向きおよび天地方向にある顔の顔画像を判別することが可能となる。また、上記の顔画像候補の絞込みを行う場合には、その解像度画像のうち顔画像候補を含む所定の大きさの近傍領域内に限定して、またサブウィンドウをより短い間隔で、例えば1画素ずつ移動させながら順次設定し、上記と同様に部分画像Wの切り出しを行い、その切り出された部分画像Wを局所正規化部36を介して第2の判別器群35へ入力する。
The sub
第1の判別器群34は、部分画像Wが顔画像であるか否かを比較的高速に判別する判別器群であり、解像度画像における顔画像の候補をラフに検出するために用いられる。この第1の判別器群34は、図4に示すように、判別可能な顔の向きがそれぞれ異なる複数種類の判別器群、すなわち、主に正面顔を判別する第1の正面顔判別器群34_F、主に左横顔を判別する第1の左横顔判別器群34_Lおよび主に右横顔を判別する第1の右横顔判別器群34_Rが並列に接続された構成である。さらに、これら3種の判別器群はそれぞれ、判別可能な顔の天地方向が画像の天地方向を基準として30度ずつ異なる計12方向に対応した判別器、すなわち、第1の正面顔判別器群34_Fは、判別器34_F30,34_F60,・・・,34_F330、第1の左横顔判別器群34_Lは、判別器34_L30,34_L60,・・・,34_L330、第1の右横顔判別器群34_Rは、判別器34_R30,34_R60,・・・,34_R330から構成されている。
The
一方、第2の判別器群35は、部分画像W(厳密には、局所正規化部36により局所正規化処理がなされた部分画像W′)が顔画像であるか否かを比較的高精度に判別する判別器群であり、上記のラフな検出によって検出された顔画像候補についてより細かい検出処理を施し、顔画像候補の中から真の顔画像S2を抽出する(絞り込む)ために用いられる。この第2の判別器群35も、第1の判別器群と同様、図4に示すように、判別可能な顔の向きがそれぞれ異なる複数種類の判別器群、すなわち、主に正面顔を判別する第2の正面顔判別器群35_F、主に左横顔を判別する第2の左横顔判別器群35_Lおよび主に右横顔を判別する第2の右横顔判別器群35_Rが並列に接続された構成である。さらに、これら3種の判別器群は第1の判別器群と同様、それぞれ、判別可能な顔の天地方向が画像の天地方向を基準として30度ずつ異なる計12方向に対応した判別器、すなわち、第2の正面顔判別器群35_Fは、判別器35_F30,35_F60,・・・,35_F330、第2の左横顔判別器群35_Lは、判別器35_L30,35_L60,・・・,35_L330、第2の右横顔判別器群35_Rは、判別器35_R30,35_R60,・・・,35_R330から構成されている。
On the other hand, the
局所正規化部36は、抽出された顔画像候補を絞り込むために、その顔画像候補に対応する部分画像Wを第2の判別器群に入力する際に、前処理として、部分画像Wに対して、画像上の局所的な領域におけるコントラストのばらつきを抑制するための局所正規化処理を施すものである。すなわち、局所正規化部36は、入力された部分画像Wに対して、この部分画像における各局所領域について、輝度を表す画素値の分散の程度が所定レベル以上である局所領域に対して、この分散の程度を上記の所定レベルより高い一定レベルに近づける第1の輝度階調変換処理を施し、画素値の分散の程度が上記の所定レベル未満である局所領域に対して、この分散の程度を上記の一定レベルより低いレベルに抑える第2の輝度階調変換処理を施すものである。なお、この局所正規化処理は、処理時間は長いが、検出対象画像中の斜光や背景、入力モダリティの違いによる判別結果への影響は小さいという特徴を有する。ここで、局所正規化部36における具体的な処理について説明する。
When the
図12は局所正規化処理の概念を示した図であり、図13は局所正規化部36における処理フロー示す図である。また、式(1),(2)は、この局所正規化処理のための画素値の階調変換の式である。
ここで、Xは注目画素の画素値、X′は注目画素の変換後の画素値、mlocalは注目画素を中心とする局所領域における画素値の平均、Vlocalはこの局所領域における画素値の分散、SDlocalはこの局所領域における画素値の標準偏差、(C1×C1)は上記の一定レベルに対応する基準値、C2は上記の所定レベルに対応する閾値、SDcは所定の定数である。なお、本実施形態において、輝度の階調数は8bitとし、画素値の取り得る値は0から255とする。 Here, X is the pixel value of the pixel of interest, X ′ is the pixel value after conversion of the pixel of interest, mlocal is the average of the pixel values in the local region centered on the pixel of interest, Vlocal is the variance of the pixel values in this local region, SDlocal is a standard deviation of pixel values in this local area, (C1 × C1) is a reference value corresponding to the above-mentioned constant level, C2 is a threshold value corresponding to the above-mentioned predetermined level, and SDc is a predetermined constant. In the present embodiment, the number of gradations of luminance is 8 bits, and the possible pixel values are 0 to 255.
局所正規化部36は、図13に示すように、部分画像Wにおける1つの画素を注目画素として設定し(ステップS31)、この注目画素を中心とする所定の大きさ、例えば11×11画素サイズの局所領域における画素値の分散Vlocalを算出し(ステップS32)、分散Vlocalが上記所定のレベルに対応する閾値C2以上であるか否かを判定する(ステップS33)。ステップS33において、分散Vlocalが閾値C2以上であると判定された場合には、上記第1の輝度階調変換処理として、分散Vlocalが上記一定のレベルに対応する基準値(C1×C1)より大きいほど、注目画素の画素値Xと平均mlocalとの差を小さくし、分散mlocalが基準値(C1×C1)より小さいほど、注目画素の画素値Xと平均mlocalとの差を大きくする階調変換を式(1)にしたがって行う(ステップS34)。一方、ステップS33において、分散Vlocalが閾値C2未満であると判定された場合には、上記第2の輝度階調変換処理として、分散Vlocalに依らない線形な階調変換を式(2)にしたがって行う(ステップS35)。そして、ステップS31で設定した注目画素が最後の画素であるか否かを判定する(ステップS36)。ステップS36において、その注目画素が最後の画素でないと判定された場合には、ステップS31に戻り、同じ部分画像上の次の画素を注目画素として設定する。一方、ステップS36において、その注目画素が最後の画素であると判定された場合には、その部分画像に対する局所正規化を終了する。このように、上記ステップS31からS36の処理を繰り返すことにより、部分画像全体に局所正規化が施された部分画像W′を得る。
As shown in FIG. 13, the
なお、上記の所定レベルは、局所領域における全体または一部の輝度に応じて変化させるようにしてもよい。例えば、上記の、注目画素毎に階調変換を行う正規化処理において、閾値C2を注目画素の画素値に応じて変化させるようにしてもよい。すなわち、上記の所定レベルに対応する閾値C2を、注目画素の輝度が相対的に高いときにはより高く設定し、その輝度が相対的に低いときにはより低く設定するようにしてもよい。このようにすることで、輝度の低い、いわゆる暗い領域に低いコントラスト(画素値の分散が小さい状態)で存在している顔も正しく正規化することができる。 Note that the predetermined level may be changed according to the whole or a part of luminance in the local region. For example, in the normalization process in which gradation conversion is performed for each target pixel, the threshold value C2 may be changed according to the pixel value of the target pixel. That is, the threshold value C2 corresponding to the predetermined level may be set higher when the luminance of the target pixel is relatively high, and may be set lower when the luminance is relatively low. In this way, it is possible to correctly normalize a face that exists in a low-brightness, so-called dark area with low contrast (a state in which the dispersion of pixel values is small).
なお、上記の各判別器は、図4に示すように、複数の弱判別器WCが線形に結合したカスケード構造を有しており、弱判別器は、部分画像Wの画素値(輝度)の分布に係る少なくとも1つの特徴量を算出し、この特徴量を用いてこの部分画像Wが顔画像であるか否かを判別するものである。 Each discriminator has a cascade structure in which a plurality of weak discriminators WC are linearly coupled as shown in FIG. 4, and the weak discriminator has a pixel value (luminance) of the partial image W. At least one feature amount related to the distribution is calculated, and using this feature amount, it is determined whether or not the partial image W is a face image.
また、上記第1および第2の判別器群34,35は、いずれも、判別可能な主な顔の向きを正面顔、左横顔および右横顔の3種としているが、斜め向きの顔の検出精度を上げるため、右斜め顔、左斜め顔をそれぞれ判別する判別器をさらに設けるようにしてもよい。
The first and
ここで、これら各判別器における具体的な処理について説明する。図5は、各判別器における大局的な処理フローを示したものであり、図6は、その中の各弱判別器による処理フローを示したものである。 Here, a specific process in each discriminator will be described. FIG. 5 shows a general processing flow in each discriminator, and FIG. 6 shows a processing flow by each weak discriminator therein.
まず、1番目の弱判別器WCが、所定の解像度画像S1′_i上で切り出された所定サイズの部分画像Wに対してこの部分画像Wが顔であるか否かを判別する(ステップSS1)。具体的には、1番目の弱判別器WCは、図7に示すように、解像度画像S1′_i上で切り出された所定サイズの部分画像W、すなわち、32×32画素サイズの画像に対して、4近傍画素平均(画像を2×2画素サイズ毎に複数のブロックに区分し、各ブロックの4画素における画素値の平均値をそのブロックに対応する1つの画素の画素値とする処理)を行うことにより、16×16画素サイズの画像と、8×8画素サイズの縮小した画像を得、これら3つの画像の平面内に設定される所定の2点を1ペアとして、複数種類のペアからなる1つのペア群を構成する各ペアにおける2点間の画素値(輝度)の差分値をそれぞれ計算し、これらの差分値の組合せを特徴量とする(ステップSS1−1)。各ペアの所定の2点は、例えば、画像上の顔の濃淡の特徴が反映されるよう決められた縦方向に並んだ所定の2点や、横方向に並んだ所定の2点とする。そして、特徴量である差分値の組合せに応じて所定のスコアテーブルを参照してスコアを算出し(ステップSS1−2)、直前の弱判別器が算出したスコアに自己の算出したスコアを加算して累積スコアを算出するが(ステップSS1−3)、最初の弱判別器WC1では、直前の弱判別器がないので、自己の算出したスコアをそのまま累積スコアとする。この累積スコアが所定の閾値以上であるか否かによって部分画像が顔であるか否かを判別する(ステップSS1−4)。ここで、上記部分画像Wが顔と判別されたときには、次の弱判別器WC2による判別に移行し(ステップSS2)、部分画像Wが非顔と判別されたときには、部分画像は、即、非顔と断定され(ステップSSB)、処理が終了する。 First, the first weak discriminator WC discriminates whether or not the partial image W is a face with respect to the partial image W of a predetermined size cut out on the predetermined resolution image S1′_i (step SS1). . Specifically, as shown in FIG. 7, the first weak discriminator WC applies a partial image W of a predetermined size cut out on the resolution image S1′_i, that is, an image of 32 × 32 pixel size. 4-neighbor pixel average (processing that divides an image into a plurality of blocks for each 2 × 2 pixel size and sets an average value of pixel values of four pixels of each block as a pixel value of one pixel corresponding to the block) By doing this, an image with a size of 16 × 16 pixels and an image with a reduced size of 8 × 8 pixels are obtained, and a predetermined two points set in the plane of these three images are taken as one pair, and a plurality of types of pairs are used. A difference value of pixel values (luminance) between two points in each pair constituting one pair group is calculated, and a combination of these difference values is used as a feature amount (step SS1-1). The predetermined two points of each pair are, for example, two predetermined points arranged in the vertical direction and two predetermined points arranged in the horizontal direction so as to reflect the characteristics of the facial shading on the image. Then, a score is calculated by referring to a predetermined score table according to a combination of difference values as feature amounts (step SS1-2), and the score calculated by itself is added to the score calculated by the previous weak discriminator. The accumulated score is calculated (step SS1-3). However, since the first weak discriminator WC1 has no previous weak discriminator, the score calculated by itself is used as the cumulative score. It is determined whether or not the partial image is a face depending on whether or not the accumulated score is equal to or greater than a predetermined threshold (step SS1-4). Here, when the partial image W is determined to be a face, the process proceeds to determination by the next weak classifier WC2 (step SS2). When the partial image W is determined to be a non-face, the partial image is immediately non- The face is determined (step SSB), and the process ends.
ステップSS2においても、ステップSS1と同様に、2番目の弱判別器WCが部分画像に基づいて画像上の特徴を表す上記のような特徴量を算出し(ステップSS2−1)、スコアテーブルを参照して特徴量からスコアを算出する(ステップSS2−2)。そして、自ら算出したスコアを直前の1番目の弱判別器WCが算出した累積スコアに加算して累積スコアを更新し(ステップSS2−3)、この累積スコアが所定の閾値以上であるか否かによって部分画像Wが顔であるか否かを判別する(ステップSS2−4)。ここでも、部分画像Wが顔と判別されたときには、次の3番目の弱判別器WCによる判別に移行し(ステップSS3)、部分画像Wが非顔と判別されたときには、部分画像Wは、即、非顔と断定され(ステップSSB)、処理が終了する。このようにして、判別器を構成する全N個の弱判別器WCにおいて部分画像Wが顔であると判別されたときには、その部分画像Wを最終的に顔画像候補として抽出する(ステップSSA)。 Also in step SS2, as in step SS1, the second weak classifier WC calculates the above-described feature amount representing the feature on the image based on the partial image (step SS2-1), and refers to the score table. Then, a score is calculated from the feature amount (step SS2-2). Then, the score calculated by itself is added to the cumulative score calculated by the immediately preceding first weak discriminator WC to update the cumulative score (step SS2-3), and whether or not the cumulative score is equal to or greater than a predetermined threshold value. To determine whether the partial image W is a face (step SS2-4). Again, when the partial image W is determined to be a face, the process proceeds to determination by the next third weak classifier WC (step SS3). When the partial image W is determined to be a non-face, the partial image W is Immediately, a non-face is determined (step SSB), and the process ends. Thus, when the partial image W is determined to be a face in all N weak classifiers WC constituting the classifier, the partial image W is finally extracted as a face image candidate (step SSA). .
上記の各判別器は、独自の、特徴量の種類、スコアテーブル、および閾値によって定められた複数の弱判別器WCからなる判別器であり、それぞれ所定の向きおよび天地方向にある顔を判別する。 Each of the discriminators is a discriminator including a plurality of weak discriminators WC defined by unique feature type, score table, and threshold value, and discriminates faces in a predetermined direction and a vertical direction, respectively. .
重複検出判定部40は、顔検出部30によって検出された真の顔画像S2の位置情報に基づいて、解像度画像群S1′の各解像度画像上で検出された顔画像のうち同一の顔を表す画像、すなわち重複して検出された顔画像をそれぞれ1つの顔画像としてまとめる処理を行い、入力画像S0において検出された真の顔画像S3を出力する。判別器は、学習方法にもよるが、一般的に部分画像Wのサイズに対して検出できる顔の大きさにはある程度幅があるので、解像度レベルが隣接する複数の解像度画像において、同一の顔を表す画像が重複して検出される場合があるからである。
The duplicate
なお、本実施形態において、全体正規化部20は本発明の全体正規化手段として機能し、局所正規化部36は本発明の局所正規化手段として機能し、検出制御部31、解像度画像選択部32、サブウィンドウ設定部33および第1の判別器群34は本発明の顔画像候補検出手段として機能し、検出制御部31、サブウィンドウ設定部33および第2の判別器群35は本発明の判別手段として機能する。
In the present embodiment, the
次に、顔検出システム1における処理の流れについて説明する。図9は、上記顔検出システムにおける処理の流れを示したフローチャートである。図9に示すように、多重解像度化部10に入力画像S0が供給されると(ステップS1)、この入力画像S0の画像サイズが所定のサイズに変換された画像S0′が生成され、この画像S0′から2の−1/3乗倍ずつサイズ(解像度)が縮小された複数の解像度画像からなる解像度画像群S1が生成される(ステップS2)。そして、全体正規化部20において、解像度画像群S1の各々に対し、画像全体のコントラストのばらつきを抑制する全体正規化処理、すなわち、画像全体の画素値をこの画像における被写体の輝度の対数を表す値に近づける変換曲線にしたがって変換する処理を施し、全体正規化済みの解像度画像群S1′が得られる(ステップS3)。顔検出部30においては、検出制御部31からの指示を受けた解像度画像選択部32により、解像度画像群S1′の中から画像サイズの小さい順、すなわち、S1′_n,S1′_n−1,・・・,S1′_1の順に所定の解像度画像S1′_iを選択する(ステップS4)。次に検出制御部31が、サブウィンドウ設定部33に対して、検出モードをラフな検出のモードとするサブウィンドウ設定条件を設定する。これにより、サブウィンドウ設定部33は、解像度画像S1′_i上でサブウィンドウを広めのピッチ、例えば5画素間隔で移動しながら設定して所定サイズの部分画像Wを順次切り出し(ステップS5)、その部分画像Wを第1の判別器群34へ入力する(ステップS6)。第1の判別器群34は、順次入力される部分画像Wに対して、上記の36種類の判別器を用いて判別を行い、検出制御部31がその判別結果Rを取得する(ステップS7)。そして、検出制御部31は、現在切り出された部分画像Wが最後の順番に位置する部分画像であるか否かを判定し(ステップS8)、部分画像Wが最後の部分画像であると判定された場合には、次のステップS9へ移行し、部分画像Wが最後の部分画像でないと判定された場合には、ステップS5に戻って新たな部分画像Wが切り出される。このようにして解像度画像S1′_iについての顔画像候補をラフに検出する。
Next, the flow of processing in the
この顔画像候補のラフな検出が終了すると、検出制御部31は、顔画像候補が検出されたか否かを判定し、顔画像候補が検出されていると判定された場合には、さらに絞込みモードの検出を行うためステップS10に移行し、一方、顔画像候補が検出されていないと判定された場合には、絞込みモードでの検出を行わずに現在選択されている解像度画像S1′_iに対する検出は終了し、ステップS14に移行する。
When the rough detection of the face image candidate is completed, the
ステップS10では、検出制御部31が、サブウィンドウ設定部33に対して、検出対象領域を顔画像候補を含む所定の大きさの領域内に限定し、検出モードを絞込みモードとするサブウィンドウ設定条件を設定する。これにより、サブウィンドウ設定部33は、顔画像候補近傍で、サブウィンドウを狭いピッチ、例えば1画素ずつ移動しながら設定して所定サイズの部分画像Wを順次切り出し(ステップS10)、その部分画像Wを局所正規化部36へ入力する。局所正規化部36は、部分画像Wの画素値の分散が所定の閾値以上の領域に対してはその分散をある一定レベルに近づける輝度階調変換をし、画素値の分散がその所定の閾値を下回る領域に対してはその分散を上記一定レベルより低いレベルに抑える輝度階調変換をする局所正規化を行い(ステップS11)、この局所正規化済みの部分画像W′を第2の判別器群35へ入力する(ステップS12)。第2の判別器群35は、順次入力される部分画像W′に対して、顔の向きについては正面顔、右横顔および左横顔の3種、天地方向については30度ずつ異なる12種、計36種類の顔について各判別器を用いて判別を行い、検出制御部31がその判別結果Rを取得する(ステップS13)。そして、検出制御部31は、現在切り出された部分画像Wが最後の順番に位置する部分画像であるか否かを判定し(ステップS14)、部分画像Wが最後の部分画像であると判定された場合には、次のステップS15へ移行し、部分画像Wが最後の部分画像でないと判定された場合には、ステップS10に戻って新たな部分画像Wが切り出される。このようにして、検出された顔画像候補の絞込みを行い、解像度画像S1′_iにおける真の顔画像S2を抽出する。
In step S10, the
顔画像候補の近傍領域における絞込みモードの検出が終了すると、検出制御部31は、現在選択されている解像度画像S1′_iが最後の順番に位置する画像であるか否かを判定し(ステップS15)、最後の解像度画像であると判定された場合には、検出処理を終了し、重複検出判定に移行する(ステップS16)。一方、最後の解像度画像ではないと判定された場合には、ステップS10に戻り、解像度画像選択部32により、現在選択されている解像度画像S1′_iより1段階サイズが大きい解像度画像S1′_i−1が選択され、さらに顔画像の検出が実行される。
When the detection of the narrow-down mode in the vicinity region of the face image candidate is completed, the
このように、ステップS4からS15までの処理を繰り返すことにより、各解像度画像における顔画像S2を検出することができる。図8は、解像度画像がサイズの小さい順に選択されて顔検出が実施される様子を示した図である。 In this way, the face image S2 in each resolution image can be detected by repeating the processing from step S4 to S15. FIG. 8 is a diagram showing how face detection is performed by selecting resolution images in ascending order of size.
ステップS16では、重複検出判定部40により、真の顔画像S2のうち重複して検出された顔画像をそれぞれ1つの顔画像としてまとめる処理を行い、入力画像S0において検出された真の顔画像S3を出力する。
In step S16, the overlap
次に、判別器の学習方法(生成方法)について説明する。なお、学習は、判別器の種類、すなわち、判別すべき顔の向きおよび天地方向の各組合せ毎に行われる。 Next, a learning method (generation method) of the discriminator will be described. Note that learning is performed for each type of classifier, that is, for each combination of the orientation of the face to be determined and the vertical direction.
学習の対象となるサンプル画像群は、所定のサイズ、例えば32×32画素サイズで規格化された、顔であることが分かっている複数のサンプル画像(顔サンプル画像群)と、顔でないことが分かっている複数のサンプル画像(非顔サンプル画像群)とからなる。顔であることが分かっているサンプル画像としては、顔の向きが判別器の判別すべき顔の向きと同一であって顔の天地方向が揃ったものを用いる。顔であることが分かっているサンプル画像は、1つのサンプル画像につき、縦および/または横を0.7倍から1.2倍の範囲にて0.1倍単位で段階的に拡縮して得られる各サンプル画像に対し、平面上±15度の範囲にて3度単位で段階的に回転させて得られる複数の変形バリエーションを用いる。なおこのとき、顔のサンプル画像は、目の位置が所定の位置に来るように顔のサイズと位置を規格化し、上記の平面上の回転、拡縮は目の位置を基準として行うようにする。例えば、d×dサイズの正面顔のサンプル画像の場合においては、図14に示すように、両目の位置が、サンプル画像の最左上の頂点と最右上の頂点から、それぞれ、内側に1/4d、下側に1/4d移動した各位置とに来るように顔のサイズと位置を規格化し、また、上記の平面上の回転、拡縮は、両目の中間点を中心に行うようにする。 The sample image group to be learned is a plurality of sample images (face sample image group) that are known to be faces and are not faces, standardized at a predetermined size, for example, 32 × 32 pixel size. It consists of a plurality of known sample images (non-face sample image group). As a sample image that is known to be a face, an image in which the face orientation is the same as the face orientation to be discriminated by the discriminator and the face orientations are aligned is used. A sample image that is known to be a face is obtained by scaling in steps of 0.1 times in the range of 0.7 to 1.2 times in length and / or width for each sample image. For each sample image to be obtained, a plurality of deformation variations obtained by rotating stepwise in units of 3 degrees within a range of ± 15 degrees on a plane is used. At this time, the face sample image is standardized in size and position so that the eye position is at a predetermined position, and the above-described rotation and scaling on the plane are performed based on the eye position. For example, in the case of a d × d size front face sample image, as shown in FIG. 14, the positions of both eyes are 1/4 d inward from the upper left vertex and the upper right vertex of the sample image, respectively. The face size and position are normalized so as to come to each position moved 1 / 4d downward, and the above-mentioned rotation and scaling on the plane are performed around the middle point of both eyes.
このような顔サンプル画像群を、正面顔、右横顔、左横顔のそれぞれについて顔の天地方向が30度ずつ異なる12種類、合計36種類について用意する。これら36種類の顔サンプル画像群の各々と非顔サンプル画像群とを用いて各種類毎に判別器の学習を行い、36種類の判別器を生成する。以下、その具体的な学習手法について説明する。 Such face sample image groups are prepared for a total of 36 types of 12 types, each of which has a top-to-bottom direction of 30 degrees for each of the front face, right profile, and left profile. Each of these 36 types of face sample image groups and the non-face sample image group is used to learn a classifier for each type to generate 36 types of classifiers. The specific learning method will be described below.
図10は、この判別器の学習方法を示すフローチャートである。なお、顔サンプル画像群および非顔サンプル画像群を構成する各サンプル画像は、前もって、前述のデータ変換処理部20によるデータ変換処理と同等のデータ変換処理が施されているものとする。
FIG. 10 is a flowchart showing a learning method of the classifier. It is assumed that each sample image constituting the face sample image group and the non-face sample image group has been subjected in advance to data conversion processing equivalent to the data conversion processing by the data
これら各サンプル画像には、重みすなわち重要度が割り当てられる。まず、すべてのサンプル画像の重みの初期値が等しく1に設定される(ステップS21)。 Each of these sample images is assigned a weight or importance. First, the initial value of the weight of all sample images is set equal to 1 (step S21).
次に、サンプル画像およびその縮小画像の平面内に設定される所定の2点を1ペアとして複数のペアからなるペア群を複数種類設定したときの、この複数種類のペア群のそれぞれについて弱半別器が作成される(ステップS22)。ここで、それぞれの弱判別器とは、サブウィンドウWで切り出された部分画像とその縮小画像の平面内に設定される所定の2点を1ペアとして複数のペアからなる1つのペア群を設定したときの、この1つのペア群を構成する各ペアにおける2点間の画素値(輝度)の差分値の組合せを用いて、顔の画像と顔でない画像とを判別する基準を提供するものである。本実施形態においては、1つのペア群を構成する各ペアにおける2点間の画素値の差分値の組合せについてのヒストグラムを弱判別器のスコアテーブルの基礎として使用する。 Next, when a plurality of pairs of groups consisting of a plurality of pairs are set with a predetermined two points set in the plane of the sample image and the reduced image as one pair, each of the plurality of types of pairs is weak. A separate device is created (step S22). Here, each weak discriminator sets one pair group consisting of a plurality of pairs with a predetermined two points set in the plane of the partial image cut out in the sub-window W and the reduced image as one pair. This provides a reference for discriminating between a face image and a non-face image using a combination of difference values of pixel values (luminance) between two points in each pair constituting this one pair group. . In the present embodiment, a histogram for a combination of pixel value difference values between two points in each pair constituting one pair group is used as the basis of the score table of the weak classifier.
図11を参照しながらある判別器の作成について説明する。図11の左側のサンプル画像に示すように、この判別器を作成するためのペア群を構成する各ペアの2点は、顔であることが分かっている複数のサンプル画像において、サンプル画像上の右目の中心にある点をP1、右側の頬の部分にある点をP2、眉間の部分にある点をP3、サンプル画像を4近傍画素平均で縮小した16×16画素サイズの縮小画像上の右目の中心にある点をP4、右側の頬の部分にある点をP5、さらに4近傍画素平均で縮小した8×8画素サイズの縮小画像上の額の部分にある点をP6、口の部分にある点をP7として、P1−P2、P1−P3、P4−P5、P4−P6、P6−P7の5ペアである。なお、ある判別器を作成するための1つのペア群を構成する各ペアの2点の座標位置はすべてのサンプル画像において同一である。そして顔であることが分かっているすべてのサンプル画像について上記5ペアを構成する各ペアの2点間の画素値の差分値の組合せが求められ、そのヒストグラムが作成される。ここで、画素値の差分値の組合せとしてとり得る値は、画像の輝度階調数に依存するが、仮に16ビット階調である場合には、1つの画素値の差分値につき65536通りあり、全体では階調数の(ペア数)乗、すなわち65536の5乗通りとなってしまい、学習および検出のために多大なサンプルの数、時間およびメモリを要することとなる。このため、本実施形態においては、画素値の差分値を適当な数値幅で区切って量子化し、n値化する(例えばn=100)。 The creation of a classifier will be described with reference to FIG. As shown in the sample image on the left side of FIG. 11, two points of each pair constituting the pair group for creating this discriminator are a plurality of sample images that are known to be faces. The right eye on the reduced image of 16 × 16 pixel size in which the point in the center of the right eye is P1, the point in the right cheek part is P2, the point in the part between the eyebrows is P3, and the sample image is reduced by an average of four neighboring pixels The point at the center of P4, the point at the cheek on the right side is P5, and the point at the forehead part on the reduced image of 8 × 8 pixel size reduced by the average of 4 neighboring pixels is P6, the mouth part A certain point is P7, and there are five pairs of P1-P2, P1-P3, P4-P5, P4-P6, and P6-P7. Note that the coordinate positions of the two points of each pair constituting one pair group for creating a certain classifier are the same in all sample images. For all sample images that are known to be faces, combinations of pixel value difference values between two points of each of the five pairs are obtained, and a histogram thereof is created. Here, the value that can be taken as a combination of the difference values of the pixel values depends on the number of luminance gradations of the image, but if it is a 16-bit gradation, there are 65536 kinds of difference values of one pixel value, As a whole, the number of gradations is (the number of pairs), that is, 65536 to the fifth power, and a large number of samples, time, and memory are required for learning and detection. For this reason, in the present embodiment, the difference value of the pixel value is divided by an appropriate numerical value width and quantized to be n-valued (eg, n = 100).
これにより、画素値の差分値の組合せの数はnの5乗通りとなるため、画素値の差分値の組合せを表すデータ数を低減できる。 As a result, the number of combinations of difference values of pixel values is n to the fifth power, so that the number of data representing combinations of difference values of pixel values can be reduced.
同様に、顔でないことが分かっている複数のサンプル画像についても、ヒストグラムが作成される。なお、顔でないことが分かっているサンプル画像については、顔であることが分かっているサンプル画像上における上記各ペアの所定の2点の位置に対応する位置(同様に参照符号P1からP7を用いる)が用いられる。これらの2つのヒストグラムが示す頻度値の比の対数値を取ってヒストグラムで表したものが、図11の一番右側に示す、弱判別器のスコアテーブルの基礎として用いられるヒストグラムである。この弱判別器のヒストグラムが示す各縦軸の値を、以下、判別ポイントと称する。この弱判別器によれば、正の判別ポイントに対応する、画素値の差分値の組合せの分布を示す画像は顔である可能性が高く、判別ポイントの絶対値が大きいほどその可能性は高まると言える。逆に、負の判別ポイントに対応する画素値の差分値の組合せの分布を示す画像は顔でない可能性が高く、やはり判別ポイントの絶対値が大きいほどその可能性は高まる。ステップS22では、判別に使用され得る複数種類のペア群を構成する各ペアの所定の2点間の画素値の差分値の組合せについて、上記のヒストグラム形式の複数の弱判別器が作成される。 Similarly, histograms are created for a plurality of sample images that are known not to be faces. For sample images that are known not to be faces, positions corresponding to the positions of the two predetermined points of each pair on the sample image that is known to be a face (similarly, reference numerals P1 to P7 are used). ) Is used. A histogram obtained by taking the logarithm of the ratio of the frequency values indicated by these two histograms and representing the histogram is the histogram used as the basis of the score table of the weak discriminator shown on the rightmost side of FIG. The value of each vertical axis indicated by the histogram of the weak classifier is hereinafter referred to as a discrimination point. According to this weak discriminator, an image showing the distribution of combinations of pixel value difference values corresponding to positive discrimination points is highly likely to be a face, and the possibility increases as the absolute value of the discrimination point increases. It can be said. Conversely, an image showing a distribution of combinations of difference values of pixel values corresponding to negative discrimination points is highly likely not to be a face, and the possibility increases as the absolute value of the discrimination point increases. In step S22, a plurality of weak discriminators in the above-described histogram format are created for combinations of pixel value difference values between predetermined two points of each pair constituting a plurality of types of pair groups that can be used for discrimination.
続いて、ステップS22で作成した複数の弱半別器のうち、画像が顔であるか否かを判別するのに最も有効な弱判別器が選択される。最も有効な弱判別器の選択は、各サンプル画像の重みを考慮して行われる。この例では、各弱判別器の重み付き正答率が比較され、最も高い重み付き正答率を示す弱判別器が選択される(ステップS23)。すなわち、最初のステップS23では、各サンプル画像の重みは等しく1であるので、単純にその弱判別器によって画像が顔であるか否かが正しく判別されるサンプル画像の数が最も多いものが、最も有効な弱判別器として選択される。一方、後述するステップS25において各サンプル画像の重みが更新された後の2回目のステップS23では、重みが1のサンプル画像、重みが1よりも大きいサンプル画像、および重みが1よりも小さいサンプル画像が混在しており、重みが1よりも大きいサンプル画像は、正答率の評価において、重みが1のサンプル画像よりも重みが大きい分多くカウントされる。これにより、2回目以降のステップS23では、重みが小さいサンプル画像よりも、重みが大きいサンプル画像が正しく判別されることに、より重点が置かれる。 Subsequently, the most effective weak discriminator for discriminating whether or not the image is a face is selected from the plurality of weak semi-divided devices created in step S22. The most effective weak classifier is selected in consideration of the weight of each sample image. In this example, the weighted correct answer rates of the weak classifiers are compared, and the weak classifier showing the highest weighted correct answer rate is selected (step S23). That is, in the first step S23, since the weight of each sample image is equal to 1, the one with the largest number of sample images for which it is simply determined correctly whether or not the image is a face by the weak classifier is as follows: Selected as the most effective weak classifier. On the other hand, in the second step S23 after the weight of each sample image is updated in step S25, which will be described later, a sample image with a weight of 1, a sample image with a weight greater than 1, and a sample image with a weight less than 1 The sample images having a weight greater than 1 are counted more in the evaluation of the correct answer rate because the weight is larger than the sample images having a weight of 1. Thereby, in step S23 after the second time, more emphasis is placed on correctly determining a sample image having a large weight than a sample image having a small weight.
次に、それまでに選択した弱判別器の組合せの正答率、すなわち、それまでに選択した弱判別器を組み合わせて使用して(学習段階では、弱判別器は必ずしも線形に結合させる必要はない)各サンプル画像が顔の画像であるか否かを判別した結果が、実際に顔の画像であるか否かの答えと一致する率が、所定の閾値を超えたか否かが確かめられる(ステップS24)。ここで、弱判別器の組合せの正答率の評価に用いられるのは、現在の重みが付けられたサンプル画像群でも、重みが等しくされたサンプル画像群でもよい。所定の閾値を超えた場合は、それまでに選択した弱判別器を用いれば画像が顔であるか否かを十分に高い確率で判別できるため、学習は終了する。所定の閾値以下である場合は、それまでに選択した弱判別器と組み合わせて用いるための追加の弱判別器を選択するために、ステップS26へと進む。 Next, the correct answer rate of the combination of weak classifiers selected so far, that is, using the weak classifiers selected so far in combination (in the learning stage, the weak classifiers do not necessarily need to be linearly combined. ) It is ascertained whether the result of determining whether or not each sample image is a face image has exceeded a predetermined threshold value at a rate that matches the answer of whether or not it is actually a face image (step) S24). Here, the current weighted sample image group or the sample image group with equal weight may be used for evaluating the correct answer rate of the combination of weak classifiers. When the predetermined threshold value is exceeded, learning is terminated because it is possible to determine whether the image is a face with a sufficiently high probability by using the weak classifier selected so far. If it is equal to or less than the predetermined threshold value, the process proceeds to step S26 in order to select an additional weak classifier to be used in combination with the weak classifier selected so far.
ステップS26では、直近のステップS23で選択された弱判別器が再び選択されないようにするため、その弱判別器が除外される。 In step S26, the weak classifier selected in the most recent step S23 is excluded so as not to be selected again.
次に、直近のステップS23で選択された弱判別器では顔であるか否かを正しく判別できなかったサンプル画像の重みが大きくされ、画像が顔であるか否かを正しく判別できたサンプル画像の重みが小さくされる(ステップS25)。このように重みを大小させる理由は、次の弱判別器の選択において、既に選択された弱判別器では正しく判別できなかった画像を重要視し、それらの画像が顔であるか否かを正しく判別できる弱判別器が選択されるようにして、弱判別器の組合せの効果を高めるためである。 Next, the weight of the sample image in which the weak discriminator selected in the most recent step S23 could not correctly discriminate whether it is a face is increased, and the sample image in which whether the image is a face can be discriminated correctly is increased. Is reduced (step S25). The reason for increasing or decreasing the weight in this way is that in the selection of the next weak classifier, importance is placed on images that could not be correctly determined by the already selected weak classifier, and whether or not those images are faces is correct. This is because a weak discriminator that can be discriminated is selected to enhance the effect of the combination of the weak discriminators.
続いて、ステップS23へと戻り、上記したように重み付き正答率を基準にして次に有効な弱判別器が選択される。 Subsequently, the process returns to step S23, and the next effective weak classifier is selected based on the weighted correct answer rate as described above.
以上のステップS23からS26を繰り返して、顔であるか否かを判別するのに適した弱判別器として、特定のペア群を構成する各ペアの所定の2点間の画素値の差分値の組合せに対応する弱判別器が選択されたところで、ステップS24で確認される正答率が閾値を超えたとすると、顔であるか否かの判別に用いる弱判別器の種類と判別条件とが確定され(ステップS27)、これにより学習を終了する。なお、選択された弱判別器は、その重み付き正答率が高い順に線形結合され、1つの判別器が構成される。また、各弱判別器については、それぞれ得られたヒストグラムを基に、画素値の差分値の組合せに応じてスコアを算出するためのスコアテーブルが生成される。なお、ヒストグラム自身をスコアテーブルとして用いることもでき、この場合、ヒストグラムの判別ポイントがそのままスコアとなる。 As a weak discriminator suitable for discriminating whether or not a face is repeated by repeating the above steps S23 to S26, the difference value of the pixel value between two predetermined points of each pair constituting a specific pair group If the weak discriminator corresponding to the combination is selected and the correct answer rate confirmed in step S24 exceeds the threshold value, the type of the weak discriminator used for discriminating whether the face is a face and the discrimination condition are determined. (Step S27), thereby completing the learning. The selected weak classifiers are linearly combined in descending order of the weighted correct answer rate to constitute one classifier. For each weak classifier, a score table for calculating a score according to a combination of pixel value difference values is generated based on the obtained histogram. Note that the histogram itself can also be used as a score table. In this case, the discrimination point of the histogram is directly used as a score.
このようにして、各顔サンプル画像群毎に学習を行うことにより、上述の36種類の判別器が生成される。 In this way, by performing learning for each face sample image group, the 36 types of discriminators described above are generated.
なお、上記の学習手法を採用する場合において、弱判別器は、特定のペア群を構成する各ペアの所定の2点間の画素値の差分値の組合せを用いて顔の画像と顔でない画像とを判別する基準を提供するものであれば、上記のヒストグラムの形式のものに限られずいかなるものであってもよく、例えば2値データ、閾値または関数等であってもよい。また、同じヒストグラムの形式であっても、図11の中央に示した2つのヒストグラムの差分値の分布を示すヒストグラム等を用いてもよい。 In the case of adopting the above learning method, the weak classifier uses a combination of difference values of pixel values between two predetermined points of each pair constituting a specific pair group, and a face image and a non-face image. Is not limited to the above-described histogram format, and may be anything, for example, binary data, a threshold value, a function, or the like. Further, even in the same histogram format, a histogram or the like indicating the distribution of difference values between the two histograms shown in the center of FIG. 11 may be used.
また、学習の方法としては上記手法に限定されるものではなく、ニューラルネットワーク等他のマシンラーニングの手法を用いることができる。 Further, the learning method is not limited to the above method, and other machine learning methods such as a neural network can be used.
このように、本発明の実施形態に係る顔検出システムによれば、検出対象画像に対して比較的ラフな顔検出処理を施して顔候補を抽出する段階、すなわち、処理の対象となる領域が広いため高速性が重視される一方、ここではあくまで顔候補を抽出できればよいことから信頼性がそれほど要求されないという場面においては、画像中の斜光や背景による影響は受けやすいが、その反面、処理時間が短いという利点を有する全体正規化処理を採用し、抽出された顔候補近傍の画像に対して精細な判別処理を施して真の顔であるか否かを判別する絞込み段階、すなわち、顔候補の中から非顔を厳格に排除する必要があるため信頼性が重視される一方、処理の対象となる領域が限定されることから高速性がそれほど要求されないという場面においては、処理時間は長いが、画像中の斜光や背景の違いによる影響を受けにくいという利点を有する局所正規化処理を採用しているので、各処理段階において、要求される処理の信頼性と高速性を満足させるのに適当な特徴を有する正規化処理をそれぞれ適用することができ、各正規化処理の利点をより活かし、高精度、かつ、効率のよい顔検出が可能となる。 As described above, according to the face detection system according to the embodiment of the present invention, a stage in which a relatively rough face detection process is performed on a detection target image to extract face candidates, that is, a region to be processed is included. While high speed is important because it is wide, it is easy to be affected by the oblique light in the image and the background in a scene where reliability is not so required because it is sufficient to extract face candidates here, but on the other hand, processing time Is a narrowing-down stage that adopts an overall normalization process that has the advantage of being short and performs a detailed discrimination process on the extracted image near the face candidate to determine whether it is a true face, that is, a face candidate In the scene where high speed is not required so much because reliability is important because it is necessary to strictly eliminate non-faces from Because it uses a local normalization process that has the advantage of being long in processing time but less susceptible to the effects of oblique light and background in the image, the required process reliability and high speed at each processing stage Normalization processing having characteristics suitable for satisfying the above can be applied, and the advantages of each normalization processing can be further utilized to enable highly accurate and efficient face detection.
以上、本発明の実施形態に係る顔検出システムについて説明したが、この顔検出システムのうちの本発明の顔検出装置に対応する部分における各処理をコンピュータに実行させるためのプログラムも、本発明の実施形態の1つである。また、そのようなプログラムを記録したコンピュータ読取可能な記録媒体も、本発明の実施形態の1つである。 Although the face detection system according to the embodiment of the present invention has been described above, a program for causing a computer to execute each process in a portion corresponding to the face detection device of the present invention in the face detection system is also included in the present invention. This is one of the embodiments. A computer-readable recording medium that records such a program is also one embodiment of the present invention.
1 顔検出システム
10 多重解像度化部
20 全体正規化部(全体正規化手段)
30 顔検出部
31 検出制御部(顔画像候補検出手段/判別手段の構成要素)
32 解像度画像選択部(顔画像候補検出手段の構成要素)
33 サブウィンドウ設定部(顔画像候補検出手段/判別手段の構成要素)
34 第1の判別器群(顔画像候補検出手段の構成要素)
35 第2の判別器群(判別手段の構成要素)
36 局所正規化部(局所正規化手段)
40 重複検出判定部
DESCRIPTION OF
30
32 resolution image selection unit (component of face image candidate detection means)
33 Sub-window setting section (components of face image candidate detection means / discrimination means)
34 First classifier group (component of face image candidate detection means)
35 Second discriminator group (component of discriminating means)
36 Local normalization unit (local normalization means)
40 Duplicate detection judgment part
Claims (4)
前記全体正規化処理が施された検出対象画像に基づいて該画像の画素値の分布に係る特徴量を算出し、該特徴量を用いて前記検出対象画像における顔画像候補を検出する顔画像候補検出ステップと、
前記全体正規化処理が施された検出対象画像における前記顔画像候補に対応する部分画像に対して、画像上の画素値を該画像領域内における所定サイズの局所領域毎の画素値の分散の程度が所定レベルに近づくように変換する局所正規化処理を施す局所正規化ステップと、
前記局所正規化処理が施された部分画像に基づいて該画像の画素値の分布に係る特徴量を算出し、該特徴量を用いて前記部分画像に対応する顔画像候補が顔画像であるか否かを判別する判別ステップとを有することを特徴とする顔検出方法。 An overall normalization process that applies an overall normalization process to an input detection target image that is a target for detecting a face according to a conversion curve that approximates the pixel value of the entire image to a value that represents the logarithm of the luminance of the subject in the image Step,
A face image candidate that calculates a feature amount related to a distribution of pixel values of the image based on the detection target image subjected to the overall normalization process, and detects a face image candidate in the detection target image using the feature amount A detection step;
For the partial image corresponding to the face image candidate in the detection target image subjected to the overall normalization process, the pixel value on the image is the degree of dispersion of the pixel value for each local area of a predetermined size in the image area A local normalization step for performing a local normalization process for converting so as to approach a predetermined level;
Based on the partial image subjected to the local normalization process, a feature amount related to the distribution of pixel values of the image is calculated, and using the feature amount, a face image candidate corresponding to the partial image is a face image And a discrimination step for discriminating whether or not.
前記全体正規化処理が施された検出対象画像に基づいて該画像の画素値の分布に係る特徴量を算出し、該特徴量を用いて前記検出対象画像における顔画像候補を検出する顔画像候補検出手段と、
前記全体正規化処理が施された検出対象画像における前記顔画像候補に対応する部分画像に対して、画像上の画素値を該画像領域内における所定サイズの局所領域毎の画素値の分散の程度が所定レベルに近づくように変換する局所正規化処理を施す局所正規化手段と、
前記局所正規化処理が施された部分画像に基づいて該画像の画素値の分布に係る特徴量を算出し、該特徴量を用いて前記部分画像に対応する顔画像候補が顔画像であるか否かを判別する判別手段とを備えたことを特徴とする顔検出装置。 An overall normalization process that applies an overall normalization process to an input detection target image that is a target for detecting a face according to a conversion curve that approximates the pixel value of the entire image to a value that represents the logarithm of the luminance of the subject in the image And
A face image candidate that calculates a feature amount related to a distribution of pixel values of the image based on the detection target image subjected to the overall normalization process, and detects a face image candidate in the detection target image using the feature amount Detection means;
For the partial image corresponding to the face image candidate in the detection target image subjected to the overall normalization process, the pixel value on the image is the degree of dispersion of the pixel value for each local area of a predetermined size in the image area Local normalization means for performing a local normalization process for converting so as to approach a predetermined level;
Based on the partial image subjected to the local normalization process, a feature amount related to the distribution of pixel values of the image is calculated, and using the feature amount, a face image candidate corresponding to the partial image is a face image A face detection apparatus comprising: a determination means for determining whether or not.
互いに異なる複数の顔サンプル画像により顔画像の画素値の分布に係る特徴を予め学習させた判別器であって、前記局所正規化処理が施された部分画像に係る前記特徴量を用いて該部分画像に対応する顔画像候補が顔画像であるか否かを判別する判別器を備えたものであることを特徴とする請求項2記載の顔検出装置。 The discrimination means is
A discriminator that learns in advance a feature related to a distribution of pixel values of a face image from a plurality of different face sample images, using the feature amount related to the partial image subjected to the local normalization process. 3. The face detection apparatus according to claim 2, further comprising a discriminator for discriminating whether or not the face image candidate corresponding to the image is a face image.
顔を検出する対象となる入力された検出対象画像に対して、画像全体の画素値を該画像における被写体の輝度の対数を表す値に近づける変換曲線にしたがって変換する全体正規化処理を施す全体正規化手段と、
前記全体正規化処理が施された検出対象画像に基づいて該画像の画素値の分布に係る特徴量を算出し、該特徴量を用いて前記検出対象画像における顔画像候補を検出する顔画像候補検出手段と、
前記全体正規化処理が施された検出対象画像における前記顔画像候補に対応する部分画像に対して、画像上の画素値を該画像領域内における所定サイズの局所領域毎の画素値の分散が所定レベルに近づくように変換する局所正規化処理を施す局所正規化手段と、
前記局所正規化処理が施された部分画像に基づいて該画像の画素値の分布に係る特徴量を算出し、該特徴量を用いて前記部分画像に対応する顔画像候補が顔画像であるか否かを判別する判別手段として機能させるためのプログラム。 Computer
An overall normalization process that applies an overall normalization process to an input detection target image that is a target for detecting a face according to a conversion curve that approximates the pixel value of the entire image to a value that represents the logarithm of the luminance of the subject in the image And
A face image candidate that calculates a feature amount related to a distribution of pixel values of the image based on the detection target image subjected to the overall normalization process, and detects a face image candidate in the detection target image using the feature amount Detection means;
With respect to the partial image corresponding to the face image candidate in the detection target image subjected to the overall normalization process, the pixel value on the image is determined to have a predetermined pixel value dispersion for each local region of a predetermined size in the image region. Local normalization means for performing a local normalization process for converting the level closer to the level,
Based on the partial image subjected to the local normalization process, a feature amount related to the distribution of pixel values of the image is calculated, and using the feature amount, a face image candidate corresponding to the partial image is a face image A program for functioning as a determination means for determining whether or not.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005202836A JP4795737B2 (en) | 2005-07-12 | 2005-07-12 | Face detection method, apparatus, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005202836A JP4795737B2 (en) | 2005-07-12 | 2005-07-12 | Face detection method, apparatus, and program |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011126103A Division JP2011170890A (en) | 2011-06-06 | 2011-06-06 | Face detecting method, face detection device, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007025766A JP2007025766A (en) | 2007-02-01 |
JP4795737B2 true JP4795737B2 (en) | 2011-10-19 |
Family
ID=37786484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005202836A Active JP4795737B2 (en) | 2005-07-12 | 2005-07-12 | Face detection method, apparatus, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4795737B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4983682B2 (en) * | 2008-03-25 | 2012-07-25 | セイコーエプソン株式会社 | Object detection method, object detection apparatus, object detection program, and printing apparatus |
JP5485712B2 (en) * | 2010-01-07 | 2014-05-07 | 株式会社ザクティ | Electronic camera |
JP5582572B2 (en) * | 2010-11-08 | 2014-09-03 | 独立行政法人産業技術総合研究所 | Image processing method, image processing program, computer-readable storage medium storing the same, and image processing apparatus |
WO2023001063A1 (en) * | 2021-07-19 | 2023-01-26 | 北京鹰瞳科技发展股份有限公司 | Target detection method and apparatus, electronic device, and storage medium |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4147155B2 (en) * | 2003-07-18 | 2008-09-10 | キヤノン株式会社 | Image processing apparatus and method |
-
2005
- 2005-07-12 JP JP2005202836A patent/JP4795737B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2007025766A (en) | 2007-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4628882B2 (en) | Classifier learning method, face discrimination method and apparatus, and program | |
JP4744918B2 (en) | Face detection method, apparatus, and program | |
JP4657934B2 (en) | Face detection method, apparatus and program | |
JP4640825B2 (en) | Specific orientation face determination method, apparatus, and program | |
JP4712563B2 (en) | Face detection method, apparatus and program | |
JP4619927B2 (en) | Face detection method, apparatus and program | |
US8155396B2 (en) | Method, apparatus, and program for detecting faces | |
JP4708909B2 (en) | Method, apparatus and program for detecting object of digital image | |
US20050271245A1 (en) | Specified object detection apparatus | |
JP2007213182A (en) | Object status recognition method, device, and program | |
US20070189609A1 (en) | Method, apparatus, and program for discriminating faces | |
JP4795864B2 (en) | Feature point detection apparatus and method, and program | |
JP5317934B2 (en) | Object detection apparatus and method, and program | |
JP4708948B2 (en) | Face orientation identification method, face discrimination method and apparatus, and program | |
JP2011170890A (en) | Face detecting method, face detection device, and program | |
JP4749879B2 (en) | Face discrimination method, apparatus, and program | |
JP4749884B2 (en) | Learning method of face discriminating apparatus, face discriminating method and apparatus, and program | |
JP4757598B2 (en) | Face detection method, apparatus, and program | |
JP4657930B2 (en) | Face detection method, apparatus and program | |
JP4795737B2 (en) | Face detection method, apparatus, and program | |
JP4749880B2 (en) | Face discrimination method, apparatus, and program | |
JP2006244385A (en) | Face-discriminating apparatus, program and learning method for the apparatus | |
JP2007011935A (en) | Method and apparatus for discriminating face, and program | |
CN118570809A (en) | OCR (optical character recognition) method and system based on machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20061209 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080214 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101116 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110207 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110308 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110606 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20110614 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110705 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110728 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4795737 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140805 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |