JP4493448B2

JP4493448B2 - 対象物識別装置および方法並びにプログラム

Info

Publication number: JP4493448B2
Application number: JP2004254432A
Authority: JP
Inventors: 元中李
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2003-09-09
Filing date: 2004-09-01
Publication date: 2010-06-30
Anticipated expiration: 2024-09-01
Also published as: JP2005108197A

Description

本発明は、画像に顔等の所定対象物が含まれるか否かを識別する対象物識別装置および方法並びに対象物識別方法をコンピュータに実行させるためのプログラムに関するものである。

デジタルカメラにおいて取得した画像データや、フイルムに記録された画像を読み取ることにより得た画像データを、プリント等のハードコピーとしてあるいはディスプレイ上にソフトコピーとして再現することが行われている。このような画像データにより表される画像は人物の顔が含まれることが多く、顔が適切な明るさや色を有するものとなるように画像データに対して明るさ、階調、色、シャープネス等を修正する画像処理を施すことが行われている。このように画像データに対して画像処理を施す場合には、画像データにより表される画像から人物の顔に対応する顔領域を検出する必要がある。このため、画像に顔等の所定対象物が含まれるか否かを識別する各種方法が提案されている。また、識別された顔を精度よく切り出すために、顔を構成する例えば目の位置を検出するための方法も各種提案されている。

例えば非特許文献１は、赤外線照明と赤外線カメラとを用いて顔の撮影を行って目が検出されやすい画像を得、この画像から目を検出する手法を提案している。また非特許文献２は、顔を構成する目や眉毛等の色情報を用いて目や眉毛を検出する手法を提案している。また、非特許文献３は目のテンプレートを用いて目の位置を検出し、瞳が検出されるか否かにより目が閉じているか開いているかを判定する手法を提案している。また、非特許文献４は、顔を検出する際に用いられる特徴量である濃度値を正規化し、顔について学習を行ったニューラルネットワークの学習結果を参照して、画像に顔が含まれるか否かを識別する手法を提案している。ここで、ニューラルネットワークの学習の際は学習のサンプルに許容度を持たせて、画像から顔を検出しやすくしている。具体的には、顔を多少大小させたり、顔を多少回転させたりすることにより多数のサンプルを用意して学習を行っている。

さらに、特許文献１は、ニューラルネットワークの一手法であるコホーネンの自己組織化を用いて顔等の対象物の特徴パターンを学習し、この学習結果を参照して、対象物の候補と対象物の特徴部分とが学習された特徴パターンに含まれるか否かを判定し、さらに対象物の候補の特徴部分の位置関係が対象物の特徴部分の位置関係と一致するか否かを判定することにより、対象物の候補が対象物であるか否かを判定する手法である。
Ahish, Kappoor and Rosalind W. Picard, "Real-Time, Fully Automatic Upper Facial Feature Tracking", The 5th IEEE Internatinal Conference on Automatic Face and Gesture Recognition, 2002. Alper Yilmaz and Mubarak A. Shah, "Automatic Feature Detection and Pose Recovery for Faces", The 5th Asian Conference on Computer Vision 2002. Yingli Tian, T. Kanade and J. F. Cohn, "Dual-state Parametric Eye Tracking", The 4th IEEE International Conference on Automatic Face and Gesture Recognition, 2000. Henry A. Rowley, Shumeet Baluja, and Takeo Kanada, "Neural Network-Based Face Detection", volume 20, number 1, pages 23-38, January 1998. 特開平５−２８２４５７号公報

しかしながら、上記非特許文献１の手法は、赤外線照明と赤外線カメラとを用いて撮影を行うことにより得られた画像のみからしか目を検出することができないため、汎用性に欠ける。また、非特許文献２の手法は色情報を用いているため、人種に応じて肌の色が異なるような場合には対応することができない。また、非特許文献１から３の手法においては、画像中に目がはっきりと現れていないと目を検出することができないため、例えば前髪が目にかかっているような画像では目を精度よく検出することができない。また、特許文献１の手法は顔を構成する目のような構成部品の位置を精度よく検出できない。

本発明は、上記事情に鑑みなされたものであり、例えば顔に含まれる目のように、所定対象物に含まれる構成部品の位置を精度よく検出することを目的とする。

本発明による対象物識別装置は、識別対象の画像の入力を受け付ける画像入力手段と、
少なくとも１つの構成部品を含む所定対象物の識別に用いる少なくとも１つの特徴量を前記識別対象の画像から算出する特徴量算出手段と、
前記所定対象物であることが分かっている、前記少なくとも１つの構成部品の位置および／または位置関係が所定の許容度を持って正規化された複数のサンプル画像と、前記所定対象物でないことが分かっている複数のサンプル画像とからなる多数のサンプル画像群に含まれる前記少なくとも１つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、前記少なくとも１つの特徴量と該少なくとも１つの特徴量の各々に対応する識別条件とをあらかじめ規定する第１の参照データを、前記識別対象の画像を前記所定の許容度に応じた変化量にて段階的に変形させつつ前記識別対象の画像から算出された少なくとも１つの特徴量に基づいて参照して、前記識別対象の画像に所定対象物が含まれるか否かを識別する第１の識別手段と、
該第１の識別手段により前記所定対象物が含まれると識別された場合に、前記所定対象物であることが分かっている、前記所定の構成部品の位置および／または位置関係が前記所定の許容度よりも小さい小許容度を持って正規化された複数のサンプル画像と、前記所定対象物でないことが分かっている複数のサンプル画像とからなる多数の小許容度サンプル画像群に含まれる前記少なくとも１つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、前記少なくとも１つの特徴量と該少なくとも１つの特徴量の各々に対応する識別条件とをあらかじめ規定する第２の参照データを、前記所定対象物内の画像を前記小許容度に応じた変化量にて段階的に変形させつつ前記所定対象物内の画像から算出された少なくとも１つの特徴量に基づいて参照して、前記所定対象物に含まれる前記少なくとも１つの構成部品の位置を識別する第２の識別手段とを備えたことを特徴とするものである。

「所定対象物」とは、ほぼ一定形状をなしており、ほぼ一定の大きさとなるようにサイズを揃えることが可能な対象物が挙げられる。具体的には、人物の顔、車両および道路標識等を所定対象物とすることができる。

「構成部品」とは、所定対象物を構成するためには不可欠な部品であり、顔であれば、目、鼻、口等を、車両であればヘッドライト等を、道路標識であれば標識に含まれる特定のマーク等を構成部品とすることができる。

「特徴量」とは、画像の特徴を表すパラメータを指し、その画像における各画素の濃度勾配を表す勾配ベクトル、各画素の色情報（色相、彩度）、濃度、テクスチャーの特徴、奥行情報、その画像に含まれるエッジの特徴等、いかなる特徴を表すものであってもよい。

「識別条件」とは、特徴量を指標とした、所定対象物とそうでない対象物とを識別する条件を指す。

「構成部品の位置および／または位置関係を正規化する」とは、所定対象物であることが分かっているすべてのサンプル画像について、サンプル画像のサイズを同一とするとともに、構成部品の位置および／または位置関係を同一とすることをいう。具体的には、所定対象物を顔、構成部品を両目とした場合、サンプル画像のサイズを一定サイズ（例えば３０×３０画素）とし、両目の中心位置を一定にするとともに両目の中心間の距離をすべてのサンプル画像について１０画素というように同一とすればよい。

「所定の許容度を持って正規化する」とは、上述したように構成部品の位置および／または位置関係が同一とされたサンプル画像に加えて、構成部品の位置および／または位置関係を許容度を持って多少変化させることをいう。具体的には、上述したように両目の中心間の距離を１０画素のみとするのではなく。９〜１１画素の範囲で変化させたり顔をあらかじめ定められた範囲で平面上において回転させたりすることにより、所定の許容度を持って正規化されたサンプル画像を得ることが可能である。

「マシンラーニング（machine learning）の手法」としては、例えば、ニューラルネットワーク、ブースティング等の既知の手法を用いることができる。

なお、本発明による対象物識別装置においては、前記所定対象物が顔である場合、前記第１の参照データを、前記所定対象物であることが分かっているサンプル画像における左目と左頬とを含む所定範囲の第１の領域および右目と右頬とを含む所定範囲の第２の領域に含まれる前記特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第１および前記第２の領域に対応する各領域に含まれる前記特徴量を学習することにより得るものとし、
前記特徴量算出手段を、前記識別対象の画像における前記第１および前記第２の領域に対応する各領域から前記特徴量を算出する手段としてもよい。

また、前記第１の参照データを、前記所定対象物であることが分かっているサンプル画像における両目を含む所定範囲の第３の領域に含まれる前記特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第３の領域に対応する領域に含まれる前記特徴量をさらに学習することにより得るものとし、
前記特徴量算出手段を、前記識別対象の画像における前記第１から第３の領域に対応する各領域から前記特徴量を算出する手段としてもよい。

また、本発明による対象物識別装置においては、前記所定対象物が顔である場合、前記第２の参照データを、前記所定対象物であることが分かっているサンプル画像における左目と左頬とを含む所定範囲の第１の領域および右目と右頬とを含む所定範囲の第２の領域に含まれる前記特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第１および前記第２の領域に対応する各領域に含まれる前記特徴量を学習することにより得るものとし、
前記特徴量算出手段を、前記識別対象の画像における前記第１および前記第２の領域に対応する各領域から前記特徴量を算出する手段としてもよい。

また、前記第２の参照データを、前記所定対象物であることが分かっているサンプル画像における両目を含む所定範囲の第３の領域に含まれる前記特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第３の領域に対応する領域に含まれる前記特徴量をさらに学習することにより得るものとし、
前記特徴量算出手段を、前記識別対象の画像における前記第１から第３の領域に対応する各領域から前記特徴量を算出する手段としてもよい。

なお、本発明による対象物識別装置においては、前記少なくとも１つの特徴量は、画像上の各画素における勾配ベクトルの方向、該勾配ベクトルの大きさおよび色情報の少なくとも１つであってもよい。

「勾配ベクトル」とは、画像の各画素における濃度が変化する方向および変化の大きさを表すものである。

また、本発明による対象物識別装置においては、前記識別された構成部品の位置を基準として前記識別対象の画像から前記所定対象物を抽出する抽出手段をさらに備えるようにしてもよい。

また、本発明による対象物識別装置においては、前記識別された構成部品の位置を表す情報を前記識別対象の画像に付与して出力する出力手段をさらに備えるようにしてもよい。

本発明によるデジタルカメラ、カメラ付き携帯電話等の撮像装置は、本発明による対象物識別装置を備えたことを特徴とするものである。

本発明による対象物識別方法は、識別対象の画像の入力を受け付け、
少なくとも１つの構成部品を含む所定対象物の識別に用いる少なくとも１つの特徴量を前記識別対象の画像から算出し、
前記所定対象物であることが分かっている、前記少なくとも１つの構成部品の位置および／または位置関係が所定の許容度を持って正規化された複数のサンプル画像と、前記所定対象物でないことが分かっている複数のサンプル画像とからなる多数のサンプル画像群に含まれる前記少なくとも１つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、前記少なくとも１つの特徴量と該少なくとも１つの特徴量の各々に対応する識別条件とをあらかじめ規定する第１の参照データを、前記識別対象の画像を前記所定の許容度に応じた変化量にて段階的に変形させつつ前記識別対象の画像から算出された少なくとも１つの特徴量に基づいて参照して、前記識別対象の画像に所定対象物が含まれるか否かを識別し、
該第１の識別手段により前記所定対象物が含まれると識別された場合に、前記所定対象物であることが分かっている、前記所定の構成部品の位置および／または位置関係が前記所定の許容度よりも小さい小許容度を持って正規化された複数のサンプル画像と、前記所定対象物でないことが分かっている複数のサンプル画像とからなる多数の小許容度サンプル画像群に含まれる前記少なくとも１つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、前記少なくとも１つの特徴量と該少なくとも１つの特徴量の各々に対応する識別条件とをあらかじめ規定する第２の参照データを、前記所定対象物内の画像を前記小許容度に応じた変化量にて段階的に変形させつつ前記所定対象物内の画像から算出された少なくとも１つの特徴量に基づいて参照して、前記所定対象物に含まれる前記少なくとも１つの構成部品の位置を識別することを特徴とするものである。

なお、本発明による対象物識別方法をコンピュータに実行させるためのプログラムとして提供してもよい。

本発明によれば、識別対象の画像から少なくとも１つの特徴量が算出される。そして、第１の参照データが少なくとも１つの特徴量に基づいて参照されて、識別対象の画像に所定対象物が含まれるか否かが識別される（第１の識別）。そして、所定対象物が含まれると識別されると、所定対象物内の画像から算出された少なくとも１つの特徴量に基づいて、第２の参照データが参照されて、所定対象物に含まれる構成部品の位置が識別される。

ここで、第１の識別を行うことなく、第２の識別を行って構成部品の位置を識別することも可能である。しかしながら、第２の参照データを得る際の学習は、所定の許容度よりも小さい小許容度にて少なくとも１つの構成部品の位置および／または位置関係が正規化されたサンプル画像を用いているため、構成部品の位置を精度よく識別できるものの、第２の参照データを参照して第２の識別を行うためには、識別対象の画像の全体を、上記小許容度に応じた変化量にて段階的に変形させる必要があり、その結果、処理に長時間を要する。

一方、第１の参照データの学習は、小許容度よりも大きい所定の許容度にて構成部品の位置および／または位置関係が正規化されたサンプル画像を用いているため、第２の参照データを参照する場合と比較して識別対象の画像を段階的に変形させる際に、段階的な変化量を比較的大きくすることができ、その結果、識別のための演算量を低減して処理を高速に行うことができるが、構成部品の位置の識別精度は低い。

本発明においては、第１の識別により一旦所定対象物を識別した後に、所定対象物の画像のみに対して第２の識別を行っているため、識別対象の画像全体に対して第２の識別を行う場合と比較して演算量が少なくなり、その結果、識別の処理に要する時間は短いものとなる。したがって、本発明によれば、識別対象の画像に含まれる所定対象物の構成部品の位置の識別を高速かつ高精度に行うことができる。

また、第１および第２の参照データをマシンラーニングの手法によりあらかじめ学習することにより得られたものとしているため、所定対象物および構成部品の位置の識別性能をより向上させることができる。

また、所定対象物が顔である場合において、学習の際に、サンプル画像における左目と左頬とを含む第１の領域および右目と右頬とを含む第２の領域、さらには両目を含む第３の領域に含まれる特徴量を使用することにより、学習時間を大幅に短縮することができる。また、識別対象の画像に所定対象物が含まれるか否かの識別を行う場合において、第１および第２の領域、さらには第３の領域に含まれる特徴量が識別性能の向上に大きく寄与することが本出願人の実験により確認されている。このため、学習の際に第１および第２の領域、さらには第３の領域に含まれる特徴量を使用して第１および第２の参照データの学習を行うことことにより、識別対象の画像に所定対象物が含まれるか否かの識別性能をより向上させることができる。

また、識別対象の画像からは第１および第２の領域、さらには第３の領域に対応する各領域から特徴量を算出することにより、識別対象の画像の全体から特徴量を算出する場合よりも特徴量を算出する範囲が小さくなるため、演算時間を短縮することができる。

また、少なくとも１つの特徴量を画像上の各画素における勾配ベクトルの方向、大きさおよび色情報の少なくとも１つとすることにより、識別対象の画像に含まれる比較的算出しやすい特徴量を用いて精度よく構成部品の位置を識別できる。

また、識別された構成部品の位置を基準として識別対象の画像から所定対象物を抽出することにより、識別対象の画像から精度よく所定対象物を抽出することができる。

また、識別された構成部品の位置を表す情報を識別対象の画像に付与して出力することにより、後に識別対象に付与された情報を参照すれば、識別対象の画像から精度よく所定対象物を抽出することができる。

以下、図面を参照して本発明の実施形態について説明する。図１は本発明の実施形態による対象物識別装置の構成を示す概略ブロック図である。図１に示すように、本実施形態による対象物識別装置１は、識別対象の画像を表す識別対象画像データＳ０の入力を受け付ける画像入力部２、識別対象画像データＳ０により表される識別対象画像（以下画像についても参照符号Ｓ０を用いる）Ｓ０から特徴量Ｃ０を算出する特徴量算出部４、後述する第１および第２の参照データＲ１，Ｒ２が格納されているメモリ６、特徴量算出部４が算出した特徴量Ｃ０とメモリ６内の第１の参照データＲ１とに基づいて、識別対象画像Ｓ０に所定対象物である人物の顔が含まれているか否かを識別する第１の識別部８、第１の識別部８により識別対象画像Ｓ０に顔が含まれていると識別された場合に、特徴量算出部４が算出した顔の画像内の特徴量Ｃ０とメモリ６内の第２の参照データＲ２とに基づいて、その顔に含まれる目の位置を識別する第２の識別部１０、並びに第１および第２の識別部８，１０による識別結果を出力する出力部１２とを備える。

なお、本実施形態において目の位置とは、顔における目尻から目頭の間の中心位置であり、図２（ａ）に示すように正面を向いた目の場合においては瞳の位置（図中×で示す）となる。一方、図２（ｂ）に示すように右を向いた目の場合は瞳の位置ではなく、白目部分が目の中心位置となる。

特徴量算出部４は、顔の識別に用いる特徴量Ｃ０を識別対象画像Ｓ０から算出する。また、識別対象画像Ｓ０に顔が含まれると識別された場合には、後述するように抽出された顔の画像から同様の特徴量Ｃ０を算出する。具体的には、勾配ベクトル（すなわち識別対象画像Ｓ０上および顔画像上の各画素における濃度が変化する方向および変化の大きさ）を特徴量Ｃ０として算出する。以下、勾配ベクトルの算出について説明する。まず、特徴量算出部４は、識別対象画像Ｓ０に対して図３（ａ）に示す水平方向のエッジ検出フィルタによるフィルタリング処理を施して識別対象画像Ｓ０における水平方向のエッジを検出する。また、特徴量算出部４は、識別対象画像Ｓ０に対して図３（ｂ）に示す垂直方向のエッジ検出フィルタによるフィルタリング処理を施して識別対象画像Ｓ０における垂直方向のエッジを検出する。そして、識別対象画像Ｓ０上の各画素における水平方向のエッジの大きさＨおよび垂直方向のエッジの大きさＶとから、図４に示すように、各画素における勾配ベクトルＫを算出する。また、顔画像についても同様に勾配ベクトルＫを算出する。なお、特徴量算出部４は、後述するように識別対象画像Ｓ０および顔画像の変形の各段階において特徴量Ｃ０を算出する。

なお、このようにして算出された勾配ベクトルＫは、図５（ａ）に示すような人物の顔の場合、図５（ｂ）に示すように、目および口のように暗い部分においては目および口の中央を向き、鼻のように明るい部分においては鼻の位置から外側を向くものとなる。また、口よりも目の方が濃度の変化が大きいため、勾配ベクトルＫの大きさは口よりも目の方が大きくなる。

そして、この勾配ベクトルＫの方向および大きさを特徴量Ｃ０とする。なお、勾配ベクトルＫの方向は、勾配ベクトルＫの所定方向（例えば図４におけるｘ方向）を基準とした０から３５９度の値となる。

ここで、勾配ベクトルＫの大きさは正規化される。この正規化は、識別対象画像Ｓ０の全画素における勾配ベクトルＫの大きさのヒストグラムを求め、その大きさの分布が識別対象画像Ｓ０の各画素が取り得る値（８ビットであれば０〜２５５）に均一に分布されるようにヒストグラムを平滑化して勾配ベクトルＫの大きさを修正することにより行う。例えば、勾配ベクトルＫの大きさが小さく、図６（ａ）に示すように勾配ベクトルＫの大きさが小さい側に偏ってヒストグラムが分布している場合には、大きさが０〜２５５の全領域に亘るものとなるように勾配ベクトルＫの大きさを正規化して図６（ｂ）に示すようにヒストグラムが分布するようにする。なお、演算量を低減するために、図６（ｃ）に示すように、勾配ベクトルＫのヒストグラムにおける分布範囲を例えば５分割し、５分割された頻度分布が図６（ｄ）に示すように０〜２５５の値を５分割した範囲に亘るものとなるように正規化することが好ましい。

メモリ６内に格納されている第１および第２の参照データＲ１，Ｒ２は、後述するサンプル画像から選択された複数画素の組み合わせからなる複数種類の画素群のそれぞれについて、各画素群を構成する各画素における特徴量Ｃ０の組み合わせに対する識別条件を規定したものである。

第１および第２の参照データＲ１，Ｒ２中の、各画素群を構成する各画素における特徴量Ｃ０の組み合わせおよび識別条件は、顔であることが分かっている複数のサンプル画像と顔でないことが分かっている複数のサンプル画像とからなるサンプル画像群の学習により、あらかじめ決められたものである。

なお、本実施形態においては、第１の参照データＲ１を生成する際には、顔であることが分かっているサンプル画像として、３０×３０画素サイズを有し、図７に示すように、１つの顔の画像について両目の中心間の距離が１０画素、９画素および１１画素であり、垂直に立った顔を基準として平面上±１５度の範囲において３度単位で段階的に回転させた（すなわち、回転角度が−１５度，−１２度，−９度，−６度，−３度，０度，３度，６度，９度，１２度，１５度）サンプル画像を用いるものとする。したがって、１つの顔の画像につきサンプル画像は３×１１＝３３通り用意される。なお、図７においては−１５度、０度および＋１５度に回転させたサンプル画像のみを示す。また、回転の中心はサンプル画像の対角線の交点である。ここで、両目の中心間の距離が１０画素のサンプル画像であれば、目の中心位置はすべて同一となっている。この目の中心位置をサンプル画像の左上隅を原点とする座標上において（ｘ１，ｙ１）、（ｘ２，ｙ２）とする。また、顔が垂直に立った状態において上下方向における目の位置（すなわちｙ１，ｙ２）はすべてのサンプル画像において同一である。

また、第２の参照データＲ２を生成する際には、顔であることが分かっているサンプル画像として、３０×３０画素サイズを有し、図８に示すように、１つの顔の画像について両目の中心間の距離が１０画素、９．７画素および１０．３画素であり、各両目の中心間距離において垂直に立った顔を平面上±３度の範囲において１度単位で段階的に回転させた（すなわち、回転角度が−３度，−２度，−１度，０度，１度，２度，３度）サンプル画像を用いるものとする。したがって、１つの顔の画像につきサンプル画像は３×７＝２１通り用意される。なお、図８においては−３度、０度および＋３度に回転させたサンプル画像のみを示す。また、回転の中心はサンプル画像の対角線の交点である。ここで、図面上上下方向における目の位置はすべてのサンプル画像において同一である。なお、両目の中心間の距離を９．７画素および１０．３画素とするためには、両目の中心間の距離が１０画素のサンプル画像を９．７倍あるいは１０．３倍に拡大縮小して、拡大縮小後のサンプル画像のサイズを３０×３０画素とすればよい。

そして、第２の参照データＲ２の学習に用いられるサンプル画像における目の中心位置を、本実施形態において識別する目の位置とする。

また、顔でないことが分かっているサンプル画像としては、３０×３０画素サイズを有する任意の画像を用いるものとする。

ここで、顔であることが分かっているサンプル画像として、両目の中心間距離が１０画素であり、平面上の回転角度が０度（すなわち顔が垂直な状態）のもののみを用いて学習を行った場合、第１および第２の参照データＲ１，Ｒ２を参照して顔または目の位置であると識別されるのは、両目の中心間距離が１０画素で全く回転していない顔のみである。識別対象画像Ｓ０に含まれる可能性がある顔のサイズは一定ではないため、顔が含まれるか否かあるいは目の位置を識別する際には、後述するように識別対象画像Ｓ０を拡大縮小して、サンプル画像のサイズに適合するサイズの顔および目の位置を識別できるようにしている。しかしながら、両目の中心間距離を正確に１０画素とするためには、識別対象画像Ｓ０のサイズを拡大率として例えば１．１単位で段階的に拡大縮小しつつ識別を行う必要があるため、演算量が膨大なものとなる。

また、識別対象画像Ｓ０に含まれる可能性がある顔は、図９（ａ）に示すように平面上の回転角度が０度のみではなく、図９（ｂ）、（ｃ）に示すように回転している場合もある。しかしながら、両目の中心間距離が１０画素であり、顔の回転角度が０度のサンプル画像のみを使用して学習を行った場合、顔であるにも拘わらず、図９（ｂ）、（ｃ）に示すように回転した顔については識別を行うことができなくなってしまう。

このため、本実施形態においては、顔であることが分かっているサンプル画像として、図７に示すように両目の中心間距離が９，１０，１１画素であり、各距離において平面上±１５度の範囲にて３度単位で段階的に顔を回転させたサンプル画像を用いて、第１の参照データＲ１の学習に許容度を持たせるようにしたものである。これにより、後述する第１の識別部８において識別を行う際には、識別対象画像Ｓ０を拡大率として１１／９単位で段階的に拡大縮小すればよいため、識別対象画像Ｓ０のサイズを例えば拡大率として例えば１．１単位で段階的に拡大縮小する場合と比較して、演算時間を低減できる。また、図９（ｂ）、（ｃ）に示すように回転している顔も識別することができる。

一方、第２の参照データＲ２の学習には、図８に示すように両目の中心間距離が９．７，１０，１０．３画素であり、各距離において平面上±３度の範囲にて１度単位で段階的に顔を回転させたサンプル画像を用いているため、第１の参照データＲ１と比較して学習の許容度は小さい。また、後述する第２の識別部１０において識別を行う際には、識別対象画像Ｓ０を拡大率として１０．３／９．７単位で拡大縮小する必要があるため、第１の識別部８において行われる識別よりも演算に長時間を要する。しかしながら、第２の識別部１０において識別を行うのは第１の識別部８が識別した顔内の画像のみであるため、識別対象画像Ｓ０の全体を用いる場合と比較して目の位置の識別を行うための演算量を低減することができる。

以下、図１０のフローチャートを参照しながらサンプル画像群の学習手法の一例を説明する。なお、ここでは第１の参照データＲ１の学習について説明する。

学習の対象となるサンプル画像群は、顔であることが分かっている複数のサンプル画像と、顔でないことが分かっている複数のサンプル画像とからなる。なお、顔であることが分かっているサンプル画像は、上述したように１つのサンプル画像につき両目の中心位置が９，１０，１１画素であり、各距離において平面上±１５度の範囲にて３度単位で段階的に顔を回転させたものを用いる。各サンプル画像には、重みすなわち重要度が割り当てられる。まず、すべてのサンプル画像の重みの初期値が等しく１に設定される（ステップＳ１）。

次に、サンプル画像における複数種類の画素群のそれぞれについて識別器が作成される（ステップＳ２）。ここで、それぞれの識別器とは、１つの画素群を構成する各画素における特徴量Ｃ０の組み合わせを用いて、顔の画像と顔でない画像とを識別する基準を提供するものである。本実施形態においては、１つの画素群を構成する各画素における特徴量Ｃ０の組み合わせについてのヒストグラムを識別器として使用する。

図１１を参照しながらある識別器の作成について説明する。図１１の左側のサンプル画像に示すように、この識別器を作成するための画素群を構成する各画素は、顔であることが分かっている複数のサンプル画像上における、右目の中心にある画素Ｐ１、右側の頬の部分にある画素Ｐ２、額の部分にある画素Ｐ３および左側の頬の部分にある画素Ｐ４である。そして顔であることが分かっているすべてのサンプル画像について全画素Ｐ１〜Ｐ４における特徴量Ｃ０の組み合わせが求められ、そのヒストグラムが作成される。ここで、第２の特徴量Ｃ２は勾配ベクトルＫの方向および大きさを表すが、勾配ベクトルＫの方向は０〜３５９の３６０通り、勾配ベクトルＫの大きさは０〜２５５の２５６通りあるため、これをそのまま用いたのでは、組み合わせの数は１画素につき３６０×２５６通りの４画素分、すなわち（３６０×２５６）⁴通りとなってしまい、学習および検出のために多大なサンプルの数、時間およびメモリを要することとなる。このため、本実施形態においては、勾配ベクトルの方向を０〜３５９を０〜４４と３１５〜３５９（右方向、値：０），４５〜１３４（上方向値：１），１３５〜２２４（左方向、値：２），２２５〜３１４（下方向、値３）に４値化し、勾配ベクトルの大きさを３値化（値：０〜２）する。そして、以下の式を用いて組み合わせの値を算出する。

組み合わせの値＝０（勾配ベクトルの大きさ＝０の場合）
組み合わせの値＝（（勾配ベクトルの方向＋１）×勾配ベクトルの大きさ（勾配ベクトルの大きさ＞０の場合）
これにより、組み合わせ数が９⁴通りとなるため、第２の特徴量Ｃ２のデータ数を低減できる。

同様に、顔でないことが分かっている複数のサンプル画像についても、ヒストグラムが作成される。なお、顔でないことが分かっているサンプル画像については、顔であることが分かっているサンプル画像上における上記画素Ｐ１〜Ｐ４の位置に対応する画素が用いられる。これらの２つのヒストグラムが示す頻度値の比の対数値を取ってヒストグラムで表したものが、図１１の一番右側に示す、識別器として用いられるヒストグラムである。この識別器のヒストグラムが示す各縦軸の値を、以下、識別ポイントと称する。この識別器によれば、正の識別ポイントに対応する特徴量Ｃ０の分布を示す画像は顔である可能性が高く、識別ポイントの絶対値が大きいほどその可能性は高まると言える。逆に、負の識別ポイントに対応する特徴量Ｃ０の分布を示す画像は顔でない可能性が高く、やはり識別ポイントの絶対値が大きいほどその可能性は高まる。ステップＳ２では、識別に使用され得る複数種類の画素群を構成する各画素における特徴量Ｃ０の組み合わせについて、上記のヒストグラム形式の複数の識別器が作成される。

続いて、ステップＳ２で作成した複数の識別器のうち、画像が顔であるか否かを識別するのに最も有効な識別器が選択される。最も有効な識別器の選択は、各サンプル画像の重みを考慮して行われる。この例では、各識別器の重み付き正答率が比較され、最も高い重み付き正答率を示す識別器が選択される（ステップＳ３）。すなわち、最初のステップＳ３では、各サンプル画像の重みは等しく１であるので、単純にその識別器によって画像が顔であるか否かが正しく識別されるサンプル画像の数が最も多いものが、最も有効な識別器として選択される。一方、後述するステップＳ５において各サンプル画像の重みが更新された後の２回目のステップＳ３では、重みが１のサンプル画像、重みが１よりも大きいサンプル画像、および重みが１よりも小さいサンプル画像が混在しており、重みが１よりも大きいサンプル画像は、正答率の評価において、重みが１のサンプル画像よりも重みが大きい分多くカウントされる。これにより、２回目以降のステップＳ３では、重みが小さいサンプル画像よりも、重みが大きいサンプル画像が正しく識別されることに、より重点が置かれる。

次に、それまでに選択した識別器の組み合わせの正答率、すなわち、それまでに選択した識別器を組み合わせて使用して各サンプル画像が顔の画像であるか否かを識別した結果が、実際に顔の画像であるか否かの答えと一致する率が、所定の閾値を超えたか否かが確かめられる（ステップＳ４）。ここで、組み合わせの正答率の評価に用いられるのは、現在の重みが付けられたサンプル画像群でも、重みが等しくされたサンプル画像群でもよい。所定の閾値を超えた場合は、それまでに選択した識別器を用いれば画像が顔であるか否かを十分に高い確率で識別できるため、学習は終了する。所定の閾値以下である場合は、それまでに選択した識別器と組み合わせて用いるための追加の識別器を選択するために、ステップＳ６へと進む。

ステップＳ６では、直近のステップＳ３で選択された識別器が再び選択されないようにするため、その識別器が除外される。

次に、直近のステップＳ３で選択された識別器では顔であるか否かを正しく識別できなかったサンプル画像の重みが大きくされ、画像が顔であるか否かを正しく識別できたサンプル画像の重みが小さくされる（ステップＳ５）。このように重みを大小させる理由は、次の識別器の選択において、既に選択された識別器では正しく識別できなかった画像を重要視し、それらの画像が顔であるか否かを正しく識別できる識別器が選択されるようにして、識別器の組み合わせの効果を高めるためである。

続いて、ステップＳ３へと戻り、上記したように重み付き正答率を基準にして次に有効な識別器が選択される。

以上のステップＳ３からＳ６を繰り返して、顔が含まれるか否かを識別するのに適した識別器として、特定の画素群を構成する各画素における特徴量Ｃ０の組み合わせに対応する識別器が選択されたところで、ステップＳ４で確認される正答率が閾値を超えたとすると、顔が含まれるか否かの識別に用いる識別器の種類と識別条件とが確定され（ステップＳ７）、これにより第１の参照データＲ１の学習を終了する。

そして、上記と同様に識別器の種類と識別条件とを求めることにより第２の参照データＲ２の学習がなされる。

なお、上記の学習手法を採用する場合において、識別器は、特定の画素群を構成する各画素における特徴量Ｃ０の組み合わせを用いて顔の画像と顔でない画像とを識別する基準を提供するものであれば、上記のヒストグラムの形式のものに限られずいかなるものであってもよく、例えば２値データ、閾値または関数等であってもよい。また、同じヒストグラムの形式であっても、図１１の中央に示した２つのヒストグラムの差分値の分布を示すヒストグラム等を用いてもよい。

また、学習の方法としては上記手法に限定されるものではなく、ニューラルネットワーク等他のマシンラーニングの手法を用いることができる。

また、上記の学習方法において、識別器を作成するための画素群を合成する画素として、図１２に示すように顔であることが分かっているサンプル画像における左目と左頬とを含む第１の領域Ａ１および右目と右頬とを含む第２の領域Ａ２内の画素のみを用いるようにしてもよい。また、第１および第２の領域Ａ１，Ａ２に加えて、図１２に破線で示すように両目を含む第３の領域Ａ３内の画素を用いるようにしてもよい。

この場合、領域Ａ１，Ａ２，Ａ３の位置は学習に用いるすべてのサンプル画像において同一とする。すなわち、本実施形態においては、図７に示すように両目の中心間距離が９，１０，１１画素であり、各距離において平面上±１５度の範囲にて３度単位で段階的に顔を回転させることにより変形したサンプル画像、および図８に示すように両目の中心間の距離が１０画素、９．７画素および１０．３画素であり、各距離において垂直に立った顔を平面上±３度の範囲において１度単位で段階的に回転させることにより変形したサンプル画像を用いて、第１および第２の参照データＲ１，Ｒ２の学習を行うが、変形したサンプル画像上における領域Ａ１，Ａ２，Ａ３の位置を、両目の中心間距離が１０画素で回転角度が０度のサンプル画像に設定した領域Ａ１，Ａ２，Ａ３の位置と同一とする。また、顔でないことが分かっているサンプル画像についても、設定する領域Ａ１，Ａ２，Ａ３の位置は、両目の中心間距離が１０画素で回転角度が０度の顔であることが分かっているサンプル画像に設定した領域Ａ１，Ａ２，Ａ３の位置と同一とする。したがって、両目の中心間距離が９，１０，１１画素であり、各距離において平面上±１５度の範囲にて３度単位で段階的に顔を回転させることにより変形したサンプル画像については、図１３に示すように学習に用いるすべてのサンプル画像上に設定された領域Ａ１，Ａ２さらには領域Ａ３内の画素のみを用いて識別器を作成することとなる。

このように、学習の際にサンプル画像における第１から第３の領域Ａ１〜Ａ３内の画素のみを用いて識別器を作成することにより、第１および第２の参照データＲ１，Ｒ２の学習時間を大幅に短縮することができる。

また、識別対象画像Ｓ０に顔が含まれるか否かの識別を行う場合において、第１および第２の領域Ａ１，Ａ２、さらには第３の領域Ａ３に含まれる画素を用いて作成した識別器が識別性能の向上に大きく寄与することが本出願人の実験により確認されている。このため、学習の際に第１および第２の領域Ａ１，Ａ２、さらには第３の領域Ａ３に含まれる画素のみを用いて識別器を作成して第１および第２の参照データＲ１，Ｒ２の学習を行うことにより、識別対象画像Ｓ０に顔が含まれるか否かの識別性能をより向上させることができる。

第１の識別部８は、複数種類の画素群を構成する各画素における特徴量Ｃ０の組み合わせのすべてについて第１の参照データＲ１が学習した識別条件を参照して、各々の画素群を構成する各画素における特徴量Ｃ０の組み合わせについての識別ポイントを求め、すべての識別ポイントを総合して識別対象画像Ｓ０に顔が含まれるか否かを識別する。この際、特徴量Ｃ０である勾配ベクトルＫの方向は４値化され大きさは３値化される。本実施形態では、すべての識別ポイントを加算して、その加算値の正負によって識別を行うものとする。例えば、識別ポイントの総和が正の値である場合には識別対象画像Ｓ０には顔が含まれると判断し、負の値である場合には顔は含まれないと判断する。なお、第１の識別部８が行う識別対象画像Ｓ０に顔が含まれるか否かの識別を第１の識別と称する。

ここで、識別対象画像Ｓ０のサイズは３０×３０画素のサンプル画像とは異なり、各種サイズを有するものとなっている。また、顔が含まれる場合、平面上における顔の回転角度が０度であるとは限らない。このため、第１の識別部８は、図１４に示すように、識別対象画像Ｓ０を縦または横のサイズが３０画素となるまで段階的に拡大縮小するとともに平面上で段階的に３６０度回転させつつ（図１４においては縮小する状態を示す）、各段階において拡大縮小された識別対象画像Ｓ０上に３０×３０画素サイズのマスクＭを設定し、マスクＭを拡大縮小された識別対象画像Ｓ０上において１画素ずつ移動させながら、マスク内の画像が顔の画像であるか否かの識別を行うことにより、識別対象画像Ｓ０に顔が含まれるか否かを識別する。

なお、第１参照データＲ１の生成時に学習したサンプル画像として両目の中心位置の画素数が９，１０，１１画素のものを使用しているため、識別対象画像Ｓ０の拡大縮小時の拡大率は１１／９とすればよい。また、第１および第２の参照データＲ１，Ｒ２の生成時に学習したサンプル画像として、顔が平面上で±１５度の範囲において回転させたものを使用しているため、識別対象画像Ｓ０は３０度単位で３６０度回転させればよい。

ここで、特徴量算出部４は、識別対象画像Ｓ０の拡大縮小および回転という変形の各段階において特徴量Ｃ０を算出する。

なお、第１の参照データＲ１の学習の際に、上述したようにサンプル画像に設定された第１および第２の領域Ａ１，Ａ２、さらには第３の領域Ａ３内の画素のみを用いて識別器を作成した場合には、特徴量算出部４はマスクＭにおける第１および第２の領域Ａ１，Ａ２、さらには第３の領域Ａ３に対応する各領域の画素のみを用いて特徴量Ｃ０を算出する。

そして、識別対象画像Ｓ０に顔が含まれるか否かの識別を拡大縮小および回転の全段階の識別対象画像Ｓ０について行い、一度でも顔が含まれると識別された場合には、識別対象画像Ｓ０には顔が含まれると識別し、顔が含まれると識別された段階におけるサイズおよび回転角度の識別対象画像Ｓ０から、識別されたマスクＭの位置に対応する３０×３０画素の領域を顔の画像として抽出する。

第２の識別部１０は、第１の識別部８が抽出した顔の画像上において、複数種類の画素群を構成する各画素における特徴量Ｃ０の組み合わせのすべてについて第２の参照データＲ２が学習した識別条件を参照して、各々の画素群を構成する各画素における特徴量Ｃ０の組み合わせについての識別ポイントを求め、すべての識別ポイントを総合して顔に含まれる目の位置を識別する。この際、特徴量Ｃ０である勾配ベクトルＫの方向は４値化され大きさは３値化される。

ここで、第２の識別部１０は、第１の識別部８が抽出した顔画像のサイズを段階的に拡大縮小するとともに平面上で段階的に３６０度回転させつつ、各段階において拡大縮小された顔画像上に３０×３０画素サイズのマスクＭを設定し、マスクＭを拡大縮小された顔上において１画素ずつ移動させながら、マスク内の画像における目の位置の識別を行う。

なお、第２参照データＲ２の生成時に学習したサンプル画像として両目の中心位置の画素数が９．０７，１０，１０．３画素のものを使用しているため、顔画像の拡大縮小時の拡大率は１０．３／９．７とすればよい。また、第２の参照データＲ２の生成時に学習したサンプル画像として、顔が平面上で±３度の範囲において回転させたものを使用しているため、顔画像は６度単位で３６０度回転させればよい。

ここで、特徴量算出部４は、顔画像の拡大縮小および回転という変形の各段階において特徴量Ｃ０を算出する。

なお、第２の参照データＲ２の学習の際に、上述したようにサンプル画像に設定された第１および第２の領域Ａ１，Ａ２、さらには第３の領域Ａ３内の画像のみを用いて識別器を作成した場合には、特徴量算出部４はマスクＭにおける第１および第２の領域Ａ１，Ａ２、さらには第３の領域Ａ３に対応する各領域の画素のみを用いて特徴量Ｃ０を算出する。

そして、本実施形態では、抽出された顔画像の変形の全段階においてすべての識別ポイントを加算し、加算値が最も大きい変形の段階における３０×３０画素のマスクＭ内の顔画像において、左上隅を原点とする座標を設定し、サンプル画像における目の位置の座標（ｘ１，ｙ１）、（ｘ２，ｙ２）に対応する位置を求め、変形前の識別対象画像Ｓ０におけるこの位置に対応する位置を目の位置と識別する。

出力部１２は、第１の識別部８が識別対象画像Ｓ０に顔が含まれないと識別した場合に、識別対象画像Ｓ０には顔が含まれない旨の識別結果を出力する。一方、第２の識別部１０が識別した目の位置を基準として、識別対象画像Ｓ０から所定範囲の領域をトリミングすることにより識別対象画像Ｓ０から顔を抽出し、抽出された顔の画像を表す顔画像データＳ１を出力する。

次いで、本実施形態において行われる処理について説明する。図１５は本実施形態において行われる処理を示すフローチャートである。まず、画像入力部２が識別対象画像データＳ０の入力を受け付ける（ステップＳ１１）。この際、多数の画像に関する一連の画像データＳ０の入力を連続的に受け付けてもよい。次いで、特徴量算出部４が識別対象画像Ｓ０の拡大縮小および回転の各段階において、識別対象画像Ｓ０の勾配ベクトルＫの方向および大きさを特徴量Ｃ０として算出する（ステップＳ１２）。そして、第１の識別部８がメモリ６から第１の参照データＲ１を読み出し（ステップＳ１３）、識別対象画像Ｓ０に顔が含まれるか否かの第１の識別を行う（ステップＳ１４）。

ステップＳ１４が肯定されると、第１の識別部８は識別対象画像Ｓ０から顔を抽出する（ステップＳ１５）。なお、複数の顔を抽出してもよい。次いで、特徴量算出部４が顔画像の拡大縮小および回転の各段階において、顔画像の勾配ベクトルＫの方向および大きさを特徴量Ｃ０として算出する（ステップＳ１６）。そして、第２の識別部１０がメモリ６から第２の参照データＲ２を読み出し（ステップＳ１７）、顔に含まれる目の位置を識別する第２の識別を行う（ステップＳ１８）。

続いて、出力部１２が識別対象画像Ｓ０から識別された目の位置を基準として所定範囲の領域を顔画像として抽出し、抽出された顔画像を表す顔画像データＳ１を出力し（ステップＳ１９）、処理を終了する。

ステップＳ１４が否定されると、識別対象画像Ｓ０には顔が含まれないとして出力部１２がその旨を表す識別結果を出力し（ステップＳ２０）、処理を終了する。

ここで、本実施形態においては、第１の識別を行うことなく第２の識別を行って、目の位置を識別することも可能である。しかしながら、第２の参照データＲ２を得る際の学習は、小さい許容度にて両目の中心間の距離が正規化されたサンプル画像を用いているため、目の位置を精度よく検出できるものの、第２の参照データＲ２を参照して第２の識別を行うためには、識別対象画像Ｓ０の全体を上記小さい許容度に応じた変化量にて段階的に変形させる必要がある。一方、第１の参照データＲ１の学習は、第２の参照データＲ２の学習よりも大きい許容度にて両目の中心間の距離が正規化されたサンプル画像を用いているため、第２の参照データＲ２を参照する場合と比較して識別対象画像Ｓ０を段階的に変形させる際に、変形の変化量を比較的大きくすることができ、その結果、識別のための演算量を低減して処理を高速に行うことができるが、目の位置の識別精度は低い。

本実施形態においては、第１の識別により一旦顔を識別した後に、顔内の画像のみに対して第２の識別を行っているため、識別対象画像Ｓ０の全体に対して第２の識別を行う場合と比較して演算量が少なくなり、その結果、識別の処理に要する時間は短いものとなる。したがって、本実施形態によれば、識別対象の画像に含まれる顔に含まれる目の位置の識別を高速かつ高精度に行うことができる。

また、第１および第２の参照データＲ１，Ｒ２を得る際の学習に用いられる顔であることが分かっているサンプル画像は、目の位置および／または位置関係が正規化されているため、識別対象画像Ｓ０に顔が含まれると識別されると、その顔における目の位置は、サンプル画像における目の位置と同一のものとなる。また、図１６に示すように、前髪が目にかかっていたり、目を閉じている等、識別対象画像Ｓ０に含まれる顔における目が不鮮明であっていても、識別対象画像Ｓ０に顔の特徴を表す特徴量が含まれていれば、顔が含まれているか否か、さらには目の位置を識別できる。したがって、識別対象画像Ｓ０に含まれる顔の目が不鮮明であっても、目の位置を精度よく識別することができる。

また、識別対象画像Ｓ０において、サンプル画像における第１および第２の領域Ａ１，Ａ２さらには第３の領域Ａ３に対応する各領域から特徴量Ｃ０を算出することにより、識別対象画像Ｓ０の全体から特徴量Ｃ０を算出する場合よりも特徴量Ｃ０を算出する範囲が小さくなるため、演算時間を短縮することができる。

なお、上記実施形態においては、第１および第２の参照データＲ１，Ｒ２は装置１内のメモリ６に格納されているものとしたが、特徴量算出部４、第１の識別部８および第２の識別部１０が第１および第２の参照データＲ１，Ｒ２にアクセスできる限り、第１および第２の参照データＲ１，Ｒ２は、装置１とは別個の装置やＣＤ−ＲＯＭ等の差替可能な媒体に記憶されたものであってもよい。

また、上記特徴量Ｃ０として勾配ベクトルＫの傾きおよび大きさを用いているが、識別対象画像Ｓ０の色相や彩度等の色情報を特徴量Ｃ０として用いてもよい。

また、上記実施形態においては、顔を識別対象物として識別対象画像Ｓ０に顔が含まれるか否かを識別して目の位置を識別しているが、ほぼ一定形状をなしており、参照データの学習を行う際にサイズを揃えることが可能な自動車や道路標識等を識別の対象物としてもよい。この場合、識別対象の構成部品としては、自動車のヘッドライトや、道路標識中に含まれる特定のマーク等を用いることができる。

また、上記実施形態においては、第１の識別により抽出された顔の画像の全体に対して第２の識別を行っているが、抽出された顔の画像の目の近傍の領域に対してのみ第２の識別を行うようにしてもよい。

また、上記実施形態においては、出力部１２が識別対象画像Ｓ０から顔を抽出しているが、識別された目の位置を表す情報（すなわち（ｘ１，ｙ１）、（ｘ２，ｙ２）の座標値）を識別対象画像データＳ０に付与し、目の位置の情報が付与された識別対象画像データＳ０を出力してもよい。ここで、目の位置の情報を識別対象画像データＳ０に付与するには、識別対象画像データＳ０のヘッダやタグに目の位置の情報を記述したり、識別対象画像データＳ０とファイル名が同一で拡張子が異なる例えばテキストファイルに目の位置の情報を記述して、識別対象画像データＳ０とテキストファイルとを一体不可分とする手法を用いることができる。なお、識別対象画像Ｓ０には顔が含まれないと識別された場合には、その識別結果を表す識別情報を識別対象画像データＳ０に付与して出力してもよい。

また、上記実施形態においては、識別された顔から目の位置を識別しているが、目尻、目頭、口の中心、口元、鼻の先端および顔輪郭上の特徴的な点（例えばあごの先）等の顔の構成部品の位置を識別するようにしてもよい。この場合、第１および第２の参照データＲ１，Ｒ２の学習に用いられる顔であることが分かっているサンプル画像は、顔の構成部品の位置および／または位置関係が正規化されたものを用いる。なお、第２の参照データＲ２は、顔の構成部品の位置および／または位置関係が、第１の参照データＲ１を学習した場合よりも小さい許容度を持って正規化されたサンプル画像を用いて学習させることにより得られる。

また、上記実施形態においては、本発明による対象物識別装置を単体として用いているが、本発明による対象物識別装置をデジタルカメラ、カメラ付き携帯電話等の撮影により画像データを取得する撮像装置に設けるようにしてもよい。これにより、撮像装置において、画像データにより表される画像に対して顔検出、赤目補正または目を閉じているか否かを検出する処理を行う際に、顔さらには目の位置の認識を行うことができる。

以上、本発明の実施形態に係る装置について説明したが、コンピュータを、上記の画像入力部２、特徴量算出部４、メモリ６、第１の識別部８、第２の識別部１０、および出力部１２として機能させ、識別対象画像Ｓ０に顔が含まれるか否かを識別するとともに目の位置を識別する処理を行わせるプログラムも、本発明の実施形態の１つである。また、そのようなプログラムを記録したコンピュータ読取可能な記録媒体も、本発明の実施形態の１つである。これらの場合においても、参照データは、プログラム内あるいは同一の記録媒体内に含まれているものであってもよいし、外部の装置や別個の媒体から提供されるものであってもよい。

本発明の実施形態による対象物識別装置の構成を示す概略ブロック図目の中心位置を説明するための図であり、（ａ）は目が正面を向いた図、（ｂ）は目が右を向いた図（ａ）は水平方向のエッジ検出フィルタを示す図、（ｂ）は垂直方向のエッジ検出フィルタを示す図勾配ベクトルの算出を説明するための図（ａ）は人物の顔を示す図、（ｂ）は（ａ）に示す人物の顔の目および口付近の勾配ベクトルを示す図（ａ）は正規化前の勾配ベクトルの大きさのヒストグラムを示す図、（ｂ）は正規化後の勾配ベクトルの大きさのヒストグラムを示す図、（ｃ）は５値化した勾配ベクトルの大きさのヒストグラムを示す図、（ｄ）は正規化後の５値化した勾配ベクトルの大きさのヒストグラムを示す図第１の参照データの学習に用いられる顔であることが分かっているサンプル画像の例を示す図第２の参照データの学習に用いられる顔であることが分かっているサンプル画像の例を示す図顔の回転を説明するための図参照データの学習手法を示すフローチャート識別器の導出方法を示す図サンプル画像に左目および左頬を含む第１の領域および右目および右頬を含む第２の領域、さらには両目を含む第３の領域を設定した状態を示す図変形したサンプル画像に第１から第３の領域を設定した状態を示す図識別対象画像の段階的な変形を説明するための図本実施形態において行われる処理を示すフローチャート前髪が目にかかっている顔画像を示す図

符号の説明

１対象物識別装置
２画像入力部
４特徴量算出部
６メモリ
８第１の識別部
１０第２の識別部
１２出力部

Claims

識別対象の画像の入力を受け付ける画像入力手段と、
少なくとも１つの構成部品を含む所定対象物の識別に用いる少なくとも１つの特徴量を前記識別対象の画像から算出する特徴量算出手段と、
前記所定対象物であることが分かっている、前記少なくとも１つの構成部品の位置および／または位置関係が所定の許容度を持って正規化された複数のサンプル画像と、前記所定対象物でないことが分かっている複数のサンプル画像とからなる多数のサンプル画像群に含まれる前記少なくとも１つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、前記少なくとも１つの特徴量と該少なくとも１つの特徴量の各々に対応する識別条件とをあらかじめ規定する第１の参照データを、前記識別対象の画像を前記所定の許容度に応じた変化量にて段階的に変形させつつ前記識別対象の画像から算出された少なくとも１つの特徴量に基づいて参照して、前記識別対象の画像に所定対象物が含まれるか否かを識別する第１の識別手段と、
該第１の識別手段により前記所定対象物が含まれると識別された場合に、前記所定対象物であることが分かっている、前記所定の構成部品の位置および／または位置関係が前記所定の許容度よりも小さい小許容度を持って正規化された複数のサンプル画像と、前記所定対象物でないことが分かっている複数のサンプル画像とからなる多数の小許容度サンプル画像群に含まれる前記少なくとも１つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、前記少なくとも１つの特徴量と該少なくとも１つの特徴量の各々に対応する識別条件とをあらかじめ規定する第２の参照データを、前記所定対象物内の画像を前記小許容度に応じた変化量にて段階的に変形させつつ前記所定対象物内の画像から算出された少なくとも１つの特徴量に基づいて参照して、前記所定対象物に含まれる前記少なくとも１つの構成部品の位置を識別する第２の識別手段とを備えたことを特徴とする対象物識別装置。
前記所定対象物が顔である場合、前記第１の参照データが、前記所定対象物であることが分かっているサンプル画像における左目と左頬とを含む所定範囲の第１の領域および右目と右頬とを含む所定範囲の第２の領域に含まれる前記特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第１および前記第２の領域に対応する各領域に含まれる前記特徴量を学習することにより得られたものであり、
前記特徴量算出手段は、前記識別対象の画像における前記第１および前記第２の領域に対応する各領域から前記特徴量を算出する手段であることを特徴とする請求項１記載の対象物識別装置。
前記第１の参照データが、前記所定対象物であることが分かっているサンプル画像における両目を含む所定範囲の第３の領域に含まれる前記特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第３の領域に対応する領域に含まれる前記特徴量をさらに学習することにより得られたものであり、
前記特徴量算出手段は、前記識別対象の画像における前記第１から前記第３の領域に対応する各領域から前記特徴量を算出する手段であることを特徴とする請求項２記載の対象物識別装置。
前記所定対象物が顔である場合、前記第２の参照データが、前記所定対象物であることが分かっているサンプル画像における左目と左頬とを含む所定範囲の第１の領域および右目と右頬とを含む所定範囲の第２の領域に含まれる前記特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第１および前記第２の領域に対応する各領域に含まれる前記特徴量を学習することにより得られたものであり、
前記特徴量算出手段は、前記識別対象の画像における前記第１および前記第２の領域に対応する各領域から前記特徴量を算出する手段であることを特徴とする請求項１から３のいずれか１項記載の対象物識別装置。
前記第２の参照データが、前記所定対象物であることが分かっているサンプル画像における両目を含む所定範囲の第３の領域に含まれる前記特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第３の領域に対応する領域に含まれる前記特徴量をさらに学習することにより得られたものであり、
前記特徴量算出手段は、前記識別対象の画像における前記第１から前記第３の領域に対応する各領域から前記特徴量を算出する手段であることを特徴とする請求項４記載の対象物識別装置。
前記少なくとも１つの特徴量は、画像上の各画素における勾配ベクトルの方向、該勾配ベクトルの大きさおよび色情報の少なくとも１つであることを特徴とする請求項１から５のいずれか１項記載の対象物識別装置。
前記識別された構成部品の位置を基準として前記識別対象の画像から前記所定対象物を抽出する抽出手段をさらに備えたことを特徴とする請求項１から６のいずれか１項記載の対象物識別装置。
前記識別された構成部品の位置を表す情報を前記識別対象の画像に付与して出力する出力手段をさらに備えたことを特徴とする請求項１から７のいずれか１項記載の対象物識別装置。
請求項１から８のいずれか１項記載の対象物識別装置を備えたことを特徴とする撮像装置。
画像入力手段が、識別対象の画像の入力を受け付け、
特徴量算出手段が、少なくとも１つの構成部品を含む所定対象物の識別に用いる少なくとも１つの特徴量を前記識別対象の画像から算出し、
第１の識別手段が、前記所定対象物であることが分かっている、前記少なくとも１つの構成部品の位置および／または位置関係が所定の許容度を持って正規化された複数のサンプル画像と、前記所定対象物でないことが分かっている複数のサンプル画像とからなる多数のサンプル画像群に含まれる前記少なくとも１つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、前記少なくとも１つの特徴量と該少なくとも１つの特徴量の各々に対応する識別条件とをあらかじめ規定する第１の参照データを、前記識別対象の画像を前記所定の許容度に応じた変化量にて段階的に変形させつつ前記識別対象の画像から算出された少なくとも１つの特徴量に基づいて参照して、前記識別対象の画像に所定対象物が含まれるか否かを識別し、
第２の識別手段が、前記所定対象物が含まれると識別された場合に、前記所定対象物であることが分かっている、前記所定の構成部品の位置および／または位置関係が前記所定の許容度よりも小さい小許容度を持って正規化された複数のサンプル画像と、前記所定対象物でないことが分かっている複数のサンプル画像とからなる多数の小許容度サンプル画像群に含まれる前記少なくとも１つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、前記少なくとも１つの特徴量と該少なくとも１つの特徴量の各々に対応する識別条件とをあらかじめ規定する第２の参照データを、前記所定対象物内の画像を前記小許容度に応じた変化量にて段階的に変形させつつ前記所定対象物内の画像から算出された少なくとも１つの特徴量に基づいて参照して、前記所定対象物に含まれる前記少なくとも１つの構成部品の位置を識別することを特徴とする対象物識別方法。
識別対象の画像の入力を受け付ける手順と、
少なくとも１つの構成部品を含む所定対象物の識別に用いる少なくとも１つの特徴量を前記識別対象の画像から算出する手順と、
前記所定対象物であることが分かっている、前記少なくとも１つの構成部品の位置および／または位置関係が所定の許容度を持って正規化された複数のサンプル画像と、前記所定対象物でないことが分かっている複数のサンプル画像とからなる多数のサンプル画像群に含まれる前記少なくとも１つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、前記少なくとも１つの特徴量と該少なくとも１つの特徴量の各々に対応する識別条件とをあらかじめ規定する第１の参照データを、前記識別対象の画像を前記所定の許容度に応じた変化量にて段階的に変形させつつ前記識別対象の画像から算出された少なくとも１つの特徴量に基づいて参照して、前記識別対象の画像に所定対象物が含まれるか否かを識別する手順と、
前記所定対象物が含まれると識別された場合に、前記所定対象物であることが分かっている、前記所定の構成部品の位置および／または位置関係が前記所定の許容度よりも小さい小許容度を持って正規化された複数のサンプル画像と、前記所定対象物でないことが分かっている複数のサンプル画像とからなる多数の小許容度サンプル画像群に含まれる前記少なくとも１つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、前記少なくとも１つの特徴量と該少なくとも１つの特徴量の各々に対応する識別条件とをあらかじめ規定する第２の参照データを、前記所定対象物内の画像を前記小許容度に応じた変化量にて段階的に変形させつつ前記所定対象物内の画像から算出された少なくとも１つの特徴量に基づいて参照して、前記所定対象物に含まれる前記少なくとも１つの構成部品の位置を識別する手順とを有することを特徴とする対象物識別方法をコンピュータに実行させるためのプログラム。