JP2005250774A

JP2005250774A - 対象物識別装置および方法並びにプログラム

Info

Publication number: JP2005250774A
Application number: JP2004059180A
Authority: JP
Inventors: Wataru Ito; 渡伊藤
Original assignee: Fuji Photo Film Co Ltd
Current assignee: Fujifilm Holdings Corp
Priority date: 2004-03-03
Filing date: 2004-03-03
Publication date: 2005-09-15
Anticipated expiration: 2024-03-03
Also published as: JP4361394B2

Abstract

【課題】サンプル画像を用いて学習した参照データを用いて、識別対象画像に所定対象物が含まれるか否かを識別するに際し、誤検出を少なくする。
【解決手段】識別対象画像に顔が含まれるか否かを識別するために正面を顔を含む多数のサンプル画像を用いて学習を行った複数の識別器からなる参照データを用いて、識別対象画像に顔が含まれるか否かを識別する。その際、各識別器には学習を行った座標位置の特徴量とともに、座標位置を縦および横方向についてそれぞれ１より小さい拡大率により段階的に変更した座標位置の特徴量を入力して、識別対象画像に顔が含まれるか否かを識別する。
【選択図】図１

Description

本発明は、画像に顔等の所定対象物が含まれるか否かを識別する対象物識別装置および方法並びに対象物識別方法をコンピュータに実行させるためのプログラムに関するものである。

デジタルカメラにおいて取得した画像データや、フイルムに記録された画像を読み取ることにより取得した画像データを、プリント等のハードコピーとしてあるいはディスプレイ上にソフトコピーとして再現することが行われている。このような画像データにより表される画像は人物の顔が含まれることが多く、顔が適切な明るさや色を有するものとなるように画像データに対して明るさ、階調、色、シャープネス等を修正したり、赤目を修正する画像処理を施すことが行われている。このように画像データに対して画像処理を施す場合には、画像データにより表される画像から人物の顔に対応する顔領域を検出する必要がある。このため、画像に顔等の所定対象物が含まれるか否かを識別する各種方法が提案されている。

例えば非特許文献１は、顔を検出する際に用いられる特徴量である輝度値を正規化し、顔について学習を行ったニューラルネットワークの学習結果を参照して、画像に顔が含まれるか否かを識別する手法である。また非特許文献２は、画像中に含まれるエッジのような高周波成分を対象物の検出に使用する特徴量として求めてこの特徴量を正規化し、ブースティングと称されるマシンラーニング（machine learning）の手法を用いての特徴量についての学習結果を参照して、画像に対象物が含まれるか否かを識別する手法である。これら非特許文献１，２の手法は、顔等の対象物の検出に使用する特徴量を正規化しているため、画像に対象物が含まれるか否かを精度よく識別することができる。

また、所定対象物であることが分かっている複数のサンプル画像と、所定対象物でないことが分かっている複数のサンプル画像とからなる多数のサンプル画像群のそれぞれから算出された特徴量を、マシンラーニングの手法によりあらかじめ学習することにより得られた、特徴量の入力により所定対象物が含まれる識別対象画像と所定対象物が含まれない識別対象画像とを識別するための基準値を出力する複数の識別器を備え、この複数の識別から出力された基準値の重み付け総和があらかじめ定めた閾値を超えた場合に、識別対象画像に所定対象物が含まれると識別する手法が本出願人により提案されている（特許文献２〜４参照）。この特許文献２から４に記載された手法を用いることにより、例えば、サンプル画像として顔を学習させた場合には、識別対象画像に顔が含まれるか否かを良好に識別することができる。

また、サンプル画像を段階的に拡大縮小したり、段階的に回転したりすることによりサンプル画像を段階的に変形し、変形の各段において得られるサンプル画像を用いて学習を行っているため、識別対象画像に含まれる顔の縮率が異なったり、多少回転していても、識別対象画像に顔が含まれるか否かを検出することができる。
Henry A. Rowley, Shumeet Baluja, and Takeo Kanada, "Neural Network-Based Face Detection", volume 20, number 1, pages 23-38, January 1998. Rainer Lienhart, Jochen Maydt, "An Extended Set of Haar-like Features for Rapid Object Detection", International Conference on Image Processing. 特開平５−２８２４５７号公報特願２００３−３１６９２４号特願２００３−３１６９２５号特願２００３−３１６９２６号

ところで、上記特許文献２〜４の手法において、サンプル画像として顔の画像を用いた場合、サンプル画像は大人が正面を向いた顔を含む割合が高い。このため、特許文献２〜４に記載された手法を用いた場合においては、大人が正面を向いた顔を含む識別対象画像については、非常に高い検出率により顔が含まれるか否かを識別することができる。しかしながら、左右を向いていたり、上下を向いている顔が含まれる識別対象画像については、顔が含まれているにもかかわらず、顔が含まれないと検出してしまう誤検出が多くなる。また、子供の顔は大人の顔と比較して、両目の間隔に対する鼻および口の位置関係が短い傾向にあるため、子供の顔を含む識別対象画像についても誤検出が多くなるという問題がある。

本発明は上記事情に鑑みなされたものであり、誤検出を少なくすることを目的とする。

本発明による第１の対象物識別装置は、識別対象画像の入力を受け付ける画像入力手段と、
前記識別対象画像上の所定サイズの検出領域内の画素のそれぞれについて、所定対象物の識別に用いる少なくとも１つの特徴量を算出する特徴量算出手段と、
ほぼ正面を向いた前記所定対象物を含む前記所定サイズを有する複数のサンプル画像と、前記所定対象物を含まない前記所定サイズを有する複数のサンプル画像とからなるサンプル画像群について算出した前記少なくとも１つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、入力される前記少なくとも１つの特徴量の前記サンプル画像および前記検出領域における画素の座標位置が定められてなる、前記少なくとも１つの特徴量と該少なくとも１つの特徴量の各々に対応する識別条件とをあらかじめ規定する複数の識別器からなる参照データを、前記検出領域において算出した前記少なくとも１つの特徴量に基づいて参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別する識別手段であって、前記座標位置を、前記検出領域の縦および横方向について異なる拡大率により段階的に変更しつつ、該変更の各段階において前記検出領域において算出した前記少なくとも１つの特徴量に基づいて前記参照データを参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別する識別手段とを備えたことを特徴とするものである。

なお、本発明による第１の対象物識別装置においては、前記識別手段を、前記座標位置を変更することなく、前記識別対象画像に前記所定対象物が含まれるか否かを識別し、前記所定対象物が含まれないと識別されたが、含まれる可能性がある場合にのみ、前記座標位置を変更しつつ前記識別対象画像に前記所定対象物が含まれるか否かを識別する手段としてもよい。

本発明による第２の対象物識別装置は、識別対象画像の入力を受け付ける画像入力手段と、
前記識別対象画像上の所定サイズの検出領域内の画素のそれぞれについて、所定対象物の識別に用いる少なくとも１つの特徴量を算出する特徴量算出手段と、
ほぼ正面を向いた前記所定対象物を含む前記所定サイズを有する複数のサンプル画像と、前記所定対象物を含まない前記所定サイズを有する複数のサンプル画像とからなるサンプル画像群について算出した前記少なくとも１つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、入力される前記少なくとも１つの特徴量の前記サンプル画像および前記検出領域における画素の座標位置が定められてなる、前記少なくとも１つの特徴量と該少なくとも１つの特徴量の各々に対応する識別条件とをあらかじめ規定する複数の第１の識別器、および該複数の識別器のそれぞれについて、前記少なくとも１つの特徴量が入力される画素の前記座標位置を、前記検出領域の縦および横方向について異なる拡大率により段階的に変更した複数の第２の識別器からなる参照データを、前記検出領域おいて算出した前記少なくとも１つの特徴量に基づいて参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別する識別手段とを備えたことを特徴とするものである。

「所定対象物」とは、ほぼ一定形状をなしており、ほぼ一定の大きさとなるようにサイズを揃えることが可能な対象物が挙げられる。具体的には、人物の顔、車両および道路標識等を所定対象物とすることができる。

「特徴量」とは、画像の特徴を表すパラメータを指し、その画像における各画素の濃度勾配を表す勾配ベクトル、各画素の色情報（色相、彩度）、濃度、テクスチャーの特徴、奥行情報、その画像に含まれるエッジの特徴等、いかなる特徴を表すものであってもよい。

「マシンラーニング（machine learning）」とは、計算機を使用してパターンの識別を行う識別器を生成する手法のことであり、機械による学習（機械学習）または単に学習と称される。マシンラーニングの手法としては、例えば、ニューラルネットワーク、サポートベクタマシン、最近傍識別器、およびブースティング等の手法が挙げられる。

なお、本発明による第１および第２の対象物識別装置においては、前記所定対象物を顔とし、前記拡大率を１より小さくしてもよい。

また、本発明による第１および第２の対象物識別装置においては、前記少なくとも１つの特徴量は、画像上の各画素における勾配ベクトルの方向、該勾配ベクトルの大きさおよび色情報の少なくとも１つであってもよい。

「勾配ベクトル」とは、画像の各画素における濃度が変化する方向および変化の大きさを表すものである。

本発明による第１の対象物識別方法は、識別対象画像の入力を受け付け、
前記識別対象画像上の所定サイズの検出領域内の画素のそれぞれについて、所定対象物の識別に用いる少なくとも１つの特徴量を算出し、
ほぼ正面を向いた前記所定対象物を含む前記所定サイズを有する複数のサンプル画像と、前記所定対象物を含まない前記所定サイズを有する複数のサンプル画像とからなるサンプル画像群について算出した前記少なくとも１つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、入力される前記少なくとも１つの特徴量の前記サンプル画像および前記検出領域における画素の座標位置が定められてなる、前記少なくとも１つの特徴量と該少なくとも１つの特徴量の各々に対応する識別条件とをあらかじめ規定する複数の識別器からなる参照データを、前記検出領域において算出した前記少なくとも１つの特徴量に基づいて参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別するに際し、前記座標位置を、前記検出領域の縦および横方向について異なる拡大率により段階的に変更しつつ、該変更の各段階において前記検出領域において算出した前記少なくとも１つの特徴量に基づいて前記参照データを参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別することを特徴とするものである。

本発明による第２の対象物識別方法は、識別対象画像の入力を受け付け、
前記識別対象画像上の所定サイズの検出領域内の画素のそれぞれについて、所定対象物の識別に用いる少なくとも１つの特徴量を算出し、
ほぼ正面を向いた前記所定対象物を含む前記所定サイズを有する複数のサンプル画像と、前記所定対象物を含まない前記所定サイズを有する複数のサンプル画像とからなるサンプル画像群について算出した前記少なくとも１つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、入力される前記少なくとも１つの特徴量の前記サンプル画像および前記検出領域における画素の座標位置が定められてなる、前記少なくとも１つの特徴量と該少なくとも１つの特徴量の各々に対応する識別条件とをあらかじめ規定する複数の第１の識別器、および該複数の識別器のそれぞれについて、前記少なくとも１つの特徴量が入力される画素の前記座標位置を、前記検出領域の縦および横方向について異なる拡大率により段階的に変更した複数の第２の識別器からなる参照データを、前記検出領域おいて算出した前記少なくとも１つの特徴量に基づいて参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別することを特徴とするものである。

なお、本発明による第１および第２の対象物識別方法をコンピュータに実行させるためのプログラムとして提供してもよい。

本発明の第１の対象物識別装置および方法によれば、識別対象画像上の所定サイズの検出領域内の画素のそれぞれについて、少なくとも１つの特徴量が算出される。そして、入力される少なくとも１つの特徴量の画素の座標位置が、検出領域の縦および横方向について異なる拡大率により段階的に変更され、変更の各段階において、検出領域について算出された少なくとも１つの特徴量に基づいて参照データが参照されて、識別対象画像に所定対象物が含まれるか否かが識別される。

ここで、参照データを得る際の学習に用いられる所定対象物を含むサンプル画像においては所定対象物がほぼ正面を向いているため、入力される特徴量の画素の座標位置を何ら変更することなく、参照データを参照して所定対象物が含まれると識別されるのは、ほぼ正面を向いた所定対象物を含む識別対象画像のみである。ここで、左右を向いた所定対象物は、正面を向いた所定対象物と比較して横方向にのみ縮小されたものとなる。一方、上下を向いた所定対象物は、正面を向いた所定対象物と比較して縦方向にのみ縮小されたものとなる。

本発明の第１の対象物識別装置および方法においては、入力される特徴量の画素の座標位置を、検出領域の縦および横方向について異なる拡大率により段階的に拡大縮小するよう変更しつつ、参照データを参照して識別を行っているため、検出領域に所定対象物が含まれた場合、その所定対象物が左右を向いていたり上下を向いていても、入力される特徴量の座標位置を、ほぼ正面を向いた所定対象物と対応した位置とすることができる。したがって、本発明による第１および第２の対象物識別装置および方法によれば、識別対象画像に左右または上下方向を向いた所定対象物が含まれている場合であっても、その識別対象画像には所定対象物が含まれると識別することができる。

また、本発明の第１の対象物識別装置および方法おいて、まず、座標位置を変更することなく、識別対象画像に所定対象物が含まれるか否かを識別し、所定対象物が含まれないと識別されたが、含まれる可能性がある場合にのみ、座標位置を変更しつつ識別対象画像に所定対象物が含まれるか否かを識別してもよい。これにより、識別対象画像の全体について、座標位置を変形させつつ特徴量を算出して識別対象画像に所定対象物が含まれるか否かを識別する場合と比較して、座標位置を変更する頻度を少なくすることができ、その結果、演算量を少なくすることができる。

本発明の第２の対象物識別装置および方法によれば、識別対象画像上の検出領域内の画素のそれぞれについて、少なくとも１つの特徴量が算出される。そして、入力される少なくとも１つの特徴量に基づいて参照データが参照されて、識別対象画像に所定対象物が含まれるか否かが識別される。

参照データを得る際の学習に用いられる所定対象物を含むサンプル画像を、所定対象物がほぼ正面を向いているもののみとした場合、参照データを参照して所定対象物が含まれると識別されるのは、ほぼ正面を向いた所定対象物を含む識別対象画像のみである。

本発明の第２の対象物識別装置および方法においては、参照データを、入力される少なくとも１つの特徴量のサンプル画像および検出領域における画素の座標位置が定められてなる、少なくとも１つの特徴量と少なくとも１つの特徴量の各々に対応する識別条件とをあらかじめ規定する複数の第１の識別器、および複数の識別器のそれぞれについて、少なくとも１つの特徴量が入力される画素の座標位置を、検出領域の縦および横方向について異なる拡大率により段階的に変更した複数の第２の識別器からなるものとしているため、実質的にほぼ正面を向いた所定対象物の縦および横方向についての縮率が異なるサンプル画像についても参照データの学習がなされることとなる。

ここで、左右を向いた所定対象物は、正面を向いた所定対象物と比較して横方向にのみ縮小されたものとなる。一方、上下を向いた所定対象物は、正面を向いた所定対象物と比較して縦方向にのみ縮小されたものとなる。このため、本発明による第２の対象物識別装置および方法によれば、識別対象画像に左右または上下方向を向いた所定対象物が含まれている場合であっても、その識別対象画像には所定対象物が含まれると識別することができる。

とくに、所定対象物を顔とした場合において、子供の顔は大人の顔と比較して、両目の間隔に対する目と口の距離が短い傾向にある。本発明において、所定対象物を顔とした場合において、拡大率を１より小さくすることにより、子供の顔あるいは大人でも上下を向いた顔が識別対象画像に含まれるか否かを識別することができる。

また、少なくとも１つの特徴量を画像上の各画素における勾配ベクトルの方向、大きさおよび色情報の少なくとも１つとすることにより、識別対象画像に含まれる比較的算出しやすい特徴量を用いて精度よく構成部品の位置を識別できる。

以下、図面を参照して本発明の実施形態について説明する。図１は本発明の第１の実施形態による対象物識別装置の構成を示す概略ブロック図である。図１に示すように、本発明の第１の実施形態による対象物識別装置１は、識別対象画像を表す識別対象画像データＳ０の入力を受け付ける画像入力部２、識別対象画像データＳ０により表される識別対象画像（以下画像についても参照符号Ｓ０を用いる）Ｓ０から特徴量Ｃ１を算出する特徴量算出部４、後述する参照データＲ１が格納されているメモリ６、特徴量算出部４が算出した特徴量Ｃ１とメモリ６内の参照データＲ１とに基づいて、識別対象画像Ｓ０に所定対象物である人物の顔が含まれているか否かを識別する識別部８、並びに識別部８による識別結果を出力する出力部１０とを備える。

特徴量算出部４は、顔の識別に用いる特徴量Ｃ１を識別対象画像Ｓ０から算出する。具体的には、特徴量Ｃ１として、識別対象画像Ｓ０の勾配ベクトル（すなわち方向および大きさ）を算出する。以下、勾配ベクトルの算出について説明する。まず、特徴量算出部４は、識別対象画像Ｓ０に対して図２（ａ）に示す水平方向のエッジ検出フィルタによるフィルタリング処理を施して識別対象画像Ｓ０における水平方向のエッジを検出する。また、特徴量算出部４は、識別対象画像Ｓ０に対して図２（ｂ）に示す垂直方向のエッジ検出フィルタによるフィルタリング処理を施して識別対象画像Ｓ０における垂直方向のエッジを検出する。そして、識別対象画像Ｓ０上の各画素における水平方向のエッジの大きさＨおよび垂直方向のエッジの大きさＶとから、図３に示すように、各画素における勾配ベクトルＫを算出する。

そして、この勾配ベクトルＫを特徴量Ｃ１とする。具体的には勾配ベクトルＫの所定方向（例えば図３におけるｘ方向）を基準とした０から３５９度の値および大きさを特徴量Ｃ１とする。

なお、このようにして算出された勾配ベクトルＫは、図４（ａ）に示すような人物の顔の場合、図４（ｂ）に示すように、目および口のように暗い部分においては目および口の中央を向き、鼻のように明るい部分においては鼻の位置から外側を向くものとなる。また、口よりも目の方が濃度の変化が大きいため、勾配ベクトルＫの大きさは口よりも目の方が大きくなる。

ここで、特徴量Ｃ１である勾配ベクトルＫの大きさは正規化される。この正規化は、識別対象画像Ｓ０内の全画素における勾配ベクトルＫの大きさのヒストグラムを求め、その大きさの分布が識別対象画像Ｓ０の各画素が取り得る値（８ビットであれば０〜２５５）に均一に分布されるようにヒストグラムを平滑化して勾配ベクトルＫの大きさを修正することにより行う。例えば、勾配ベクトルＫの大きさが小さく、図５（ａ）に示すように勾配ベクトルＫの大きさが小さい側に偏ってヒストグラムが分布している場合には、大きさが０〜２５５の全領域に亘るものとなるように勾配ベクトルＫの大きさを正規化して図５（ｂ）に示すようにヒストグラムが分布するようにする。なお、演算量を低減するために、図５（ｃ）に示すように、勾配ベクトルＫのヒストグラムにおける分布範囲を例えば５分割し、５分割された頻度分布が図５（ｄ）に示すように０〜２５５の値を５分割した範囲に亘るものとなるように正規化することが好ましい。

ここで、撮影を行う際には、照明の明るさや照明の方向が撮影時の条件に応じて様々であるため、明るさや照明の方向は識別対象画像Ｓ０ごとに異なる。このように明るさや照明の方向が異なる識別対象画像Ｓ０のそれぞれについてそのまま勾配ベクトルＫを求めていたのでは、同じ顔であるのに目の位置における勾配ベクトルの大きさが異なってしまい、顔が含まれるか否かを精度よく識別することができない。このため、本実施形態においては、勾配ベクトルＫの大きさを識別対象画像Ｓ０の全体について正規化している。

なお、特徴量算出部４は、後述するように識別対象画像Ｓ０の変形の各段階において特徴量Ｃ１を算出する。

メモリ６内に格納されている参照データＲ１は、後述するサンプル画像上の所定位置における複数画素の組み合わせからなる複数種類の画素群のそれぞれについて、各画素群を構成する各画素における特徴量Ｃ１の組み合わせに対する識別条件を規定したものである。

参照データＲ１中の、各画素群を構成する各画素における特徴量Ｃ１の組み合わせおよび識別条件は、顔であることが分かっている複数のサンプル画像と顔でないことが分かっている複数のサンプル画像とからなるサンプル画像群の学習により、あらかじめ決められたものである。

なお、本実施形態においては、顔であることが分かっているサンプル画像として、３０×３０画素サイズを有し、顔が垂直に立って正面を向き、両目の中心間の距離が１０画素のサンプル画像を用いる。また、図６に示すように、１つの顔の画像について両目の中心間の距離が１０画素、９画素および１１画素であり、垂直に立った顔を基準として平面上±１５度の範囲において３度単位で段階的に回転させた（すなわち、回転角度が−１５度，−１２度，−９度，−６度，−３度，０度，３度，６度，９度，１２度，１５度）サンプル画像を作成し、これを学習に用いるものとする。したがって、１つの顔の画像につきサンプル画像は３×１１＝３３通り用意される。ここで、顔が垂直に立った状態において上下方向における目の位置はすべてのサンプル画像において同一である。なお、図６においては−１５度、０度および＋１５度に回転させたサンプル画像のみを示す。また、回転の中心はサンプル画像の対角線の交点である。また、顔でないことが分かっているサンプル画像としては、３０×３０画素サイズを有する任意の画像を用いるものとする。

ここで、顔であることが分かっているサンプル画像として、両目の中心間距離が１０画素であり、平面上の回転角度が０度（すなわち顔が垂直な状態）のもののみを用いて学習を行った場合、参照データＲ１を参照して顔が含まれると識別されるのは、両目の中心間距離が１０画素で全く回転していない識別対象画像Ｓ０のみである。識別対象画像Ｓ０に含まれる可能性がある顔のサイズは一定ではないため、顔が含まれるか否かを識別する際には、後述するように識別対象画像Ｓ０を拡大縮小して、サンプル画像のサイズに適合するサイズの顔を識別できるようにしている。しかしながら、両目の中心間距離を正確に１０画素とするためには、識別対象画像Ｓ０のサイズを拡大率として例えば１．１単位で段階的に拡大縮小しつつ識別を行う必要があるため、演算量が膨大なものとなる。

また、識別対象画像Ｓ０に含まれる可能性がある顔は、図７（ａ）に示すように平面上の回転角度が０度のみではなく、図７（ｂ）、（ｃ）に示すように回転している場合もある。しかしながら、両目の中心間距離が１０画素であり、顔の回転角度が０度のサンプル画像のみを使用して学習を行った場合、顔であるにも拘わらず、図７（ｂ）、（ｃ）に示すように回転した顔については識別を行うことができなくなってしまう。

このため、本実施形態においては、顔であることが分かっているサンプル画像として、図６に示すように両目の中心間距離が９，１０，１１画素であり、各距離において平面上±１５度の範囲にて３度単位で段階的に顔を回転させたサンプル画像を用いて、参照データＲ１の学習に許容度を持たせるようにしたものである。これにより、識別対象画像Ｓ０を、拡大率として１１／９単位で段階的に拡大縮小すればよいため、識別対象画像Ｓ０のサイズを例えば拡大率として１．１単位で段階的に拡大縮小する場合と比較して、演算時間を低減できる。また、図７（ｂ）、（ｃ）に示すように回転している顔も識別することができる。

以下、図８のフローチャートを参照しながらサンプル画像群の学習手法の一例を説明する。

学習の対象となるサンプル画像群は、顔であることが分かっている複数のサンプル画像と、顔でないことが分かっている複数のサンプル画像とからなる。なお、顔であることが分かっているサンプル画像は、１つのサンプル画像につき両目の中心位置が９，１０，１１画素であり、各距離において平面上±１５度の範囲にて３度単位で段階的に顔を回転させたものを用いる。各サンプル画像には、重みすなわち重要度が割り当てられる。まず、すべてのサンプル画像の重みの初期値が等しく１に設定される（ステップＳ１）。

次に、サンプル画像における複数種類の画素群のそれぞれについて識別器が作成される（ステップＳ２）。ここで、識別器とは、１つの画素群を構成する各画素における特徴量Ｃ１の組み合わせを用いて、顔の画像と顔でない画像とを識別する基準を提供するものである。本実施形態においては、１つの画素群を構成する各画素における特徴量Ｃ１の組み合わせについてのヒストグラムを識別器として使用する。

図９を参照しながらある識別器の作成について説明する。図９の左側のサンプル画像に示すように、この識別器を作成するための画素群を構成する各画素は、顔であることが分かっている複数のサンプル画像上における、右目の中心にある画素Ｐ１、右側の頬の部分にある画素Ｐ２、額の部分にある画素Ｐ３および左側の頬の部分にある画素Ｐ４である。なお、ある識別器を作成するための画素群を構成する各画素の座標位置はすべてのサンプル画像において同一である。

そして顔であることが分かっているすべてのサンプル画像について全画素Ｐ１〜Ｐ４における特徴量Ｃ１の組み合わせが求められ、そのヒストグラムが作成される。ここで、特徴量Ｃ１は勾配ベクトルＫの方向および大きさを表すが、勾配ベクトルＫの方向は０〜３５９の３６０通り、勾配ベクトルＫの大きさは０〜２５５の２５６通りあるため、これをそのまま用いたのでは、組み合わせの数は１画素につき３６０×２５６通りの４画素分、すなわち（３６０×２５６）⁴通りとなってしまい、学習および検出のために多大なサンプルの数、時間およびメモリを要することとなる。このため、本実施形態においては、勾配ベクトルの方向を０〜３５９を０〜４４と３１５〜３５９（右方向、値：０），４５〜１３４（上方向値：１），１３５〜２２４（左方向、値：２），２２５〜３１４（下方向、値３）に４値化し、勾配ベクトルの大きさを３値化（値：０〜２）する。そして、以下の式を用いて組み合わせの値を算出する。

組み合わせの値＝０（勾配ベクトルの大きさ＝０の場合）
組み合わせの値＝（（勾配ベクトルの方向＋１）×勾配ベクトルの大きさ（勾配ベクトルの大きさ＞０の場合）
これにより、組み合わせ数が９⁴通りとなるため、特徴量Ｃ１のデータ数を低減できる。

同様に、顔でないことが分かっている複数のサンプル画像についても、ヒストグラムが作成される。なお、顔でないことが分かっているサンプル画像については、顔であることが分かっているサンプル画像上における上記画素Ｐ１〜Ｐ４の位置に対応する画素（同様に参照符号Ｐ１〜Ｐ４を用いる）が用いられる。これらの２つのヒストグラムが示す頻度値の比の対数値を取ってヒストグラムで表したものが、図９の一番右側に示す、識別器として用いられるヒストグラムである。この識別器のヒストグラムが示す各縦軸の値を、以下、識別ポイントと称する。この識別器によれば、正の識別ポイントに対応する特徴量Ｃ１の分布を示す画像は顔である可能性が高く、識別ポイントの絶対値が大きいほどその可能性は高まると言える。逆に、負の識別ポイントに対応する特徴量Ｃ１の分布を示す画像は顔でない可能性が高く、やはり識別ポイントの絶対値が大きいほどその可能性は高まる。ステップＳ２では、識別に使用され得る複数種類の画素群を構成する各画素における特徴量Ｃ１の組み合わせについて、上記のヒストグラム形式の複数の識別器が作成される。なお、各識別器は対応する画素群の座標位置における特徴量Ｃ１を入力とし、上記識別ポイントを出力するものとなる。

続いて、ステップＳ２で作成した複数の識別器のうち、画像が顔であるか否かを識別するのに最も有効な識別器が選択される。最も有効な識別器の選択は、各サンプル画像の重みを考慮して行われる。この例では、各識別器の重み付き正答率が比較され、最も高い重み付き正答率を示す識別器が選択される（ステップＳ３）。すなわち、最初のステップＳ３では、各サンプル画像の重みは等しく１であるので、単純にその識別器によって画像が顔であるか否かが正しく識別されるサンプル画像の数が最も多いものが、最も有効な識別器として選択される。一方、後述するステップＳ５において各サンプル画像の重みが更新された後の２回目のステップＳ３では、重みが１のサンプル画像、重みが１よりも大きいサンプル画像、および重みが１よりも小さいサンプル画像が混在しており、重みが１よりも大きいサンプル画像は、正答率の評価において、重みが１のサンプル画像よりも重みが大きい分多くカウントされる。これにより、２回目以降のステップＳ３では、重みが小さいサンプル画像よりも、重みが大きいサンプル画像が正しく識別されることに、より重点が置かれる。

次に、それまでに選択した識別器の組み合わせの正答率、すなわち、それまでに選択した識別器を組み合わせて使用して各サンプル画像が顔の画像であるか否かを識別した結果が、実際に顔の画像であるか否かの答えと一致する率が、所定の閾値を超えたか否かが確かめられる（ステップＳ４）。ここで、組み合わせの正答率の評価に用いられるのは、現在の重みが付けられたサンプル画像群でも、重みが等しくされたサンプル画像群でもよい。所定の閾値を超えた場合は、それまでに選択した識別器を用いれば画像が顔であるか否かを十分に高い確率で識別できるため、学習は終了する。所定の閾値以下である場合は、それまでに選択した識別器と組み合わせて用いるための追加の識別器を選択するために、ステップＳ６へと進む。

ステップＳ６では、直近のステップＳ３で選択された識別器が再び選択されないようにするため、その識別器が除外される。

次に、直近のステップＳ３で選択された識別器では顔であるか否かを正しく識別できなかったサンプル画像の重みが大きくされ、画像が顔であるか否かを正しく識別できたサンプル画像の重みが小さくされる（ステップＳ５）。このように重みを大小させる理由は、次の識別器の選択において、既に選択された識別器では正しく識別できなかった画像を重要視し、それらの画像が顔であるか否かを正しく識別できる識別器が選択されるようにして、識別器の組み合わせの効果を高めるためである。

続いて、ステップＳ３へと戻り、上記したように重み付き正答率を基準にして次に有効な識別器が選択される。

以上のステップＳ３からＳ６を繰り返して、顔が含まれるか否かを識別するのに適した識別器として、特定の画素群を構成する各画素における特徴量Ｃ１の組み合わせに対応する識別器が選択されたところで、ステップＳ４で確認される正答率が閾値を超えたとすると、顔が含まれるか否かの識別に用いる識別器の種類と識別条件とが確定され（ステップＳ７）、これにより参照データＲ１の学習を終了する。

なお、上記の学習手法を採用する場合において、識別器は、特定の画素群を構成する各画素における特徴量Ｃ１の組み合わせを用いて顔の画像と顔でない画像とを識別する基準を提供するものであれば、上記のヒストグラムの形式のものに限られずいかなるものであってもよく、例えば２値データ、閾値または関数等であってもよい。また、同じヒストグラムの形式であっても、図９の中央に示した２つのヒストグラムの差分値の分布を示すヒストグラム等を用いてもよい。

また、学習の方法としては上記手法に限定されるものではなく、ニューラルネットワーク等他のマシンラーニングの手法を用いることができる。

識別部８は、複数種類の画素群を構成する各画素における特徴量Ｃ１の組み合わせのすべてについて参照データＲ１が学習した識別条件を参照して、各々の画素群を構成する各画素における特徴量Ｃ１の組み合わせについての識別ポイントを求め、すべての識別ポイントを総合して識別対象画像Ｓ０に顔が含まれるか否かを識別する。

ここで、上記図９に示す画素Ｐ１〜Ｐ４の特徴量Ｃ１により作成された識別器について、識別器を作成するのに使用した画素Ｐ１〜Ｐ４を、図１０（ａ）に示すようにサンプル画像の左下を原点とした座標系において（ｘ１，ｙ１）、（ｘ２，ｙ２）、（ｘ３，ｙ３）、（ｘ４，ｙ４）とすると、図１０（ｂ）に示すように、後述するように識別対象画像Ｓ０上に設定した検出領域Ｄ０上の画素Ｐ１〜Ｐ４に対応する座標位置（ｘ１，ｙ１）、（ｘ２，ｙ２）、（ｘ３，ｙ３）、（ｘ４，ｙ４）の各画素Ｐ１′〜Ｐ４′において算出された特徴量Ｃ１が識別器に入力される。この特徴量Ｃ１の入力を受けて、識別器は識別ポイントを出力する。

なお、この際、特徴量Ｃ１である勾配ベクトルＫの方向は４値化され大きさは３値化される。本実施形態では、すべての識別器が出力した識別ポイントを加算して、その加算値の正負によって識別を行うものとする。例えば、識別ポイントの総和が正の値である場合には識別対象画像Ｓ０には顔が含まれると識別し、負の値である場合には顔は含まれないと識別する。

ここで、識別対象画像Ｓ０のサイズは３０×３０画素のサンプル画像とは異なり、各種サイズを有するものとなっている。また、顔が含まれる場合、平面上における顔の回転角度が０度であるとは限らない。このため、識別部８は、図１１に示すように、識別対象画像Ｓ０を縦または横のサイズが３０画素となるまで段階的に拡大縮小するとともに平面上で段階的に３６０度回転させつつ（図１１においては縮小する状態を示す）、各段階において拡大縮小された識別対象画像Ｓ０上に３０×３０画素サイズのマスクＭを設定し、マスクＭを拡大縮小された識別対象画像Ｓ０上において１画素ずつ移動させながら、設定したマスクＭ内の領域を検出領域Ｄ０として抽出し、検出領域Ｄ０内の画像が顔の画像であるか否かの識別を行うことにより、識別対象画像Ｓ０に顔が含まれるか否かを識別する。

なお、参照データＲ１の生成時に学習したサンプル画像として両目の中心位置の画素数が９，１０，１１画素のものを使用しているため、識別対象画像Ｓ０の拡大縮小時の拡大率は１１／９とすればよい。また、参照データＲ１の生成時に学習したサンプル画像として、顔を平面上で±１５度の範囲において回転させたものを使用しているため、識別対象画像Ｓ０は３０度単位で３６０度回転させればよい。

ここで、識別対象画像Ｓ０に顔が含まれる場合、その顔は常に正面を向いているとは限らず、図１２（ａ）、（ｂ）に示すように上下を向いている場合、あるいは図１２（ｃ）、（ｄ）に示すように左右を向いている場合がある。また、大人の顔のみならず、図１２（ｅ）に示すように子供の顔も含まれる。ここで、左右を向いた顔は、正面を向いた顔と比較して横方向にのみ縮小されたものとなる。一方、上下を向いた顔は、正面を向いた顔と比較して縦方向にのみ縮小されたものとなる。また、子供の顔は大人の顔と比較して、両目の間隔に対する目と口の距離が短い傾向にある。

このため、第１の実施形態においては、識別器８が識別を行う際に各識別器に入力される特徴量Ｃ１の検出領域Ｄ０上の座標位置を、検出領域Ｄ０の縦および横方向に異なる拡大率により変更し、変更した座標位置の特徴量Ｃ１が各識別器に入力されるようにする。具体的には、座標位置を縦方向および横方向にそれぞれ０．７〜０．９倍の範囲おいて０．１倍単位で縮小するよう変更して（すなわち、拡大率が０．７，０．８，０．９）、１つの識別器について、７通り（座標位置変更前のものも含む）の特徴量Ｃ１が入力されるようにする。なお、変更の基準となる位置は検出領域Ｄ０の対角線の交点とする。

ここで、座標位置の変更について具体的に説明する。図１３はある識別器についての座標位置の変更を説明するための図である。なお、ここでは説明のため縮小の段階を１段階とする。図１３（ａ）に示すように、この識別器はサンプル画像上の人物の顔の両目に対応する座標位置Ｐ１１（ｘ１１，ｙ１１）、Ｐ１２（ｘ１２，ｙ１２）および口に対応する座標位置Ｐ１３（ｘ１３，ｙ１３）の特徴量Ｃ１を用いて作成されたものとする。

まず、この識別器には、検出領域Ｄ０上の座標位置Ｐ１１（ｘ１１，ｙ１１）、Ｐ１２（ｘ１２，ｙ１２）、Ｐ１３（ｘ１３，ｙ１３）の特徴量Ｃ１が入力される。ここで、検出領域Ｄ０が正面を向いた顔を含む場合、この識別器は顔が含まれる旨の識別ポイントを出力する。

次に、検出領域Ｄ０の対角線の交点を基準として、座標位置Ｐ１１（ｘ１１，ｙ１１）、Ｐ１２（ｘ１２，ｙ１２）、Ｐ１３（ｘ１３，ｙ１３）をｙ方向に縮小するよう変更し、変更した座標位置Ｐ１１′（ｘ１１′，ｙ１１′）、Ｐ１２′（ｘ１２′，ｙ１２′）、Ｐ１３′（ｘ１３′，ｙ１３′）の特徴量Ｃ１をこの識別器に入力する。ここで、検出領域Ｄ０が正面を向いた顔を含む場合、図１３（ｂ）に示すように、この識別器に入力される特徴量Ｃ１は両目の位置および口の位置に対応しなくなるため、この識別器は顔が含まれる旨の識別ポイントを出力しない。

ここで、上下を向いた顔は、正面を向いた顔と比較して縦方向にのみ縮小されたものとなるため、図１３（ｃ）に示すように、検出領域Ｄ０が上を向いた顔を含む場合、変更した座標位置Ｐ１１′（ｘ１１′，ｙ１１′）、Ｐ１２′（ｘ１２′，ｙ１２′）、Ｐ１３′（ｘ１３′，ｙ１３′）は上を向いた顔の両目および口の位置にそれぞれ対応するものとなる。したがって、検出領域Ｄ０が上下を向いた顔を含む場合、この識別器は顔が含まれる旨の識別ポイントを出力する。

次に、検出領域Ｄ０の対角線の交点を基準として、座標位置Ｐ１１（ｘ１１，ｙ１１）、Ｐ１２（ｘ１２，ｙ１２）、Ｐ１３（ｘ１３，ｙ１３）をｘ方向に縮小するよう変更し、変更した座標位置Ｐ１１″（ｘ１１″，ｙ１１″）、Ｐ１２″（ｘ１２″，ｙ１２″）、Ｐ１３″（ｘ１３″，ｙ１３″）の特徴量Ｃ１をこの識別器に入力する。ここで、検出領域Ｄ０が正面を向いた顔を含む場合、図１３（ｄ）に示すように、この識別器に入力される特徴量Ｃ１は両目の位置および口の位置に対応しなくなるため、この識別器は顔が含まれる旨の識別ポイントを出力しない。

ここで、左右を向いた顔は、正面を向いた顔と比較して横方向にのみ縮小されたものとなるため、図１３（ｅ）に示すように、検出領域Ｄ０が左を向いた顔を含む場合、変更した座標位置Ｐ１１″（ｘ１１″，ｙ１１″）、Ｐ１２″（ｘ１２″，ｙ１２″）、Ｐ１３″（ｘ１３″，ｙ１３″）は左を向いた顔の両目および口の位置にそれぞれ対応するものとなる。したがって、検出領域Ｄ０が左右を向いた顔を含む場合、この識別器は顔が含まれる旨の識別ポイントを出力する。

他の識別器も同様に、変更した座標位置の画素の特徴量Ｃ１が入力されることとなる。したがって、参照データＲ１の各識別器は、上下または左右を向いた顔や大人の顔と比較して両目の間隔に対する鼻および口の位置関係が短い傾向にある子供の顔についても、顔が含まれるとの識別ポイントを出力することが可能となる。

なお、拡大率は０．７〜０．９に限定されるものではなく１より小さい任意の拡大率を用いることができる。また、１より大きい拡大率でもよい。さらに、拡大の単位としては０．１倍単位ではなく０．０５倍等任意の単位とすることができる。

ここで、特徴量算出部４は、識別対象画像Ｓ０の拡大縮小および回転という変形の各段階において抽出した検出領域Ｄ０について、座標位置を変更して特徴量Ｃ１を算出する。

そして、識別部８は、識別対象画像Ｓ０に顔が含まれるか否かの識別を、識別対象画像Ｓ０の拡大縮小および回転の全段階において抽出した検出領域Ｄ０について、座標位置を全段階において変更することにより行い、一度でも顔が含まれると識別された場合には、識別対象画像Ｓ０には顔が含まれると識別する。また、顔が含まれると一度も識別されなかった場合には、識別対象画像Ｓ０には顔が含まれないと識別する。

出力部１０は、識別部８が識別対象画像Ｓ０に顔が含まれないと識別した場合に、識別対象画像Ｓ０には顔が含まれない旨の識別結果を出力する。一方、識別部８が識別対象画像Ｓ０に顔が含まれると識別した場合、顔が含まれると識別された段階におけるサイズおよび回転角度の識別対象画像Ｓ０から、顔が含まれると識別された検出領域Ｄ０の位置に対応する３０×３０画素の領域を顔として抽出し、抽出された顔の画像を表す顔画像データＳ１を出力する。

次いで、第１の実施形態において行われる処理について説明する。図１４は第１の実施形態において行われる処理を示すフローチャートである。まず、画像入力部２が識別対象画像データＳ０の入力を受け付ける（ステップＳ１１）。この際、多数の画像に関する一連の画像データＳ０の入力を連続的に受け付けてもよい。次いで、特徴量算出部４が識別対象画像Ｓ０の拡大縮小および回転の各段階において抽出した検出領域Ｄ０について、勾配ベクトルＫを特徴量Ｃ１として算出する（ステップＳ１２）。そして、識別部８がメモリ６から参照データＲ１を読み出し（ステップＳ１３）、上述したように、識別器に入力される特徴量を算出した画素の座標位置を、縦および横方向に段階的に異なる拡大率により拡大しながら、識別対象画像Ｓ０に顔が含まれるか否かの識別を行う（ステップＳ１４）。

識別により識別対象画像Ｓ０に顔が含まれると識別された場合、出力部１０が識別対象画像Ｓ０から識別された顔を抽出し、抽出された顔の画像を表す顔画像データＳ１を出力し（ステップＳ１５）、処理を終了する。なお、複数の顔を抽出してもよい。一方、識別対象画像Ｓ０に顔が含まれないと識別された場合、出力部１０がその旨を表す識別結果を出力し（ステップＳ１６）、処理を終了する。

ここで、参照データＲ１を得る際の学習に用いられるサンプル画像においては顔がほぼ正面を向いているため、参照データＲ１を参照して顔が含まれると識別されるのは、ほぼ正面を向いた顔を含む識別対象画像のみである。ここで、左右を向いた顔は、正面を向いた顔と比較して横方向にのみ縮小されたものとなる。一方、上下を向いた顔は、正面を向いた顔と比較して縦方向にのみ縮小されたものとなる。

本発明の第１の実施形態による対象物識別装置１においては、参照データＲ１の識別器に入力される特徴量Ｃ１の座標位置を、識別対象画像Ｓ０の縦および横方向について異なる拡大率により段階的に縮小するよう変更しつつ、参照データＲ１を参照して識別を行っているため、識別対象画像Ｓ０の検出領域Ｄ０に顔が含まれた場合、その顔が左右を向いていたり上下を向いていても、入力される特徴量Ｃ１の座標位置を、ほぼ正面を向いた顔に対応した位置とすることができる。したがって、第１の実施形態による対象物識別装置１によれば、識別対象画像Ｓ０に左右または上下方向を向いた顔が含まれている場合であっても、その識別対象画像Ｓ０には顔が含まれると識別することができる。

とくに、子供の顔は大人の顔と比較して、両目の間隔に対する目と口の距離が短い傾向にある。第１の実施形態においては、縦方向の拡大率を１より小さくすることにより、子供の顔が識別対象画像Ｓ０に含まれるか否かを識別することができる。

次いで、本発明の第２の実施形態について説明する。図１５は本発明の第２の実施形態による対象物識別装置の構成を示す概略ブロック図である。なお、第２の実施形態において第１の実施形態と同一の構成については同一の参照番号を付し、詳細な説明は省略する。第２の実施形態による対象物識別装置１１は、参照データＲ１とは異なる参照データＲ２を参照して、識別対象画像Ｓ０に顔が含まれるか否かを識別するようにした点が第１の実施形態と異なる。

ここで、参照データＲ２の作成について説明する。参照データＲ２は上記第１の実施形態の参照データＲ１と同様に複数の識別器からなる。この複数の識別器には、参照データＲ１と同様の複数の識別器（以下、第１の識別器とする）を含むとともに、各第１の識別器に入力される画素の座標位置が、検出領域Ｄ０の縦および横方向について異なる拡大率により段階的に縮小した座標位置に変更されてなる複数の第２の識別器を含む。なお、第２の識別器は縮小の段階に応じてさらに複数作成される。

すなわち、第１の識別器に入力される特徴量Ｃ１の座標位置を、検出領域Ｄ０の縦および横方向に異なる拡大率により変更し、変更した座標位置の特徴量Ｃ１が各識別器に入力されるように第２の識別器を作成する。具体的には、座標位置を縦方向および横方向にそれぞれ０．７〜０．９倍の範囲おいて０．１倍単位で縮小するよう変更して（すなわち、拡大率が０．７，０．８，０．９）、１つの第１の識別器について、さらに６通りの座標位置の特徴量Ｃ１が入力されるように、６つの第２の識別器を作成する。なお、変更の基準となる位置は検出領域Ｄ０の対角線の交点とする。

以下、第２の識別器の作成について説明する。図１６はある第１の識別器からの第２の識別器の作成を説明するための図である。なお、ここでは説明のため縮小の段階を１段階とする。図１６（ａ）に示すように、この第１の識別器（以下Ｂ１１とする）はサンプル画像上の人物の顔の両目に対応する座標位置Ｐ２１（ｘ２１，ｙ２１）、Ｐ２２（ｘ２２，ｙ２２）および口に対応する座標位置Ｐ２３（ｘ２３，ｙ２３）の特徴量Ｃ１を用いて作成されたものとする。

そして、検出領域Ｄ０の対角線の交点を基準として、座標位置Ｐ２１（ｘ２１，ｙ２１）、Ｐ２２（ｘ２２，ｙ２２）、Ｐ２３（ｘ２３，ｙ２３）をｙ方向に縮小するよう変更し、変更した座標位置Ｐ２１′（ｘ２１′，ｙ２１′）、Ｐ２２′（ｘ２２′，ｙ２２′）、Ｐ２３′（ｘ２３′，ｙ２３′）の特徴量Ｃ１が入力される第２の識別器Ｂ１２−１を作成する。ここで、検出領域Ｄ０が正面を向いた顔を含む場合、図１６（ｂ）に示すように、この第２の識別器Ｂ１２−１に入力される特徴量Ｃ１は両目の位置および口の位置に対応しなくなるため、第２の識別器Ｂ１２−１は顔が含まれる旨の識別ポイントを出力しない。

ここで、上下を向いた顔は、正面を向いた顔と比較して縦方向にのみ縮小されたものとなるため、検出領域Ｄ０が上を向いた顔を含む場合、第２の識別器Ｂ１２−１に入力される特徴量Ｃ１の座標位置は、図１６（ｃ）に示すように、変更した座標位置Ｐ２１′（ｘ２１′，ｙ２１′）、Ｐ２２′（ｘ２２′，ｙ２２′）、Ｐ２３′（ｘ２３′，ｙ２３′）は上を向いた顔の両目および口の位置にそれぞれ対応するものとなる。したがって、検出領域Ｄ０が上下を向いた顔を含む場合、第２の識別器Ｂ１２−１は顔が含まれる旨の識別ポイントを出力する。

次に、検出領域Ｄ０の対角線の交点を基準として、座標位置Ｐ２１（ｘ２１，ｙ２１）、Ｐ２２（ｘ２２，ｙ２２）、Ｐ２３（ｘ２３，ｙ２３）をｘ方向に縮小するよう変更し、変更した座標位置Ｐ２１″（ｘ２１″，ｙ２１″）、Ｐ２２″（ｘ２２″，ｙ２２″）、Ｐ２３″（ｘ２３″，ｙ２３″）の特徴量Ｃ１が入力される第２の識別器Ｂ１２−２を作成する。ここで、検出領域Ｄ０が正面を向いた顔を含む場合、図１６（ｄ）に示すように、この第２の識別器Ｂ１２−２に入力される特徴量Ｃ１は両目の位置および口の位置に対応しなくなるため、第２の識別器Ｂ１２−２は顔が含まれる旨の識別ポイントを出力しない。

ここで、左右を向いた顔は、正面を向いた顔と比較して横方向にのみ縮小されたものとなるため、検出領域Ｄ０が左を向いた顔を含む場合、図１６（ｅ）に示すように、変更した座標位置Ｐ２１″（ｘ２１″，ｙ２１″）、Ｐ２２″（ｘ２２″，ｙ２２″）、Ｐ２３″（ｘ２３″，ｙ２３″）は左を向いた顔の両目および口の位置にそれぞれ対応するものとなる。したがって、検出領域Ｄ０が左右を向いた顔を含む場合、第２の識別器Ｂ１２−２は顔が含まれる旨の識別ポイントを出力する。

他の第２の識別器も同様に、変更された座標位置の画素の特徴量Ｃ１が入力されるように作成される。したがって、参照データＲ２の第２の識別器は、上下または左右を向いた顔や大人の顔と比較して、両目の間隔に対する鼻および口の位置関係が短い傾向にある子供の顔についても、顔が含まれるとの識別ポイントを出力することが可能となる。

次いで、第２の実施形態において行われる処理について説明する。図１７は第２の実施形態において行われる処理を示すフローチャートである。まず、画像入力部２が識別対象画像データＳ０の入力を受け付ける（ステップＳ２１）。この際、多数の画像に関する一連の画像データＳ０の入力を連続的に受け付けてもよい。次いで、特徴量算出部４が識別対象画像Ｓ０の拡大縮小および回転の各段階において抽出した検出領域Ｄ０について、勾配ベクトルＫを特徴量Ｃ１として算出する（ステップＳ２２）。そして、識別部８がメモリ６から参照データＲ２を読み出し（ステップＳ２３）、識別対象画像Ｓ０に顔が含まれるか否かの識別を行う（ステップＳ２４）。

識別により識別対象画像Ｓ０に顔が含まれると識別された場合、出力部１０が識別対象画像Ｓ０から識別された顔を抽出し、抽出された顔の画像を表す顔画像データＳ１を出力し（ステップＳ２５）、処理を終了する。なお、複数の顔を抽出してもよい。一方、識別対象画像Ｓ０に顔が含まれないと識別された場合、出力部１０がその旨を表す識別結果を出力し（ステップＳ２６）、処理を終了する。

このように、第２の実施形態においては、参照データＲ２を第１の識別器、および第１の識別器のそれぞれについて、検出領域Ｄ０において算出された少なくとも１つの特徴量が入力される画素の座標位置を、検出領域Ｄ０の縦および横方向について異なる拡大率により段階的に変更した第２の識別器からなるものとしているため、実質的にほぼ正面を向いた顔の縦および横方向についての縮率が異なるサンプル画像についても参照データＲ２の学習がなされることとなる。

ここで、左右を向いた顔は、正面を向いた顔と比較して横方向にのみ縮小されたものとなる。一方、上下を向いた顔は、正面を向いた顔と比較して縦方向にのみ縮小されたものとなる。このため、本発明による第２の対象物識別装置によれば、識別対象画像Ｓ０に左右または上下方向を向いた顔が含まれている場合であっても、その識別対象画像Ｓ０には顔が含まれると識別することができる。

なお、上記第１および第２の実施形態においては、参照データＲ１，Ｒ２は対象物識別装置１内のメモリ６に格納されているものとしたが、特徴量算出部４および識別部８が参照データＲ１，Ｒ２にアクセスできる限り、参照データＲ１，Ｒ２は、対象物識別装置１，１１とは別個の装置やＣＤ−ＲＯＭ等の差替可能な媒体に記憶されたものであってもよい。

また、上記第１および第２の実施形態においては、特徴量Ｃ１として勾配ベクトルＫの傾きを用いているが、識別対象画像Ｓ０の色相や彩度等の色情報を特徴量Ｃ１として用いてもよい。

また、上記第１および第２の実施形態においては、顔を識別対象物として識別対象画像Ｓ０に顔が含まれるか否かを識別しているが、ほぼ一定形状をなしており、参照データの学習を行う際にサイズを揃えることが可能な自動車や道路標識等を識別の対象物としてもよい。

また、上記第１および第２の実施形態においては、出力部１０が識別対象画像Ｓ０から顔を抽出しているが、識別対象画像Ｓ０における顔の位置を表す顔位置情報（例えば識別された顔を囲む矩形領域の四隅の座標）を識別対象画像データＳ０に付与し、顔位置情報が付与された識別対象画像データＳ０を出力してもよい。ここで、顔位置情報を識別対象画像データＳ０に付与するには、識別対象画像データＳ０のヘッダやタグに顔位置情報を記述したり、識別対象画像データＳ０とファイル名が同一で拡張子が異なる例えばテキストファイルに顔位置情報を記述して、識別対象画像データＳ０とテキストファイルとを一体不可分とする手法を用いることができる。なお、識別対象画像Ｓ０には顔が含まれないと識別された場合には、その識別結果を表す識別情報を識別対象画像データＳ０に付与して出力してもよい。

また、顔を抽出するのに代えて、識別した顔についてストロボを用いた撮影により赤目となっているか否かを検出し、赤目を修正する処理を行うようにしてもよい。

この場合、識別対象画像Ｓ０において赤色の領域を検出し、検出した赤色の領域の周辺の領域についてのみ、上記第１および第２の実施形態において行った顔が含まれるか否かの識別を行うようにしてもよい。これにより、識別対象画像Ｓ０の全体に対して識別を行う場合と比較して演算量を低減することができる。

また、上記第１の実施形態において、入力される特徴量Ｃ１の座標位置を変更することなく、識別対象画像Ｓ０に顔が含まれるか否かを識別し、その後、識別対象画像Ｓ０上において、算出した識別ポイントの総和が負の値となり顔が含まれないと識別したが、識別ポイントがあらかじめ定めた閾値以上となった顔が含まれる可能性がある領域についてのみ、入力される特徴量Ｃ１の座標位置を変更して顔が含まれるか否かの識別を行うようにしてもよい。なお、閾値としては、確実に顔が含まれないと識別される値より大きい、０より小さい値を実験的に求めればよい。例えば、確実に顔が含まれると識別される値が−１０の場合、−２あるいは−３等を閾値として用いればよい。これにより、正面を向いた顔については少ない演算量により識別を行うことができ、さらに正面を向いた顔に近い物体（例えば横を向いた顔、上下を向いた顔、子供の顔）が存在する可能性がある領域に対してのみ、特徴量Ｃ１の座標位置を変更して顔が含まれるか否かの識別を行えばよいため、識別対象画像Ｓ０の全体について入力される特徴量Ｃ１の座標位置を変更して顔が含まれるか否かの識別を行う場合と比較して、演算量を低減することができる。

また、上記第１および第２の実施形態においては、対象物識別装置１，１１を単独で用いているが、デジタルカメラ等の撮像装置や、プリンタ等の出力装置に本実施形態による対象物識別装置１，１１を設け、撮像装置が取得した画像データや出力装置から出力する画像データにより表される画像から顔を抽出し、上記赤目修正処理や顔に対して画質を向上させる処理（階調処理、色補正処理、シャープネス処理等）を施すようにしてもよい。

以上、本発明の実施形態に係る装置について説明したが、コンピュータを、上記の画像入力部２、特徴量算出部４、メモリ６、識別部８、および出力部１０に対応する手段として機能させ、識別対象画像Ｓ０に顔が含まれるか否かを識別する処理を行わせるプログラムも、本発明の実施形態の１つである。また、そのようなプログラムを記録したコンピュータ読取可能な記録媒体も、本発明の実施形態の１つである。これらの場合においても、参照データは、プログラム内あるいは同一の記録媒体内に含まれているものであってもよいし、外部の装置や別個の媒体から提供されるものであってもよい。

本発明の第１の実施形態による対象物識別装置の構成を示す概略ブロック図（ａ）は水平方向のエッジ検出フィルタを示す図、（ｂ）は垂直方向のエッジ検出フィルタを示す図勾配ベクトルの算出を説明するための図（ａ）は人物の顔を示す図、（ｂ）は（ａ）に示す人物の顔の目および口付近の勾配ベクトルを示す図（ａ）は正規化前の勾配ベクトルの大きさのヒストグラムを示す図、（ｂ）は正規化後の勾配ベクトルの大きさのヒストグラムを示す図、（ｃ）は５値化した勾配ベクトルの大きさのヒストグラムを示す図、（ｄ）は正規化後の５値化した勾配ベクトルの大きさのヒストグラムを示す図顔であることが分かっているサンプル画像の例を示す図顔の回転を説明するための図参照データの学習手法を示すフローチャート識別器の導出方法を示す図識別器に入力される特徴量の座標位置を説明するための図第１の実施形態における識別対象画像の段階的な変形を説明するための図上下左右を向いた顔および子供の顔を示す図第１の実施形態における座標位置の変更を説明するための図第１の実施形態において行われる処理を示すフローチャート本発明の第２の実施形態による対象物識別装置の構成を示す概略ブロック図第２の実施形態における座標位置の変更を説明するための図第２の実施形態において行われる処理を示すフローチャート

符号の説明

１，１１′ 対象物識別装置
２画像入力部
４特徴量算出部
６メモリ
８識別部
１０出力部

Claims

識別対象画像の入力を受け付ける画像入力手段と、
前記識別対象画像上の所定サイズの検出領域内の画素のそれぞれについて、所定対象物の識別に用いる少なくとも１つの特徴量を算出する特徴量算出手段と、
ほぼ正面を向いた前記所定対象物を含む前記所定サイズを有する複数のサンプル画像と、前記所定対象物を含まない前記所定サイズを有する複数のサンプル画像とからなるサンプル画像群について算出した前記少なくとも１つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、入力される前記少なくとも１つの特徴量の前記サンプル画像および前記検出領域における画素の座標位置が定められてなる、前記少なくとも１つの特徴量と該少なくとも１つの特徴量の各々に対応する識別条件とをあらかじめ規定する複数の識別器からなる参照データを、前記検出領域において算出した前記少なくとも１つの特徴量に基づいて参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別する識別手段であって、前記座標位置を、前記検出領域の縦および横方向について異なる拡大率により段階的に変更しつつ、該変更の各段階において前記検出領域において算出した前記少なくとも１つの特徴量に基づいて前記参照データを参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別する識別手段とを備えたことを特徴とする対象物識別装置。
前記識別手段は、前記座標位置を変更することなく、前記識別対象画像に前記所定対象物が含まれるか否かを識別し、前記所定対象物が含まれないと識別されたが、含まれる可能性がある場合にのみ、前記座標位置を変更しつつ前記識別対象画像に前記所定対象物が含まれるか否かを識別する手段であることを特徴とする請求項１記載の対象物識別装置。
識別対象画像の入力を受け付ける画像入力手段と、
前記識別対象画像上の所定サイズの検出領域内の画素のそれぞれについて、所定対象物の識別に用いる少なくとも１つの特徴量を算出する特徴量算出手段と、
ほぼ正面を向いた前記所定対象物を含む前記所定サイズを有する複数のサンプル画像と、前記所定対象物を含まない前記所定サイズを有する複数のサンプル画像とからなるサンプル画像群について算出した前記少なくとも１つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、入力される前記少なくとも１つの特徴量の前記サンプル画像および前記検出領域における画素の座標位置が定められてなる、前記少なくとも１つの特徴量と該少なくとも１つの特徴量の各々に対応する識別条件とをあらかじめ規定する複数の第１の識別器、および該複数の識別器のそれぞれについて、前記少なくとも１つの特徴量が入力される画素の前記座標位置を、前記検出領域の縦および横方向について異なる拡大率により段階的に変更した複数の第２の識別器からなる参照データを、前記検出領域おいて算出した前記少なくとも１つの特徴量に基づいて参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別する識別手段とを備えたことを特徴とする対象物識別装置。
前記所定対象物が顔であり、前記拡大率が１より小さいことを特徴とする請求項１から３のいずれか１項記載の対象物識別装置。
前記少なくとも１つの特徴量は、画像上の各画素における勾配ベクトルの方向、該勾配ベクトルの大きさおよび色情報の少なくとも１つであることを特徴とする請求項１から４のいずれか１項記載の対象物識別装置。
識別対象画像の入力を受け付け、
前記識別対象画像上の所定サイズの検出領域内の画素のそれぞれについて、所定対象物の識別に用いる少なくとも１つの特徴量を算出し、
ほぼ正面を向いた前記所定対象物を含む前記所定サイズを有する複数のサンプル画像と、前記所定対象物を含まない前記所定サイズを有する複数のサンプル画像とからなるサンプル画像群について算出した前記少なくとも１つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、入力される前記少なくとも１つの特徴量の前記サンプル画像および前記検出領域における画素の座標位置が定められてなる、前記少なくとも１つの特徴量と該少なくとも１つの特徴量の各々に対応する識別条件とをあらかじめ規定する複数の識別器からなる参照データを、前記検出領域において算出した前記少なくとも１つの特徴量に基づいて参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別するに際し、前記座標位置を、前記検出領域の縦および横方向について異なる拡大率により段階的に変更しつつ、該変更の各段階において前記検出領域において算出した前記少なくとも１つの特徴量に基づいて前記参照データを参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別することを特徴とする対象物識別方法。
識別対象画像の入力を受け付け、
前記識別対象画像上の所定サイズの検出領域内の画素のそれぞれについて、所定対象物の識別に用いる少なくとも１つの特徴量を算出し、
ほぼ正面を向いた前記所定対象物を含む前記所定サイズを有する複数のサンプル画像と、前記所定対象物を含まない前記所定サイズを有する複数のサンプル画像とからなるサンプル画像群について算出した前記少なくとも１つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、入力される前記少なくとも１つの特徴量の前記サンプル画像および前記検出領域における画素の座標位置が定められてなる、前記少なくとも１つの特徴量と該少なくとも１つの特徴量の各々に対応する識別条件とをあらかじめ規定する複数の第１の識別器、および該複数の識別器のそれぞれについて、前記少なくとも１つの特徴量が入力される画素の前記座標位置を、前記検出領域の縦および横方向について異なる拡大率により段階的に変更した複数の第２の識別器からなる参照データを、前記検出領域おいて算出した前記少なくとも１つの特徴量に基づいて参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別することを特徴とする対象物識別方法。
識別対象画像の入力を受け付ける手順と、
前記識別対象画像上の所定サイズの検出領域内の画素のそれぞれについて、所定対象物の識別に用いる少なくとも１つの特徴量を算出する手順と、
ほぼ正面を向いた前記所定対象物を含む前記所定サイズを有する複数のサンプル画像と、前記所定対象物を含まない前記所定サイズを有する複数のサンプル画像とからなるサンプル画像群について算出した前記少なくとも１つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、入力される前記少なくとも１つの特徴量の前記サンプル画像および前記検出領域における画素の座標位置が定められてなる、前記少なくとも１つの特徴量と該少なくとも１つの特徴量の各々に対応する識別条件とをあらかじめ規定する複数の識別器からなる参照データを、前記検出領域において算出した前記少なくとも１つの特徴量に基づいて参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別するに際し、前記座標位置を、前記検出領域の縦および横方向について異なる拡大率により段階的に変更しつつ、該変更の各段階において前記検出領域において算出した前記少なくとも１つの特徴量に基づいて前記参照データを参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別する手順とを有することを特徴とする対象物識別方法をコンピュータに実行させるためのプログラム。
識別対象画像の入力を受け付ける手順と、
前記識別対象画像上の所定サイズの検出領域内の画素のそれぞれについて、所定対象物の識別に用いる少なくとも１つの特徴量を算出する手順と、
ほぼ正面を向いた前記所定対象物を含む前記所定サイズを有する複数のサンプル画像と、前記所定対象物を含まない前記所定サイズを有する複数のサンプル画像とからなるサンプル画像群について算出した前記少なくとも１つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、入力される前記少なくとも１つの特徴量の前記サンプル画像および前記検出領域における画素の座標位置が定められてなる、前記少なくとも１つの特徴量と該少なくとも１つの特徴量の各々に対応する識別条件とをあらかじめ規定する複数の第１の識別器、および該複数の識別器のそれぞれについて、前記少なくとも１つの特徴量が入力される画素の前記座標位置を、前記検出領域の縦および横方向について異なる拡大率により段階的に変更した複数の第２の識別器からなる参照データを、前記検出領域おいて算出した前記少なくとも１つの特徴量に基づいて参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別する手順とを有することを特徴とする対象物識別方法をコンピュータに実行させるためのプログラム。