JP2005250774A - 対象物識別装置および方法並びにプログラム - Google Patents

対象物識別装置および方法並びにプログラム Download PDF

Info

Publication number
JP2005250774A
JP2005250774A JP2004059180A JP2004059180A JP2005250774A JP 2005250774 A JP2005250774 A JP 2005250774A JP 2004059180 A JP2004059180 A JP 2004059180A JP 2004059180 A JP2004059180 A JP 2004059180A JP 2005250774 A JP2005250774 A JP 2005250774A
Authority
JP
Japan
Prior art keywords
identification
feature amount
image
predetermined
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004059180A
Other languages
English (en)
Other versions
JP4361394B2 (ja
Inventor
Wataru Ito
渡 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Holdings Corp
Original Assignee
Fuji Photo Film Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Photo Film Co Ltd filed Critical Fuji Photo Film Co Ltd
Priority to JP2004059180A priority Critical patent/JP4361394B2/ja
Publication of JP2005250774A publication Critical patent/JP2005250774A/ja
Application granted granted Critical
Publication of JP4361394B2 publication Critical patent/JP4361394B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

【課題】 サンプル画像を用いて学習した参照データを用いて、識別対象画像に所定対象物が含まれるか否かを識別するに際し、誤検出を少なくする。
【解決手段】 識別対象画像に顔が含まれるか否かを識別するために正面を顔を含む多数のサンプル画像を用いて学習を行った複数の識別器からなる参照データを用いて、識別対象画像に顔が含まれるか否かを識別する。その際、各識別器には学習を行った座標位置の特徴量とともに、座標位置を縦および横方向についてそれぞれ1より小さい拡大率により段階的に変更した座標位置の特徴量を入力して、識別対象画像に顔が含まれるか否かを識別する。
【選択図】 図1

Description

本発明は、画像に顔等の所定対象物が含まれるか否かを識別する対象物識別装置および方法並びに対象物識別方法をコンピュータに実行させるためのプログラムに関するものである。
デジタルカメラにおいて取得した画像データや、フイルムに記録された画像を読み取ることにより取得した画像データを、プリント等のハードコピーとしてあるいはディスプレイ上にソフトコピーとして再現することが行われている。このような画像データにより表される画像は人物の顔が含まれることが多く、顔が適切な明るさや色を有するものとなるように画像データに対して明るさ、階調、色、シャープネス等を修正したり、赤目を修正する画像処理を施すことが行われている。このように画像データに対して画像処理を施す場合には、画像データにより表される画像から人物の顔に対応する顔領域を検出する必要がある。このため、画像に顔等の所定対象物が含まれるか否かを識別する各種方法が提案されている。
例えば非特許文献1は、顔を検出する際に用いられる特徴量である輝度値を正規化し、顔について学習を行ったニューラルネットワークの学習結果を参照して、画像に顔が含まれるか否かを識別する手法である。また非特許文献2は、画像中に含まれるエッジのような高周波成分を対象物の検出に使用する特徴量として求めてこの特徴量を正規化し、ブースティングと称されるマシンラーニング(machine learning)の手法を用いての特徴量についての学習結果を参照して、画像に対象物が含まれるか否かを識別する手法である。これら非特許文献1,2の手法は、顔等の対象物の検出に使用する特徴量を正規化しているため、画像に対象物が含まれるか否かを精度よく識別することができる。
また、所定対象物であることが分かっている複数のサンプル画像と、所定対象物でないことが分かっている複数のサンプル画像とからなる多数のサンプル画像群のそれぞれから算出された特徴量を、マシンラーニングの手法によりあらかじめ学習することにより得られた、特徴量の入力により所定対象物が含まれる識別対象画像と所定対象物が含まれない識別対象画像とを識別するための基準値を出力する複数の識別器を備え、この複数の識別から出力された基準値の重み付け総和があらかじめ定めた閾値を超えた場合に、識別対象画像に所定対象物が含まれると識別する手法が本出願人により提案されている(特許文献2〜4参照)。この特許文献2から4に記載された手法を用いることにより、例えば、サンプル画像として顔を学習させた場合には、識別対象画像に顔が含まれるか否かを良好に識別することができる。
また、サンプル画像を段階的に拡大縮小したり、段階的に回転したりすることによりサンプル画像を段階的に変形し、変形の各段において得られるサンプル画像を用いて学習を行っているため、識別対象画像に含まれる顔の縮率が異なったり、多少回転していても、識別対象画像に顔が含まれるか否かを検出することができる。
Henry A. Rowley, Shumeet Baluja, and Takeo Kanada, "Neural Network-Based Face Detection", volume 20, number 1, pages 23-38, January 1998. Rainer Lienhart, Jochen Maydt, "An Extended Set of Haar-like Features for Rapid Object Detection", International Conference on Image Processing. 特開平5−282457号公報 特願2003−316924号 特願2003−316925号 特願2003−316926号
ところで、上記特許文献2〜4の手法において、サンプル画像として顔の画像を用いた場合、サンプル画像は大人が正面を向いた顔を含む割合が高い。このため、特許文献2〜4に記載された手法を用いた場合においては、大人が正面を向いた顔を含む識別対象画像については、非常に高い検出率により顔が含まれるか否かを識別することができる。しかしながら、左右を向いていたり、上下を向いている顔が含まれる識別対象画像については、顔が含まれているにもかかわらず、顔が含まれないと検出してしまう誤検出が多くなる。また、子供の顔は大人の顔と比較して、両目の間隔に対する鼻および口の位置関係が短い傾向にあるため、子供の顔を含む識別対象画像についても誤検出が多くなるという問題がある。
本発明は上記事情に鑑みなされたものであり、誤検出を少なくすることを目的とする。
本発明による第1の対象物識別装置は、識別対象画像の入力を受け付ける画像入力手段と、
前記識別対象画像上の所定サイズの検出領域内の画素のそれぞれについて、所定対象物の識別に用いる少なくとも1つの特徴量を算出する特徴量算出手段と、
ほぼ正面を向いた前記所定対象物を含む前記所定サイズを有する複数のサンプル画像と、前記所定対象物を含まない前記所定サイズを有する複数のサンプル画像とからなるサンプル画像群について算出した前記少なくとも1つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、入力される前記少なくとも1つの特徴量の前記サンプル画像および前記検出領域における画素の座標位置が定められてなる、前記少なくとも1つの特徴量と該少なくとも1つの特徴量の各々に対応する識別条件とをあらかじめ規定する複数の識別器からなる参照データを、前記検出領域において算出した前記少なくとも1つの特徴量に基づいて参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別する識別手段であって、前記座標位置を、前記検出領域の縦および横方向について異なる拡大率により段階的に変更しつつ、該変更の各段階において前記検出領域において算出した前記少なくとも1つの特徴量に基づいて前記参照データを参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別する識別手段とを備えたことを特徴とするものである。
なお、本発明による第1の対象物識別装置においては、前記識別手段を、前記座標位置を変更することなく、前記識別対象画像に前記所定対象物が含まれるか否かを識別し、前記所定対象物が含まれないと識別されたが、含まれる可能性がある場合にのみ、前記座標位置を変更しつつ前記識別対象画像に前記所定対象物が含まれるか否かを識別する手段としてもよい。
本発明による第2の対象物識別装置は、識別対象画像の入力を受け付ける画像入力手段と、
前記識別対象画像上の所定サイズの検出領域内の画素のそれぞれについて、所定対象物の識別に用いる少なくとも1つの特徴量を算出する特徴量算出手段と、
ほぼ正面を向いた前記所定対象物を含む前記所定サイズを有する複数のサンプル画像と、前記所定対象物を含まない前記所定サイズを有する複数のサンプル画像とからなるサンプル画像群について算出した前記少なくとも1つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、入力される前記少なくとも1つの特徴量の前記サンプル画像および前記検出領域における画素の座標位置が定められてなる、前記少なくとも1つの特徴量と該少なくとも1つの特徴量の各々に対応する識別条件とをあらかじめ規定する複数の第1の識別器、および該複数の識別器のそれぞれについて、前記少なくとも1つの特徴量が入力される画素の前記座標位置を、前記検出領域の縦および横方向について異なる拡大率により段階的に変更した複数の第2の識別器からなる参照データを、前記検出領域おいて算出した前記少なくとも1つの特徴量に基づいて参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別する識別手段とを備えたことを特徴とするものである。
「所定対象物」とは、ほぼ一定形状をなしており、ほぼ一定の大きさとなるようにサイズを揃えることが可能な対象物が挙げられる。具体的には、人物の顔、車両および道路標識等を所定対象物とすることができる。
「特徴量」とは、画像の特徴を表すパラメータを指し、その画像における各画素の濃度勾配を表す勾配ベクトル、各画素の色情報(色相、彩度)、濃度、テクスチャーの特徴、奥行情報、その画像に含まれるエッジの特徴等、いかなる特徴を表すものであってもよい。
「マシンラーニング(machine learning)」とは、計算機を使用してパターンの識別を行う識別器を生成する手法のことであり、機械による学習(機械学習)または単に学習と称される。マシンラーニングの手法としては、例えば、ニューラルネットワーク、サポートベクタマシン、最近傍識別器、およびブースティング等の手法が挙げられる。
なお、本発明による第1および第2の対象物識別装置においては、前記所定対象物を顔とし、前記拡大率を1より小さくしてもよい。
また、本発明による第1および第2の対象物識別装置においては、前記少なくとも1つの特徴量は、画像上の各画素における勾配ベクトルの方向、該勾配ベクトルの大きさおよび色情報の少なくとも1つであってもよい。
「勾配ベクトル」とは、画像の各画素における濃度が変化する方向および変化の大きさを表すものである。
本発明による第1の対象物識別方法は、識別対象画像の入力を受け付け、
前記識別対象画像上の所定サイズの検出領域内の画素のそれぞれについて、所定対象物の識別に用いる少なくとも1つの特徴量を算出し、
ほぼ正面を向いた前記所定対象物を含む前記所定サイズを有する複数のサンプル画像と、前記所定対象物を含まない前記所定サイズを有する複数のサンプル画像とからなるサンプル画像群について算出した前記少なくとも1つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、入力される前記少なくとも1つの特徴量の前記サンプル画像および前記検出領域における画素の座標位置が定められてなる、前記少なくとも1つの特徴量と該少なくとも1つの特徴量の各々に対応する識別条件とをあらかじめ規定する複数の識別器からなる参照データを、前記検出領域において算出した前記少なくとも1つの特徴量に基づいて参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別するに際し、前記座標位置を、前記検出領域の縦および横方向について異なる拡大率により段階的に変更しつつ、該変更の各段階において前記検出領域において算出した前記少なくとも1つの特徴量に基づいて前記参照データを参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別することを特徴とするものである。
本発明による第2の対象物識別方法は、識別対象画像の入力を受け付け、
前記識別対象画像上の所定サイズの検出領域内の画素のそれぞれについて、所定対象物の識別に用いる少なくとも1つの特徴量を算出し、
ほぼ正面を向いた前記所定対象物を含む前記所定サイズを有する複数のサンプル画像と、前記所定対象物を含まない前記所定サイズを有する複数のサンプル画像とからなるサンプル画像群について算出した前記少なくとも1つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、入力される前記少なくとも1つの特徴量の前記サンプル画像および前記検出領域における画素の座標位置が定められてなる、前記少なくとも1つの特徴量と該少なくとも1つの特徴量の各々に対応する識別条件とをあらかじめ規定する複数の第1の識別器、および該複数の識別器のそれぞれについて、前記少なくとも1つの特徴量が入力される画素の前記座標位置を、前記検出領域の縦および横方向について異なる拡大率により段階的に変更した複数の第2の識別器からなる参照データを、前記検出領域おいて算出した前記少なくとも1つの特徴量に基づいて参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別することを特徴とするものである。
なお、本発明による第1および第2の対象物識別方法をコンピュータに実行させるためのプログラムとして提供してもよい。
本発明の第1の対象物識別装置および方法によれば、識別対象画像上の所定サイズの検出領域内の画素のそれぞれについて、少なくとも1つの特徴量が算出される。そして、入力される少なくとも1つの特徴量の画素の座標位置が、検出領域の縦および横方向について異なる拡大率により段階的に変更され、変更の各段階において、検出領域について算出された少なくとも1つの特徴量に基づいて参照データが参照されて、識別対象画像に所定対象物が含まれるか否かが識別される。
ここで、参照データを得る際の学習に用いられる所定対象物を含むサンプル画像においては所定対象物がほぼ正面を向いているため、入力される特徴量の画素の座標位置を何ら変更することなく、参照データを参照して所定対象物が含まれると識別されるのは、ほぼ正面を向いた所定対象物を含む識別対象画像のみである。ここで、左右を向いた所定対象物は、正面を向いた所定対象物と比較して横方向にのみ縮小されたものとなる。一方、上下を向いた所定対象物は、正面を向いた所定対象物と比較して縦方向にのみ縮小されたものとなる。
本発明の第1の対象物識別装置および方法においては、入力される特徴量の画素の座標位置を、検出領域の縦および横方向について異なる拡大率により段階的に拡大縮小するよう変更しつつ、参照データを参照して識別を行っているため、検出領域に所定対象物が含まれた場合、その所定対象物が左右を向いていたり上下を向いていても、入力される特徴量の座標位置を、ほぼ正面を向いた所定対象物と対応した位置とすることができる。したがって、本発明による第1および第2の対象物識別装置および方法によれば、識別対象画像に左右または上下方向を向いた所定対象物が含まれている場合であっても、その識別対象画像には所定対象物が含まれると識別することができる。
また、本発明の第1の対象物識別装置および方法おいて、まず、座標位置を変更することなく、識別対象画像に所定対象物が含まれるか否かを識別し、所定対象物が含まれないと識別されたが、含まれる可能性がある場合にのみ、座標位置を変更しつつ識別対象画像に所定対象物が含まれるか否かを識別してもよい。これにより、識別対象画像の全体について、座標位置を変形させつつ特徴量を算出して識別対象画像に所定対象物が含まれるか否かを識別する場合と比較して、座標位置を変更する頻度を少なくすることができ、その結果、演算量を少なくすることができる。
本発明の第2の対象物識別装置および方法によれば、識別対象画像上の検出領域内の画素のそれぞれについて、少なくとも1つの特徴量が算出される。そして、入力される少なくとも1つの特徴量に基づいて参照データが参照されて、識別対象画像に所定対象物が含まれるか否かが識別される。
参照データを得る際の学習に用いられる所定対象物を含むサンプル画像を、所定対象物がほぼ正面を向いているもののみとした場合、参照データを参照して所定対象物が含まれると識別されるのは、ほぼ正面を向いた所定対象物を含む識別対象画像のみである。
本発明の第2の対象物識別装置および方法においては、参照データを、入力される少なくとも1つの特徴量のサンプル画像および検出領域における画素の座標位置が定められてなる、少なくとも1つの特徴量と少なくとも1つの特徴量の各々に対応する識別条件とをあらかじめ規定する複数の第1の識別器、および複数の識別器のそれぞれについて、少なくとも1つの特徴量が入力される画素の座標位置を、検出領域の縦および横方向について異なる拡大率により段階的に変更した複数の第2の識別器からなるものとしているため、実質的にほぼ正面を向いた所定対象物の縦および横方向についての縮率が異なるサンプル画像についても参照データの学習がなされることとなる。
ここで、左右を向いた所定対象物は、正面を向いた所定対象物と比較して横方向にのみ縮小されたものとなる。一方、上下を向いた所定対象物は、正面を向いた所定対象物と比較して縦方向にのみ縮小されたものとなる。このため、本発明による第2の対象物識別装置および方法によれば、識別対象画像に左右または上下方向を向いた所定対象物が含まれている場合であっても、その識別対象画像には所定対象物が含まれると識別することができる。
とくに、所定対象物を顔とした場合において、子供の顔は大人の顔と比較して、両目の間隔に対する目と口の距離が短い傾向にある。本発明において、所定対象物を顔とした場合において、拡大率を1より小さくすることにより、子供の顔あるいは大人でも上下を向いた顔が識別対象画像に含まれるか否かを識別することができる。
また、少なくとも1つの特徴量を画像上の各画素における勾配ベクトルの方向、大きさおよび色情報の少なくとも1つとすることにより、識別対象画像に含まれる比較的算出しやすい特徴量を用いて精度よく構成部品の位置を識別できる。
以下、図面を参照して本発明の実施形態について説明する。図1は本発明の第1の実施形態による対象物識別装置の構成を示す概略ブロック図である。図1に示すように、本発明の第1の実施形態による対象物識別装置1は、識別対象画像を表す識別対象画像データS0の入力を受け付ける画像入力部2、識別対象画像データS0により表される識別対象画像(以下画像についても参照符号S0を用いる)S0から特徴量C1を算出する特徴量算出部4、後述する参照データR1が格納されているメモリ6、特徴量算出部4が算出した特徴量C1とメモリ6内の参照データR1とに基づいて、識別対象画像S0に所定対象物である人物の顔が含まれているか否かを識別する識別部8、並びに識別部8による識別結果を出力する出力部10とを備える。
特徴量算出部4は、顔の識別に用いる特徴量C1を識別対象画像S0から算出する。具体的には、特徴量C1として、識別対象画像S0の勾配ベクトル(すなわち方向および大きさ)を算出する。以下、勾配ベクトルの算出について説明する。まず、特徴量算出部4は、識別対象画像S0に対して図2(a)に示す水平方向のエッジ検出フィルタによるフィルタリング処理を施して識別対象画像S0における水平方向のエッジを検出する。また、特徴量算出部4は、識別対象画像S0に対して図2(b)に示す垂直方向のエッジ検出フィルタによるフィルタリング処理を施して識別対象画像S0における垂直方向のエッジを検出する。そして、識別対象画像S0上の各画素における水平方向のエッジの大きさHおよび垂直方向のエッジの大きさVとから、図3に示すように、各画素における勾配ベクトルKを算出する。
そして、この勾配ベクトルKを特徴量C1とする。具体的には勾配ベクトルKの所定方向(例えば図3におけるx方向)を基準とした0から359度の値および大きさを特徴量C1とする。
なお、このようにして算出された勾配ベクトルKは、図4(a)に示すような人物の顔の場合、図4(b)に示すように、目および口のように暗い部分においては目および口の中央を向き、鼻のように明るい部分においては鼻の位置から外側を向くものとなる。また、口よりも目の方が濃度の変化が大きいため、勾配ベクトルKの大きさは口よりも目の方が大きくなる。
ここで、特徴量C1である勾配ベクトルKの大きさは正規化される。この正規化は、識別対象画像S0内の全画素における勾配ベクトルKの大きさのヒストグラムを求め、その大きさの分布が識別対象画像S0の各画素が取り得る値(8ビットであれば0〜255)に均一に分布されるようにヒストグラムを平滑化して勾配ベクトルKの大きさを修正することにより行う。例えば、勾配ベクトルKの大きさが小さく、図5(a)に示すように勾配ベクトルKの大きさが小さい側に偏ってヒストグラムが分布している場合には、大きさが0〜255の全領域に亘るものとなるように勾配ベクトルKの大きさを正規化して図5(b)に示すようにヒストグラムが分布するようにする。なお、演算量を低減するために、図5(c)に示すように、勾配ベクトルKのヒストグラムにおける分布範囲を例えば5分割し、5分割された頻度分布が図5(d)に示すように0〜255の値を5分割した範囲に亘るものとなるように正規化することが好ましい。
ここで、撮影を行う際には、照明の明るさや照明の方向が撮影時の条件に応じて様々であるため、明るさや照明の方向は識別対象画像S0ごとに異なる。このように明るさや照明の方向が異なる識別対象画像S0のそれぞれについてそのまま勾配ベクトルKを求めていたのでは、同じ顔であるのに目の位置における勾配ベクトルの大きさが異なってしまい、顔が含まれるか否かを精度よく識別することができない。このため、本実施形態においては、勾配ベクトルKの大きさを識別対象画像S0の全体について正規化している。
なお、特徴量算出部4は、後述するように識別対象画像S0の変形の各段階において特徴量C1を算出する。
メモリ6内に格納されている参照データR1は、後述するサンプル画像上の所定位置における複数画素の組み合わせからなる複数種類の画素群のそれぞれについて、各画素群を構成する各画素における特徴量C1の組み合わせに対する識別条件を規定したものである。
参照データR1中の、各画素群を構成する各画素における特徴量C1の組み合わせおよび識別条件は、顔であることが分かっている複数のサンプル画像と顔でないことが分かっている複数のサンプル画像とからなるサンプル画像群の学習により、あらかじめ決められたものである。
なお、本実施形態においては、顔であることが分かっているサンプル画像として、30×30画素サイズを有し、顔が垂直に立って正面を向き、両目の中心間の距離が10画素のサンプル画像を用いる。また、図6に示すように、1つの顔の画像について両目の中心間の距離が10画素、9画素および11画素であり、垂直に立った顔を基準として平面上±15度の範囲において3度単位で段階的に回転させた(すなわち、回転角度が−15度,−12度,−9度,−6度,−3度,0度,3度,6度,9度,12度,15度)サンプル画像を作成し、これを学習に用いるものとする。したがって、1つの顔の画像につきサンプル画像は3×11=33通り用意される。ここで、顔が垂直に立った状態において上下方向における目の位置はすべてのサンプル画像において同一である。なお、図6においては−15度、0度および+15度に回転させたサンプル画像のみを示す。また、回転の中心はサンプル画像の対角線の交点である。また、顔でないことが分かっているサンプル画像としては、30×30画素サイズを有する任意の画像を用いるものとする。
ここで、顔であることが分かっているサンプル画像として、両目の中心間距離が10画素であり、平面上の回転角度が0度(すなわち顔が垂直な状態)のもののみを用いて学習を行った場合、参照データR1を参照して顔が含まれると識別されるのは、両目の中心間距離が10画素で全く回転していない識別対象画像S0のみである。識別対象画像S0に含まれる可能性がある顔のサイズは一定ではないため、顔が含まれるか否かを識別する際には、後述するように識別対象画像S0を拡大縮小して、サンプル画像のサイズに適合するサイズの顔を識別できるようにしている。しかしながら、両目の中心間距離を正確に10画素とするためには、識別対象画像S0のサイズを拡大率として例えば1.1単位で段階的に拡大縮小しつつ識別を行う必要があるため、演算量が膨大なものとなる。
また、識別対象画像S0に含まれる可能性がある顔は、図7(a)に示すように平面上の回転角度が0度のみではなく、図7(b)、(c)に示すように回転している場合もある。しかしながら、両目の中心間距離が10画素であり、顔の回転角度が0度のサンプル画像のみを使用して学習を行った場合、顔であるにも拘わらず、図7(b)、(c)に示すように回転した顔については識別を行うことができなくなってしまう。
このため、本実施形態においては、顔であることが分かっているサンプル画像として、図6に示すように両目の中心間距離が9,10,11画素であり、各距離において平面上±15度の範囲にて3度単位で段階的に顔を回転させたサンプル画像を用いて、参照データR1の学習に許容度を持たせるようにしたものである。これにより、識別対象画像S0を、拡大率として11/9単位で段階的に拡大縮小すればよいため、識別対象画像S0のサイズを例えば拡大率として1.1単位で段階的に拡大縮小する場合と比較して、演算時間を低減できる。また、図7(b)、(c)に示すように回転している顔も識別することができる。
以下、図8のフローチャートを参照しながらサンプル画像群の学習手法の一例を説明する。
学習の対象となるサンプル画像群は、顔であることが分かっている複数のサンプル画像と、顔でないことが分かっている複数のサンプル画像とからなる。なお、顔であることが分かっているサンプル画像は、1つのサンプル画像につき両目の中心位置が9,10,11画素であり、各距離において平面上±15度の範囲にて3度単位で段階的に顔を回転させたものを用いる。各サンプル画像には、重みすなわち重要度が割り当てられる。まず、すべてのサンプル画像の重みの初期値が等しく1に設定される(ステップS1)。
次に、サンプル画像における複数種類の画素群のそれぞれについて識別器が作成される(ステップS2)。ここで、識別器とは、1つの画素群を構成する各画素における特徴量C1の組み合わせを用いて、顔の画像と顔でない画像とを識別する基準を提供するものである。本実施形態においては、1つの画素群を構成する各画素における特徴量C1の組み合わせについてのヒストグラムを識別器として使用する。
図9を参照しながらある識別器の作成について説明する。図9の左側のサンプル画像に示すように、この識別器を作成するための画素群を構成する各画素は、顔であることが分かっている複数のサンプル画像上における、右目の中心にある画素P1、右側の頬の部分にある画素P2、額の部分にある画素P3および左側の頬の部分にある画素P4である。なお、ある識別器を作成するための画素群を構成する各画素の座標位置はすべてのサンプル画像において同一である。
そして顔であることが分かっているすべてのサンプル画像について全画素P1〜P4における特徴量C1の組み合わせが求められ、そのヒストグラムが作成される。ここで、特徴量C1は勾配ベクトルKの方向および大きさを表すが、勾配ベクトルKの方向は0〜359の360通り、勾配ベクトルKの大きさは0〜255の256通りあるため、これをそのまま用いたのでは、組み合わせの数は1画素につき360×256通りの4画素分、すなわち(360×256)4通りとなってしまい、学習および検出のために多大なサンプルの数、時間およびメモリを要することとなる。このため、本実施形態においては、勾配ベクトルの方向を0〜359を0〜44と315〜359(右方向、値:0),45〜134(上方向値:1),135〜224(左方向、値:2),225〜314(下方向、値3)に4値化し、勾配ベクトルの大きさを3値化(値:0〜2)する。そして、以下の式を用いて組み合わせの値を算出する。
組み合わせの値=0(勾配ベクトルの大きさ=0の場合)
組み合わせの値=((勾配ベクトルの方向+1)×勾配ベクトルの大きさ(勾配ベクトルの大きさ>0の場合)
これにより、組み合わせ数が94通りとなるため、特徴量C1のデータ数を低減できる。
同様に、顔でないことが分かっている複数のサンプル画像についても、ヒストグラムが作成される。なお、顔でないことが分かっているサンプル画像については、顔であることが分かっているサンプル画像上における上記画素P1〜P4の位置に対応する画素(同様に参照符号P1〜P4を用いる)が用いられる。これらの2つのヒストグラムが示す頻度値の比の対数値を取ってヒストグラムで表したものが、図9の一番右側に示す、識別器として用いられるヒストグラムである。この識別器のヒストグラムが示す各縦軸の値を、以下、識別ポイントと称する。この識別器によれば、正の識別ポイントに対応する特徴量C1の分布を示す画像は顔である可能性が高く、識別ポイントの絶対値が大きいほどその可能性は高まると言える。逆に、負の識別ポイントに対応する特徴量C1の分布を示す画像は顔でない可能性が高く、やはり識別ポイントの絶対値が大きいほどその可能性は高まる。ステップS2では、識別に使用され得る複数種類の画素群を構成する各画素における特徴量C1の組み合わせについて、上記のヒストグラム形式の複数の識別器が作成される。なお、各識別器は対応する画素群の座標位置における特徴量C1を入力とし、上記識別ポイントを出力するものとなる。
続いて、ステップS2で作成した複数の識別器のうち、画像が顔であるか否かを識別するのに最も有効な識別器が選択される。最も有効な識別器の選択は、各サンプル画像の重みを考慮して行われる。この例では、各識別器の重み付き正答率が比較され、最も高い重み付き正答率を示す識別器が選択される(ステップS3)。すなわち、最初のステップS3では、各サンプル画像の重みは等しく1であるので、単純にその識別器によって画像が顔であるか否かが正しく識別されるサンプル画像の数が最も多いものが、最も有効な識別器として選択される。一方、後述するステップS5において各サンプル画像の重みが更新された後の2回目のステップS3では、重みが1のサンプル画像、重みが1よりも大きいサンプル画像、および重みが1よりも小さいサンプル画像が混在しており、重みが1よりも大きいサンプル画像は、正答率の評価において、重みが1のサンプル画像よりも重みが大きい分多くカウントされる。これにより、2回目以降のステップS3では、重みが小さいサンプル画像よりも、重みが大きいサンプル画像が正しく識別されることに、より重点が置かれる。
次に、それまでに選択した識別器の組み合わせの正答率、すなわち、それまでに選択した識別器を組み合わせて使用して各サンプル画像が顔の画像であるか否かを識別した結果が、実際に顔の画像であるか否かの答えと一致する率が、所定の閾値を超えたか否かが確かめられる(ステップS4)。ここで、組み合わせの正答率の評価に用いられるのは、現在の重みが付けられたサンプル画像群でも、重みが等しくされたサンプル画像群でもよい。所定の閾値を超えた場合は、それまでに選択した識別器を用いれば画像が顔であるか否かを十分に高い確率で識別できるため、学習は終了する。所定の閾値以下である場合は、それまでに選択した識別器と組み合わせて用いるための追加の識別器を選択するために、ステップS6へと進む。
ステップS6では、直近のステップS3で選択された識別器が再び選択されないようにするため、その識別器が除外される。
次に、直近のステップS3で選択された識別器では顔であるか否かを正しく識別できなかったサンプル画像の重みが大きくされ、画像が顔であるか否かを正しく識別できたサンプル画像の重みが小さくされる(ステップS5)。このように重みを大小させる理由は、次の識別器の選択において、既に選択された識別器では正しく識別できなかった画像を重要視し、それらの画像が顔であるか否かを正しく識別できる識別器が選択されるようにして、識別器の組み合わせの効果を高めるためである。
続いて、ステップS3へと戻り、上記したように重み付き正答率を基準にして次に有効な識別器が選択される。
以上のステップS3からS6を繰り返して、顔が含まれるか否かを識別するのに適した識別器として、特定の画素群を構成する各画素における特徴量C1の組み合わせに対応する識別器が選択されたところで、ステップS4で確認される正答率が閾値を超えたとすると、顔が含まれるか否かの識別に用いる識別器の種類と識別条件とが確定され(ステップS7)、これにより参照データR1の学習を終了する。
なお、上記の学習手法を採用する場合において、識別器は、特定の画素群を構成する各画素における特徴量C1の組み合わせを用いて顔の画像と顔でない画像とを識別する基準を提供するものであれば、上記のヒストグラムの形式のものに限られずいかなるものであってもよく、例えば2値データ、閾値または関数等であってもよい。また、同じヒストグラムの形式であっても、図9の中央に示した2つのヒストグラムの差分値の分布を示すヒストグラム等を用いてもよい。
また、学習の方法としては上記手法に限定されるものではなく、ニューラルネットワーク等他のマシンラーニングの手法を用いることができる。
識別部8は、複数種類の画素群を構成する各画素における特徴量C1の組み合わせのすべてについて参照データR1が学習した識別条件を参照して、各々の画素群を構成する各画素における特徴量C1の組み合わせについての識別ポイントを求め、すべての識別ポイントを総合して識別対象画像S0に顔が含まれるか否かを識別する。
ここで、上記図9に示す画素P1〜P4の特徴量C1により作成された識別器について、識別器を作成するのに使用した画素P1〜P4を、図10(a)に示すようにサンプル画像の左下を原点とした座標系において(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4)とすると、図10(b)に示すように、後述するように識別対象画像S0上に設定した検出領域D0上の画素P1〜P4に対応する座標位置(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4)の各画素P1′〜P4′において算出された特徴量C1が識別器に入力される。この特徴量C1の入力を受けて、識別器は識別ポイントを出力する。
なお、この際、特徴量C1である勾配ベクトルKの方向は4値化され大きさは3値化される。本実施形態では、すべての識別器が出力した識別ポイントを加算して、その加算値の正負によって識別を行うものとする。例えば、識別ポイントの総和が正の値である場合には識別対象画像S0には顔が含まれると識別し、負の値である場合には顔は含まれないと識別する。
ここで、識別対象画像S0のサイズは30×30画素のサンプル画像とは異なり、各種サイズを有するものとなっている。また、顔が含まれる場合、平面上における顔の回転角度が0度であるとは限らない。このため、識別部8は、図11に示すように、識別対象画像S0を縦または横のサイズが30画素となるまで段階的に拡大縮小するとともに平面上で段階的に360度回転させつつ(図11においては縮小する状態を示す)、各段階において拡大縮小された識別対象画像S0上に30×30画素サイズのマスクMを設定し、マスクMを拡大縮小された識別対象画像S0上において1画素ずつ移動させながら、設定したマスクM内の領域を検出領域D0として抽出し、検出領域D0内の画像が顔の画像であるか否かの識別を行うことにより、識別対象画像S0に顔が含まれるか否かを識別する。
なお、参照データR1の生成時に学習したサンプル画像として両目の中心位置の画素数が9,10,11画素のものを使用しているため、識別対象画像S0の拡大縮小時の拡大率は11/9とすればよい。また、参照データR1の生成時に学習したサンプル画像として、顔を平面上で±15度の範囲において回転させたものを使用しているため、識別対象画像S0は30度単位で360度回転させればよい。
ここで、識別対象画像S0に顔が含まれる場合、その顔は常に正面を向いているとは限らず、図12(a)、(b)に示すように上下を向いている場合、あるいは図12(c)、(d)に示すように左右を向いている場合がある。また、大人の顔のみならず、図12(e)に示すように子供の顔も含まれる。ここで、左右を向いた顔は、正面を向いた顔と比較して横方向にのみ縮小されたものとなる。一方、上下を向いた顔は、正面を向いた顔と比較して縦方向にのみ縮小されたものとなる。また、子供の顔は大人の顔と比較して、両目の間隔に対する目と口の距離が短い傾向にある。
このため、第1の実施形態においては、識別器8が識別を行う際に各識別器に入力される特徴量C1の検出領域D0上の座標位置を、検出領域D0の縦および横方向に異なる拡大率により変更し、変更した座標位置の特徴量C1が各識別器に入力されるようにする。具体的には、座標位置を縦方向および横方向にそれぞれ0.7〜0.9倍の範囲おいて0.1倍単位で縮小するよう変更して(すなわち、拡大率が0.7,0.8,0.9)、1つの識別器について、7通り(座標位置変更前のものも含む)の特徴量C1が入力されるようにする。なお、変更の基準となる位置は検出領域D0の対角線の交点とする。
ここで、座標位置の変更について具体的に説明する。図13はある識別器についての座標位置の変更を説明するための図である。なお、ここでは説明のため縮小の段階を1段階とする。図13(a)に示すように、この識別器はサンプル画像上の人物の顔の両目に対応する座標位置P11(x11,y11)、P12(x12,y12)および口に対応する座標位置P13(x13,y13)の特徴量C1を用いて作成されたものとする。
まず、この識別器には、検出領域D0上の座標位置P11(x11,y11)、P12(x12,y12)、P13(x13,y13)の特徴量C1が入力される。ここで、検出領域D0が正面を向いた顔を含む場合、この識別器は顔が含まれる旨の識別ポイントを出力する。
次に、検出領域D0の対角線の交点を基準として、座標位置P11(x11,y11)、P12(x12,y12)、P13(x13,y13)をy方向に縮小するよう変更し、変更した座標位置P11′(x11′,y11′)、P12′(x12′,y12′)、P13′(x13′,y13′)の特徴量C1をこの識別器に入力する。ここで、検出領域D0が正面を向いた顔を含む場合、図13(b)に示すように、この識別器に入力される特徴量C1は両目の位置および口の位置に対応しなくなるため、この識別器は顔が含まれる旨の識別ポイントを出力しない。
ここで、上下を向いた顔は、正面を向いた顔と比較して縦方向にのみ縮小されたものとなるため、図13(c)に示すように、検出領域D0が上を向いた顔を含む場合、変更した座標位置P11′(x11′,y11′)、P12′(x12′,y12′)、P13′(x13′,y13′)は上を向いた顔の両目および口の位置にそれぞれ対応するものとなる。したがって、検出領域D0が上下を向いた顔を含む場合、この識別器は顔が含まれる旨の識別ポイントを出力する。
次に、検出領域D0の対角線の交点を基準として、座標位置P11(x11,y11)、P12(x12,y12)、P13(x13,y13)をx方向に縮小するよう変更し、変更した座標位置P11″(x11″,y11″)、P12″(x12″,y12″)、P13″(x13″,y13″)の特徴量C1をこの識別器に入力する。ここで、検出領域D0が正面を向いた顔を含む場合、図13(d)に示すように、この識別器に入力される特徴量C1は両目の位置および口の位置に対応しなくなるため、この識別器は顔が含まれる旨の識別ポイントを出力しない。
ここで、左右を向いた顔は、正面を向いた顔と比較して横方向にのみ縮小されたものとなるため、図13(e)に示すように、検出領域D0が左を向いた顔を含む場合、変更した座標位置P11″(x11″,y11″)、P12″(x12″,y12″)、P13″(x13″,y13″)は左を向いた顔の両目および口の位置にそれぞれ対応するものとなる。したがって、検出領域D0が左右を向いた顔を含む場合、この識別器は顔が含まれる旨の識別ポイントを出力する。
他の識別器も同様に、変更した座標位置の画素の特徴量C1が入力されることとなる。したがって、参照データR1の各識別器は、上下または左右を向いた顔や大人の顔と比較して両目の間隔に対する鼻および口の位置関係が短い傾向にある子供の顔についても、顔が含まれるとの識別ポイントを出力することが可能となる。
なお、拡大率は0.7〜0.9に限定されるものではなく1より小さい任意の拡大率を用いることができる。また、1より大きい拡大率でもよい。さらに、拡大の単位としては0.1倍単位ではなく0.05倍等任意の単位とすることができる。
ここで、特徴量算出部4は、識別対象画像S0の拡大縮小および回転という変形の各段階において抽出した検出領域D0について、座標位置を変更して特徴量C1を算出する。
そして、識別部8は、識別対象画像S0に顔が含まれるか否かの識別を、識別対象画像S0の拡大縮小および回転の全段階において抽出した検出領域D0について、座標位置を全段階において変更することにより行い、一度でも顔が含まれると識別された場合には、識別対象画像S0には顔が含まれると識別する。また、顔が含まれると一度も識別されなかった場合には、識別対象画像S0には顔が含まれないと識別する。
出力部10は、識別部8が識別対象画像S0に顔が含まれないと識別した場合に、識別対象画像S0には顔が含まれない旨の識別結果を出力する。一方、識別部8が識別対象画像S0に顔が含まれると識別した場合、顔が含まれると識別された段階におけるサイズおよび回転角度の識別対象画像S0から、顔が含まれると識別された検出領域D0の位置に対応する30×30画素の領域を顔として抽出し、抽出された顔の画像を表す顔画像データS1を出力する。
次いで、第1の実施形態において行われる処理について説明する。図14は第1の実施形態において行われる処理を示すフローチャートである。まず、画像入力部2が識別対象画像データS0の入力を受け付ける(ステップS11)。この際、多数の画像に関する一連の画像データS0の入力を連続的に受け付けてもよい。次いで、特徴量算出部4が識別対象画像S0の拡大縮小および回転の各段階において抽出した検出領域D0について、勾配ベクトルKを特徴量C1として算出する(ステップS12)。そして、識別部8がメモリ6から参照データR1を読み出し(ステップS13)、上述したように、識別器に入力される特徴量を算出した画素の座標位置を、縦および横方向に段階的に異なる拡大率により拡大しながら、識別対象画像S0に顔が含まれるか否かの識別を行う(ステップS14)。
識別により識別対象画像S0に顔が含まれると識別された場合、出力部10が識別対象画像S0から識別された顔を抽出し、抽出された顔の画像を表す顔画像データS1を出力し(ステップS15)、処理を終了する。なお、複数の顔を抽出してもよい。一方、識別対象画像S0に顔が含まれないと識別された場合、出力部10がその旨を表す識別結果を出力し(ステップS16)、処理を終了する。
ここで、参照データR1を得る際の学習に用いられるサンプル画像においては顔がほぼ正面を向いているため、参照データR1を参照して顔が含まれると識別されるのは、ほぼ正面を向いた顔を含む識別対象画像のみである。ここで、左右を向いた顔は、正面を向いた顔と比較して横方向にのみ縮小されたものとなる。一方、上下を向いた顔は、正面を向いた顔と比較して縦方向にのみ縮小されたものとなる。
本発明の第1の実施形態による対象物識別装置1においては、参照データR1の識別器に入力される特徴量C1の座標位置を、識別対象画像S0の縦および横方向について異なる拡大率により段階的に縮小するよう変更しつつ、参照データR1を参照して識別を行っているため、識別対象画像S0の検出領域D0に顔が含まれた場合、その顔が左右を向いていたり上下を向いていても、入力される特徴量C1の座標位置を、ほぼ正面を向いた顔に対応した位置とすることができる。したがって、第1の実施形態による対象物識別装置1によれば、識別対象画像S0に左右または上下方向を向いた顔が含まれている場合であっても、その識別対象画像S0には顔が含まれると識別することができる。
とくに、子供の顔は大人の顔と比較して、両目の間隔に対する目と口の距離が短い傾向にある。第1の実施形態においては、縦方向の拡大率を1より小さくすることにより、子供の顔が識別対象画像S0に含まれるか否かを識別することができる。
次いで、本発明の第2の実施形態について説明する。図15は本発明の第2の実施形態による対象物識別装置の構成を示す概略ブロック図である。なお、第2の実施形態において第1の実施形態と同一の構成については同一の参照番号を付し、詳細な説明は省略する。第2の実施形態による対象物識別装置11は、参照データR1とは異なる参照データR2を参照して、識別対象画像S0に顔が含まれるか否かを識別するようにした点が第1の実施形態と異なる。
ここで、参照データR2の作成について説明する。参照データR2は上記第1の実施形態の参照データR1と同様に複数の識別器からなる。この複数の識別器には、参照データR1と同様の複数の識別器(以下、第1の識別器とする)を含むとともに、各第1の識別器に入力される画素の座標位置が、検出領域D0の縦および横方向について異なる拡大率により段階的に縮小した座標位置に変更されてなる複数の第2の識別器を含む。なお、第2の識別器は縮小の段階に応じてさらに複数作成される。
すなわち、第1の識別器に入力される特徴量C1の座標位置を、検出領域D0の縦および横方向に異なる拡大率により変更し、変更した座標位置の特徴量C1が各識別器に入力されるように第2の識別器を作成する。具体的には、座標位置を縦方向および横方向にそれぞれ0.7〜0.9倍の範囲おいて0.1倍単位で縮小するよう変更して(すなわち、拡大率が0.7,0.8,0.9)、1つの第1の識別器について、さらに6通りの座標位置の特徴量C1が入力されるように、6つの第2の識別器を作成する。なお、変更の基準となる位置は検出領域D0の対角線の交点とする。
以下、第2の識別器の作成について説明する。図16はある第1の識別器からの第2の識別器の作成を説明するための図である。なお、ここでは説明のため縮小の段階を1段階とする。図16(a)に示すように、この第1の識別器(以下B11とする)はサンプル画像上の人物の顔の両目に対応する座標位置P21(x21,y21)、P22(x22,y22)および口に対応する座標位置P23(x23,y23)の特徴量C1を用いて作成されたものとする。
そして、検出領域D0の対角線の交点を基準として、座標位置P21(x21,y21)、P22(x22,y22)、P23(x23,y23)をy方向に縮小するよう変更し、変更した座標位置P21′(x21′,y21′)、P22′(x22′,y22′)、P23′(x23′,y23′)の特徴量C1が入力される第2の識別器B12−1を作成する。ここで、検出領域D0が正面を向いた顔を含む場合、図16(b)に示すように、この第2の識別器B12−1に入力される特徴量C1は両目の位置および口の位置に対応しなくなるため、第2の識別器B12−1は顔が含まれる旨の識別ポイントを出力しない。
ここで、上下を向いた顔は、正面を向いた顔と比較して縦方向にのみ縮小されたものとなるため、検出領域D0が上を向いた顔を含む場合、第2の識別器B12−1に入力される特徴量C1の座標位置は、図16(c)に示すように、変更した座標位置P21′(x21′,y21′)、P22′(x22′,y22′)、P23′(x23′,y23′)は上を向いた顔の両目および口の位置にそれぞれ対応するものとなる。したがって、検出領域D0が上下を向いた顔を含む場合、第2の識別器B12−1は顔が含まれる旨の識別ポイントを出力する。
次に、検出領域D0の対角線の交点を基準として、座標位置P21(x21,y21)、P22(x22,y22)、P23(x23,y23)をx方向に縮小するよう変更し、変更した座標位置P21″(x21″,y21″)、P22″(x22″,y22″)、P23″(x23″,y23″)の特徴量C1が入力される第2の識別器B12−2を作成する。ここで、検出領域D0が正面を向いた顔を含む場合、図16(d)に示すように、この第2の識別器B12−2に入力される特徴量C1は両目の位置および口の位置に対応しなくなるため、第2の識別器B12−2は顔が含まれる旨の識別ポイントを出力しない。
ここで、左右を向いた顔は、正面を向いた顔と比較して横方向にのみ縮小されたものとなるため、検出領域D0が左を向いた顔を含む場合、図16(e)に示すように、変更した座標位置P21″(x21″,y21″)、P22″(x22″,y22″)、P23″(x23″,y23″)は左を向いた顔の両目および口の位置にそれぞれ対応するものとなる。したがって、検出領域D0が左右を向いた顔を含む場合、第2の識別器B12−2は顔が含まれる旨の識別ポイントを出力する。
他の第2の識別器も同様に、変更された座標位置の画素の特徴量C1が入力されるように作成される。したがって、参照データR2の第2の識別器は、上下または左右を向いた顔や大人の顔と比較して、両目の間隔に対する鼻および口の位置関係が短い傾向にある子供の顔についても、顔が含まれるとの識別ポイントを出力することが可能となる。
なお、拡大率は0.7〜0.9に限定されるものではなく1より小さい任意の拡大率を用いることができる。また、1より大きい拡大率でもよい。さらに、拡大の単位としては0.1倍単位ではなく0.05倍等任意の単位とすることができる。
次いで、第2の実施形態において行われる処理について説明する。図17は第2の実施形態において行われる処理を示すフローチャートである。まず、画像入力部2が識別対象画像データS0の入力を受け付ける(ステップS21)。この際、多数の画像に関する一連の画像データS0の入力を連続的に受け付けてもよい。次いで、特徴量算出部4が識別対象画像S0の拡大縮小および回転の各段階において抽出した検出領域D0について、勾配ベクトルKを特徴量C1として算出する(ステップS22)。そして、識別部8がメモリ6から参照データR2を読み出し(ステップS23)、識別対象画像S0に顔が含まれるか否かの識別を行う(ステップS24)。
識別により識別対象画像S0に顔が含まれると識別された場合、出力部10が識別対象画像S0から識別された顔を抽出し、抽出された顔の画像を表す顔画像データS1を出力し(ステップS25)、処理を終了する。なお、複数の顔を抽出してもよい。一方、識別対象画像S0に顔が含まれないと識別された場合、出力部10がその旨を表す識別結果を出力し(ステップS26)、処理を終了する。
このように、第2の実施形態においては、参照データR2を第1の識別器、および第1の識別器のそれぞれについて、検出領域D0において算出された少なくとも1つの特徴量が入力される画素の座標位置を、検出領域D0の縦および横方向について異なる拡大率により段階的に変更した第2の識別器からなるものとしているため、実質的にほぼ正面を向いた顔の縦および横方向についての縮率が異なるサンプル画像についても参照データR2の学習がなされることとなる。
ここで、左右を向いた顔は、正面を向いた顔と比較して横方向にのみ縮小されたものとなる。一方、上下を向いた顔は、正面を向いた顔と比較して縦方向にのみ縮小されたものとなる。このため、本発明による第2の対象物識別装置によれば、識別対象画像S0に左右または上下方向を向いた顔が含まれている場合であっても、その識別対象画像S0には顔が含まれると識別することができる。
なお、上記第1および第2の実施形態においては、参照データR1,R2は対象物識別装置1内のメモリ6に格納されているものとしたが、特徴量算出部4および識別部8が参照データR1,R2にアクセスできる限り、参照データR1,R2は、対象物識別装置1,11とは別個の装置やCD−ROM等の差替可能な媒体に記憶されたものであってもよい。
また、上記第1および第2の実施形態においては、特徴量C1として勾配ベクトルKの傾きを用いているが、識別対象画像S0の色相や彩度等の色情報を特徴量C1として用いてもよい。
また、上記第1および第2の実施形態においては、顔を識別対象物として識別対象画像S0に顔が含まれるか否かを識別しているが、ほぼ一定形状をなしており、参照データの学習を行う際にサイズを揃えることが可能な自動車や道路標識等を識別の対象物としてもよい。
また、上記第1および第2の実施形態においては、出力部10が識別対象画像S0から顔を抽出しているが、識別対象画像S0における顔の位置を表す顔位置情報(例えば識別された顔を囲む矩形領域の四隅の座標)を識別対象画像データS0に付与し、顔位置情報が付与された識別対象画像データS0を出力してもよい。ここで、顔位置情報を識別対象画像データS0に付与するには、識別対象画像データS0のヘッダやタグに顔位置情報を記述したり、識別対象画像データS0とファイル名が同一で拡張子が異なる例えばテキストファイルに顔位置情報を記述して、識別対象画像データS0とテキストファイルとを一体不可分とする手法を用いることができる。なお、識別対象画像S0には顔が含まれないと識別された場合には、その識別結果を表す識別情報を識別対象画像データS0に付与して出力してもよい。
また、顔を抽出するのに代えて、識別した顔についてストロボを用いた撮影により赤目となっているか否かを検出し、赤目を修正する処理を行うようにしてもよい。
この場合、識別対象画像S0において赤色の領域を検出し、検出した赤色の領域の周辺の領域についてのみ、上記第1および第2の実施形態において行った顔が含まれるか否かの識別を行うようにしてもよい。これにより、識別対象画像S0の全体に対して識別を行う場合と比較して演算量を低減することができる。
また、上記第1の実施形態において、入力される特徴量C1の座標位置を変更することなく、識別対象画像S0に顔が含まれるか否かを識別し、その後、識別対象画像S0上において、算出した識別ポイントの総和が負の値となり顔が含まれないと識別したが、識別ポイントがあらかじめ定めた閾値以上となった顔が含まれる可能性がある領域についてのみ、入力される特徴量C1の座標位置を変更して顔が含まれるか否かの識別を行うようにしてもよい。なお、閾値としては、確実に顔が含まれないと識別される値より大きい、0より小さい値を実験的に求めればよい。例えば、確実に顔が含まれると識別される値が−10の場合、−2あるいは−3等を閾値として用いればよい。これにより、正面を向いた顔については少ない演算量により識別を行うことができ、さらに正面を向いた顔に近い物体(例えば横を向いた顔、上下を向いた顔、子供の顔)が存在する可能性がある領域に対してのみ、特徴量C1の座標位置を変更して顔が含まれるか否かの識別を行えばよいため、識別対象画像S0の全体について入力される特徴量C1の座標位置を変更して顔が含まれるか否かの識別を行う場合と比較して、演算量を低減することができる。
また、上記第1および第2の実施形態においては、対象物識別装置1,11を単独で用いているが、デジタルカメラ等の撮像装置や、プリンタ等の出力装置に本実施形態による対象物識別装置1,11を設け、撮像装置が取得した画像データや出力装置から出力する画像データにより表される画像から顔を抽出し、上記赤目修正処理や顔に対して画質を向上させる処理(階調処理、色補正処理、シャープネス処理等)を施すようにしてもよい。
以上、本発明の実施形態に係る装置について説明したが、コンピュータを、上記の画像入力部2、特徴量算出部4、メモリ6、識別部8、および出力部10に対応する手段として機能させ、識別対象画像S0に顔が含まれるか否かを識別する処理を行わせるプログラムも、本発明の実施形態の1つである。また、そのようなプログラムを記録したコンピュータ読取可能な記録媒体も、本発明の実施形態の1つである。これらの場合においても、参照データは、プログラム内あるいは同一の記録媒体内に含まれているものであってもよいし、外部の装置や別個の媒体から提供されるものであってもよい。
本発明の第1の実施形態による対象物識別装置の構成を示す概略ブロック図 (a)は水平方向のエッジ検出フィルタを示す図、(b)は垂直方向のエッジ検出フィルタを示す図 勾配ベクトルの算出を説明するための図 (a)は人物の顔を示す図、(b)は(a)に示す人物の顔の目および口付近の勾配ベクトルを示す図 (a)は正規化前の勾配ベクトルの大きさのヒストグラムを示す図、(b)は正規化後の勾配ベクトルの大きさのヒストグラムを示す図、(c)は5値化した勾配ベクトルの大きさのヒストグラムを示す図、(d)は正規化後の5値化した勾配ベクトルの大きさのヒストグラムを示す図 顔であることが分かっているサンプル画像の例を示す図 顔の回転を説明するための図 参照データの学習手法を示すフローチャート 識別器の導出方法を示す図 識別器に入力される特徴量の座標位置を説明するための図 第1の実施形態における識別対象画像の段階的な変形を説明するための図 上下左右を向いた顔および子供の顔を示す図 第1の実施形態における座標位置の変更を説明するための図 第1の実施形態において行われる処理を示すフローチャート 本発明の第2の実施形態による対象物識別装置の構成を示す概略ブロック図 第2の実施形態における座標位置の変更を説明するための図 第2の実施形態において行われる処理を示すフローチャート
符号の説明
1,11′ 対象物識別装置
2 画像入力部
4 特徴量算出部
6 メモリ
8 識別部
10 出力部

Claims (9)

  1. 識別対象画像の入力を受け付ける画像入力手段と、
    前記識別対象画像上の所定サイズの検出領域内の画素のそれぞれについて、所定対象物の識別に用いる少なくとも1つの特徴量を算出する特徴量算出手段と、
    ほぼ正面を向いた前記所定対象物を含む前記所定サイズを有する複数のサンプル画像と、前記所定対象物を含まない前記所定サイズを有する複数のサンプル画像とからなるサンプル画像群について算出した前記少なくとも1つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、入力される前記少なくとも1つの特徴量の前記サンプル画像および前記検出領域における画素の座標位置が定められてなる、前記少なくとも1つの特徴量と該少なくとも1つの特徴量の各々に対応する識別条件とをあらかじめ規定する複数の識別器からなる参照データを、前記検出領域において算出した前記少なくとも1つの特徴量に基づいて参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別する識別手段であって、前記座標位置を、前記検出領域の縦および横方向について異なる拡大率により段階的に変更しつつ、該変更の各段階において前記検出領域において算出した前記少なくとも1つの特徴量に基づいて前記参照データを参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別する識別手段とを備えたことを特徴とする対象物識別装置。
  2. 前記識別手段は、前記座標位置を変更することなく、前記識別対象画像に前記所定対象物が含まれるか否かを識別し、前記所定対象物が含まれないと識別されたが、含まれる可能性がある場合にのみ、前記座標位置を変更しつつ前記識別対象画像に前記所定対象物が含まれるか否かを識別する手段であることを特徴とする請求項1記載の対象物識別装置。
  3. 識別対象画像の入力を受け付ける画像入力手段と、
    前記識別対象画像上の所定サイズの検出領域内の画素のそれぞれについて、所定対象物の識別に用いる少なくとも1つの特徴量を算出する特徴量算出手段と、
    ほぼ正面を向いた前記所定対象物を含む前記所定サイズを有する複数のサンプル画像と、前記所定対象物を含まない前記所定サイズを有する複数のサンプル画像とからなるサンプル画像群について算出した前記少なくとも1つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、入力される前記少なくとも1つの特徴量の前記サンプル画像および前記検出領域における画素の座標位置が定められてなる、前記少なくとも1つの特徴量と該少なくとも1つの特徴量の各々に対応する識別条件とをあらかじめ規定する複数の第1の識別器、および該複数の識別器のそれぞれについて、前記少なくとも1つの特徴量が入力される画素の前記座標位置を、前記検出領域の縦および横方向について異なる拡大率により段階的に変更した複数の第2の識別器からなる参照データを、前記検出領域おいて算出した前記少なくとも1つの特徴量に基づいて参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別する識別手段とを備えたことを特徴とする対象物識別装置。
  4. 前記所定対象物が顔であり、前記拡大率が1より小さいことを特徴とする請求項1から3のいずれか1項記載の対象物識別装置。
  5. 前記少なくとも1つの特徴量は、画像上の各画素における勾配ベクトルの方向、該勾配ベクトルの大きさおよび色情報の少なくとも1つであることを特徴とする請求項1から4のいずれか1項記載の対象物識別装置。
  6. 識別対象画像の入力を受け付け、
    前記識別対象画像上の所定サイズの検出領域内の画素のそれぞれについて、所定対象物の識別に用いる少なくとも1つの特徴量を算出し、
    ほぼ正面を向いた前記所定対象物を含む前記所定サイズを有する複数のサンプル画像と、前記所定対象物を含まない前記所定サイズを有する複数のサンプル画像とからなるサンプル画像群について算出した前記少なくとも1つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、入力される前記少なくとも1つの特徴量の前記サンプル画像および前記検出領域における画素の座標位置が定められてなる、前記少なくとも1つの特徴量と該少なくとも1つの特徴量の各々に対応する識別条件とをあらかじめ規定する複数の識別器からなる参照データを、前記検出領域において算出した前記少なくとも1つの特徴量に基づいて参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別するに際し、前記座標位置を、前記検出領域の縦および横方向について異なる拡大率により段階的に変更しつつ、該変更の各段階において前記検出領域において算出した前記少なくとも1つの特徴量に基づいて前記参照データを参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別することを特徴とする対象物識別方法。
  7. 識別対象画像の入力を受け付け、
    前記識別対象画像上の所定サイズの検出領域内の画素のそれぞれについて、所定対象物の識別に用いる少なくとも1つの特徴量を算出し、
    ほぼ正面を向いた前記所定対象物を含む前記所定サイズを有する複数のサンプル画像と、前記所定対象物を含まない前記所定サイズを有する複数のサンプル画像とからなるサンプル画像群について算出した前記少なくとも1つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、入力される前記少なくとも1つの特徴量の前記サンプル画像および前記検出領域における画素の座標位置が定められてなる、前記少なくとも1つの特徴量と該少なくとも1つの特徴量の各々に対応する識別条件とをあらかじめ規定する複数の第1の識別器、および該複数の識別器のそれぞれについて、前記少なくとも1つの特徴量が入力される画素の前記座標位置を、前記検出領域の縦および横方向について異なる拡大率により段階的に変更した複数の第2の識別器からなる参照データを、前記検出領域おいて算出した前記少なくとも1つの特徴量に基づいて参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別することを特徴とする対象物識別方法。
  8. 識別対象画像の入力を受け付ける手順と、
    前記識別対象画像上の所定サイズの検出領域内の画素のそれぞれについて、所定対象物の識別に用いる少なくとも1つの特徴量を算出する手順と、
    ほぼ正面を向いた前記所定対象物を含む前記所定サイズを有する複数のサンプル画像と、前記所定対象物を含まない前記所定サイズを有する複数のサンプル画像とからなるサンプル画像群について算出した前記少なくとも1つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、入力される前記少なくとも1つの特徴量の前記サンプル画像および前記検出領域における画素の座標位置が定められてなる、前記少なくとも1つの特徴量と該少なくとも1つの特徴量の各々に対応する識別条件とをあらかじめ規定する複数の識別器からなる参照データを、前記検出領域において算出した前記少なくとも1つの特徴量に基づいて参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別するに際し、前記座標位置を、前記検出領域の縦および横方向について異なる拡大率により段階的に変更しつつ、該変更の各段階において前記検出領域において算出した前記少なくとも1つの特徴量に基づいて前記参照データを参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別する手順とを有することを特徴とする対象物識別方法をコンピュータに実行させるためのプログラム。
  9. 識別対象画像の入力を受け付ける手順と、
    前記識別対象画像上の所定サイズの検出領域内の画素のそれぞれについて、所定対象物の識別に用いる少なくとも1つの特徴量を算出する手順と、
    ほぼ正面を向いた前記所定対象物を含む前記所定サイズを有する複数のサンプル画像と、前記所定対象物を含まない前記所定サイズを有する複数のサンプル画像とからなるサンプル画像群について算出した前記少なくとも1つの特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られた、入力される前記少なくとも1つの特徴量の前記サンプル画像および前記検出領域における画素の座標位置が定められてなる、前記少なくとも1つの特徴量と該少なくとも1つの特徴量の各々に対応する識別条件とをあらかじめ規定する複数の第1の識別器、および該複数の識別器のそれぞれについて、前記少なくとも1つの特徴量が入力される画素の前記座標位置を、前記検出領域の縦および横方向について異なる拡大率により段階的に変更した複数の第2の識別器からなる参照データを、前記検出領域おいて算出した前記少なくとも1つの特徴量に基づいて参照して、前記識別対象画像に前記所定対象物が含まれるか否かを識別する手順とを有することを特徴とする対象物識別方法をコンピュータに実行させるためのプログラム。
JP2004059180A 2004-03-03 2004-03-03 対象物識別装置および方法並びにプログラム Expired - Fee Related JP4361394B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004059180A JP4361394B2 (ja) 2004-03-03 2004-03-03 対象物識別装置および方法並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004059180A JP4361394B2 (ja) 2004-03-03 2004-03-03 対象物識別装置および方法並びにプログラム

Publications (2)

Publication Number Publication Date
JP2005250774A true JP2005250774A (ja) 2005-09-15
JP4361394B2 JP4361394B2 (ja) 2009-11-11

Family

ID=35031206

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004059180A Expired - Fee Related JP4361394B2 (ja) 2004-03-03 2004-03-03 対象物識別装置および方法並びにプログラム

Country Status (1)

Country Link
JP (1) JP4361394B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101342313B1 (ko) 2006-03-17 2013-12-16 소니 주식회사 정보 처리 장치 및 방법, 및 기록 매체
JP2019532369A (ja) * 2016-09-14 2019-11-07 アイロボット コーポレイション エリア分類に基づくロボットの構成可能な動作のためのシステム及び方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101342313B1 (ko) 2006-03-17 2013-12-16 소니 주식회사 정보 처리 장치 및 방법, 및 기록 매체
JP2019532369A (ja) * 2016-09-14 2019-11-07 アイロボット コーポレイション エリア分類に基づくロボットの構成可能な動作のためのシステム及び方法
US11314260B2 (en) 2016-09-14 2022-04-26 Irobot Corporation Systems and methods for configurable operation of a robot based on area classification
JP7166926B2 (ja) 2016-09-14 2022-11-08 アイロボット・コーポレーション エリア分類に基づくロボットの構成可能な動作のためのシステム及び方法
US11740634B2 (en) 2016-09-14 2023-08-29 Irobot Corporation Systems and methods for configurable operation of a robot based on area classification

Also Published As

Publication number Publication date
JP4361394B2 (ja) 2009-11-11

Similar Documents

Publication Publication Date Title
CN108230252B (zh) 图像处理方法、装置以及电子设备
JP4414401B2 (ja) 顔特徴点検出方法および装置並びにプログラム
US8184870B2 (en) Apparatus, method, and program for discriminating subjects
US20050249429A1 (en) Method, apparatus, and program for image processing
CN111680690B (zh) 一种文字识别方法及装置
JP2007047965A (ja) デジタル画像の対象物検出方法および装置並びにプログラム
JP4515208B2 (ja) 画像処理方法および装置並びにプログラム
JP2006119817A (ja) 画像処理装置
JP2005242640A (ja) 対象物検出方法および装置並びにプログラム
JP4647289B2 (ja) 画像処理方法および装置並びにプログラム
CN110910330A (zh) 图像处理方法、图像处理装置、电子设备和可读存储介质
JP4619762B2 (ja) 画像処理方法および装置並びにプログラム
JP4510556B2 (ja) 対象物識別装置および方法並びにプログラム
JP4690190B2 (ja) 画像処理方法および装置並びにプログラム
JP4361394B2 (ja) 対象物識別装置および方法並びにプログラム
JP4493448B2 (ja) 対象物識別装置および方法並びにプログラム
JP2005250773A (ja) 対象物識別装置および方法並びにプログラム
JP2005122688A (ja) 画像処理方法および装置並びにプログラム
JP4541806B2 (ja) 対象物識別装置および方法並びにプログラム
JP2005250771A (ja) 対象物識別装置および方法並びにプログラム
JP2005250772A (ja) 対象物識別装置および方法、学習方法並びにプログラム
JP2005332382A (ja) 画像処理方法および装置並びにプログラム
CN112949631B (zh) 用于目标检测的预训练图片合成方法和装置
JP2006244385A (ja) 顔判別装置およびプログラム並びに顔判別装置の学習方法
EP3757867A1 (en) Method and system for determining whether input data to be classified is manipulated input data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060523

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20061207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090428

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090811

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090812

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4361394

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120821

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120821

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130821

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees