JP2005250771A - 対象物識別装置および方法並びにプログラム - Google Patents
対象物識別装置および方法並びにプログラム Download PDFInfo
- Publication number
- JP2005250771A JP2005250771A JP2004059177A JP2004059177A JP2005250771A JP 2005250771 A JP2005250771 A JP 2005250771A JP 2004059177 A JP2004059177 A JP 2004059177A JP 2004059177 A JP2004059177 A JP 2004059177A JP 2005250771 A JP2005250771 A JP 2005250771A
- Authority
- JP
- Japan
- Prior art keywords
- predetermined
- identification
- target image
- weighted sum
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Editing Of Facsimile Originals (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
【課題】 サンプル画像を用いて学習した複数の識別器が出力した基準値を用いて、識別対象画像に所定対象物が含まれるか否かを識別するに際し、識別器の設定を複雑にしたり、サンプル画像の種類を増やすことなく誤検出を少なくする。
【解決手段】 識別対象画像に顔が含まれるか否かを識別するために多数のサンプル画像を用いて学習を行った識別器が出力した識別ポイントの総和を算出する。総和が顔が含まれると識別する第1の閾値Th1より小さく、顔が含まれないと識別する第2の閾値Th2より大きい場合に、識別ポイントの総和をあらかじめ分類した複数のカテゴリごとに算出し、カテゴリ別総和が第3の閾値Th3以上となったカテゴリの数が第4の閾値Th4以上の場合に、識別対象画像に顔が含まれると識別する。
【選択図】 図1
【解決手段】 識別対象画像に顔が含まれるか否かを識別するために多数のサンプル画像を用いて学習を行った識別器が出力した識別ポイントの総和を算出する。総和が顔が含まれると識別する第1の閾値Th1より小さく、顔が含まれないと識別する第2の閾値Th2より大きい場合に、識別ポイントの総和をあらかじめ分類した複数のカテゴリごとに算出し、カテゴリ別総和が第3の閾値Th3以上となったカテゴリの数が第4の閾値Th4以上の場合に、識別対象画像に顔が含まれると識別する。
【選択図】 図1
Description
本発明は、画像に顔等の所定対象物が含まれるか否かを識別する対象物識別装置および方法並びに対象物識別方法をコンピュータに実行させるためのプログラムに関するものである。
デジタルカメラにおいて取得した画像データや、フイルムに記録された画像を読み取ることにより取得した画像データを、プリント等のハードコピーとしてあるいはディスプレイ上にソフトコピーとして再現することが行われている。このような画像データにより表される画像は人物の顔が含まれることが多く、顔が適切な明るさや色を有するものとなるように画像データに対して明るさ、階調、色、シャープネス等を修正したり、赤目を修正する画像処理を施すことが行われている。このように画像データに対して画像処理を施す場合には、画像データにより表される画像から人物の顔に対応する顔領域を検出する必要がある。このため、画像に顔等の所定対象物が含まれるか否かを識別する各種方法が提案されている。
例えば非特許文献1は、顔を検出する際に用いられる特徴量である輝度値を正規化し、顔について学習を行ったニューラルネットワークの学習結果を参照して、画像に顔が含まれるか否かを識別する手法である。また非特許文献2は、画像中に含まれるエッジのような高周波成分を対象物の検出に使用する特徴量として求めてこの特徴量を正規化し、ブースティングと称されるマシンラーニング(machine learning)の手法を用いての特徴量についての学習結果を参照して、画像に対象物が含まれるか否かを識別する手法である。これら非特許文献1,2の手法は、顔等の対象物の検出に使用する特徴量を正規化しているため、画像に対象物が含まれるか否かを精度よく識別することができる。
また、所定対象物であることが分かっている複数のサンプル画像と、所定対象物でないことが分かっている複数のサンプル画像とからなる多数のサンプル画像群のそれぞれから算出された特徴量を、マシンラーニングの手法によりあらかじめ学習することにより得られた、特徴量の入力により所定対象物が含まれる識別対象画像と所定対象物が含まれない識別対象画像とを識別するための基準値を出力する複数の識別器を備え、この複数の識別から出力された基準値の重み付け総和があらかじめ定めた閾値を超えた場合に、識別対象画像に所定対象物が含まれると識別する手法が本出願人により提案されている(特許文献2〜4参照)。この特許文献2から4に記載された手法を用いることにより、例えば、サンプル画像として顔を学習させた場合には、識別対象画像に顔が含まれるか否かを良好に識別することができる。
Henry A. Rowley, Shumeet Baluja, and Takeo Kanada, "Neural Network-Based Face Detection", volume 20, number 1, pages 23-38, January 1998. Rainer Lienhart, Jochen Maydt, "An Extended Set of Haar-like Features for Rapid Object Detection", International Conference on Image Processing. 特開平5−282457号公報
特願2003−316924号
特願2003−316925号
特願2003−316926号
Henry A. Rowley, Shumeet Baluja, and Takeo Kanada, "Neural Network-Based Face Detection", volume 20, number 1, pages 23-38, January 1998. Rainer Lienhart, Jochen Maydt, "An Extended Set of Haar-like Features for Rapid Object Detection", International Conference on Image Processing.
しかしながら、上記特許文献2〜4の手法において、サンプル画像として顔の画像を用いた場合には、顔の一部が手で覆われていたり、笛を吹いている画像のように顔の部分に顔以外の異物を含む画像を識別対象画像とすると場合、その識別対象画像には顔が含まれないと判定してしまう。このため、顔の部分に顔以外の異物を含む画像をサンプル画像として用いて学習を行うことが考えられる。しかしながら、このように顔の部分に顔以外の異物を含む画像をサンプル画像として学習を行うと、顔でないのに顔と識別する誤検出が多くなってしまうという問題がある。また、識別器を学習により構成することなく人為的に設定する場合においても、その設定が複雑なものとなる。
本発明は上記事情に鑑みなされたものであり、識別器の設定を複雑にすることなく誤検出を少なくすることを第1の目的とする。
また、本発明は、サンプル画像の種類を増やすことなく誤検出を少なくすることを第2の目的とする。
本発明による対象物識別装置は、識別対象画像の入力を受け付ける画像入力手段と、
前記識別対象画像上の所定サイズの範囲内の画素のそれぞれについて、所定対象物の識別に用いる少なくとも1つの特徴量を算出する特徴量算出手段と、
前記所定サイズの範囲内の所定位置における画素の組み合わせからなる複数種類の画素群のそれぞれにおいて算出した前記特徴量の入力により、前記所定対象物が含まれる前記識別対象画像と前記所定対象物が含まれない前記識別対象画像とを識別するための基準値を出力する、前記複数種類の画素群にそれぞれ対応する複数の識別器を備え、前記複数の識別器のそれぞれが、該複数の識別器のそれぞれに対応する画素群の前記所定サイズの範囲内の位置に応じて複数のカテゴリに分類されてなる識別手段であって、前記識別対象画像上の前記所定サイズの範囲における前記特徴量の入力を受け付け、該特徴量の入力により前記識別器が出力した前記基準値の前記複数のカテゴリごとの重み付け総和であるカテゴリ別重み付け総和を算出し、該カテゴリ別重み付け総和が所定の閾値以上となったカテゴリの数が所定数以上であるか否かを判定し、該判定が肯定された場合に、前記識別対象画像に前記所定対象物が含まれると識別する識別手段とを備えたことを特徴とするものである。
前記識別対象画像上の所定サイズの範囲内の画素のそれぞれについて、所定対象物の識別に用いる少なくとも1つの特徴量を算出する特徴量算出手段と、
前記所定サイズの範囲内の所定位置における画素の組み合わせからなる複数種類の画素群のそれぞれにおいて算出した前記特徴量の入力により、前記所定対象物が含まれる前記識別対象画像と前記所定対象物が含まれない前記識別対象画像とを識別するための基準値を出力する、前記複数種類の画素群にそれぞれ対応する複数の識別器を備え、前記複数の識別器のそれぞれが、該複数の識別器のそれぞれに対応する画素群の前記所定サイズの範囲内の位置に応じて複数のカテゴリに分類されてなる識別手段であって、前記識別対象画像上の前記所定サイズの範囲における前記特徴量の入力を受け付け、該特徴量の入力により前記識別器が出力した前記基準値の前記複数のカテゴリごとの重み付け総和であるカテゴリ別重み付け総和を算出し、該カテゴリ別重み付け総和が所定の閾値以上となったカテゴリの数が所定数以上であるか否かを判定し、該判定が肯定された場合に、前記識別対象画像に前記所定対象物が含まれると識別する識別手段とを備えたことを特徴とするものである。
「所定対象物」とは、ほぼ一定形状をなしており、ほぼ一定の大きさとなるようにサイズを揃えることが可能な対象物が挙げられる。具体的には、人物の顔、車両および道路標識等を所定対象物とすることができる。
「特徴量」とは、画像の特徴を表すパラメータを指し、その画像における各画素の濃度勾配を表す勾配ベクトル、各画素の色情報(色相、彩度)、濃度、テクスチャーの特徴、奥行情報、その画像に含まれるエッジの特徴等、いかなる特徴を表すものであってもよい。
「基準値」とは、特徴量を指標とした、所定対象物とそうでない対象物とを識別する値を指す。
「カテゴリに分類する」とは、1つの識別器が1つのカテゴリにのみ分類されるものであってもよく、学習を行った特徴量を算出した画素群のサンプル画像上の位置によっては、1つの識別器が複数のカテゴリに分類されるものであってもよい。なお、各カテゴリに分類される識別器は少なくとも1つあればよい。
「カテゴリ別重み付け総和」には、すべての基準値に対して重みが1の総和も含む。
「所定数」は、所定対象物の検出精度、所定対象物の種類あるいは識別した画像の用途等に応じて定めればよい。
なお、本発明による対象物識別装置においては、前記識別手段を、前記複数の識別器について、前記識別対象画像に前記所定対象物が含まれると識別する精度が高い順に前記基準値の重み付け総和を逐次算出して、該基準値の重み付け総和を算出した識別器の数に応じて定められる第1の閾値と前記基準値の重み付け総和とを該総和を算出する各段階において比較し、該基準値の重み付け総和が前記第1の閾値以下の場合には、前記カテゴリ別重み付け総和が所定の閾値を超えたカテゴリの数が所定数以上であるか否かの判定を行うことなく、前記識別対象画像に前記所定対象物は含まれないと識別し、前記基準値の重み付け総和が前記第1の閾値より大きい場合には、前記基準値の重み付け総和を算出する前記識別器の数を増やして前記第1の閾値と前記基準値の重み付け総和とを比較することをすべての識別器が出力した前記基準値の重み付け総和を算出するまで繰り返し、すべての識別器が出力した前記基準値の重み付け総和が前記第1の閾値よりも大きい第2の閾値以上の場合に前記識別対象画像に前記所定対象物が含まれると識別し、該基準値の重み付け総和が該第2の閾値よりも小さい第3の閾値以下の場合に前記識別対象画像に前記所定対象物が含まれないと識別し、該基準値の重み付け総和が前記第2の閾値より小さくかつ前記第3の閾値より大きい場合に、前記カテゴリ別重み付け総和が所定の閾値を超えたカテゴリの数が所定数以上であるか否かの判定を行う手段としてもよい。
「重み付け総和」には、すべての基準値に対して重みが1の総和も含む。この場合、基準値の重み付け総和を算出する順序は、任意に設定すればよい。
また、本発明による対象物識別装置においては、前記識別器を、前記所定対象物であることが分かっている前記所定サイズを有する複数のサンプル画像と、前記所定対象物でないことが分かっている前記所定サイズを有する複数のサンプル画像とからなるサンプル画像群について、前記サンプル画像上の前記所定位置における画素の組み合わせからなる複数種類の画素群を設定し、該画素群のそれぞれを構成する画素において算出した特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られてなるものとしてもよい。
「マシンラーニング(machine learning)」とは、計算機を使用してパターンの識別を行う識別器を生成する手法のことであり、機械による学習(機械学習)または単に学習と称される。マシンラーニングの手法としては、例えば、ニューラルネットワーク、サポートベクタマシン、最近傍識別器、およびブースティング等の手法が挙げられる。
また、本発明による対象物識別装置においては、前記少なくとも1つの特徴量は、画像上の各画素における勾配ベクトルの方向、該勾配ベクトルの大きさおよび色情報の少なくとも1つとしてもよい。
「勾配ベクトル」とは、画像の各画素における濃度が変化する方向および変化の大きさを表すものである。
本発明による対象物識別方法は、識別対象画像の入力を受け付け、
前記識別対象画像上の所定サイズの範囲内の画素のそれぞれについて、所定対象物の識別に用いる少なくとも1つの特徴量を算出し、
前記所定サイズの範囲内の所定位置における画素の組み合わせからなる複数種類の画素群のそれぞれにおいて算出した前記特徴量の入力により、前記所定対象物が含まれる前記識別対象画像と前記所定対象物が含まれない前記識別対象画像とを識別するための基準値を出力する、前記複数種類の画素群にそれぞれ対応する複数の識別器を備え、前記複数の識別器のそれぞれが、該複数の識別器のそれぞれに対応する画素群の前記所定サイズの範囲内の位置に応じて複数のカテゴリに分類されてなる識別手段に対する、前記識別対象画像上の前記所定サイズの範囲における前記特徴量の入力を受け付け、
該特徴量の入力により前記識別器が出力した前記基準値の前記複数のカテゴリごとの重み付け総和であるカテゴリ別重み付け総和を算出し、
該カテゴリ別重み付け総和が所定の閾値以上となったカテゴリの数が所定数以上であるか否かを判定し、
該判定が肯定された場合に、前記識別対象画像に前記所定対象物が含まれると識別することを特徴とするものである。
前記識別対象画像上の所定サイズの範囲内の画素のそれぞれについて、所定対象物の識別に用いる少なくとも1つの特徴量を算出し、
前記所定サイズの範囲内の所定位置における画素の組み合わせからなる複数種類の画素群のそれぞれにおいて算出した前記特徴量の入力により、前記所定対象物が含まれる前記識別対象画像と前記所定対象物が含まれない前記識別対象画像とを識別するための基準値を出力する、前記複数種類の画素群にそれぞれ対応する複数の識別器を備え、前記複数の識別器のそれぞれが、該複数の識別器のそれぞれに対応する画素群の前記所定サイズの範囲内の位置に応じて複数のカテゴリに分類されてなる識別手段に対する、前記識別対象画像上の前記所定サイズの範囲における前記特徴量の入力を受け付け、
該特徴量の入力により前記識別器が出力した前記基準値の前記複数のカテゴリごとの重み付け総和であるカテゴリ別重み付け総和を算出し、
該カテゴリ別重み付け総和が所定の閾値以上となったカテゴリの数が所定数以上であるか否かを判定し、
該判定が肯定された場合に、前記識別対象画像に前記所定対象物が含まれると識別することを特徴とするものである。
なお、本発明による対象物識別方法をコンピュータに実行させるためのプログラムとして提供してもよい。
本発明によれば、識別対象画像上の所定サイズの範囲内の画素のそれぞれについて、少なくとも1つの特徴量が算出される。そして、識別対象画像上の所定サイズの範囲における特徴量の入力が受け付けられる。ここで、識別器は対応する画素群の所定サイズの範囲内の位置に応じて複数のカテゴリに分類されており、特徴量の入力により識別器が出力した基準値の複数のカテゴリごとの重み付け総和であるカテゴリ別重み付け総和が算出される。そして、カテゴリ別重み付け総和が所定の閾値以上となったカテゴリの数が所定数以上である場合に、識別対象画像に所定対象物が含まれると識別される。
ここで、すべての識別器から出力された基準値の重み付け総和が閾値を超えた場合に識別対象画像に所定対象物が含まれると識別する場合において、所定対象物の部分に所定対象物以外の異物を含む識別対象画像については、所定対象物を含まないと識別する可能性が高い。一方、所定対象物の部分に所定対象物以外の異物を含む場合にも所定対象物を含むと識別するように識別器を設定する場合には、その設定が煩雑なものとなる。さらに、所定対象物の部分に所定対象物以外の異物を含む画像をサンプル画像として用いて識別器の学習を行った場合は、所定対象物を含まないのに所定対象物を含むと識別する誤検出が多くなってしまうという問題がある。
本発明においては、カテゴリ別重み付け総和が所定の閾値以上となったカテゴリの数が所定数以上である場合に、識別対象画像に所定対象物が含まれると識別するようにしたため、所定対象物を含むがその一部が異物等により所定対象物と一致しなくなっている識別対象画像と、所定対象物を含まないにもかかわらず全体的に見ると所定対象物に類似しているが局所的には所定対象物とは一致しないような識別対象画像とを識別することができることとなる。したがって、識別器の設定を複雑にすることなく、さらには識別器をサンプル画像を用いて学習させる場合においては、学習するサンプル画像の種類を増やすことなく、識別対象画像に所定対象物が含まれるか否かを識別する際の誤検出を防止することができる。
また、請求項2の発明においては、複数の識別器について識別対象画像に所定対象物が含まれると識別する精度が高い順に基準値の重み付け総和が逐次算出されて、この算出の各段階において、基準値の重み付け総和を算出した識別器の数に応じて定められる第1の閾値と基準値の重み付け総和とが比較される。そして、基準値の重み付け総和が第1の閾値以下の場合には、カテゴリ別重み付け総和が所定の閾値を超えたカテゴリの数が所定数以上であるか否かの判定が行われることなく、識別対象画像に所定対象物は含まれないと識別される。一方、基準値の重み付け総和が第1の閾値より大きい場合には、基準値の重み付け総和を算出する識別器の数が増やされて第1の閾値と基準値の重み付け総和との比較がすべての識別器が出力した基準値の重み付け総和が算出されるまで繰り返される。そして、すべての識別器が出力した基準値の重み付け総和が第1の閾値よりも大きい第2の閾値以上の場合には、識別対象画像に所定対象物が含まれると識別され、基準値の重み付け総和が第2の閾値よりも小さい第3の閾値以下の場合には識別対象画像に所定対象物が含まれないと識別される。さらに、基準値の重み付け総和が第2の閾値より小さくかつ第3の閾値より大きい場合に、カテゴリ別重み付け総和が所定の閾値を超えたカテゴリの数が所定数以上であるか否かの判定が行われる。
ここで、識別対象画像に所定対象物が含まれない場合には、正答率が高い識別器が出力した基準値は、所定対象物が含まれる場合の基準値よりも低いものとなる。したがって、正答率が高い順に算出した、識別器が出力した基準値の重み付け総和が第1の閾値以下の場合に、直ちに識別対象画像に所定対象物が含まれないと識別することにより、識別対象画像に所定対象物が含まれない場合に、識別の処理の比較的早い段階において識別対象画像に所定対象物が含まれないと識別されるため、識別の処理を高速に行うことができる。
また、すべての識別器から出力された基準値の重み付け総和が第2の閾値以上の場合に識別対象画像に所定対象物が含まれると識別し、重み付け総和が第3の閾値以下の場合に識別対象画像に所定対象物が含まれないと識別し、重み付け総和が第2の閾値より小さくかつ第3の閾値より大きい場合に、カテゴリ別重み付け総和が所定の閾値以上となったカテゴリの数が所定数以上であるか否かの判定を行うようにすれば、識別対象画像に所定対象物が含まれるか否かが明確でない場合に、カテゴリ別重み付け総和が所定の閾値を超えたカテゴリの数が所定数以上であるか否かの判定が行われるため、識別対象画像に所定対象物が含まれるか否かを識別する際の誤検出を確実に防止することができる。
また、識別器をマシンラーニングの手法によりあらかじめ学習することにより得られたものとすることにより、所定対象物の識別性能をより向上させることができる。
また、少なくとも1つの特徴量を画像上の各画素における勾配ベクトルの方向、大きさおよび色情報の少なくとも1つとすることにより、識別対象画像に含まれる比較的算出しやすい特徴量を用いて精度よく構成部品の位置を識別できる。
以下、図面を参照して本発明の実施形態について説明する。図1は本発明の実施形態による対象物識別装置の構成を示す概略ブロック図である。図1に示すように、本実施形態による対象物識別装置1は、識別対象画像を表す識別対象画像データS0の入力を受け付ける画像入力部2、識別対象画像データS0により表される識別対象画像(以下画像についても参照符号S0を用いる)S0から特徴量C1を算出する特徴量算出部4、後述する参照データR1が格納されているメモリ6、特徴量算出部4が算出した特徴量C1とメモリ6内の参照データR1とに基づいて、識別対象画像S0に所定対象物である人物の顔が含まれているか否かを識別する識別部8、並びに識別部8による識別結果を出力する出力部10とを備える。
特徴量算出部4は、顔の識別に用いる特徴量C1を識別対象画像S0から算出する。具体的には、特徴量C1として、識別対象画像S0の勾配ベクトル(すなわち方向および大きさ)を算出する。以下、勾配ベクトルの算出について説明する。まず、特徴量算出部4は、識別対象画像S0に対して図2(a)に示す水平方向のエッジ検出フィルタによるフィルタリング処理を施して識別対象画像S0における水平方向のエッジを検出する。また、特徴量算出部4は、識別対象画像S0に対して図2(b)に示す垂直方向のエッジ検出フィルタによるフィルタリング処理を施して識別対象画像S0における垂直方向のエッジを検出する。そして、識別対象画像S0上の各画素における水平方向のエッジの大きさHおよび垂直方向のエッジの大きさVとから、図3に示すように、各画素における勾配ベクトルKを算出する。
そして、この勾配ベクトルKを特徴量C1とする。具体的には勾配ベクトルKの所定方向(例えば図3におけるx方向)を基準とした0から359度の値および大きさを特徴量C1とする。
なお、このようにして算出された勾配ベクトルKは、図4(a)に示すような人物の顔の場合、図4(b)に示すように、目および口のように暗い部分においては目および口の中央を向き、鼻のように明るい部分においては鼻の位置から外側を向くものとなる。また、口よりも目の方が濃度の変化が大きいため、勾配ベクトルKの大きさは口よりも目の方が大きくなる。
ここで、特徴量C1である勾配ベクトルKの大きさは正規化される。この正規化は、識別対象画像S0内の全画素における勾配ベクトルKの大きさのヒストグラムを求め、その大きさの分布が識別対象画像S0の各画素が取り得る値(8ビットであれば0〜255)に均一に分布されるようにヒストグラムを平滑化して勾配ベクトルKの大きさを修正することにより行う。例えば、勾配ベクトルKの大きさが小さく、図5(a)に示すように勾配ベクトルKの大きさが小さい側に偏ってヒストグラムが分布している場合には、大きさが0〜255の全領域に亘るものとなるように勾配ベクトルKの大きさを正規化して図5(b)に示すようにヒストグラムが分布するようにする。なお、演算量を低減するために、図5(c)に示すように、勾配ベクトルKのヒストグラムにおける分布範囲を例えば5分割し、5分割された頻度分布が図5(d)に示すように0〜255の値を5分割した範囲に亘るものとなるように正規化することが好ましい。
ここで、撮影を行う際には、照明の明るさや照明の方向が撮影時の条件に応じて様々であるため、明るさや照明の方向は識別対象画像S0ごとに異なる。このように明るさや照明の方向が異なる識別対象画像S0のそれぞれについてそのまま勾配ベクトルKを求めていたのでは、同じ顔であるのに目の位置における勾配ベクトルの大きさが異なってしまい、顔が含まれるか否かを精度よく識別することができない。このため、本実施形態においては、勾配ベクトルKの大きさを識別対象画像S0の全体について正規化している。
なお、特徴量算出部4は、後述するように識別対象画像S0の変形の各段階において特徴量C1を算出する。
メモリ6内に格納されている参照データR1は、後述するサンプル画像上の所定位置における複数画素の組み合わせからなる複数種類の画素群のそれぞれについて、各画素群を構成する各画素における特徴量C1の組み合わせに対する識別条件を規定したものである。
参照データR1中の、各画素群を構成する各画素における特徴量C1の組み合わせおよび識別条件は、顔であることが分かっている複数のサンプル画像と顔でないことが分かっている複数のサンプル画像とからなるサンプル画像群の学習により、あらかじめ決められたものである。
なお、本実施形態においては、顔であることが分かっているサンプル画像として、30×30画素サイズを有し、図6に示すように、1つの顔の画像について両目の中心間の距離が10画素、9画素および11画素であり、垂直に立った顔を基準として平面上±15度の範囲において3度単位で段階的に回転させた(すなわち、回転角度が−15度,−12度,−9度,−6度,−3度,0度,3度,6度,9度,12度,15度)サンプル画像を用いるものとする。したがって、1つの顔の画像につきサンプル画像は3×11=33通り用意される。ここで、顔が垂直に立った状態において上下方向における目の位置はすべてのサンプル画像において同一である。なお、図6においては−15度、0度および+15度に回転させたサンプル画像のみを示す。また、回転の中心はサンプル画像の対角線の交点である。また、顔でないことが分かっているサンプル画像としては、30×30画素サイズを有する任意の画像を用いるものとする。
ここで、顔であることが分かっているサンプル画像として、両目の中心間距離が10画素であり、平面上の回転角度が0度(すなわち顔が垂直な状態)のもののみを用いて学習を行った場合、参照データR1を参照して顔が含まれると識別されるのは、両目の中心間距離が10画素で全く回転していない識別対象画像S0のみである。識別対象画像S0に含まれる可能性がある顔のサイズは一定ではないため、顔が含まれるか否かを識別する際には、後述するように識別対象画像S0を拡大縮小して、サンプル画像のサイズに適合するサイズの顔を識別できるようにしている。しかしながら、両目の中心間距離を正確に10画素とするためには、識別対象画像S0のサイズを拡大率として例えば1.1単位で段階的に拡大縮小しつつ識別を行う必要があるため、演算量が膨大なものとなる。
また、識別対象画像S0に含まれる可能性がある顔は、図7(a)に示すように平面上の回転角度が0度のみではなく、図7(b)、(c)に示すように回転している場合もある。しかしながら、両目の中心間距離が10画素であり、顔の回転角度が0度のサンプル画像のみを使用して学習を行った場合、顔であるにも拘わらず、図7(b)、(c)に示すように回転した顔については識別を行うことができなくなってしまう。
このため、本実施形態においては、顔であることが分かっているサンプル画像として、図6に示すように両目の中心間距離が9,10,11画素であり、各距離において平面上±15度の範囲にて3度単位で段階的に顔を回転させたサンプル画像を用いて、参照データR1の学習に許容度を持たせるようにしたものである。これにより、識別対象画像S0を、拡大率として11/9単位で段階的に拡大縮小すればよいため、識別対象画像S0のサイズを例えば拡大率として1.1単位で段階的に拡大縮小する場合と比較して、演算時間を低減できる。また、図7(b)、(c)に示すように回転している顔も識別することができる。
以下、図8のフローチャートを参照しながらサンプル画像群の学習手法の一例を説明する。
学習の対象となるサンプル画像群は、顔であることが分かっている複数のサンプル画像と、顔でないことが分かっている複数のサンプル画像とからなる。なお、顔であることが分かっているサンプル画像は、1つのサンプル画像につき両目の中心位置が9,10,11画素であり、各距離において平面上±15度の範囲にて3度単位で段階的に顔を回転させたものを用いる。各サンプル画像には、重みすなわち重要度が割り当てられる。まず、すべてのサンプル画像の重みの初期値が等しく1に設定される(ステップS1)。
次に、サンプル画像上の所定位置における画素の組み合わせからなる複数種類の画素群のそれぞれに対応して複数の識別器が作成される(ステップS2)。例えば、図9に示すように顔であることが分かっているサンプル画像の目の近傍において横方向に隣接する3つの画素からなる画素群G1、向かって右側の頬の近傍において縦方向に隣接する3つの画素からなる画素群G2、サンプル画像上の離れた3点に位置する3つの画素からなる画素群G3およびあごの近傍において横方向に隣接する4つの画素からなる画素群G4のように4種類の画素群が設定されている場合、4種類の画素群G1〜G4のそれぞれに対応して4つの識別器が作成される。一方、顔でないことが分かっているサンプル画像についても、顔であることが分かっているサンプル画像に対応する画素からなる画素群が設定される。なお、図9に示す画素群は説明を容易にするための例であって、実際には多数の画素群のそれぞれに対応して識別器が作成される。
ここで、それぞれの識別器とは、1つの画素群を構成する各画素における特徴量C1の組み合わせを用いて、顔の画像と顔でない画像とを識別する基準を提供するものである。本実施形態においては、1つの画素群を構成する各画素における特徴量C1の組み合わせについてのヒストグラムを識別器として使用する。
図10を参照しながらある識別器の作成について説明する。図10の左側のサンプル画像に示すように、この識別器を作成するための画素群を構成する各画素を、顔であることが分かっている複数のサンプル画像上における、右目の中心にある画素P1、右側の頬の部分にある画素P2、額の部分にある画素P3および左側の頬の部分にある画素P4とする。なお、ある識別器を作成するための画素群を構成する各画素の座標位置はすべてのサンプル画像において同一である。そして顔であることが分かっているすべてのサンプル画像について全画素P1〜P4における特徴量C1の組み合わせが求められ、そのヒストグラムが作成される。ここで、特徴量C1は勾配ベクトルKの方向および大きさを表すが、勾配ベクトルKの方向は0〜359の360通り、勾配ベクトルKの大きさは0〜255の256通りあるため、これをそのまま用いたのでは、組み合わせの数は1画素につき360×256通りの4画素分、すなわち(360×256)4通りとなってしまい、学習および検出のために多大な時間およびメモリを要することとなる。このため、本実施形態においては、勾配ベクトルの方向を0〜359を0〜44と315〜359(右方向、値:0),45〜134(上方向値:1),135〜224(左方向、値:2),225〜314(下方向、値3)に4値化し、勾配ベクトルの大きさを3値化(値:0〜2)する。そして、以下の式を用いて組み合わせの値を算出する。
組み合わせの値=0(勾配ベクトルの大きさ=0の場合)
組み合わせの値=((勾配ベクトルの方向+1)×勾配ベクトルの大きさ(勾配ベクトルの大きさ>0の場合)
これにより、組み合わせ数が94通りとなるため、特徴量C1のデータ数を低減できる。
組み合わせの値=((勾配ベクトルの方向+1)×勾配ベクトルの大きさ(勾配ベクトルの大きさ>0の場合)
これにより、組み合わせ数が94通りとなるため、特徴量C1のデータ数を低減できる。
同様に、顔でないことが分かっている複数のサンプル画像についても、ヒストグラムが作成される。なお、顔でないことが分かっているサンプル画像については、顔であることが分かっているサンプル画像上における上記画素P1〜P4の位置に対応する画素(同様に参照符号P1〜P4を用いる)が用いられる。これらの2つのヒストグラムが示す頻度値の比の対数値を取ってヒストグラムで表したものが、図10の一番右側に示す、識別器として用いられるヒストグラムである。この識別器のヒストグラムが示す各縦軸の値を、以下、識別ポイントと称する。この識別器によれば、正の識別ポイントに対応する特徴量C1の分布を示す画像は顔である可能性が高く、識別ポイントの絶対値が大きいほどその可能性は高まると言える。逆に、負の識別ポイントに対応する特徴量C1の分布を示す画像は顔でない可能性が高く、やはり識別ポイントの絶対値が大きいほどその可能性は高まる。ステップS2では、識別に使用され得る複数種類の画素群を構成する各画素における特徴量C1の組み合わせについて、上記のヒストグラム形式の複数の識別器が作成される。
続いて、ステップS2で作成した複数の識別器のうち、画像が顔であるか否かを識別するのに最も有効な識別器が選択される。最も有効な識別器の選択は、各サンプル画像の重みを考慮して行われる。この例では、各識別器の重み付き正答率が比較され、最も高い重み付き正答率を示す識別器が選択される(ステップS3)。すなわち、最初のステップS3では、各サンプル画像の重みは等しく1であるので、単純にその識別器によって画像が顔であるか否かが正しく識別されるサンプル画像の数が最も多いものが、最も有効な識別器として選択される。一方、後述するステップS5において各サンプル画像の重みが更新された後の2回目のステップS3では、重みが1のサンプル画像、重みが1よりも大きいサンプル画像、および重みが1よりも小さいサンプル画像が混在しており、重みが1よりも大きいサンプル画像は、正答率の評価において、重みが1のサンプル画像よりも重みが大きい分多くカウントされる。これにより、2回目以降のステップS3では、重みが小さいサンプル画像よりも、重みが大きいサンプル画像が正しく識別されることに、より重点が置かれる。
次に、それまでに選択した識別器の組み合わせの正答率、すなわち、それまでに選択した識別器を組み合わせて使用して各サンプル画像が顔の画像であるか否かを識別した結果が、実際に顔の画像であるか否かの答えと一致する率が、所定の閾値を超えたか否かが確かめられる(ステップS4)。なお、所定の閾値としては本実施形態においては0を用いる。ここで、組み合わせの正答率の評価に用いられるのは、現在の重みが付けられたサンプル画像群でも、重みが等しくされたサンプル画像群でもよい。所定の閾値を超えた場合は、それまでに選択した識別器を用いれば画像に顔が含まれるか否かを十分に高い確率で識別できるため、学習は終了する。所定の閾値以下である場合は、それまでに選択した識別器と組み合わせて用いるための追加の識別器を選択するために、ステップS6へと進む。
ステップS6では、直近のステップS3で選択された識別器が再び選択されないようにするため、その識別器が除外される。
次に、直近のステップS3で選択された識別器では顔が含まれるか否かを正しく識別できなかったサンプル画像の重みが大きくされ、顔が含まれるか否かを正しく識別できたサンプル画像の重みが小さくされる(ステップS5)。このように重みを大小させる理由は、次の識別器の選択において、既に選択された識別器では正しく識別できなかった画像を重要視し、それらの画像に顔が含まれるか否かを正しく識別できる識別器が選択されるようにして、識別器の組み合わせの効果を高めるためである。
続いて、ステップS3へと戻り、上述したように重み付き正答率を基準にして次に有効な識別器が選択される。
以上のステップS3からS6を繰り返して、顔が含まれるか否かを識別するのに適した識別器として、特定の画素群を構成する各画素における特徴量C1の組み合わせに対応する識別器が選択されたところで、ステップS4で確認される正答率が所定の閾値を超えたとすると、顔が含まれるか否かの識別に用いる識別器の種類と識別条件とが確定され(ステップS7)、これにより参照データR1の学習を終了する。なお、このような学習により最初に作成した複数の識別器の一部の識別器のみが参照データR1として使用されることとなるが、すべての識別器が参照データR1として使用されることもある。
なお、上記の学習手法を採用する場合において、識別器は、特定の画素群を構成する各画素における特徴量C1の組み合わせを用いて顔の画像と顔でない画像とを識別する基準を提供するものであれば、上記のヒストグラムの形式のものに限られずいかなるものであってもよく、例えば2値データ、閾値または関数等であってもよい。また、同じヒストグラムの形式であっても、図10の中央に示した2つのヒストグラムの差分値の分布を示すヒストグラム等を用いてもよい。
また、学習の方法としては上記手法に限定されるものではなく、ニューラルネットワーク等他のマシンラーニングの手法を用いることができる。なお、第1および第2の参照データR1,R2は、熟練した技術者により経験的に定められたものであってもよい。
また、上記ステップS2において作成した複数の識別器について、マニュアル操作により顔が含まれるか否かの正答率が高い識別器を所定数(例えば100個)選択し、選択した所定数の識別器を正答率が高い順に大きい重み付けとなるように重みを決定することにより参照データR1を生成してもよい。
また、上述したように確定された識別器は、対応する画素群の位置に応じて複数のカテゴリに分類される。本実施形態においては、図11に示すように、サンプル画像を5×5画素のブロックからなる36の領域に分割し、対応する画素群がいずれの領域に属するかに応じて、識別器を36のカテゴリK1〜K36に分類する。なお、画素群が複数の領域にまたがっている場合がある。例えば上記図9に示す画素群G3は3つの領域にまたがっている。このような場合は、その識別器は3つの領域に対応するカテゴリのそれぞれに重複して分類されることとなる。また、画素群が隣接して存在する場合に画素群内にカテゴリの境界が存在する場合にも、その画素群に対応する識別器は境界に隣接する2つのカテゴリに重複して分類されることとなる。
識別部8は、複数種類の画素群を構成する各画素における特徴量C1の組み合わせのすべてについて参照データR1が学習した識別条件を参照して、各々の画素群を構成する各画素における特徴量C1の組み合わせについての識別ポイントを求め、すべての識別ポイントを総合して識別対象画像S0に顔が含まれるか否かを識別する。この際、特徴量C1である勾配ベクトルKの方向は4値化され大きさは3値化される。本実施形態では、すべての識別ポイントの総和を算出し、識別ポイントの総和と第1および第2の閾値Th1,Th2との関係によって識別を行うものとする。
例えば、識別ポイントの総和が第1の閾値Th1以上である場合には識別対象画像S0には顔が含まれると識別し、第2の閾値Th2以下である場合には顔は含まれないと識別する。なお、上述した学習の際に用いた所定の閾値が0であるため、第1の閾値Th1は0よりも大きい値を、第2の閾値Th2は0よりも小さい値を用いる。
一方、識別ポイントの総和が第1の閾値Th1より小さく第2の閾値Th2より大きい場合には、下記のように識別を行う。まず、分類した36のカテゴリK1〜K36ごとに識別ポイントの総和(以下カテゴリ別総和とする)を算出し、カテゴリK1〜K36ごとにカテゴリ別総和が第3の閾値Th3(ここでは0とする)以上となったか否かを判定する。そして、カテゴリ別総和が第3の閾値Th3以上となったカテゴリの数が第4の閾値Th4以上となった場合に、識別対象画像S0には顔が含まれると識別し、第4の閾値Th2未満である場合には顔は含まれないと識別する。なお、第4の閾値Th4は識別の精度に応じて設定すればよく、例えば本実施形態においては、カテゴリの総数36の約80%である29を第4の閾値Th4として設定する。
なお、本実施形態においては、識別ポイントの総和と第1および第2の閾値Th1,Th2との関係によって識別を行うに際し、複数の識別器について、正答率が高い順に識別ポイントの総和を逐次算出し、識別ポイントの総和を算出した識別器の数に応じて定められる第5の閾値Th5と識別ポイントの総和とを総和の算出の各段階において比較し、識別ポイントの総和が第5の閾値Th5以下の場合には、識別ポイントの総和と第1および第2の閾値Th1,Th2との関係によって識別を行うことなく、識別対象画像S0には顔が含まれないと識別する。なお、上述した学習の際に用いた所定の閾値が0であるため、第5の閾値Th5は0よりも小さい値を用いる。また、総和を算出した識別器の数に応じて第5の閾値Th5を変更してもよいものである。また、第1の閾値Th1は第5の閾値Th5よりも大きいものとするが、第2の閾値Th2と第5の閾値Th5との大小関係は任意に設定してよいものである。
この際、識別ポイントの総和が第5の閾値Th5以下とならない場合には、現在総和を算出した識別器に、次に正答率が高い識別器を加えて、さらに識別ポイントの総和が第5の閾値Th5以下となるか否かを判定する。これによっても識別ポイントの総和が第5の閾値Th5以下とならない場合には、すべての識別器が出力した識別ポイントについて総和を算出するまで識別ポイントの総和が第5の閾値Th5以下となるか否かの判定を繰り返す。そして、すべての識別器が出力した識別ポイントの総和が第5の閾値以下とならない場合に、識別ポイントの総和と第1および第2の閾値Th1,Th2との関係によって識別を行うものとする。
ここで、識別対象画像S0のサイズは30×30画素のサンプル画像とは異なり、各種サイズを有するものとなっている。また、顔が含まれる場合、平面上における顔の回転角度が0度であるとは限らない。このため、識別部8は、図12に示すように、識別対象画像S0を縦または横のサイズが30画素となるまで段階的に拡大縮小するとともに平面上で段階的に360度回転させつつ(図12においては縮小する状態を示す)、各段階において拡大縮小された識別対象画像S0上に30×30画素サイズのマスクMを設定し、マスクMを拡大縮小された識別対象画像S0上において1画素ずつ移動させながら、マスク内の画像が顔の画像であるか否かの識別を行うことにより、識別対象画像S0に顔が含まれるか否かを識別する。
なお、参照データR1の生成時に学習したサンプル画像として両目の中心位置の画素数が9,10,11画素のものを使用しているため、識別対象画像S0の拡大縮小時の拡大率は11/9とすればよい。また、参照データR1の生成時に学習したサンプル画像として、顔を平面上で±15度の範囲において回転させたものを使用しているため、識別対象画像S0は30度単位で360度回転させればよい。
ここで、特徴量算出部4は、識別対象画像S0の拡大縮小および回転という変形の各段階において特徴量C1を算出する。
そして、識別部8は、識別対象画像S0に顔が含まれるか否かの識別を、識別対象画像S0の拡大縮小および回転の全段階の識別対象画像S0について行い、一度でも顔が含まれると識別された場合には、識別対象画像S0には顔が含まれると識別する。また、顔が含まれると一度も識別されなかった場合には、識別対象画像S0には顔が含まれないと識別する。
出力部10は、識別部8が識別対象画像S0に顔が含まれないと識別した場合に、識別対象画像S0には顔が含まれない旨の識別結果を出力する。一方、識別部8が識別対象画像S0に顔が含まれると識別した場合、顔が含まれると識別された段階におけるサイズおよび回転角度の識別対象画像S0から、顔が含まれると識別されたマスクMの位置に対応する30×30画素の領域を顔として抽出し、抽出された顔の画像を表す顔画像データS1を出力する。
次いで、本実施形態において行われる処理について説明する。図13は本実施形態において行われる処理を示すフローチャートである。まず、画像入力部2が識別対象画像データS0の入力を受け付ける(ステップS11)。この際、多数の画像に関する一連の画像データS0の入力を連続的に受け付けてもよい。次いで、特徴量算出部4が識別対象画像S0の拡大縮小および回転の各段階において、識別対象画像S0の勾配ベクトルKを特徴量C1として算出する(ステップS12)。そして、識別部8がメモリ6から参照データR1を読み出し(ステップS13)、識別対象画像S0に顔が含まれるか否かの識別を行う(ステップS14)。
図14は識別の処理を示すフローチャートである。本実施形態において、識別部8は、すべての識別器について正答率が高い順に識別器が出力した識別ポイントの総和を算出する。このため、まず識別部8は、識別ポイントの総和を算出する識別器を最初の識別器(すなわち正答率が最も高い識別器)に設定する(ステップS31)。そして、識別器が出力した識別ポイントまたは識別ポイントの総和が、総和を算出した識別器の数に応じて定められる第5の閾値Th5以下であるか否かを判定する(ステップS32)。なお、最初の段階においては、識別器は1つのみであるため、最初の識別器が出力した識別ポイントが第5の閾値Th5以下であるか否かを判定する。ステップS32が肯定されると、識別対象画像S0には顔が含まれないと識別し(ステップS33)、識別の処理を終了する。
ステップS32が否定されると、すべての識別器について識別ポイントの総和を算出したか否かを判定し(ステップS34)、ステップS34が否定されると、次に正答率が高い識別器を含めて識別ポイントの総和を算出し(ステップS35)、ステップS32に戻る。
ステップS34が肯定されると、すべての識別器の識別ポイントの総和が第5の閾値Th5よりも大きい第1の閾値Th1以上であるか否かを判定する(ステップS36)。ステップS36が肯定されると識別対象画像S0に顔が含まれると識別し(ステップS37)、識別の処理を終了する。
ステップS36が否定されると識別ポイントの総和が第1の閾値Th1よりも小さい第2の閾値Th2以下であるか否かを判定する(ステップS38)。ステップS38が肯定されるとステップS33に進み、識別対象画像S0に顔が含まれないと識別し、識別の処理を終了する。
ステップS38が否定されると、カテゴリK1〜K36ごとに識別ポイントの総和(カテゴリ別総和)を算出し(ステップS39)、カテゴリ別総和が第3の閾値Th3以上となったカテゴリの数が第4の閾値Th4以上であるか否かを判定する(ステップS40)。ステップS40が肯定されるとステップS37に進み、識別対象画像S0に顔が含まれると識別して処理を終了する。ステップS40が否定されるとステップS33に進み、識別対象画像S0に顔が含まれないと識別して処理を終了する。
図13に戻り、識別により識別対象画像S0に顔が含まれると識別された場合、出力部10が識別対象画像S0から識別された顔を抽出し、抽出された顔の画像を表す顔画像データS1を出力し(ステップS15)、処理を終了する。なお、複数の顔を抽出してもよい。一方、識別対象画像S0に顔が含まれないと識別された場合、出力部10がその旨を表す識別結果を出力し(ステップS16)、処理を終了する。
ここで、すべての識別器から出力された識別ポイントの総和がある閾値を超えた場合に識別対象画像S0に顔が含まれると識別する場合において、顔以外の異物を含む識別対象画像S0については、顔が含まれないと識別する可能性が高い。一方、顔以外の異物を含む画像をサンプル画像に加えて参照データの学習を行った場合は、顔を含まないのに顔を含むと識別する誤検出が多くなってしまうという問題がある。
本発明においては、識別ポイントの総和が第1の閾値Th1より小さく第2の閾値Th2より大きいという、識別対象画像S0に顔が含まれるか否か明確でない場合において、カテゴリごとに識別ポイントの総和を算出し、カテゴリ別総和が第3の閾値Th3以上となったカテゴリの数が第4の閾値Th4以上である場合に、識別対象画像S0に顔が含まれると識別するようにしたため、顔を含むがその一部が異物等により顔と一致しなくなっている識別対象画像S0と、顔を含まないにもかかわらず全体的に見ると顔に類似しているが局所的には顔とは一致しないような識別対象画像S0とを識別することができることとなる。したがって、学習するサンプル画像の種類を増やさなくても、識別対象画像S0に顔が含まれるか否かを識別する際の誤検出を防止することができる。
また、識別器の正答率が高い順に識別ポイントの総和を逐次算出し、識別ポイントの総和が総和を算出した識別器の数に応じた第5の閾値Th5以下の場合には、顔が含まれないと識別しているため、識別対象画像S0に顔が含まれない場合には、比較的早い段階において識別対象画像S0に顔が含まれないと識別されるため、識別の処理を高速に行うことができる。
なお、上記実施形態においては、参照データR1は装置1内のメモリ6に格納されているものとしたが、特徴量算出部4および識別部8が参照データR1にアクセスできる限り、参照データR1は、装置1とは別個の装置やCD−ROM等の差替可能な媒体に記憶されたものであってもよい。
また、上記実施形態においては、特徴量C1として勾配ベクトルKの傾きを用いているが、識別対象画像S0の色相や彩度等の色情報を特徴量C1として用いてもよい。
また、上記実施形態においては、顔を識別対象物として識別対象画像S0に顔が含まれるか否かを識別しているが、ほぼ一定形状をなしており、参照データの学習を行う際にサイズを揃えることが可能な自動車や道路標識等を識別の対象物としてもよい。
また、上記実施形態においては、出力部10が識別対象画像S0から顔を抽出しているが、識別対象画像S0における顔の位置を表す顔位置情報(例えば識別された顔を囲む矩形領域の四隅の座標)を識別対象画像データS0に付与し、顔位置情報が付与された識別対象画像データS0を出力してもよい。ここで、顔位置情報を識別対象画像データS0に付与するには、識別対象画像データS0のヘッダやタグに顔位置情報を記述したり、識別対象画像データS0とファイル名が同一で拡張子が異なる例えばテキストファイルに顔位置情報を記述して、識別対象画像データS0とテキストファイルとを一体不可分とする手法を用いることができる。なお、識別対象画像S0には顔が含まれないと識別された場合には、その識別結果を表す識別情報を識別対象画像データS0に付与して出力してもよい。
また、顔を抽出するのに代えて、識別した顔についてストロボを用いた撮影により赤目となっているか否かを検出し、赤目を修正する処理を行うようにしてもよい。
また、上記実施形態においては、識別の処理を行う際に、すべての識別器あるいは各カテゴリごとの識別器が出力した識別ポイントの総和を算出しているが、各識別器が出力した識別ポイントに重み付けを行って、重み付け総和を算出するようにしてもよい。
また、上記実施形態においては、ステップS31からステップS38において、識別器の正答率が高い順に識別ポイントの総和を逐次算出し、識別ポイントの総和が総和を算出した識別器の数に応じた第5の閾値Th5以下の場合には顔が含まれないと識別し、すべての識別器について識別ポイントの総和が第5の閾値Th5よりも大きい場合に、さらに、識別ポイントの総和が第1の閾値Th1以上であるか否か、さらには識別ポイントの総和が第2の閾値Th2以下であるか否かを判定しているが、ステップS31からステップS38の処理を行うことなく、直ちにステップS39以降の処理を行うようにしてもよい。
以上、本発明の実施形態に係る装置について説明したが、コンピュータを、上記の画像入力部2、特徴量算出部4、メモリ6、識別部8、および出力部10に対応する手段として機能させ、識別対象画像S0に顔が含まれるか否かを識別する処理を行わせるプログラムも、本発明の実施形態の1つである。また、そのようなプログラムを記録したコンピュータ読取可能な記録媒体も、本発明の実施形態の1つである。これらの場合においても、参照データは、プログラム内あるいは同一の記録媒体内に含まれているものであってもよいし、外部の装置や別個の媒体から提供されるものであってもよい。
1 対象物識別装置
2 画像入力部
4 特徴量算出部
6 メモリ
8 識別部
10 出力部
2 画像入力部
4 特徴量算出部
6 メモリ
8 識別部
10 出力部
Claims (6)
- 識別対象画像の入力を受け付ける画像入力手段と、
前記識別対象画像上の所定サイズの範囲内の画素のそれぞれについて、所定対象物の識別に用いる少なくとも1つの特徴量を算出する特徴量算出手段と、
前記所定サイズの範囲内の所定位置における画素の組み合わせからなる複数種類の画素群のそれぞれにおいて算出した前記特徴量の入力により、前記所定対象物が含まれる前記識別対象画像と前記所定対象物が含まれない前記識別対象画像とを識別するための基準値を出力する、前記複数種類の画素群にそれぞれ対応する複数の識別器を備え、前記複数の識別器のそれぞれが、該複数の識別器のそれぞれに対応する画素群の前記所定サイズの範囲内の位置に応じて複数のカテゴリに分類されてなる識別手段であって、前記識別対象画像上の前記所定サイズの範囲における前記特徴量の入力を受け付け、該特徴量の入力により前記識別器が出力した前記基準値の前記複数のカテゴリごとの重み付け総和であるカテゴリ別重み付け総和を算出し、該カテゴリ別重み付け総和が所定の閾値以上となったカテゴリの数が所定数以上であるか否かを判定し、該判定が肯定された場合に、前記識別対象画像に前記所定対象物が含まれると識別する識別手段とを備えたことを特徴とする対象物識別装置。 - 前記識別手段は、前記複数の識別器について、前記識別対象画像に前記所定対象物が含まれると識別する精度が高い順に前記基準値の重み付け総和を逐次算出して、該基準値の重み付け総和を算出した識別器の数に応じて定められる第1の閾値と前記基準値の重み付け総和とを該総和を算出する各段階において比較し、該基準値の重み付け総和が前記第1の閾値以下の場合には、前記カテゴリ別重み付け総和が所定の閾値を超えたカテゴリの数が所定数以上であるか否かの判定を行うことなく、前記識別対象画像に前記所定対象物は含まれないと識別し、前記基準値の重み付け総和が前記第1の閾値より大きい場合には、前記基準値の重み付け総和を算出する前記識別器の数を増やして前記第1の閾値と前記基準値の重み付け総和とを比較することをすべての識別器が出力した前記基準値の重み付け総和を算出するまで繰り返し、すべての識別器が出力した前記基準値の重み付け総和が前記第1の閾値よりも大きい第2の閾値以上の場合に前記識別対象画像に前記所定対象物が含まれると識別し、該基準値の重み付け総和が該第2の閾値よりも小さい第3の閾値以下の場合に前記識別対象画像に前記所定対象物が含まれないと識別し、該基準値の重み付け総和が前記第2の閾値より小さくかつ前記第3の閾値より大きい場合に、前記カテゴリ別重み付け総和が所定の閾値を超えたカテゴリの数が所定数以上であるか否かの判定を行う手段であることを特徴とする請求項1記載の対象物識別装置。
- 前記識別器が、前記所定対象物であることが分かっている前記所定サイズを有する複数のサンプル画像と、前記所定対象物でないことが分かっている前記所定サイズを有する複数のサンプル画像とからなるサンプル画像群について、前記サンプル画像上の前記所定位置における画素の組み合わせからなる複数種類の画素群を設定し、該画素群のそれぞれを構成する画素において算出した特徴量をマシンラーニングの手法によりあらかじめ学習することにより得られてなることを特徴とする請求項1または2記載の対象物識別装置。
- 前記少なくとも1つの特徴量は、画像上の各画素における勾配ベクトルの方向、該勾配ベクトルの大きさおよび色情報の少なくとも1つであることを特徴とする請求項1から3のいずれか1項記載の対象物識別装置。
- 識別対象画像の入力を受け付け、
前記識別対象画像上の所定サイズの範囲内の画素のそれぞれについて、所定対象物の識別に用いる少なくとも1つの特徴量を算出し、
前記所定サイズの範囲内の所定位置における画素の組み合わせからなる複数種類の画素群のそれぞれにおいて算出した前記特徴量の入力により、前記所定対象物が含まれる前記識別対象画像と前記所定対象物が含まれない前記識別対象画像とを識別するための基準値を出力する、前記複数種類の画素群にそれぞれ対応する複数の識別器を備え、前記複数の識別器のそれぞれが、該複数の識別器のそれぞれに対応する画素群の前記所定サイズの範囲内の位置に応じて複数のカテゴリに分類されてなる識別手段に対する、前記識別対象画像上の前記所定サイズの範囲における前記特徴量の入力を受け付け、
該特徴量の入力により前記識別器が出力した前記基準値の前記複数のカテゴリごとの重み付け総和であるカテゴリ別重み付け総和を算出し、
該カテゴリ別重み付け総和が所定の閾値以上となったカテゴリの数が所定数以上であるか否かを判定し、
該判定が肯定された場合に、前記識別対象画像に前記所定対象物が含まれると識別することを特徴とする対象物識別方法。 - 識別対象画像の入力を受け付ける手順と、
前記識別対象画像上の所定サイズの範囲内の画素のそれぞれについて、所定対象物の識別に用いる少なくとも1つの特徴量を算出する手順と、
前記所定サイズの範囲内の所定位置における画素の組み合わせからなる複数種類の画素群のそれぞれにおいて算出した前記特徴量の入力により、前記所定対象物が含まれる前記識別対象画像と前記所定対象物が含まれない前記識別対象画像とを識別するための基準値を出力する、前記複数種類の画素群にそれぞれ対応する複数の識別器を備え、前記複数の識別器のそれぞれが、該複数の識別器のそれぞれに対応する画素群の前記所定サイズの範囲内の位置に応じて複数のカテゴリに分類されてなる識別手段に対する、前記識別対象画像上の前記所定サイズの範囲における前記特徴量の入力を受け付ける手順と、
該特徴量の入力により前記識別器が出力した前記基準値の前記複数のカテゴリごとの重み付け総和であるカテゴリ別重み付け総和を算出する手順と、
該カテゴリ別重み付け総和が所定の閾値以上となったカテゴリの数が所定数以上であるか否かを判定する手順と、
該判定が肯定された場合に、前記識別対象画像に前記所定対象物が含まれると識別する手順とを有することを特徴とする対象物識別方法をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004059177A JP2005250771A (ja) | 2004-03-03 | 2004-03-03 | 対象物識別装置および方法並びにプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004059177A JP2005250771A (ja) | 2004-03-03 | 2004-03-03 | 対象物識別装置および方法並びにプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005250771A true JP2005250771A (ja) | 2005-09-15 |
Family
ID=35031203
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004059177A Withdrawn JP2005250771A (ja) | 2004-03-03 | 2004-03-03 | 対象物識別装置および方法並びにプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005250771A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007108990A (ja) * | 2005-10-13 | 2007-04-26 | Fujifilm Corp | 顔検出方法および装置並びにプログラム |
JP2008517353A (ja) * | 2004-08-16 | 2008-05-22 | シーメンス コーポレイト リサーチ インコーポレイテツド | 交通標識検出方法 |
JP2015103144A (ja) * | 2013-11-27 | 2015-06-04 | 富士ゼロックス株式会社 | 画像処理装置及びプログラム |
JP2015176283A (ja) * | 2014-03-14 | 2015-10-05 | オムロン株式会社 | 事象検出装置および事象検出方法 |
JP2016001387A (ja) * | 2014-06-11 | 2016-01-07 | 日本電信電話株式会社 | 画像分類前処理装置、画像分類装置、画像分類前処理方法、画像分類方法及びプログラム |
JP2017223544A (ja) * | 2016-06-15 | 2017-12-21 | 三菱電機株式会社 | 目標識別装置 |
-
2004
- 2004-03-03 JP JP2004059177A patent/JP2005250771A/ja not_active Withdrawn
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008517353A (ja) * | 2004-08-16 | 2008-05-22 | シーメンス コーポレイト リサーチ インコーポレイテツド | 交通標識検出方法 |
JP4723582B2 (ja) * | 2004-08-16 | 2011-07-13 | シーメンス コーポレーション | 交通標識検出方法 |
JP2007108990A (ja) * | 2005-10-13 | 2007-04-26 | Fujifilm Corp | 顔検出方法および装置並びにプログラム |
JP2015103144A (ja) * | 2013-11-27 | 2015-06-04 | 富士ゼロックス株式会社 | 画像処理装置及びプログラム |
JP2015176283A (ja) * | 2014-03-14 | 2015-10-05 | オムロン株式会社 | 事象検出装置および事象検出方法 |
JP2016001387A (ja) * | 2014-06-11 | 2016-01-07 | 日本電信電話株式会社 | 画像分類前処理装置、画像分類装置、画像分類前処理方法、画像分類方法及びプログラム |
JP2017223544A (ja) * | 2016-06-15 | 2017-12-21 | 三菱電機株式会社 | 目標識別装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7920725B2 (en) | Apparatus, method, and program for discriminating subjects | |
JP4414401B2 (ja) | 顔特徴点検出方法および装置並びにプログラム | |
JP4744918B2 (ja) | 顔検出方法および装置並びにプログラム | |
JP4628882B2 (ja) | 判別器の学習方法、顔判別方法および装置並びにプログラム | |
JP4708909B2 (ja) | デジタル画像の対象物検出方法および装置並びにプログラム | |
JP4624889B2 (ja) | 顔検出方法および装置並びにプログラム | |
US20180114092A1 (en) | Devices, systems, and methods for anomaly detection | |
JP2007213378A (ja) | 特定表情顔検出方法、撮像制御方法および装置並びにプログラム | |
CN109740572A (zh) | 一种基于局部彩色纹理特征的人脸活体检测方法 | |
JP2006119817A (ja) | 画像処理装置 | |
JP4795864B2 (ja) | 特徴点検出装置および方法並びにプログラム | |
JP4757598B2 (ja) | 顔検出方法および装置並びにプログラム | |
JP4510556B2 (ja) | 対象物識別装置および方法並びにプログラム | |
JP2005250771A (ja) | 対象物識別装置および方法並びにプログラム | |
JP4749884B2 (ja) | 顔判別装置の学習方法、顔判別方法および装置並びにプログラム | |
JP4749879B2 (ja) | 顔判別方法および装置並びにプログラム | |
JP4690190B2 (ja) | 画像処理方法および装置並びにプログラム | |
JP2011170890A (ja) | 顔検出方法および装置並びにプログラム | |
JP4493448B2 (ja) | 対象物識別装置および方法並びにプログラム | |
JP4510562B2 (ja) | 円中心位置検出方法および装置並びにプログラム | |
JP4541806B2 (ja) | 対象物識別装置および方法並びにプログラム | |
JP2006244385A (ja) | 顔判別装置およびプログラム並びに顔判別装置の学習方法 | |
JP2005250772A (ja) | 対象物識別装置および方法、学習方法並びにプログラム | |
JP2005250773A (ja) | 対象物識別装置および方法並びにプログラム | |
JP2005250775A (ja) | 対象物識別装置および方法並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20070605 |