JP2012190262A - 顔検出方法 - Google Patents
顔検出方法 Download PDFInfo
- Publication number
- JP2012190262A JP2012190262A JP2011053200A JP2011053200A JP2012190262A JP 2012190262 A JP2012190262 A JP 2012190262A JP 2011053200 A JP2011053200 A JP 2011053200A JP 2011053200 A JP2011053200 A JP 2011053200A JP 2012190262 A JP2012190262 A JP 2012190262A
- Authority
- JP
- Japan
- Prior art keywords
- face
- region
- area
- score
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
【課題】単独の検出器でも、隠れが生じている顔を高い検出率で検出することができる顔検出方法を提供する。
【解決手段】評価対象画像内に設定したROI内に複数の選択領域を設定する。そして、ROI内に画像が顔であるか否かを判定するための1つ以上の画素で構成される複数の特徴量領域を設定し、特徴量領域内の評価対象画像に対して所定の評価を行ってスコアを求める。そして、選択領域と特徴量領域との重なりの程度に応じてスコアを選択領域に按分し、これらの処理を複数の特徴量領域の全てにおいて実行する。その後、複数の特徴量領域において按分されたスコアを集計し、選択領域が顔であるか否かを判定し、複数の選択領域でそれぞれ顔であるか否かを判定した結果に応じてROIが顔であるか否かを判定する。
【選択図】図12
【解決手段】評価対象画像内に設定したROI内に複数の選択領域を設定する。そして、ROI内に画像が顔であるか否かを判定するための1つ以上の画素で構成される複数の特徴量領域を設定し、特徴量領域内の評価対象画像に対して所定の評価を行ってスコアを求める。そして、選択領域と特徴量領域との重なりの程度に応じてスコアを選択領域に按分し、これらの処理を複数の特徴量領域の全てにおいて実行する。その後、複数の特徴量領域において按分されたスコアを集計し、選択領域が顔であるか否かを判定し、複数の選択領域でそれぞれ顔であるか否かを判定した結果に応じてROIが顔であるか否かを判定する。
【選択図】図12
Description
本発明は、画像から顔を検出する顔検出方法に関する。
特徴量を用いた統計量的学習により対象物を検出する装置として、例えば非特許文献1に記載されているものが知られている。非特許文献1に記載された対象物検出装置は、Haar−like(ハーライク)特徴量とBoosting(ブースティング)を用いた顔検出器であり、この顔検出器では、複数の強判別器を一列に連結したカスケード構造を採り、各強判別器は、顔画像に高い通過率を持ち、非顔画像を一定の値で排除する。各強判別器は、複数の弱判別器を有し、各弱判別器が特徴量に対するスコアを求め、そのスコアの合計が各強判別器における所定の閾値を超えるか否かによって、各強判別器が顔か非顔かの判定を行う。全ての強判別器の判定結果が真の場合即ち顔の場合にのみ顔と判定する。各弱判別器は、所定のサイズの入力画像から特徴量を作成し、学習結果を用いて特徴量ごとのスコアを求める。
上記非特許文献1で用いられているHaar−like特徴量は、入力画像に設定する複数の評価ブロックに対し、1対の評価ブロック領域内の画素の平均輝度同士の大小関係より得ている。なお、顔検出に用いる特徴量は、Haar−like特徴量に限らず、例えば特許文献1に記載されている特徴量などを用いても構わない。この特許文献1に記載されている特徴量は、評価ブロック領域内画素の平均輝度と、各評価ブロック領域内画素の平均輝度同士の大小関係より明暗のパターンと明暗の強度とを得ており、明暗のパターンと強度ごとの顔らしさ値を設定している。この特徴量の方がHaar−like特徴量の場合よりも1つの弱判別器による分離性能が高い。
Paul Viola、Michael Jones、「Rapid Object Detection Using a Boosted Cascade of Simple Features」、IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR)、2001年12月、ISSN: 1063-6919, Vol.1、P.511-518
しかしながら、単独の顔検出器では、検出しようとする顔に隠れ(隠蔽)が生じていると検出率をあまり高くとれないという課題がある。顔に隠れが生ずる場合とは、帽子を被っている場合、サングラスを掛けている場合、マスクを掛けている場合、髪の毛によって目が隠れている場合、その他さまざまな遮蔽物によって隠れを生じている場合などである。これらの課題のうち典型的な隠れについては、顔のその典型的な隠れの種類によって別の検出器を用意することで解決することは可能であるが、複数の検出器を用意することで、(1)検出器ごとに学習を行う必要があり、学習結果データも増加する、(2)検出器ごとに特徴量の計算が必要となり計算量が増加する、(3)ハードウェア化する際の回路規模が大きくなる、などの新たな課題が生ずる。顔の隠れの種類によって用意する検出器としては、例えば帽子を被った顔に対応できる帽子顔検出器、マスクを掛けた顔に対応できるマスク顔検出器などが挙げられる。このように様々な顔の隠れに対応するためには、それぞれに対応する検出器を用意する必要があり、それによって上記(1)〜(3)の課題が生ずることになる。
本発明は、係る事情に鑑みてなされたものであり、単独の検出器でも、隠れが生じている顔を高い検出率で検出することができる顔検出方法を提供することを目的とする。
本発明の顔検出方法は、評価対象画像内に顔があるか否かを判定するために前記評価対象画像内に顔枠領域を設定するステップと、前記顔枠領域内に選択領域を設定するステップと、前記顔枠領域内に、画像が顔であるか否かを判定するための一つ以上の画素で構成される複数の特徴量領域を設定するステップと、前記特徴量領域内の前記評価対象画像に対して所定の評価を行ってスコアを求めるスコア算出ステップと、前記選択領域と前記特徴量領域との重なりの程度に応じて、前記スコアを前記選択領域に按分する按分ステップと、前記スコア算出ステップと前記按分ステップを前記複数の特徴量領域の全てにおいて実行するステップと、前記複数の特徴量領域において按分されたスコアを集計するステップと、前記集計した結果により、前記選択領域が顔であるか否かを判定するステップと、を備えたことを特徴とする。
上記方法によれば、複数の特徴量領域それぞれについて、選択領域との重なりの程度に応じてスコアを選択領域に按分し、さらに、複数の特徴量領域のそれぞれにおいて按分されたスコアを集計し、その集計結果に応じて選択領域が顔であるか否かを判定し、前記処理を複数の選択領域のそれぞれについて行う。即ち、1つの顔枠領域に対して、複数の選択領域を設定して、選択領域ごとに顔・非顔の判定を行うので、1つの選択領域でも顔を判定することで最終的に顔を判定できる。顔枠領域において、選択領域を除く残りの領域は、隠蔽領域と見なせるので、隠れのある画像に相当することになる。従来は、隠れのある画像に対して、その画像から顔を判定できる専用の顔検出器を用意する必要があったが、顔枠領域に対して選択領域を設定することで、隠れのある領域の特徴量の寄与を低下させた検出器を構築できる。これにより、マスク顔検出器などといった特定の隠れ顔の専用の顔検出器を用意する必要がなく、1つの顔検出器で様々な隠れのある画像および隠れのない画像から顔か非顔かを判定することができる。そして、1つの顔検出器のみで済むことから、(1)検出器ごとに学習を行う必要がなく学習結果データも増加しない、(2)検出器ごとの特徴量の計算が不要となり計算量が増加しない、(3)ハードウェア化する際の回路規模が増えない、という効果が得られる。
上記方法において、複数の選択領域でそれぞれ顔であるか否かを判定した結果に応じて、前記顔枠領域が顔であるか否かを判定するステップを備えたことを特徴とする。
上記方法によれば、顔枠領域が顔であるか否かを判定することができる。
上記方法において、前記スコアの按分は、前記特徴量領域の面積と前記特徴量領域と前記選択領域との重なり部分の面積との面積比とすることを特徴とする。
上記方法によれば、最適なスコアを得ることができる。
上記方法において、前記スコアの按分は、前記特徴量領域の重心が前記選択領域内に存在する場合は100%、存在しない場合は0%とすることを特徴とする。
上記方法によれば、最適なスコアを得ることができる。
上記方法において、前記スコアの按分を行う場合に、全ての選択領域が分割顔枠領域の組み合わせで構成できるような分割顔枠領域を設定し、各分割顔枠領域でスコアを出したうえで選択領域を構成する分割顔枠領域のスコアを合計することで選択領域のスコアを求めることを特徴とする。
上記方法によれば、選択領域のスコアを効率的に求めることができる。
上記方法において、前記選択領域が顔であるか否かを判定するステップは、閾値と前記集計するステップで集計されたスコアとの比較により判定を行い、前記閾値は選択領域ごとに設定されることを特徴とする。
上記方法によれば、選択領域ごとに顔か非顔かを最適に判定することができる。
上記方法において、各選択領域における顔であるか否かの判定結果から顔の隠蔽された領域を推定することを特徴とする。
上記方法によれば、顔の隠蔽された領域を推定することができる。
本発明のオブジェクト検出方法は、評価対象画像内にオブジェクトがあるか否かを判定するために前記評価対象画像内にオブジェクト枠領域を設定するステップと、前記オブジェクト枠領域内に選択領域を設定するステップと、前記オブジェクト枠領域内に、画像がオブジェクトであるか否かを判定するための一つ以上の画素で構成される複数の特徴量領域を設定するステップと、前記特徴量領域内の前記評価対象画像に対して所定の評価を行ってスコアを求めるスコア算出ステップと、前記選択領域と前記特徴量領域との重なりの程度に応じて、前記スコアを前記選択領域に按分する按分ステップと、前記スコア算出ステップと前記按分ステップを前記複数の特徴量領域の全てにおいて実行するステップと、前記複数の特徴量領域において按分されたスコアを集計するステップと、前記集計した結果により、前記選択領域がオブジェクトであるか否かを判定するステップと、を備えたことを特徴とする。
上記方法によれば、複数の特徴量領域それぞれについて、選択領域との重なりの程度に応じてスコアを選択領域に按分し、さらに、複数の特徴量領域のそれぞれにおいて按分されたスコアを集計し、その集計結果に応じて選択領域がオブジェクトであるか否かを判定し、前記処理を複数の選択領域のそれぞれについて行う。即ち、1つのオブジェクト枠領域に対して、複数の選択領域を設定して、選択領域ごとにオブジェクト・非オブジェクトの判定を行うので、1つの選択領域でもオブジェクトを判定することで最終的にオブジェクトを判定できる。オブジェクト枠領域において、選択領域を除く残りの領域は、隠蔽領域と見なせるので、隠れのある画像に相当することになる。従来は、隠れのある画像に対して、その画像からオブジェクトを判定できる専用のオブジェクト検出器を用意する必要があったが、オブジェクト枠領域に対して選択領域を設定することで、隠れのある領域の特徴量の寄与を低下させた検出器を構築できる。これにより、専用のオブジェクト検出器を用意する必要がなく、1つのオブジェクト検出器で様々な隠れのある画像および隠れのない画像からオブジェクトか非オブジェクトかを判定することができる。そして、1つのオブジェクト検出器のみで済むことから、(1)検出器ごとに学習を行う必要がなく学習結果データも増加しない、(2)検出器ごとの特徴量の計算が不要となり計算量が増加しない、(3)ハードウェア化する際の回路規模が増えない、という効果が得られる。
本発明によれば、単独の検出器でも、隠れが生じている顔を高い検出率で検出することができる。また、隠れを生じさせた物体の種類を限定させて学習した場合(例:マスク顔の学習)と異なり、隠れを生じさせた物体の種類によらず、検出の効果を得ることができる。
以下、本発明を実施するための好適な実施の形態について、図面を参照して詳細に説明する。
まず、本発明の実施の形態について説明する。本発明の実施の形態は、評価対象画像内に顔があるか否かを判定するために、例えばカメラからの入力画像(これを“評価対象画像”と呼ぶ)内に顔枠領域(以下、“ROI:Region of Interest”と呼ぶ)を設定し、次いで、ROI内に部分顔枠領域(以下、“選択領域”と呼ぶ)を設定し、次いで、ROI内に画像が顔であるか否かを判定するための1つ以上の画素で構成される評価ブロック(評価ブロックの領域を“特徴量領域”と呼ぶ)を複数設定し、設定した特徴量領域内の評価対象画像に対して所定の評価を行ってスコアを求める。次いで、選択領域と特徴量領域との重なりの程度に応じてスコアを選択領域に按分し、前記スコア算出及び按分処理を複数の特徴量領域の全てにおいて実行し、その後、複数の特徴量領域において按分されたスコアを集計して、その集計結果により、設定した選択領域が顔であるか否かを判定し、複数の選択領域でそれぞれ顔であるか否かを判定した結果に応じてROIが顔であるか否かを判定する、例である。
図1は、本発明の一実施の形態に係る顔検出器の概略構成を示すブロック図である。同図において、本実施の形態の顔検出器1は、複数の強判別器2−1,…,2−mを備える。強判別器2−1は、複数の弱判別器3−1−1,…,3−1−n、メモリ部4、閾値テーブル5及び比較判定部6を備える。強判別器2−2は、複数の弱判別器3−2−1,…,3−2−n、メモリ部4、閾値テーブル5及び比較判定部6を備える。同様に、強判別器2−mは、複数の弱判別器3−m−1,…,3−m−n、メモリ部4、閾値テーブル5及び比較判定部6を備える。ここで、各強判別器2−1,…,2−mが有する弱判別器は異なるものであり、その数も一定ではない。なお、各強判別器2−1,…,2−mはパラメータの違いだけで全て共通する動作を行うので、強判別器2−1を例に挙げて説明する。また、強判別器2−1の各弱判別器3−1−1,…,3−1−nも全て共通する動作を行うので、弱判別器3−1−1を例に挙げて説明する。また、複数の強判別器2−1,…,2−mをひとまとめに呼称する場合は“強判別器2”と記載し、複数の弱判別器3−1−1,…,3−1−nをひとまとめに呼称する場合は“弱判別器3”と記載することとする。以下、簡単化のため、弱判別器3−1−1を“弱判別器3−1”と記載することとする。
上述したように、強判別器2に含まれる弱判別器3の数は一定ではないが、後段の強判別器2ほど、多数の弱判別器3を含む傾向にある。弱判別器3−1は、特徴量算出部30−1、スコアテーブル30−2及び分配係数テーブル30−3を備える。特徴量算出部30−1は、評価対象画像内に顔があるか否かを判定するために、当該評価対象画像に設定したROI(即ち顔枠領域)20における弱判別器3−1の特徴を量的に算出する。特徴量としては、前述した非特許文献1で用いられているHaar−like特徴量でも良く、また特許文献1に記載されている特徴量でも良い。または、その他の特徴量でも良い。因みに、Haar−like特徴量は、入力画像に設定した複数の評価ブロックに対し、1対の評価ブロック領域内の画素の平均輝度同士の大小関係より得られる。特許文献1に記載されている特徴量は、評価ブロック領域内画素の平均輝度と、各評価ブロック領域内画素の平均輝度同士の大小関係より得られる。
弱判別器3−1の特徴の条件として、正規化したROI20の空間座標において、その座標上の画素値から算出される特徴であり、特徴量計算に用いる画素が選択領域に含まれているかどうかを判定できることが挙げられる。以下にその例を満たす特徴量の例を挙げる。また、これらの特徴を組み合わせて生成できる特徴においても適用可能である。
例(1):明るいブロック(明ブロック)の輝度値の総和−暗いブロック(暗ブロック)の輝度値の総和
例(2):複数の評価ブロックの明暗のパターンとその強度
例(3):複数の評価ブロックの明暗の明暗パターン
例(4):エッジ画像からブロック内のエッジ強度による特徴量
例(5):評価ブロック内の輝度値の勾配と勾配の強度を用いた特徴
例(6):複数の評価ブロックの明暗パターンと同じブロック領域でのエッジ画像の明暗パターン
例(1):明るいブロック(明ブロック)の輝度値の総和−暗いブロック(暗ブロック)の輝度値の総和
例(2):複数の評価ブロックの明暗のパターンとその強度
例(3):複数の評価ブロックの明暗の明暗パターン
例(4):エッジ画像からブロック内のエッジ強度による特徴量
例(5):評価ブロック内の輝度値の勾配と勾配の強度を用いた特徴
例(6):複数の評価ブロックの明暗パターンと同じブロック領域でのエッジ画像の明暗パターン
なお、本発明における特徴に該当しないものとしては、例えばROIのフーリエ変換が挙げられる。ROIのフーリエ変換は、ROI領域の全ての画素値に基づく計算量であって選択領域によって絞り込むことができないためである。また、微妙なものとしては、例えばGabor特徴量が挙げられる。
弱判別器3−1のスコアテーブル30−2は、特徴量算出部30−1で算出された特徴量のスコアを得るためのルックアップテーブルである。図2は、弱判別器3−1−1,…,3−1−nのスコアテーブルのデータ構造の一例を示す図である。同図では、非特許文献1で示されたと同じく、閾値によって2値判定した場合の例である。例えば、弱判別器3−1−1では、特徴量のスコアとしてOKのとき(即ち閾値以上のとき)は“1”の値をとり、特徴量のスコアとしてNGのとき(即ち閾値未満のとき)は“−0.7”の値をとる。同じく、弱判別器3−1−2では、特徴量のスコアとしてOKのとき(即ち閾値以上のとき)は“0.8”の値をとり、特徴量のスコアとしてNGのとき(即ち閾値未満のとき)は“−0.6”の値をとる。また、弱判別器3−1−3では、特徴量のスコアとしてOKのとき(即ち閾値以上のとき)は“0.7”の値をとり、特徴量のスコアとしてNGのとき(即ち閾値未満のとき)は“−0.5”の値をとる。他に別の特徴量を用いたときには、弱判別器のスコアテーブルは必ずしも2値ではなく、2次元ルックアップテーブルとして与えられる場合もある。例(2)の複数の評価ブロックの明暗のパターンとその強度を特徴量に用いた場合には、弱判別器のスコアテーブルは、明暗パターンとその強度の2つのインデックスに対するルックアップテーブルとして与えられる。
上述したように1つの強判別器2−1を構成する複数の弱判別器3−1−1,…,3−1−nの各々における特徴量のスコアは強判別器2−1において異なるだけではなく、強判別器2ごとに異なる値となる。図3は、強判別器2ごとの各弱判別器3における特徴量のスコアのテーブルのデータ構造の一例を示す図である。同図に示すように、強判別器2が異なれば含まれる弱判別器が異なるため弱判別器3の特徴量のスコアも異なる。
分配係数テーブル30−3は、選択領域と特徴量領域との重なりに応じて、スコアを選択領域に按分する際に用いられる係数のテーブルである。即ち、弱判別器3では、特徴量領域内の選択領域の画像に対して所定の評価を行ってスコアを求めるが、このとき求められたスコアを選択領域に按分する際に用いられる。スコアの按分は、特徴量領域の面積と、特徴量領域と選択領域との重なり部分の面積との面積比となる。分配係数の値は0%から100%までの間の値をとる。図4は、例えば1番目の強判別器に属する各弱判別器3−1−1,…,3−1−nにおける分配係数を示す分配係数テーブル30−3の一例を示す図である。図4に示す分配係数テーブルは、検出器で使用される強判別器の数だけある。また、それぞれの強判別器に属する弱判別器の個数も、強判別器ごとに異なる。ここで、同図に記載しているパターン1,2,…は、選択領域のパターンを示している。特徴量領域の全域が選択領域と重なる場合、分配係数は100%となり、特徴量領域が多少の領域を残して選択領域と重なる場合、100%より低い分配係数となる。まったく重ならない場合には0%となる。分配係数テーブルは、各特徴量と選択領域とが与えられれば決定される量であり、予め計算によって固定値として与えられる。
図5及び図6は、分配係数を求める処理を模式的に示した図である。図5の(a)において、ROI20の領域サイズの画像100に対して特徴量領域200を設定する。このとき、特徴量領域200の特徴量のスコアを“a”と仮定する。次いで、図5の(b)において、画像100内に選択領域101を設定する。このときの選択領域101は、隠れ領域102を除く領域である。なお、図5の(a)の画像100そのものも選択領域であり、隠れ領域102が無いだけである。次いで、図5の(b)に示すように、隠れ領域102がある選択領域101の場合、特徴量領域200の特徴量のスコアは、隠れ領域102が無いときの特徴量領域200の特徴量のスコアaに選択領域101での特徴量の分配係数を掛けた値となる。選択領域101での特徴量の分配係数は、図5の(c)に示すように、特徴量領域200と選択領域101とが重なった重なり領域201の面積を特徴量領域200の面積で割った値となる。このとき、特徴量領域200と選択領域101の重なり領域201は、図5の(d)で示すように略逆L字状となる。特徴量領域200を100%とすると、特徴量領域200に対する重なり領域201の割合は50%となる。したがって、分配係数は50%となり、重なり領域201のスコアは、特徴量領域200のときのスコアaの50%即ち0.5aとなる。このスコア0.5aが、選択領域101が設定された弱判別器3の出力となる。
また、図6の(a)において、ROI20の領域サイズの画像100に対して特徴量領域210を設定する。このとき、特徴量領域210の特徴量のスコアを“b”と仮定する。次に、図6の(b)において、画像100内に選択領域101を設定する。このときの選択領域101は、隠れ領域102を除く領域である。なお、上記同様に、図6の(a)の画像100そのものも選択領域であり、隠れ領域102が無いだけである。図6の(b)に示す選択領域101における特徴量領域210の特徴量のスコアは、特徴量のスコアbに選択領域101での特徴量の分配係数を掛けた値となる。選択領域101での特徴量の分配係数は、図6の(b)に示すように、特徴量領域210と選択領域101とが重なった重なり領域211の面積を特徴量領域210の面積で割った値となる。このとき、特徴量領域210と選択領域101の重なり領域211は、特徴量領域210と同じである。特徴量領域210を100%とすると、特徴量領域210に対する重なり領域211の割合は100%となる。したがって、分配係数は100%となり、重なり領域211のスコアは、特徴量領域210のときのスコアbの100%即ちbとなる。このスコアbが、選択領域101が設定された弱判別器3の出力となる。
なお、図5及び図6では、特徴量領域200,210それぞれの形状を矩形としたが、この形状に限定はなく、如何なる形状であっても構わない。また、選択領域の形状も後述するように、直線で区切られている必要はなく、如何なる形状であっても構わない。
強判別器2−1のメモリ部4は、選択領域ごとのスコア合計を記憶する。強判別器2−1の閾値テーブル5は、選択領域ごとの強判別器2の閾値テーブルである。図7は、選択領域のパターンごとの強判別器2の閾値テーブルのデータ構造の一例を示す図である。同図では、全ての閾値が正の値となっているが、負の値となる場合もある。また、同図において、1番目の強判別器2−1と2番目の強判別器2−2では、選択領域のパターンごとの閾値が一致しているが、一致しない場合が多い。また、同図において、強判別器2が後段になるに従って閾値の値が増加しているが、必ずしもこのような傾向になるとは限らないし、また単調に増加する(例えば、パターン1では、1.5→2.15→3.0→4.0)とも限らない。
ここで、選択領域に対する閾値の決定方法について説明する。
学習データとして用意された顔画像群と非顔画像群に対して以下の処理を行う。
各強判別器2に対して以下の処理を行う。
・強判別器2に属する弱判別器3について、隠れのない場合(=全領域を用いた場合)の弱判別器3のスコアの合計の分布を作成する。すなわち、強判別器2に至るまでの全ての強判別器のいずれかに属する全ての弱判別器のスコアの合計の分布を作成する。図16はそのスコア合計の分布の模式図である。図16の横軸はスコア合計、縦軸は頻度(相対値)である。グラフの下側は、分布の裾の広がりを見るための拡大図である。横軸の右側にあるほど、ROI領域にある画像は顔らしいと判断され、横軸の左側にあるほど顔らしくないと判断されていることを示している。なお、横軸のスコア合計の0の位置は、特別意味を持たない。顔画像群に対してはある値を中心に左右に裾を引いた形状の分布になる。非顔画像群に対しては、それより値の低いスコア(図の左側に)にピークを持つ分布になる。良好な学習を行った場合には、顔画像群に対するスコア合計の分布と非顔画像群に対するスコア合計の分布が離れていて、スコア合計の閾値との比較によって顔・非顔の判定ができる。誤検出を一定の頻度以下に抑えるためには、非顔のスコア合計の分布の閾値以上の値を占める比率を一定値以下になるように調整する。
・弱判別器3のスコアに対する各選択領域101への分配係数を用いて、各選択領域101に対する弱判別器3のスコアを算出する。
・各選択領域101に対する弱判別器3のスコアの合計の分布を作成する。すなわち、強判別器2に至るまでの全ての強判別器のいずれかに属する全ての弱判別器の各選択領域101での分配係数を考慮したスコアの合計の分布を作成する。隠れのない顔画像群と非顔画像群でのスコア合計の分布を比較すると、その分布は、全領域を用いた場合のスコア合計の分布よりは近接した分布となる。そうであっても、選択領域が実際に顔の見えている範囲に合致するときは、顔の見えていない領域の特徴量の寄与を低下させることで、顔と非顔の分離性を得ることができる。そのための強判別器の閾値は、選択領域101ごとにより異なり、次のようにして設定する。
・各選択領域101に対する強判別器3の閾値を非顔スコアに対する通過率を所定値以下になるように設定する。この非顔スコアに対する通過率は、選択領域に対する非顔スコアの合計の分布図のうち、閾値以上の面積が、スコア合計分布全体の面積に占める割合である。この値が大きいときには誤検出を生じやすくなるので、許容できる誤検出率になるように、閾値の値を調整する。そして、その閾値に対して、選択領域での顔のスコア合計の分布図とを比較したときに、その選択領域での検出率を見積もることができる。図17は選択領域101d(図8参照)の場合のスコア合計の分布の模式図である。選択領域がROI全体である図16の場合と比べて、顔画像のスコア合計の分布の裾と非顔画像のスコア合計の分布の裾は、近接している。なお、図16での分布のピーク位置と図17での分布のピーク位置は一般には異なる。顔画像のピークと非顔画像のピークとの差は、選択領域を設定するとROIを全て選択領域とする場合に比べて、ピーク間の差が小さくなる。この例の閾値は、非顔が顔と判定されないことを重要視したポリシーにもとづいて閾値を設定している(フォルスポジティブ)。このように、選択領域ごとにスコア合計の分布を求めて閾値を設定する。
なお、閾値の設定方法は上記に限らず隠蔽のない場合の閾値をもとにして、分配係数をもとに一定の係数をかけるなどして各選択領域の閾値を求めても良い。
実用上重要なことは、図17のスコア合計の分布図を作成するのにおいて、隠れを生じた自然画像(=人為的に加工した画像ではなく、ふつうに隠れを生じた無加工の画像)を必要としないという点である。本発明では、隠れを生じた顔の検出器の構築にあたって、隠れを生じた顔の学習用にも、閾値の調整用にも必要としない。
学習データとして用意された顔画像群と非顔画像群に対して以下の処理を行う。
各強判別器2に対して以下の処理を行う。
・強判別器2に属する弱判別器3について、隠れのない場合(=全領域を用いた場合)の弱判別器3のスコアの合計の分布を作成する。すなわち、強判別器2に至るまでの全ての強判別器のいずれかに属する全ての弱判別器のスコアの合計の分布を作成する。図16はそのスコア合計の分布の模式図である。図16の横軸はスコア合計、縦軸は頻度(相対値)である。グラフの下側は、分布の裾の広がりを見るための拡大図である。横軸の右側にあるほど、ROI領域にある画像は顔らしいと判断され、横軸の左側にあるほど顔らしくないと判断されていることを示している。なお、横軸のスコア合計の0の位置は、特別意味を持たない。顔画像群に対してはある値を中心に左右に裾を引いた形状の分布になる。非顔画像群に対しては、それより値の低いスコア(図の左側に)にピークを持つ分布になる。良好な学習を行った場合には、顔画像群に対するスコア合計の分布と非顔画像群に対するスコア合計の分布が離れていて、スコア合計の閾値との比較によって顔・非顔の判定ができる。誤検出を一定の頻度以下に抑えるためには、非顔のスコア合計の分布の閾値以上の値を占める比率を一定値以下になるように調整する。
・弱判別器3のスコアに対する各選択領域101への分配係数を用いて、各選択領域101に対する弱判別器3のスコアを算出する。
・各選択領域101に対する弱判別器3のスコアの合計の分布を作成する。すなわち、強判別器2に至るまでの全ての強判別器のいずれかに属する全ての弱判別器の各選択領域101での分配係数を考慮したスコアの合計の分布を作成する。隠れのない顔画像群と非顔画像群でのスコア合計の分布を比較すると、その分布は、全領域を用いた場合のスコア合計の分布よりは近接した分布となる。そうであっても、選択領域が実際に顔の見えている範囲に合致するときは、顔の見えていない領域の特徴量の寄与を低下させることで、顔と非顔の分離性を得ることができる。そのための強判別器の閾値は、選択領域101ごとにより異なり、次のようにして設定する。
・各選択領域101に対する強判別器3の閾値を非顔スコアに対する通過率を所定値以下になるように設定する。この非顔スコアに対する通過率は、選択領域に対する非顔スコアの合計の分布図のうち、閾値以上の面積が、スコア合計分布全体の面積に占める割合である。この値が大きいときには誤検出を生じやすくなるので、許容できる誤検出率になるように、閾値の値を調整する。そして、その閾値に対して、選択領域での顔のスコア合計の分布図とを比較したときに、その選択領域での検出率を見積もることができる。図17は選択領域101d(図8参照)の場合のスコア合計の分布の模式図である。選択領域がROI全体である図16の場合と比べて、顔画像のスコア合計の分布の裾と非顔画像のスコア合計の分布の裾は、近接している。なお、図16での分布のピーク位置と図17での分布のピーク位置は一般には異なる。顔画像のピークと非顔画像のピークとの差は、選択領域を設定するとROIを全て選択領域とする場合に比べて、ピーク間の差が小さくなる。この例の閾値は、非顔が顔と判定されないことを重要視したポリシーにもとづいて閾値を設定している(フォルスポジティブ)。このように、選択領域ごとにスコア合計の分布を求めて閾値を設定する。
なお、閾値の設定方法は上記に限らず隠蔽のない場合の閾値をもとにして、分配係数をもとに一定の係数をかけるなどして各選択領域の閾値を求めても良い。
実用上重要なことは、図17のスコア合計の分布図を作成するのにおいて、隠れを生じた自然画像(=人為的に加工した画像ではなく、ふつうに隠れを生じた無加工の画像)を必要としないという点である。本発明では、隠れを生じた顔の検出器の構築にあたって、隠れを生じた顔の学習用にも、閾値の調整用にも必要としない。
強判別器2−1の比較判定部6は、メモリ部4に記憶された選択領域ごとのスコア合計と選択領域ごとの強判別器2−1の閾値との比較を行い、その結果即ち選択領域ごとの強判別器2−1の判定結果を出力する。
次に、本実施の形態の顔検出器1の動作を説明する。
図8は、本実施の形態の顔検出器1の動作の概略を模式的に示した図である。同図において、本実施の形態の顔検出器1では、例えばROI20の領域に対して5つの選択領域を設定する。四角形の隠れ領域102を除く部分が選択領域であるが、選択領域101aについては隠れ領域102はなくROI20全体が選択されている。隠れ領域102が左上にあるのが選択領域101b、隠れ領域102が右上にあるのが選択領域101c、隠れ領域102が左下にあるのが選択領域101d、隠れ領域102が右下にあるのが選択領域101eである。これらの選択領域101a〜101eに対し、顔検出器1を構成する複数の強判別器2−1,…,2−mの各々が顔・非顔の判定を行う。各選択領域101a〜101eに対する全ての強判別器2−1,…,2−mの判定結果から、どの選択領域での判定も非顔のときだけ非顔と判定する。
図8は、本実施の形態の顔検出器1の動作の概略を模式的に示した図である。同図において、本実施の形態の顔検出器1では、例えばROI20の領域に対して5つの選択領域を設定する。四角形の隠れ領域102を除く部分が選択領域であるが、選択領域101aについては隠れ領域102はなくROI20全体が選択されている。隠れ領域102が左上にあるのが選択領域101b、隠れ領域102が右上にあるのが選択領域101c、隠れ領域102が左下にあるのが選択領域101d、隠れ領域102が右下にあるのが選択領域101eである。これらの選択領域101a〜101eに対し、顔検出器1を構成する複数の強判別器2−1,…,2−mの各々が顔・非顔の判定を行う。各選択領域101a〜101eに対する全ての強判別器2−1,…,2−mの判定結果から、どの選択領域での判定も非顔のときだけ非顔と判定する。
図9は、各選択領域101a〜101eに対する全ての強判別器2−1,…,2−mの判定結果の一例を模式的に示した図である。この例では、強判別器2−1は、選択領域101a〜101eの全てに対して「顔」と判定している。強判別器2−2は、選択領域101a,101c,101d及び101eの4つの選択領域に対して「顔」と判定している。また、強判別器2−3は、選択領域101a,101d及び101eの3つの選択領域に対して「顔」と判定している。また、強判別器2−mは、選択領域101dに対してのみ「顔」と判定している。顔・非顔の判定においては、選択領域ごとに誤検出数が一定値以下になるように調整した閾値を用いて行う。また、強判別器2に対して顔判定が続いている選択領域がある限り、次段の強判別器2にて顔・非顔の判定を行う。したがって、例えば強判別器2−2では、選択領域101bに対して「非顔」と判定したので、それ以降の強判別器2−3,…,2−mでは判定は行われない。選択領域101dに対しては、全ての強判別器2−1,…,2−mが「顔」と判定しているので、最後の強判別器2−mまで判定が行われる。この図に示す例では、選択領域101dのみ「顔」と判定している。選択領域101dが「顔」と判定されたので、評価対象画像は「顔」であると判定される。
次に、強判別器2−1の内部動作について説明する。
図10は、強判別器2−1の内部動作を模式的に示した図である。同図において、強判別器2−1は、n個の弱判別器3−1−1,3−1−2,3−1−3,…,3−1−nを備えている。弱判別器3−1−1,3−1−2,3−1−3,…,3−1−nの各々は、対応する特徴量領域を設定する。特徴量領域とはその領域に属する画素値を用いて弱判別器の特徴を計算する領域である。即ち、弱判別器3−1−1は、特徴量領域200−1を設定する。また、弱判別器3−1−2は、特徴量領域200−2を設定する。また、弱判別器3−1−3は、特徴量領域200−3を設定する。また、弱判別器3−1−nは、特徴量領域200−nを設定する。そして、各弱判別器3−1−1,3−1−2,3−1−3,…,3−1−nは、隠れのない場合に対する弱判別器のスコアを求める。各弱判別器3−1−1,3−1−2,3−1−3,…,3−1−nのスコアは、図2に示すスコアテーブル30−2より得られる。次に、それぞれの選択領域101a〜101eの場合の選択領域での分配係数を考慮した各弱判別器のスコアを求める。全領域の選択領域101aを除く他の全ての選択領域101b〜101eについて、特徴量領域200−1〜200−nと選択領域101b〜101eとの重なり程度に応じて、スコアを選択領域101b〜101eに按分する。スコアを選択領域101に按分するときには、図4に示す分配係数テーブル30−3の分配係数を用いる。以上のように各弱判別器3−1−1,3−1−2,3−1−3,…,3−1−nは、選択領域101a〜101eにおけるスコアを求める。そして、選択領域101a〜101eごとに各弱判別器3−1−1,3−1−2,3−1−3,…,3−1−nより得られるスコアを合計し、合計値を強判別器2−1の閾値と比較し、その比較結果から顔・非顔を判定する。スコア合計値と比較する強判別器2−1の閾値は、図7に示す閾値テーブル5より得る。
図10は、強判別器2−1の内部動作を模式的に示した図である。同図において、強判別器2−1は、n個の弱判別器3−1−1,3−1−2,3−1−3,…,3−1−nを備えている。弱判別器3−1−1,3−1−2,3−1−3,…,3−1−nの各々は、対応する特徴量領域を設定する。特徴量領域とはその領域に属する画素値を用いて弱判別器の特徴を計算する領域である。即ち、弱判別器3−1−1は、特徴量領域200−1を設定する。また、弱判別器3−1−2は、特徴量領域200−2を設定する。また、弱判別器3−1−3は、特徴量領域200−3を設定する。また、弱判別器3−1−nは、特徴量領域200−nを設定する。そして、各弱判別器3−1−1,3−1−2,3−1−3,…,3−1−nは、隠れのない場合に対する弱判別器のスコアを求める。各弱判別器3−1−1,3−1−2,3−1−3,…,3−1−nのスコアは、図2に示すスコアテーブル30−2より得られる。次に、それぞれの選択領域101a〜101eの場合の選択領域での分配係数を考慮した各弱判別器のスコアを求める。全領域の選択領域101aを除く他の全ての選択領域101b〜101eについて、特徴量領域200−1〜200−nと選択領域101b〜101eとの重なり程度に応じて、スコアを選択領域101b〜101eに按分する。スコアを選択領域101に按分するときには、図4に示す分配係数テーブル30−3の分配係数を用いる。以上のように各弱判別器3−1−1,3−1−2,3−1−3,…,3−1−nは、選択領域101a〜101eにおけるスコアを求める。そして、選択領域101a〜101eごとに各弱判別器3−1−1,3−1−2,3−1−3,…,3−1−nより得られるスコアを合計し、合計値を強判別器2−1の閾値と比較し、その比較結果から顔・非顔を判定する。スコア合計値と比較する強判別器2−1の閾値は、図7に示す閾値テーブル5より得る。
図11は、図10の具体例を模式的に示した図である。この場合強判別器2−1は4つの弱判別器3−1−1,3−1−2,3−1−3,3−1−nから構成される。同図において、弱判別器3−1−1における判別に際して特徴量領域200−1が設定される。このとき、特徴量領域200−1に対して与えられたスコアが「1.0」であるとすると、隠れ領域102のない画像100の全領域を選択する選択領域101aにおける弱判別器3−1−1から出力されるスコアは、1.0×100%=1.0となる。また、左上に隠れ領域102がある画像100を選択する選択領域101bにおける弱判別器3−1−1から出力されるスコアは、1.0×80%=0.8となる。また、左下に隠れ領域102がある画像100を選択する選択領域101dにおける弱判別器3−1−1から出力されるスコアは、1.0×80%=0.8となる。
また、弱判別器3−1−2における判別に際して特徴量領域200−2が設定される。このとき、特徴量領域200−2に対して与えられたスコアが「−0.6」であるとすると、隠れ領域102のない画像100の全領域を選択する選択領域101aにおける弱判別器3−1−2から出力されるスコアは、−0.6×100%=−0.6となる。また、左上に隠れ領域102がある画像100を選択する選択領域101bにおける弱判別器3−1−2から出力されるスコアは、−0.6×100%=0.6となる。また、左下に隠れ領域102がある画像100を選択する選択領域101dにおける弱判別器3−1−2から出力されるスコアは、−0.6×20%=−0.12となる。
また、弱判別器3−1−3における判別に際して特徴量領域200−3が設定される。このとき、特徴量領域200−3に対して与えられたスコアが「0.7」であるとすると、隠れ領域102のない画像100の全領域を選択する選択領域101aにおける弱判別器3−1−3から出力されるスコアは、0.7×100%=0.7となる。また、左上に隠れ領域102がある画像100を選択する選択領域101bにおける弱判別器3−1−3から出力されるスコアは、0.7×100%=0.7となる。また、左下に隠れ領域102がある画像100を選択する選択領域101dにおける弱判別器3−1−3から出力されるスコアは、0.7×100%=0.7となる。
また、弱判別器3−1−nにおける判別に際して特徴量領域200−nが設定される。このとき、特徴量領域200−nに対して与えられたスコアが「0.3」であるとすると、隠れ領域102のない画像100の全領域を選択する選択領域101aにおける弱判別器3−1−nから出力されるスコアは、0.3×100%=0.3となる。また、左上に隠れ領域102がある画像100を選択する選択領域101bにおける弱判別器3−1−nから出力されるスコアは、0.3×100%=0.3となる。また、左下に隠れ領域102がある画像100を選択する選択領域101dにおける弱判別器3−1−nから出力されるスコアは、0.3×100%=0.3となる。
そして、隠れ領域102のない画像100の全領域を選択する選択領域101aにおいて各弱判別器3−1−1,3−1−2,3−1−3,3−1−nから得られるスコアの合計が、1.0+(−0.6)+0.7+0.3=1.4となる。このスコア合計1.4と強判別器2−1の閾値とを比較する。隠れ領域102のない画像100の全領域に対する強判別器2−1の閾値は1.5であるので、スコア合計1.4<閾値1.5となり、判定結果は「非顔」となる。
また、左上に隠れ領域102がある画像100を選択する選択領域101bにおいて各弱判別器3−1−1,3−1−2,3−1−3,3−1−nから得られるスコアの合計が、0.8+(−0.6)+0.7+0.3=1.2となる。このスコア合計1.2と強判別器2−1の閾値とを比較する。左上に隠れ領域102がある画像100を選択する選択領域101bに対する強判別器2−1の閾値は1.5であるので、スコア合計1.2<閾値1.5となり、判定結果は「非顔」となる。
また、左下に隠れ領域102がある画像100を選択する選択領域101dにおいて各弱判別器3−1−1,3−1−2,3−1−3,3−1−nから得られるスコアの合計が、0.8+(−0.12)+0.7+0.3=1.68となる。このスコア合計1.68と強判別器2−1の閾値とを比較する。左上に隠れ領域102がある画像100を選択する選択領域101dに対する強判別器2−1の閾値は1.5であるので、スコア合計1.68>閾値1.5となり、判定結果は「顔」となる。
ここで、図11の例において、弱判別器3−1−2は、隠れ領域102の影響を受けて結果的にNGとなるが、選択領域101dにおけるスコア合計が正(プラス)の方向に行くので、隠れ領域102の影響でNGが選ばれた弱判別器3−1−2の影響を低減できる。
このため、選択領域を設定した場合のスコアの合計の方が、ROI領域全体でのスコアの合計に比べて、選択領域のみが見えている顔画像群における顔スコアの分布と非顔スコアの分布との分離性がよくなる。このことが、選択領域での閾値判定で顔と検出されやすくなる理由である。
なお、各選択領域での閾値が1.5と同じ値が設定されているが、前述したように選択領域ごとに異なる値が設定されてもよい。
このため、選択領域を設定した場合のスコアの合計の方が、ROI領域全体でのスコアの合計に比べて、選択領域のみが見えている顔画像群における顔スコアの分布と非顔スコアの分布との分離性がよくなる。このことが、選択領域での閾値判定で顔と検出されやすくなる理由である。
なお、各選択領域での閾値が1.5と同じ値が設定されているが、前述したように選択領域ごとに異なる値が設定されてもよい。
また、図11の例では、1段目の強判別器2−1についてのみの結果であるが、2段目以降の強判別器2−2,…,2−mでも1段目の強判別器2−1と同様の処理が行われる。当然ながら、スコアの値や分配係数の値は各段で異なることは言うまでもない(同じ値になることも勿論ある)。また、2段目以降の強判別器2−2,…,2−mの判定で行うスコアの合計は、それまでに評価した弱判別器3のスコアの合計を用いる。つまり、強判別器2−2では、強判別器2−1の弱判別器3−1−1から3−1−nのスコアの合計に、2段目の強判別器2−2の弱判別器3−2−1から3−2−nのスコアの合計を加えたものになる(1番目の強判別器に属する弱判別器3−1の個数と2番目の強判別器に属する弱判別器3−2の個数nとは必ずしも同じではない)。2段目以降で、それまでの強判別器2に含まれる弱判別器3のスコアの合計を用いることは次の利点が得られる。
学習に用いているBoostingのアルゴリズムでは、ターゲットと背景画像(検出対象のターゲットを含まない画像)との分離性能がよい特徴量から選択していくので、1番目の強判別器2に含まれる矩形テンプレート(特徴量領域)の方が、最終段の強判別器2に含まれる矩形テンプレート(特徴量領域)よりも分離性能が高い。そのため、それまでの強判別器2に含まれる弱判別器3のスコアの合計を用いた方が、ターゲットと背景とのスコアの合計の分離性能がよくなる。但し、本発明に述べる手法において、スコアの合計をそれまでに評価した弱判別器3のスコアの合計にすることは必須条件ではない。各強判別器2に含まれる弱判別器3のスコアの合計のみで判定してもかまわない。
図12は、本実施の形態の顔検出器1の動作を説明するためのフローチャートである。同図において、まず評価対象画像内に顔があるか否かを判定するために、該評価対象画像内にROI(顔枠領域)20を設定する(ステップS1)。ROI20を設定した後、処理中の選択領域を示すカウンタkを「1」に設定し、また選択領域数pを設定する(ステップS2)。次いで、kの値を増加させながらk番目の選択領域におけるスコア合計[k]を「0」にリセットする(ステップS3)。kが選択領域数pになるまでステップS3の処理を繰り返しスコア合計[k]の値を設定する。(ステップS2〜ステップS4)。以下ステップS5以降の処理を各選択領域に対して行っていく。
処理中の強判別器の番号を示すカウンタiを「1」に設定し、また強判別器数mを設定する(ステップS5)。次いで、処理中の弱判別器の番号を示すカウンタjを「1」に設定し、また弱判別器数nを設定する(ステップS6)。カウンタi,j、強判別器数m及び弱判別器数nの設定を行った後、i番目の強判別器iに属するj番目の弱判別器jに対応する特徴量を計算し、対応するスコアをスコアテーブル30−2より取得する(ステップS7)。次いで、i番目の強判別器iに属するj番目の弱判別器jでの各選択領域kでのスコアの分配係数[j][k]を分配係数テーブル30−3より取得する(ステップS8)。次いで、各選択領域kのスコア合計[k]に、弱判別器jの特徴量のスコア×分配係数[j][k]を加算する(ステップS9)。ステップS7〜ステップS9を含む処理を弱判別器3の数nだけ繰り返す(ステップS6〜ステップS10)。前述のように、強判別器に属する弱判別器の数nは、強判別器によって一般に異なる。
一般に検出器を構築する中で演算量が多い部分は、弱判別器に対応する特徴量を算出する部分である。このアルゴリズムにおいては、選択領域の種類によらず、特徴量計算は共通のものを利用している。このため、選択領域の種類を増やしても(すなわち、顔の隠れの生じ方を増やしても)演算量はさほど増加しない。また、学習結果を保持しているスコアテーブルも、選択領域の種類によらず共通のものを利用している。このため、選択領域の種類を増やしても、スコアテーブルの容量が増加しない。
一般に検出器を構築する中で演算量が多い部分は、弱判別器に対応する特徴量を算出する部分である。このアルゴリズムにおいては、選択領域の種類によらず、特徴量計算は共通のものを利用している。このため、選択領域の種類を増やしても(すなわち、顔の隠れの生じ方を増やしても)演算量はさほど増加しない。また、学習結果を保持しているスコアテーブルも、選択領域の種類によらず共通のものを利用している。このため、選択領域の種類を増やしても、スコアテーブルの容量が増加しない。
現在選択されているi番目の強判別器iにまでに属する全ての弱判別器jのスコア合計を算出した後、各選択領域kで顔・非顔の判定を行う。即ち、選択領域kでのスコア合計[k]と選択領域kでの強判別器iの閾値の比較において、選択領域kでのスコア合計[k]≧選択領域kでの強判別器iの閾値であれば「顔」、選択領域kでのスコア合計[k]<選択領域kでの強判別器iの閾値であれば「非顔」と判定する(ステップS11)。次に、まだ顔と判定されている選択領域があるか否かを判定し(ステップS12)、まだ顔と判定されている選択領域がない場合(即ち、ステップS12の判定で「No」の場合)、複数の選択領域のいずれも「非顔」である判定結果を得る(ステップS13)。これに対して、ステップS12の判定において、まだ顔と判定されている選択領域がある場合(即ち、ステップS12の判定で「Yes」の場合)、ステップS5に戻り、次段以降の強判別器iにおいてステップS6〜ステップS12の判定を「顔」と判定される選択領域がなくなるまで繰り返し行い、全強判別器について判定が完了し「顔」と判定される選択領域が残っていればループの後端であるステップS14からステップS15に進み、選択領域kで「顔」である判定結果を得て、本処理を終える。また、判定の途中で顔と判定されている選択領域が残っていない場合(即ちステップS12の判定で「No」の場合)にはループを抜けそれより後段の強判別器の評価を実行せず、上述したように、全ての選択領域で「非顔」であるという判定結果を得て、本処理を終える。
上の処理結果より、1つ以上の選択領域kで顔と判定されたという結果が得られた場合には評価対象画像は顔であると判断でき、全ての選択領域で「非顔」であるという判定結果が得られた場合には評価対象画像は非顔であると判断できる。
選択領域を設定したときと、選択領域を設定しないときによるデータ構造の違いは次の通りである。選択領域を設定したときには、各弱判別器における分配係数を示す分配係数テーブル30−3が加わること、選択領域ごとのスコア合計を保持するようにメモリ部4が拡張されること、閾値テーブル5が、選択領域ごとの閾値テーブルになること、強判別器の判定結果が、選択領域ごとの強判別器の判定結果になることである。これらの部分は、メモリ量の点でも演算量の点でも、特徴量算出自体に比べて負荷が少ない。
上の処理結果より、1つ以上の選択領域kで顔と判定されたという結果が得られた場合には評価対象画像は顔であると判断でき、全ての選択領域で「非顔」であるという判定結果が得られた場合には評価対象画像は非顔であると判断できる。
選択領域を設定したときと、選択領域を設定しないときによるデータ構造の違いは次の通りである。選択領域を設定したときには、各弱判別器における分配係数を示す分配係数テーブル30−3が加わること、選択領域ごとのスコア合計を保持するようにメモリ部4が拡張されること、閾値テーブル5が、選択領域ごとの閾値テーブルになること、強判別器の判定結果が、選択領域ごとの強判別器の判定結果になることである。これらの部分は、メモリ量の点でも演算量の点でも、特徴量算出自体に比べて負荷が少ない。
このように本実施の形態の顔検出器1によれば、評価対象画像内に顔があるか否かを判定するために、評価対象画像内にROI20を設定し、次いで、ROI20内に複数の選択領域101を設定し、次いで、ROI20内に画像が顔であるか否かを判定するための1つ以上の画素で構成される複数の特徴量領域200を設定し、設定した特徴量領域200内の評価対象画像に対して所定の評価を行ってスコアを求め、次いで、選択領域101と特徴量領域200との重なりの程度に応じてスコアを選択領域101に按分し、これらスコア算出処理及び按分処理の各々を複数の特徴量領域200の全てにおいて実行し、その後、複数の特徴量領域200において按分されたスコアを集計し、その集計結果により、設定した選択領域101が顔であるか否かを判定し、複数の選択領域101でそれぞれ顔であるか否かを判定した結果に応じて、ROI20が顔であるか否かを判定する。
したがって、1つのROI20に対して、複数の選択領域101を設定して、選択領域101ごとに顔・非顔の判定を行うので、1つの選択領域101でも顔を判定することで最終的に顔を判定できる。ROI20において、選択領域101を除く残りの隠れ領域102は、隠蔽領域と見なせるので、隠れのある画像に相当することになる。従来は、隠れのある画像に対して、その画像から顔を判定できる専用の顔検出器を用意する必要があったが、ROI20に対して選択領域101を設定することで、隠れのある画像を隠れのある領域における特徴量の寄与を低下させた検出器、すなわち隠れに対応した検出器を構成できる。これにより、専用の顔検出器を用意する必要がなく、1つの顔検出器で様々な隠れのある画像から顔か非顔かを判定することができる。そして、1つの顔検出器のみで済むことから、(1)検出器ごとに学習を行う必要がなく学習結果データも増加しない、(2)検出器ごとの特徴量の計算が不要となり計算量が増加しない、(3)ハードウェア化する際の回路規模が増えない、という効果が得られる。
なお、本実施の形態の顔検出器1では、スコアの按分を、特徴量領域200の面積と特徴量領域200と選択領域101との重なり部分の面積との面積比としたが、特徴量領域200の重心が選択領域101に存在する場合は特徴量のスコアを100%反映させ、存在しない場合は反映させないようにすることも可能である。図13は、スコア按分の応用例を模式的に示した図である。同図において、特徴量領域220の重心70が選択領域101に存在する場合は100%、存在しない場合は0%とする。分配係数は、特徴量領域が決定し、選択領域が決定した時点で確定するものとする。
また、図14は、スコア按分を特徴量領域200の重心に基づいて行う場合の強判別器2−1の内部動作を模式的に示した図である。スコアの按分を特徴量領域200の重心に基づいて行う以外は、図10で説明した動作と同じであるので、詳細な説明は省略する。図14において、弱判別器3−1−1が選択領域101eに設定した特徴量領域200−1の重心が右下の隠れ領域102に入るため、スコアの按分は0%となる。弱判別器3−1−2においては、選択領域101dに設定した特徴量領域200−2の重心が左下の隠れ領域102に入るため、スコアの按分は0%となる。弱判別器3−1−3においては、選択領域101cに設定した特徴量領域200−3の重心が右上の隠れ領域102に入るため、スコアの按分は0%となる。弱判別器3−1−nにおいては、選択領域101cに設定した特徴量領域200−nの重心が右上の隠れ領域102に入るため、スコアの按分は0%となる。
また、本実施の形態の顔検出器1では、隠れ領域102を正方形状にして、選択領域101の形状を略L字・略逆L字状としたが、選択領域101の形状はどのような形状であっても構わない。図15は、曲線で区切った選択領域101fの一例を模式的に示した図である。このような曲線で区切られた領域であっても、分配係数は、特徴量領域の面積と、特徴量領域と選択領域との重なり部分の面積との面積比として予め固定値を計算できるので、検出の実行時への影響はない。
また、本実施の形態の顔検出器1では、評価対象画像に対するROI20の領域の大きさ及び形状について限定しなかったが、ROI20の領域の縦横比は、検出対象物が顔か人物の全身か人物の上半身かなどによって異なり、縦長の場合や横長の場合があり、さらには、上下・左右に分かれることもある。その都度最適なROIを設定すると良い。
また、本実施の形態の顔検出器1を用いることで、顔画像の隠蔽領域を求めることもできる。選択領域ごとの顔・非顔の判定を行い、顔と判定された選択領域のうち一番広い領域を見えている(隠蔽のない)領域と推定する。例えば、図8に示す5つの選択領域のうち101dのみが顔と判定され残りが非顔と判定された場合には選択領域101dの隠れ領域102が遮蔽されていると推定する。また、全ての選択領域が顔と判定された場合には一番広い101aには隠れ領域がないため、遮蔽はないと推定する。
また、本実施の形態の顔検出器1では、人の顔を検出するものであったが、人物全身あるいは上半身の検出に用いることも勿論可能である。また、人物以外の車などの検出も勿論可能である。
また、本実施の形態の顔検出器1のハード構成としては、通常のコンピュータを用いることもできる。即ち、顔検出器1は、CPU、RAM等の揮発性メモリ、及びROM等の不揮発性メモリ、及びハードディスク又はSSD(Solid State Drive)等の大容量記憶装置等を備えたコンピュータによって構成できる。
また、本実施の形態の顔検出器1における処理を記述したプログラムを、磁気ディスク、光ディスク、光磁気ディスク、半導体メモリ等の記憶媒体に格納して配布することも可能である。
本発明は、隠れのある顔への専用の顔への検出器を作ることなく、単独の検出器でも、隠れが生じている顔を高い検出率で検出することができるといった効果、また、人物の全身が見えているときと上半身が見えているときとでの人物検出器を共通の学習に基づく単独の人物検出器で構築できるという効果、さまざまな隠れを伴う自動車の検出をできるという効果を有し、監視カメラ装置等への適用が可能である。人物の検出に適用した場合には、全身の人物検出器と上半身の人物検出器(すなわち下半身が隠れている場合の検出器)とを兼ねた単独の検出器を構築できる。さらには、自動車の検出においては、さまざまな隠れ方によっても自動車として検出する検出器を、隠れのない自動車の学習画像から構築できる。
1 顔検出器
2−1,…,2−m 強判別器
3−1−1,…,3−1−n 弱判別器
4 メモリ部
5 閾値テーブル
6 比較判定部
20 ROI
30−1 特徴量算出部
30−2 スコアテーブル
30−3 分配係数テーブル
70 重心
100 画像
101,101a〜101f 選択領域
102 隠れ領域
200,200−1,200−2,200−3,200−n,210,220 特徴量領域
201,211 重なり領域
2−1,…,2−m 強判別器
3−1−1,…,3−1−n 弱判別器
4 メモリ部
5 閾値テーブル
6 比較判定部
20 ROI
30−1 特徴量算出部
30−2 スコアテーブル
30−3 分配係数テーブル
70 重心
100 画像
101,101a〜101f 選択領域
102 隠れ領域
200,200−1,200−2,200−3,200−n,210,220 特徴量領域
201,211 重なり領域
Claims (8)
- 評価対象画像内に顔があるか否かを判定するために前記評価対象画像内に顔枠領域を設定するステップと、
前記顔枠領域内に選択領域を設定するステップと、
前記顔枠領域内に、画像が顔であるか否かを判定するための一つ以上の画素で構成される複数の特徴量領域を設定するステップと、
前記特徴量領域内の前記評価対象画像に対して所定の評価を行ってスコアを求めるスコア算出ステップと、
前記選択領域と前記特徴量領域との重なりの程度に応じて、前記スコアを前記選択領域に按分する按分ステップと、
前記スコア算出ステップと前記按分ステップを前記複数の特徴量領域の全てにおいて実行するステップと、
前記複数の特徴量領域において按分されたスコアを集計するステップと、
前記集計した結果により、前記選択領域が顔であるか否かを判定するステップと、
を備えたことを特徴とする顔検出方法。 - 複数の選択領域でそれぞれ顔であるか否かを判定した結果に応じて、前記顔枠領域が顔であるか否かを判定するステップを備えたことを特徴とする請求項1に記載の顔検出方法。
- 前記スコアの按分は、前記特徴量領域の面積と前記特徴量領域と前記選択領域との重なり部分の面積との面積比とすることを特徴とする請求項1又は請求項2に記載の顔検出方法。
- 前記スコアの按分は、前記特徴量領域の重心が前記選択領域内に存在する場合は100%、存在しない場合は0%とすることを特徴とする請求項1又は請求項2に記載の顔検出方法。
- 前記スコアの按分を行う場合に、全ての選択領域が分割顔枠領域の組み合わせで構成できるような分割顔枠領域を設定し、各分割顔枠領域でスコアを出したうえで選択領域を構成する分割顔枠領域のスコアを合計することで選択領域のスコアを求めることを特徴とする請求項1又は請求項2に記載の顔検出方法。
- 前記選択領域が顔であるか否かを判定するステップは、閾値と前記集計するステップで集計されたスコアとの比較により判定を行い、前記閾値は選択領域ごとに設定されることを特徴とする請求項1乃至請求項5のいずれか一項に記載の顔検出方法。
- 各選択領域における顔であるか否かの判定結果から顔の隠蔽された領域を推定することを特徴とする請求項1乃至請求項6のいずれか一項に記載の顔検出方法。
- 評価対象画像内にオブジェクトがあるか否かを判定するために前記評価対象画像内にオブジェクト枠領域を設定するステップと、
前記オブジェクト枠領域内に選択領域を設定するステップと、
前記オブジェクト枠領域内に、画像がオブジェクトであるか否かを判定するための一つ以上の画素で構成される複数の特徴量領域を設定するステップと、
前記特徴量領域内の前記評価対象画像に対して所定の評価を行ってスコアを求めるスコア算出ステップと、
前記選択領域と前記特徴量領域との重なりの程度に応じて、前記スコアを前記選択領域に按分する按分ステップと、
前記スコア算出ステップと前記按分ステップを前記複数の特徴量領域の全てにおいて実行するステップと、
前記複数の特徴量領域において按分されたスコアを集計するステップと、
前記集計した結果により、前記選択領域がオブジェクトであるか否かを判定するステップと、
を備えたことを特徴とするオブジェクト検出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011053200A JP2012190262A (ja) | 2011-03-10 | 2011-03-10 | 顔検出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011053200A JP2012190262A (ja) | 2011-03-10 | 2011-03-10 | 顔検出方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012190262A true JP2012190262A (ja) | 2012-10-04 |
Family
ID=47083343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011053200A Withdrawn JP2012190262A (ja) | 2011-03-10 | 2011-03-10 | 顔検出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012190262A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10635919B2 (en) | 2015-10-07 | 2020-04-28 | Nec Corporation | Information processing device, image processing system, image processing method, and program storage medium |
US10699169B2 (en) | 2017-10-26 | 2020-06-30 | Samsung Sds Co., Ltd. | Machine learning-based object detection method and apparatus |
CN111401223A (zh) * | 2020-03-13 | 2020-07-10 | 北京新氧科技有限公司 | 一种脸型对比方法、装置及设备 |
-
2011
- 2011-03-10 JP JP2011053200A patent/JP2012190262A/ja not_active Withdrawn
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10635919B2 (en) | 2015-10-07 | 2020-04-28 | Nec Corporation | Information processing device, image processing system, image processing method, and program storage medium |
US10733467B2 (en) | 2015-10-07 | 2020-08-04 | Nec Corporation | Information processing device, image processing system, image processing method, and program storage medium |
US10699169B2 (en) | 2017-10-26 | 2020-06-30 | Samsung Sds Co., Ltd. | Machine learning-based object detection method and apparatus |
CN111401223A (zh) * | 2020-03-13 | 2020-07-10 | 北京新氧科技有限公司 | 一种脸型对比方法、装置及设备 |
CN111401223B (zh) * | 2020-03-13 | 2023-09-19 | 北京新氧科技有限公司 | 一种脸型对比方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111401177B (zh) | 基于自适应时空注意力机制的端到端行为识别方法及系统 | |
US20160140399A1 (en) | Object detection apparatus and method therefor, and image recognition apparatus and method therefor | |
Deore et al. | Study of masked face detection approach in video analytics | |
US8805077B2 (en) | Subject region detecting apparatus | |
US9098760B2 (en) | Face recognizing apparatus and face recognizing method | |
US10839529B2 (en) | Image processing apparatus and image processing method, and storage medium | |
US8923610B2 (en) | Image processing apparatus, image processing method, and computer readable medium | |
CN111241927A (zh) | 级联式人脸图像优选方法、系统、设备及可读存储介质 | |
JP5671928B2 (ja) | 学習装置、学習方法、識別装置、識別方法、およびプログラム | |
JP2010108476A (ja) | 学習装置および方法、認識装置および方法、プログラム、並びに記録媒体 | |
US10489640B2 (en) | Determination device and determination method of persons included in imaging data | |
US10635919B2 (en) | Information processing device, image processing system, image processing method, and program storage medium | |
JP6351243B2 (ja) | 画像処理装置、画像処理方法 | |
US9087231B2 (en) | Object determination device | |
JP2012190262A (ja) | 顔検出方法 | |
KR101727833B1 (ko) | 얼굴인식을 위한 판별분석 기반의 복합 특징 벡터 생성 장치 및 방법 | |
Poulopoulos et al. | A new high precision eye center localization technique | |
CN104809705B (zh) | 一种基于阈值块匹配的图像去噪的方法和系统 | |
Devrari et al. | Fast face detection using graphics processor | |
JP5389723B2 (ja) | 対象物検知装置及びその学習装置 | |
Wu et al. | Partially occluded head posture estimation for 2D images using pyramid HoG features | |
Chacon-Murguia et al. | Evaluation of the background modeling method auto-adaptive parallel neural network architecture in the sbmnet dataset | |
KR101592110B1 (ko) | 눈 모양 분류 장치 및 방법 | |
JP2021189718A (ja) | 画像からぶどう粒を検出する情報処理装置、プログラム、システム、及び方法 | |
Jacques et al. | Improved head-shoulder human contour estimation through clusters of learned shape models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131225 |
|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20140513 |