JP5118616B2 - 顔画像検出装置及び顔画像検出プログラム - Google Patents

顔画像検出装置及び顔画像検出プログラム Download PDF

Info

Publication number
JP5118616B2
JP5118616B2 JP2008321543A JP2008321543A JP5118616B2 JP 5118616 B2 JP5118616 B2 JP 5118616B2 JP 2008321543 A JP2008321543 A JP 2008321543A JP 2008321543 A JP2008321543 A JP 2008321543A JP 5118616 B2 JP5118616 B2 JP 5118616B2
Authority
JP
Japan
Prior art keywords
face
area
distribution
image
face image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008321543A
Other languages
English (en)
Other versions
JP2010146211A (ja
Inventor
淳 松井
隆 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2008321543A priority Critical patent/JP5118616B2/ja
Publication of JP2010146211A publication Critical patent/JP2010146211A/ja
Application granted granted Critical
Publication of JP5118616B2 publication Critical patent/JP5118616B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Description

本発明は、顔画像検出装置及び顔画像検出プログラムに係り、特に高速に高精度な顔画像検出を実現するための顔画像検出装置及び顔画像検出プログラムに関する。
従来、顔パラメータの事前確率分布を用いた顔画像検出処理の高速化を目的として幾つかの手法が開示されている(例えば、非特許文献1参照。)。
非特許文献1に開示されている手法は、顔の出現頻度の空間的伝搬及び時間的減衰に基づく顔画像検出処理の高速化手法である。具体的には、顔領域の中心位置と大きさのうちの前者のみについて、その出現傾向を連続して与えられた入力画像(動画像)の過去の画像に対する顔検出結果の系列から動的に推定する。また、この手法では、各々の顔領域の中心位置の近傍位置に対する顔の出現確率の空間的な伝搬、並びに、同一中心位置の直前時刻における顔の出現確率の時間的な減衰の異なる2つの行程を、各々経験的に決定した重みで結合することによって当該確率分布を平滑化し、その結果、過去の入力画像に対する顔検出結果の系列に含まれる誤検出及び検出漏れの影響の低減を図るものである。
栗田多喜夫 他,"顔の位置に関する事前確率の適応的な推定とIsing探索を用いたニュース映像からの顔検出の高速化",電子情報通信学会技術報告,PRMU2000−81,pp.43−50,2000年.
しかしながら、従来のように過去の顔検出結果の系列をもとに空間的伝搬と時間的減衰の2種類の更新過程によって、顔の出現位置に関する確率分布を推定する手法では、各々の更新過程にかかる各種設定及び各種パラメータを事前に最適化する必要があり、それらを試行錯誤に基づく経験的な値により設定されていた。
したがって、例えば、確率分布が比較的単純な場合には、最適なパラメータ設定が十分可能であるが、確率分布が比較的複雑な場合には、従来の経験的な設計方針では、事前に膨大なパラメータを最適値に設定することは困難であった。
本発明は、上述した問題点に鑑みなされたものであり、高速に高精度な顔画像検出を実現するための顔画像検出装置及び顔画像検出プログラムを提供することを目的とする。
上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。
請求項1に記載された発明は、連続する映像を構成する各画像に含まれる顔領域の位置を検出する顔画像検出装置において、入力される顔領域サンプルデータから顔の出現分布を推定する顔分布推定手段と、前記顔分布推定手段により得られる顔領域予測パラメータに基づいて顔画像を検出する対象となる入力画像データに対して顔検出のための顔領域を探索する顔領域探索手段と、前記顔領域探索手段により得られる顔候補領域画像データと、顔画像判別パラメータとを用いて、顔候補領域に顔が存在しているか否かを判別する顔画像判別手段とを有し、前記顔領域探索手段は、前記顔領域予測パラメータに基づいて、前記各画像に対して中心位置と大きさとが異なる顔候補領域を所定数抽出し、抽出により得られる顔候補領域画像データを前記顔画像判別手段に出力し、前記画像判別手段により得られる前記各画像の顔領域判別結果を統合して最終的な顔検出結果を出力することを特徴とする。
請求項1記載の発明によれば、高速に高精度な顔画像検出を実現することができる。また、高精度に確率分布の更新処理を実現することができる。
請求項2に記載された発明は、前記顔分布推定手段は、前記入力画像データの内容に関する情報が予め設定された属性情報を入力し、入力された属性情報に一意に対応する前記顔の出現傾向を確率分布で表現して前記顔の出現分布を推定することを特徴とする。
請求項2記載の発明によれば、入力画像データの内容に関する情報、具体的には、例えば放送番組におけるジャンル等の映像コンテンツの分類等に関する情報が予め設定された属性情報を用いて、その入力画像データ中から検出対象範囲を限定することで、より高速で高精度に顔検出を実現することができる。
請求項3に記載された発明は、前記顔分布推定手段は、前記顔の出現分布を推定する確率分布をディリクレ過程による生成モデルで表現し、前記確率分布で用いられる内部変数を、前記顔領域サンプルデータから得られる予め設定された顔の出現位置及び大きさに関する学習サンプルに基づいて推定することを特徴とする。
請求項3記載の発明によれば、例えば映像等では、直前の顔の変形との関連性が強いため、連続する入力画像の顔画像検出を行う際、その直前の入力画像によりパラメータの確率分布を逐次学習させることで、より高精度に顔画像検出を行うことができる。
請求項4に記載された発明は、前記顔分布推定手段は、前記顔の出現分布を推定する確率分布を混合正規分布で定義することを特徴とする。
請求項4記載の発明によれば、混合正規分布により顔分布推定を行うことにより、より正確に顔分布推定を行うことができる。
請求項5に記載された発明は、前記顔分布推定手段は、前記混合正規分布の混合数を決定する混合数決定手段を有することを特徴とする。
請求項5記載の発明によれば、容易に高精度な顔画像検出を実現することができる。
請求項6に記載された発明は、連続する映像を構成する各画像に含まれる顔領域の位置を検出する顔画像検出処理をコンピュータに実行させるための顔画像検出プログラムにおいて、コンピュータを、入力される顔領域サンプルデータから顔の出現分布を推定する顔分布推定手段、前記顔分布推定手段により得られる顔領域予測パラメータに基づいて顔画像を検出する対象となる入力画像データに対して顔検出のための顔領域を探索する顔領域探索手段、及び、前記顔領域探索手段により得られる顔候補領域画像データと、顔画像判別パラメータとを用いて、顔候補領域に顔が存在しているか否かを判別する顔画像判別手段として機能させ、前記顔領域探索手段は、前記顔領域予測パラメータに基づいて、前記各画像に対して中心位置と大きさとが異なる顔候補領域を所定数抽出し、抽出により得られる顔候補領域画像データを前記顔画像判別手段に出力し、前記画像判別手段により得られる前記各画像の顔領域判別結果を統合して最終的な顔検出結果を出力することを特徴とする。

請求項6記載の発明によれば、高速に高精度な顔画像検出を実現することができる。また、実行プログラムをコンピュータにインストールすることにより、容易に顔画像検出を実現することができる。
本発明によれば、高速に高精度な顔画像検出を実現することができる。
<本発明の概要>
本発明は、例えば被写体をカメラで撮影する際の構図等に関する定性的な傾向を、被写体の画像平面上での中心位置と大きさについての確率分布の形で表現し、それにより新たに与えられた画像に出現する被写体の事前確率を、当該確率分布で予測することにより、被写体の出現の可能性が低いパラメータ空間を探索の対象から除外することによって、顔検索処理の計算コストを効率的に削減し、高速に高精度な顔画像検出を実現する。なお、本発明では、確率分布に付随する各種パラメータを自動的に決定することができる学習アルゴリズムを用いる。
ここで、具体的に説明すると、本発明は予め構築した顔画像判別関数を用いて、与えられた入力映像に出現した人物等の顔の具体的な出現位置及び大きさを探索する際、探索対象である顔の中心位置及び大きさを表すパラメータについての出現傾向(学習サンプル)から、当該パラメータの事前確率分布を予め推定する。また、本発明は、探索対象を顔出現の可能性が高い部分領域に絞り込むことによって、顔探索処理に要する計算コストを大幅に削減し、その結果、高速な顔画像検出を実現する。
このような、検出対象の出現傾向を利用した探索空間の絞り込みと処理の高速化を実現する技術は、既に幾つか提案されているが、本発明では、特に出現傾向(事前確率分布)を混合正規分布で表現し、更にその混合正規分布の混合(コンポーネント)数を学習データから自動的に決定する機構を有することによって、検出対象の出現傾向を最も自然に表現する確率分布を統計的根拠に基づいて獲得することにより、その結果、当該装置が探索する顔領域の絞り込み処理を最適化する。
また、本発明は、ベイズ推定を理論的背景とするディリクレ過程に基づいて、学習データを最も自然な形で表現する確率分布を自動的に獲得する手法を顔画像検出に応用したものであり、以下の点を特徴とする。
<事前確率分布のノンパラメトリック・推定>
本発明では、顔候補領域の中心位置(x,y)及び大きさrの3つの要素で構成されるベクトルu=(x、y、r)を確率変数と捉え、画像データDが与えられたもとでのuの事後確率分布P(u|D)は、ベイズ公式より以下に示す(1)式で与えられる。
本手法では、まず事前確率分布P(u)に従うサンプル「u(i)〜P(u)」をM個抽出し、顔領域の仮説集合とする。入力画像Dが与えられた時点で、各々の顔領域仮説に対する尤度P(D|u(i))を計算する。
計算した尤度が、ある閾値εよりも大きいサンプルの集合{u(i);P(D|u(i))>ε}を受理し、それらをベクトルuが張る空間上でクラスタリングする。クラスタリングして得られた個々のグループGについて、以下に示す(2)式で与えられるuの期待値を計算し、j番目の顔検出結果として出力する。
本発明は、上述した「u(i)〜P(u)」の事前確率分布を、パラメータ付けされた特定の分布族ではなく、ランダムな分布として捉えるディリクレ過程EMアルゴリズムを用いて顔領域のサンプルから自動的に学習することを特徴とする。
<実施の形態>
次に、上述した特徴を有する本発明における顔画像検出装置及び顔画像検出プログラムを好適に実施した形態について、図面を用いて説明する。
図1は、顔画像検出装置の一構成例を示す図である。図1に示す顔画像検出装置10は、顔分布推定手段11と、記録手段12と、顔領域探索手段13と、顔画像判別手段14とを有するよう構成されている。
顔分布推定手段11は、入力される顔領域サンプルデータから顔の出現分布を推定する。また、顔分布推定手段11は、入力画像データの内容に関する情報が予め設定された属性情報を入力し、入力された属性情報に一意に対応する顔の出現傾向を確率分布で表現して顔の出現分布を推定することもできる。つまり、顔分布推定手段11は、入力画像データの内容に関する情報として、例えば放送番組におけるジャンル等の映像コンテンツの分類等に関する情報が予め設定された属性情報を用いて、その入力画像データ中から検出対象範囲を限定することで、より高速で高精度に顔検出を実現することができる。
なお、属性情報は、例えば入力データに含まれる映像に対する演出情報により設定され、例えばニュース番組等の特定の演出条件が存在する映像であれば、その属性情報を利用してキャスター等の登場人物が映る位置等から容易に顔の検出対象範囲を限定することができる。
また、顔分布推定手段11は、顔の出現分布を推定する確率分布をディリクレ過程による生成モデルで表現し、確率分布で用いられる内部変数を、顔領域サンプルデータから得られる予め設定された顔の出現位置及び大きさに関する学習サンプルに基づいて推定する。これにより、例えば映像等では、直前の顔の変形との関連性が強いため、連続する入力画像の顔画像検出を行う際、その直前の入力画像によりパラメータの確率分布を逐次学習させることで、より高精度に顔画像検出を行うことができる。
更に、顔分布推定手段11は、上述した確率分布を混合正規分布で定義する。したがって、顔分布推定手段11は、混合正規分布の混合数を決定する混合数決定手段を有する。また、顔分布推定手段11は、顔の出現分布を推定し、その結果として得られた顔領域予測パラメータを記録手段12に出力する。
記録手段12は、顔分布推定手段11により得られる顔領域予測パラメータ、及び予め設定される顔画像判別パラメータを記録する。
顔領域探索手段13は、記録手段12から読み出した顔領域予測パラメータに基づいて、与えられた入力画像データ上の顔の出現の可能性が高い顔候補領域を算出する。また、顔領域探索手段13は、得られた顔候補領域画像データを顔画像判別手段14に出力する。
また、顔領域探索手段13は、出力した顔候補領域画像データに応じて顔画像判別手段14から送られてくる個々の顔領域判別結果を統合し、最終的な顔検出結果を出力する。
顔画像判別手段14は、記録手段12から得られる顔画像判別パラメータと、顔領域探索手段13から得られる顔候補領域画像データとを入力し、顔領域の判別を行う。また、顔画像判別手段14は、得られた判別結果を顔領域探索手段13に出力する。
次に、上述した顔画像検出装置10の各構成手段における処理の内容をそれぞれ具体的に説明する。
<顔分布推定手段11>
顔分布推定手段11における処理手順について、具体的に説明する。顔分布推定手段11では、まず予め設定される顔領域サンプルデータ{u,・・・,u}を受け取る。次に、パラメータV,m,Σについて、初期値として適当な値を設定する。
ここで、後述する予め設定されるQ関数が収束するまで逐次更新処理を繰り返す。次に、収束後の各々のVの値に基づいて、コンポーネントの混合比πを計算する。
その後、最終的に得られたK組のパラメータ{π,m,Σ}を、顔領域予測パラメータとして出力する。
ここで、図2は、推定した確率分布(顔領域予測パラメータ)に基づいて抽出した顔仮説集合の散布図の一例を示す図である。つまり、顔分布推定手段11は、例えばニュース映像から手動で抽出した計6万個の顔領域サンプルデータに基づいて顔領域予測パラメータを推定し、その結果として得られた確率分布から抽出した顔仮説集合の散布図を示している。
なお、図2におけるx,y,rは、それぞれ3次元の座標軸を示しており、図2(a)は、xy軸における顔の中心位置の出現分布をピクセル(pix)単位で示している。また、図2(b)は、xr軸における顔の中心位置の出現分布を示し、図2(c)は、yr軸における顔の中心位置の出現分布を示している。つまり、図2に示すように、例えばニュース番組等の顔であれば、キャスター等の顔の位置が、ある程度特定されることがわかる。
したがって、ニュース番組等の映像コンテンツについては、それぞれの映像コンテンツの種類(ジャンル)や内容等の演出情報に対応させて、顔の分布を特定させることができる。
顔分布推定手段11は、入力されるコンテンツに対して予め顔画像の登場する領域を特定することができ、例えばキャスター等の登場人物が映る位置等から画面の右側の領域といったように、画面全体に対して顔が出現する領域を限定して、その部分を中心に検出処理を行うことで、後述の処理で、より高速で高精度に顔画像を検出することができる。なお、顔分布推定手段11における最適化処理の目的関数であるQ関数を収束させるための具体的なアルゴリズムについては後述する。
<記録手段12>
次に、記録手段12における処理手順について、具体的に説明する。まず、事前に顔分布推定手段11が出力した顔領域予測パラメータを記録する。次に、事前に与えられる予め設定された顔画像判別パラメータを記録する。
ここで、顔画像検出装置10のシステム起動時に、記録した顔領域予測パラメータを顔領域探索手段13に送ると同時に、顔画像判別パラメータを顔画像判別手段14に出力する。
<顔領域探索手段13>
次に、顔領域探索手段13における処理手順について、具体的に説明する。まず、顔画像検出装置10のシステム起動時に、記録手段12から顔領域予測パラメータを読み込む。
次に、中心位置と大きさが異なる正方形や円形等の枠で囲まれる部分領域(顔候補領域)を、予め設定される事前確率分布の関数式から抽出した顔領域パラメータuのサンプルとしてM個抽出する。また、入力画像を受け取り、上述にて抽出したM個の顔候補領域内の画像データ(顔候補領域画像データ)を切り出す。
次に、顔候補領域画像データを順番に顔画像判別手段14に出力し、順次顔画像判別手段14が返す結果(顔領域判別結果)を受け取る。また、受け取った顔領域判別結果の系列に基づいて上述した(2)式にしたがってuの期待値を計算し、顔検出結果として出力する。
<顔画像判別手段14>
次に、顔画像判別手段14における処理手順について、具体的に説明する。まず、顔画像検出装置10のシステム起動時に、記録手段12から顔画像判別パラメータを読み込む。また、顔領域探索手段13から送られる各々の顔候補領域画像データについて、予め与えられた顔画像判別パラメータをもとに基づいて算出される尤度P(D|u)の値に基づいて顔であるか否かを判別し、その結果(顔領域判別結果)を顔領域探索手段13に出力する。
ここで、顔画像判別手段14における顔画像判別手法、すなわち、尤度P(D|u)の値の具体的な計算方法については、与えられた顔候補領域画像データについての顔らしさを定量的に評価できるものであれば何でもよく、例えば、Viola&Jonesらの矩形差分特徴を用いた多数の判別器を多段接続し、各種パラメータを集団学習アルゴリズムによって決定する方法(例えばP.Viola and M.Jones,“Rapid Object Detection using a Boosted Cascade of Simple Features,”Proc.CVPR2001,Vol.1,pp.511−518(2001)参照。)を用いてもよい。
<顔分布推定手段11における顔分布推定例>
次に、上述した顔分布推定手段11における顔分布推定の一例について、具体的に説明する。本発明では、当該確率分布に関する全てのパラメータを確率変数とみなし、それぞれの確率変数を顔領域のサンプルデータをもとに統計的学習アルゴリズムにより最適化する。具体的には、顔の出現領域(中心位置と大きさ)を決定する三次元ベクトルuについて、その確率分布を混合正規分布で表現し、当該確率分布の個々の要素の平均値、分散、及び混合数を、ディリクレ過程EMアルゴリズムにより学習する。
具体的には、まず顔候補領域uの事前確率分布「u(i)〜P(u)」を、以下に示す(3)式の混合正規分布で定義する。
ここで、上述した(3)式において、m,Σは、それぞれk番目のコンポーネント(正規分布)の平均と共分散行列を表し、各々は以下に示す(4)式、(5)式の確率分布に従うものとする。
〜N(m;u,Σ/λ) ・・・(4)
Σ〜IW(Σ;n,R) ・・・(5)
但し、上述した(4)式に示すN(・)は、以下に示す(6)式の正規分布を表す。
また、上述した(5)式に示すIW(・)は、以下に示す(7)式の逆Wishart分布を表す。
なお、上述した(7)式に示すΓは以下に示す(8)式の不完全ガンマ関数を表す。
ここでπはk番目のコンポーネント混合比を表し、以下に示す(9)式で定義する。
ここで、上述した(9)式において、パラメータVはベータ分布は以下に示す(10)式に従うと仮定する。
〜Beta(1,α) ・・・(10)
ここで、上述した(3)〜(10)式で定義される混合正規分布のコンポーネント(混合)数は、理論上は無限大に設定すべきであるが、実際に計算機で計算する際は、ある自然数Kで打ち切る必要がある。このとき、設定するKの値の増大と共に推定誤差が激減することが知られており、例えば多くの応用においてK=100とした場合の推定誤差が実用上無視できる程度に小さくなる場合が多い。
なお、自然数Kでのコンポーネント数の打ち切りによる推定誤差の評価法については、一般的な手法(例えば、H.Ishwaran and L.F.James,“Gibbs Sampling Method for Stick−Breaking Priors,”Journal of the American Statistical Association,Vol.96,No.453,pp.161−173(2001)参照。)を用いることができる。
ここで、パラメータの真の確率分布を最もよく表現する混合正規分布のコンポーネント数よりもKを大きく設定した場合、次に示すディリクレ過程EMアルゴリズムによる各種パラメータの学習の過程で、余剰なコンポーネントについての混合比は0に漸近し、その結果、必要なコンポーネント数が自動的に決定される。
本発明の目的の1つは、事前に最適な値に設定することが困難な正規混合分布の混合数を、コンポーネントの確率的生成過程を考慮した学習モデル(ディリクレ過程EMアルゴリズム)を用いて自動的に決定することである。
したがって、N個の顔領域のサンプルデータ{u,・・・,u}が与えられたとき、興味の対象であるパラメータV,m,Σを、それらの対数結合事後分布の隠れ変数Zに関する条件付期待値Q(m,Σ,V|m(i),Σ(i),V(i))を最大化することで求める。ここで、上述した条件付期待値Q(m,Σ,V|m(i),Σ(i),V(i))を(11)式に示す。
なお、上述した(11)式で与えられるQ関数の最大化は、例えばディリクレ過程EMアルゴリズムにより実現することができる。
<ディリクレ過程EMアルゴリズム>
ここで、ディリクレ過程EMアルゴリズムについて説明する。まず、各パラメータの初期値V (0),m (0),Σ (0)を設定する。次に、上述した(11)式に示すQ関数が収束するまで次の2つのステップ(E−step、M−step)を交互に繰り返し行う。但し、インデックスiは、更新ステップ数を表す。
具体的には、E−stepとして、以下に示す各パラメータp(Z=k|u,m (i),Σ (i),V (i))、ON,k (i)、MN,k (i)、SN,k (i)をそれぞれ(12)〜(15)式を用いて計算する。また、M−stepとして、以下に示す各パラメータをV (i+1)、M (i+1)、Σ (i+1)について、それぞれ(16)〜(18)式を用いて更新する。
つまり、上述した顔分布推定手段11では、パラメータV,m,Σについて、初期値として適当な値を設定した後、上述した(11)式に示されているQ関数が収束するまで上述した(12)〜(16)式までの逐次更新処理を繰り返す。また、顔分布推定手段11は、コンポーネントの混合比πを上述した(9)式にしたがって計算する。
上述したように、本実施形態によれば、高速に高精度な顔画像検出を実現することができる。具体的には、多数の顔領域サンプルと統計的学習アルゴリズムとを事前確率分布の推定に用いることによって、未知の画像に対する顔の出現領域を、より高い精度で予測することができる。
また、顔領域探索を実行する際に、学習した確率分布から抽出した有限個の仮説集合を用いることによって、当該仮説集合のサイズを設定可能とし、その結果、顔検出処理の検出精度と処理速度のバランスをユーザが自由に調整することができる。
<実行プログラム>
ここで、上述した顔画像検出装置10は、上述した専用の装置構成により本発明における顔画像検出処理を行うこともできるが、顔画像検出装置10の一部、例えば、顔分布推定手段11、記録手段12、顔領域探索手段13、及び顔画像判別手段14等における各機能をコンピュータで実現するようにしてもよい。
この場合、上述した各制御機能を実現するための実行プログラム(顔画像検出プログラム)を生成し、例えば汎用のパーソナルコンピュータやサーバ等のコンピュータに実行プログラムをインストールすることにより、本発明における顔画像検出処理を実現することができる。
また、コンピュータ本体にインストールされる実行プログラムは、例えばCD−ROM等の記録媒体等により提供することができる。この場合、実行プログラムを記録した記録媒体は、コンピュータが備えるドライブ装置等にセットされ、記録媒体に含まれる実行プログラムが、記録媒体からドライブ装置を介してコンピュータが備える補助記憶装置等にインストールされる。
なお、記録媒体としては、CD−ROM以外でも、例えばフレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的或いは磁気的に記録する記録媒体、ROM(Read Only Memory)、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。
また、コンピュータは、通信ネットワークに接続可能なネットワーク接続装置等を備え、通信ネットワークに接続されている他の端末等から実行プログラムを取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラム自体を他の端末等に提供することができる。
なお、コンピュータが備える補助記憶装置は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。また、コンピュータが備えるメモリ装置は、CPUにより補助記憶装置から読み出された実行プログラム等を格納する。なお、メモリ装置は、ROMやRAM(Random Access Memory)等からなる。
また、コンピュータは、CPU(Central Processing Unit)を備え、OS(Operating System)等の制御プログラムや実行プログラムに基づいて、各種演算や各構成部間のデータの入出力等、コンピュータ全体の処理を制御して各処理を実現することができる。
これにより、特別な装置構成を必要とせず、低コストで効率的に顔画像検出処理を実現することができる。また、プログラムをインストールすることにより、顔画像検出処理を容易に実現することができる。
<顔画像検出処理>
次に、本発明における実行プログラムによる顔画像検出処理手順についてフローチャートを用いて説明する。
<顔画像検出処理手順>
図3は、本実施形態における顔画像検出処理手順の一例を示すフローチャートである。図3において、まず予め設定される顔領域サンプルデータ{u,・・・,u}を入力する(S01)。次に、パラメータV,m,Σについて、初期値として適当な値を設定する(S02)。
ここで、後述する予め設定される上述した(11)式に示すQ関数が収束するまで逐次更新処理を繰り返す。具体的には、Q関数が収束したか否かを判断し(S03)、収束していない場合(S03において、NO)、上述した(12)〜(18)式に示すような更新処理を行う(S04)。
また、S03の処理においてQ関数が収束した場合(S03において、YES)、次に収束後の各々のVの値に基づいてコンポーネントの混合比πを算出する(S05)。その後、最終的に得られたK組のパラメータ{π,m,Σ}を、顔領域予測パラメータとして出力する(S06)。
次に、顔領域予測パラメータから中心位置と大きさが異なる正方形の部分領域(顔候補領域)を、予め設定される事前確率分布の関数式から抽出した顔領域パラメータuのサンプルとしてM個抽出する(S07)。また、入力画像を受け取り、抽出したM個の顔候補領域内の画像データ(顔候補領域画像データ)を切り出す(S08)。
また、顔候補領域画像データを順番に顔画像判別手段14に送り、順次顔画像判別部が返す結果(顔領域判別結果)を受け取り、受け取った顔領域判別結果の系列に基づいて顔領域パラメータuの期待値を計算し(S09)、顔検出結果として出力する(S10)。
上述した処理により、高速に高精度な顔画像検出を実現することができる。また、実行プログラムをコンピュータにインストールすることにより、容易に顔画像検出を実現することができる。
<顔検出の評価結果>
次に、本発明を用いた顔検出の評価結果について説明する。図4は、顔画像検出結果の具体例を示す図である。なお、図4(a)は従来における顔検出手法を示し、図4(b)は本願発明における顔検出手法を示す図である。また、図4(a),(b)には、1画面中における探索領域21の一部が示されており、実際には、動画として、複数枚の画像フレームにおいて探索領域21が示される。
図4(a)は、事前確率分布を一様分布とした場合の顔検出結果の具体例であり、探索領域総数が282114箇所、検出処理時間が0.55秒であったのに対し、本発明である図4(b)によれば、探索領域総数が300箇所、検出処理時間が0.36秒となり、高速に高精度な顔画像検出を実現することができた。
上述したように本発明によれば、高速に高精度な顔画像検出を実現することができる。つまり、本発明は、当該確率分布を、統計的学習アルゴリズムを用いて、予め用意した誤りを含まない顔の出現位置のサンプルから自動的に推定し、更に顔の大きさに関する確率分布も同時に推定することによって、より精密かつ正確な顔領域パラメータの予測を実現し、その結果、最終的な顔検出精度の向上及び処理速度の改善を実現することができる。
具体的には、本発明によれば、多数の顔領域サンプルと統計的学習アルゴリズムを事前確率分布の推定に用いることによって、未知の画像に対する顔の出現領域を、より高い精度で予測することができる。
また、顔領域探索を実行する際に、学習した確率分布から抽出した有限個の仮説集合を用いることによって、当該仮説集合のサイズを設定可能とし、その結果、顔検出処理の検出精度と処理速度のバランスをユーザが自由に調整することができる。
以上本発明の好ましい実施の形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
顔画像検出装置の一構成例を示す図である。 推定した確率分布(顔領域予測パラメータ)に基づいて抽出した顔仮説集合の散布図の一例を示す図である。 本実施形態における顔画像検出処理手順の一例を示すフローチャートである。 顔画像検出結果の具体例を示す図である。
符号の説明
10 顔画像検出装置
11 顔分布推定手段
12 記録手段
13 顔領域探索手段
14 顔画像判別手段
21 探索領域

Claims (6)

  1. 連続する映像を構成する各画像に含まれる顔領域の位置を検出する顔画像検出装置において、
    入力される顔領域サンプルデータから顔の出現分布を推定する顔分布推定手段と、
    前記顔分布推定手段により得られる顔領域予測パラメータに基づいて顔画像を検出する対象となる入力画像データに対して顔検出のための顔領域を探索する顔領域探索手段と、
    前記顔領域探索手段により得られる顔候補領域画像データと、顔画像判別パラメータとを用いて、顔候補領域に顔が存在しているか否かを判別する顔画像判別手段とを有し、
    前記顔領域探索手段は、前記顔領域予測パラメータに基づいて、前記各画像に対して中心位置と大きさとが異なる顔候補領域を所定数抽出し、抽出により得られる顔候補領域画像データを前記顔画像判別手段に出力し、前記画像判別手段により得られる前記各画像の顔領域判別結果を統合して最終的な顔検出結果を出力することを特徴とする顔画像検出装置。
  2. 前記顔分布推定手段は、
    前記入力画像データの内容に関する情報が予め設定された属性情報を入力し、入力された属性情報に一意に対応する前記顔の出現傾向を確率分布で表現して前記顔の出現分布を推定することを特徴とする請求項1に記載の顔画像検出装置。
  3. 前記顔分布推定手段は、
    前記顔の出現分布を推定する確率分布をディリクレ過程による生成モデルで表現し、前記確率分布で用いられる内部変数を、前記顔領域サンプルデータから得られる予め設定された顔の出現位置及び大きさに関する学習サンプルに基づいて推定することを特徴とする請求項1又は2に記載の顔画像検出装置。
  4. 前記顔分布推定手段は、
    前記顔の出現分布を推定する確率分布を混合正規分布で定義することを特徴とする請求項1乃至3の何れか1項に記載の顔画像検出装置。
  5. 前記顔分布推定手段は、
    前記混合正規分布の混合数を決定する混合数決定手段を有することを特徴とする請求項4に記載の顔画像検出装置。
  6. 連続する映像を構成する各画像に含まれる顔領域の位置を検出する顔画像検出処理をコンピュータに実行させるための顔画像検出プログラムにおいて、
    コンピュータを、
    入力される顔領域サンプルデータから顔の出現分布を推定する顔分布推定手段、
    前記顔分布推定手段により得られる顔領域予測パラメータに基づいて顔画像を検出する対象となる入力画像データに対して顔検出のための顔領域を探索する顔領域探索手段、及び、
    前記顔領域探索手段により得られる顔候補領域画像データと、顔画像判別パラメータとを用いて、顔候補領域に顔が存在しているか否かを判別する顔画像判別手段として機能させ、
    前記顔領域探索手段は、前記顔領域予測パラメータに基づいて、前記各画像に対して中心位置と大きさとが異なる顔候補領域を所定数抽出し、抽出により得られる顔候補領域画像データを前記顔画像判別手段に出力し、前記画像判別手段により得られる前記各画像の顔領域判別結果を統合して最終的な顔検出結果を出力することを特徴とする顔画像検出プログラム。
JP2008321543A 2008-12-17 2008-12-17 顔画像検出装置及び顔画像検出プログラム Expired - Fee Related JP5118616B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008321543A JP5118616B2 (ja) 2008-12-17 2008-12-17 顔画像検出装置及び顔画像検出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008321543A JP5118616B2 (ja) 2008-12-17 2008-12-17 顔画像検出装置及び顔画像検出プログラム

Publications (2)

Publication Number Publication Date
JP2010146211A JP2010146211A (ja) 2010-07-01
JP5118616B2 true JP5118616B2 (ja) 2013-01-16

Family

ID=42566604

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008321543A Expired - Fee Related JP5118616B2 (ja) 2008-12-17 2008-12-17 顔画像検出装置及び顔画像検出プログラム

Country Status (1)

Country Link
JP (1) JP5118616B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6383639B2 (ja) * 2014-10-29 2018-08-29 日本電信電話株式会社 画像処理装置及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4208898B2 (ja) * 2006-06-09 2009-01-14 株式会社ソニー・コンピュータエンタテインメント 対象物追跡装置および対象物追跡方法

Also Published As

Publication number Publication date
JP2010146211A (ja) 2010-07-01

Similar Documents

Publication Publication Date Title
WO2020221278A1 (zh) 视频分类方法及其模型的训练方法、装置和电子设备
CN109598231B (zh) 一种视频水印的识别方法、装置、设备及存储介质
WO2021203863A1 (zh) 基于人工智能的物体检测方法、装置、设备及存储介质
CN110020592B (zh) 物体检测模型训练方法、装置、计算机设备及存储介质
US8358837B2 (en) Apparatus and methods for detecting adult videos
Gaidon et al. Actom sequence models for efficient action detection
Gaidon et al. Temporal localization of actions with actoms
JP7222319B2 (ja) 分類モデル訓練方法及び装置並びに分類方法及び装置
JP5570629B2 (ja) 分類器の学習方法及び装置、並びに処理装置
CN110942011B (zh) 一种视频事件识别方法、系统、电子设备及介质
CN110765860A (zh) 摔倒判定方法、装置、计算机设备及存储介质
US20230237771A1 (en) Self-supervised learning method and apparatus for image features, device, and storage medium
CN112465020B (zh) 训练数据集的生成方法及装置、电子设备、存储介质
CN113766330A (zh) 基于视频生成推荐信息的方法和装置
JP5214679B2 (ja) 学習装置、方法及びプログラム
CN111738319B (zh) 一种基于大规模样本的聚类结果评价方法及装置
JP2006344236A (ja) 顔メタデータ生成方法および装置、並びに顔認識方法およびシステム
KR102350192B1 (ko) 검색 데이터베이스를 구축하기 위한 관심영상 선별 방법 및 이를 수행하는 영상 관제 시스템
Jayanthiladevi et al. Text, images, and video analytics for fog computing
CN110717407A (zh) 基于唇语密码的人脸识别方法、装置及存储介质
CN111191781A (zh) 训练神经网络的方法、对象识别方法和设备以及介质
JP5118616B2 (ja) 顔画像検出装置及び顔画像検出プログラム
CN111640438A (zh) 音频数据处理方法、装置、存储介质及电子设备
Handrich et al. Simultaneous prediction of valence/arousal and emotion categories in real-time
JP2017084006A (ja) 画像処理装置およびその方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110310

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120724

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120904

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120925

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121019

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5118616

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151026

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees