JP5118616B2

JP5118616B2 - 顔画像検出装置及び顔画像検出プログラム

Info

Publication number: JP5118616B2
Application number: JP2008321543A
Authority: JP
Inventors: 淳松井; 隆松本
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2008-12-17
Filing date: 2008-12-17
Publication date: 2013-01-16
Anticipated expiration: 2028-12-17
Also published as: JP2010146211A

Description

本発明は、顔画像検出装置及び顔画像検出プログラムに係り、特に高速に高精度な顔画像検出を実現するための顔画像検出装置及び顔画像検出プログラムに関する。

従来、顔パラメータの事前確率分布を用いた顔画像検出処理の高速化を目的として幾つかの手法が開示されている（例えば、非特許文献１参照。）。

非特許文献１に開示されている手法は、顔の出現頻度の空間的伝搬及び時間的減衰に基づく顔画像検出処理の高速化手法である。具体的には、顔領域の中心位置と大きさのうちの前者のみについて、その出現傾向を連続して与えられた入力画像（動画像）の過去の画像に対する顔検出結果の系列から動的に推定する。また、この手法では、各々の顔領域の中心位置の近傍位置に対する顔の出現確率の空間的な伝搬、並びに、同一中心位置の直前時刻における顔の出現確率の時間的な減衰の異なる２つの行程を、各々経験的に決定した重みで結合することによって当該確率分布を平滑化し、その結果、過去の入力画像に対する顔検出結果の系列に含まれる誤検出及び検出漏れの影響の低減を図るものである。
栗田多喜夫他，"顔の位置に関する事前確率の適応的な推定とＩｓｉｎｇ探索を用いたニュース映像からの顔検出の高速化"，電子情報通信学会技術報告，ＰＲＭＵ２０００−８１，ｐｐ．４３−５０，２０００年．

しかしながら、従来のように過去の顔検出結果の系列をもとに空間的伝搬と時間的減衰の２種類の更新過程によって、顔の出現位置に関する確率分布を推定する手法では、各々の更新過程にかかる各種設定及び各種パラメータを事前に最適化する必要があり、それらを試行錯誤に基づく経験的な値により設定されていた。

したがって、例えば、確率分布が比較的単純な場合には、最適なパラメータ設定が十分可能であるが、確率分布が比較的複雑な場合には、従来の経験的な設計方針では、事前に膨大なパラメータを最適値に設定することは困難であった。

本発明は、上述した問題点に鑑みなされたものであり、高速に高精度な顔画像検出を実現するための顔画像検出装置及び顔画像検出プログラムを提供することを目的とする。

上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。

請求項１に記載された発明は、連続する映像を構成する各画像に含まれる顔領域の位置を検出する顔画像検出装置において、入力される顔領域サンプルデータから顔の出現分布を推定する顔分布推定手段と、前記顔分布推定手段により得られる顔領域予測パラメータに基づいて顔画像を検出する対象となる入力画像データに対して顔検出のための顔領域を探索する顔領域探索手段と、前記顔領域探索手段により得られる顔候補領域画像データと、顔画像判別パラメータとを用いて、顔候補領域に顔が存在しているか否かを判別する顔画像判別手段とを有し、前記顔領域探索手段は、前記顔領域予測パラメータに基づいて、前記各画像に対して中心位置と大きさとが異なる顔候補領域を所定数抽出し、抽出により得られる顔候補領域画像データを前記顔画像判別手段に出力し、前記顔画像判別手段により得られる前記各画像の顔領域判別結果を統合して最終的な顔検出結果を出力することを特徴とする。

請求項１記載の発明によれば、高速に高精度な顔画像検出を実現することができる。また、高精度に確率分布の更新処理を実現することができる。

請求項２に記載された発明は、前記顔分布推定手段は、前記入力画像データの内容に関する情報が予め設定された属性情報を入力し、入力された属性情報に一意に対応する前記顔の出現傾向を確率分布で表現して前記顔の出現分布を推定することを特徴とする。

請求項２記載の発明によれば、入力画像データの内容に関する情報、具体的には、例えば放送番組におけるジャンル等の映像コンテンツの分類等に関する情報が予め設定された属性情報を用いて、その入力画像データ中から検出対象範囲を限定することで、より高速で高精度に顔検出を実現することができる。

請求項３に記載された発明は、前記顔分布推定手段は、前記顔の出現分布を推定する確率分布をディリクレ過程による生成モデルで表現し、前記確率分布で用いられる内部変数を、前記顔領域サンプルデータから得られる予め設定された顔の出現位置及び大きさに関する学習サンプルに基づいて推定することを特徴とする。

請求項３記載の発明によれば、例えば映像等では、直前の顔の変形との関連性が強いため、連続する入力画像の顔画像検出を行う際、その直前の入力画像によりパラメータの確率分布を逐次学習させることで、より高精度に顔画像検出を行うことができる。

請求項４に記載された発明は、前記顔分布推定手段は、前記顔の出現分布を推定する確率分布を混合正規分布で定義することを特徴とする。

請求項４記載の発明によれば、混合正規分布により顔分布推定を行うことにより、より正確に顔分布推定を行うことができる。

請求項５に記載された発明は、前記顔分布推定手段は、前記混合正規分布の混合数を決定する混合数決定手段を有することを特徴とする。

請求項５記載の発明によれば、容易に高精度な顔画像検出を実現することができる。

請求項６に記載された発明は、連続する映像を構成する各画像に含まれる顔領域の位置を検出する顔画像検出処理をコンピュータに実行させるための顔画像検出プログラムにおいて、コンピュータを、入力される顔領域サンプルデータから顔の出現分布を推定する顔分布推定手段、前記顔分布推定手段により得られる顔領域予測パラメータに基づいて顔画像を検出する対象となる入力画像データに対して顔検出のための顔領域を探索する顔領域探索手段、及び、前記顔領域探索手段により得られる顔候補領域画像データと、顔画像判別パラメータとを用いて、顔候補領域に顔が存在しているか否かを判別する顔画像判別手段として機能させ、前記顔領域探索手段は、前記顔領域予測パラメータに基づいて、前記各画像に対して中心位置と大きさとが異なる顔候補領域を所定数抽出し、抽出により得られる顔候補領域画像データを前記顔画像判別手段に出力し、前記顔画像判別手段により得られる前記各画像の顔領域判別結果を統合して最終的な顔検出結果を出力することを特徴とする。

請求項６記載の発明によれば、高速に高精度な顔画像検出を実現することができる。また、実行プログラムをコンピュータにインストールすることにより、容易に顔画像検出を実現することができる。

本発明によれば、高速に高精度な顔画像検出を実現することができる。

＜本発明の概要＞
本発明は、例えば被写体をカメラで撮影する際の構図等に関する定性的な傾向を、被写体の画像平面上での中心位置と大きさについての確率分布の形で表現し、それにより新たに与えられた画像に出現する被写体の事前確率を、当該確率分布で予測することにより、被写体の出現の可能性が低いパラメータ空間を探索の対象から除外することによって、顔検索処理の計算コストを効率的に削減し、高速に高精度な顔画像検出を実現する。なお、本発明では、確率分布に付随する各種パラメータを自動的に決定することができる学習アルゴリズムを用いる。

ここで、具体的に説明すると、本発明は予め構築した顔画像判別関数を用いて、与えられた入力映像に出現した人物等の顔の具体的な出現位置及び大きさを探索する際、探索対象である顔の中心位置及び大きさを表すパラメータについての出現傾向（学習サンプル）から、当該パラメータの事前確率分布を予め推定する。また、本発明は、探索対象を顔出現の可能性が高い部分領域に絞り込むことによって、顔探索処理に要する計算コストを大幅に削減し、その結果、高速な顔画像検出を実現する。

このような、検出対象の出現傾向を利用した探索空間の絞り込みと処理の高速化を実現する技術は、既に幾つか提案されているが、本発明では、特に出現傾向（事前確率分布）を混合正規分布で表現し、更にその混合正規分布の混合（コンポーネント）数を学習データから自動的に決定する機構を有することによって、検出対象の出現傾向を最も自然に表現する確率分布を統計的根拠に基づいて獲得することにより、その結果、当該装置が探索する顔領域の絞り込み処理を最適化する。

また、本発明は、ベイズ推定を理論的背景とするディリクレ過程に基づいて、学習データを最も自然な形で表現する確率分布を自動的に獲得する手法を顔画像検出に応用したものであり、以下の点を特徴とする。

＜事前確率分布のノンパラメトリック・推定＞
本発明では、顔候補領域の中心位置（ｘ，ｙ）及び大きさｒの３つの要素で構成されるベクトルｕ＝（ｘ、ｙ、ｒ）を確率変数と捉え、画像データＤが与えられたもとでのｕの事後確率分布Ｐ（ｕ｜Ｄ）は、ベイズ公式より以下に示す（１）式で与えられる。

本手法では、まず事前確率分布Ｐ（ｕ）に従うサンプル「ｕ^（ｉ）〜Ｐ（ｕ）」をＭ個抽出し、顔領域の仮説集合とする。入力画像Ｄが与えられた時点で、各々の顔領域仮説に対する尤度Ｐ（Ｄ｜ｕ^（ｉ））を計算する。

計算した尤度が、ある閾値εよりも大きいサンプルの集合｛ｕ^（ｉ）；Ｐ（Ｄ｜ｕ^（ｉ））＞ε｝を受理し、それらをベクトルｕが張る空間上でクラスタリングする。クラスタリングして得られた個々のグループＧ_ｊについて、以下に示す（２）式で与えられるｕの期待値を計算し、ｊ番目の顔検出結果として出力する。

本発明は、上述した「ｕ^（ｉ）〜Ｐ（ｕ）」の事前確率分布を、パラメータ付けされた特定の分布族ではなく、ランダムな分布として捉えるディリクレ過程ＥＭアルゴリズムを用いて顔領域のサンプルから自動的に学習することを特徴とする。

＜実施の形態＞
次に、上述した特徴を有する本発明における顔画像検出装置及び顔画像検出プログラムを好適に実施した形態について、図面を用いて説明する。

図１は、顔画像検出装置の一構成例を示す図である。図１に示す顔画像検出装置１０は、顔分布推定手段１１と、記録手段１２と、顔領域探索手段１３と、顔画像判別手段１４とを有するよう構成されている。

顔分布推定手段１１は、入力される顔領域サンプルデータから顔の出現分布を推定する。また、顔分布推定手段１１は、入力画像データの内容に関する情報が予め設定された属性情報を入力し、入力された属性情報に一意に対応する顔の出現傾向を確率分布で表現して顔の出現分布を推定することもできる。つまり、顔分布推定手段１１は、入力画像データの内容に関する情報として、例えば放送番組におけるジャンル等の映像コンテンツの分類等に関する情報が予め設定された属性情報を用いて、その入力画像データ中から検出対象範囲を限定することで、より高速で高精度に顔検出を実現することができる。

なお、属性情報は、例えば入力データに含まれる映像に対する演出情報により設定され、例えばニュース番組等の特定の演出条件が存在する映像であれば、その属性情報を利用してキャスター等の登場人物が映る位置等から容易に顔の検出対象範囲を限定することができる。

また、顔分布推定手段１１は、顔の出現分布を推定する確率分布をディリクレ過程による生成モデルで表現し、確率分布で用いられる内部変数を、顔領域サンプルデータから得られる予め設定された顔の出現位置及び大きさに関する学習サンプルに基づいて推定する。これにより、例えば映像等では、直前の顔の変形との関連性が強いため、連続する入力画像の顔画像検出を行う際、その直前の入力画像によりパラメータの確率分布を逐次学習させることで、より高精度に顔画像検出を行うことができる。

更に、顔分布推定手段１１は、上述した確率分布を混合正規分布で定義する。したがって、顔分布推定手段１１は、混合正規分布の混合数を決定する混合数決定手段を有する。また、顔分布推定手段１１は、顔の出現分布を推定し、その結果として得られた顔領域予測パラメータを記録手段１２に出力する。

記録手段１２は、顔分布推定手段１１により得られる顔領域予測パラメータ、及び予め設定される顔画像判別パラメータを記録する。

顔領域探索手段１３は、記録手段１２から読み出した顔領域予測パラメータに基づいて、与えられた入力画像データ上の顔の出現の可能性が高い顔候補領域を算出する。また、顔領域探索手段１３は、得られた顔候補領域画像データを顔画像判別手段１４に出力する。

また、顔領域探索手段１３は、出力した顔候補領域画像データに応じて顔画像判別手段１４から送られてくる個々の顔領域判別結果を統合し、最終的な顔検出結果を出力する。

顔画像判別手段１４は、記録手段１２から得られる顔画像判別パラメータと、顔領域探索手段１３から得られる顔候補領域画像データとを入力し、顔領域の判別を行う。また、顔画像判別手段１４は、得られた判別結果を顔領域探索手段１３に出力する。

次に、上述した顔画像検出装置１０の各構成手段における処理の内容をそれぞれ具体的に説明する。

＜顔分布推定手段１１＞
顔分布推定手段１１における処理手順について、具体的に説明する。顔分布推定手段１１では、まず予め設定される顔領域サンプルデータ｛ｕ_１，・・・，ｕ_Ｎ｝を受け取る。次に、パラメータＶ_ｋ，ｍ_ｋ，Σ_ｋについて、初期値として適当な値を設定する。

ここで、後述する予め設定されるＱ関数が収束するまで逐次更新処理を繰り返す。次に、収束後の各々のＶ_ｋの値に基づいて、コンポーネントの混合比π_ｋを計算する。

その後、最終的に得られたＫ組のパラメータ｛π_ｋ，ｍ_ｋ，Σ_ｋ｝を、顔領域予測パラメータとして出力する。

ここで、図２は、推定した確率分布（顔領域予測パラメータ）に基づいて抽出した顔仮説集合の散布図の一例を示す図である。つまり、顔分布推定手段１１は、例えばニュース映像から手動で抽出した計６万個の顔領域サンプルデータに基づいて顔領域予測パラメータを推定し、その結果として得られた確率分布から抽出した顔仮説集合の散布図を示している。

なお、図２におけるｘ，ｙ，ｒは、それぞれ３次元の座標軸を示しており、図２（ａ）は、ｘｙ軸における顔の中心位置の出現分布をピクセル（ｐｉｘ）単位で示している。また、図２（ｂ）は、ｘｒ軸における顔の中心位置の出現分布を示し、図２（ｃ）は、ｙｒ軸における顔の中心位置の出現分布を示している。つまり、図２に示すように、例えばニュース番組等の顔であれば、キャスター等の顔の位置が、ある程度特定されることがわかる。

したがって、ニュース番組等の映像コンテンツについては、それぞれの映像コンテンツの種類（ジャンル）や内容等の演出情報に対応させて、顔の分布を特定させることができる。

顔分布推定手段１１は、入力されるコンテンツに対して予め顔画像の登場する領域を特定することができ、例えばキャスター等の登場人物が映る位置等から画面の右側の領域といったように、画面全体に対して顔が出現する領域を限定して、その部分を中心に検出処理を行うことで、後述の処理で、より高速で高精度に顔画像を検出することができる。なお、顔分布推定手段１１における最適化処理の目的関数であるＱ関数を収束させるための具体的なアルゴリズムについては後述する。

＜記録手段１２＞
次に、記録手段１２における処理手順について、具体的に説明する。まず、事前に顔分布推定手段１１が出力した顔領域予測パラメータを記録する。次に、事前に与えられる予め設定された顔画像判別パラメータを記録する。

ここで、顔画像検出装置１０のシステム起動時に、記録した顔領域予測パラメータを顔領域探索手段１３に送ると同時に、顔画像判別パラメータを顔画像判別手段１４に出力する。

＜顔領域探索手段１３＞
次に、顔領域探索手段１３における処理手順について、具体的に説明する。まず、顔画像検出装置１０のシステム起動時に、記録手段１２から顔領域予測パラメータを読み込む。

次に、中心位置と大きさが異なる正方形や円形等の枠で囲まれる部分領域（顔候補領域）を、予め設定される事前確率分布の関数式から抽出した顔領域パラメータｕのサンプルとしてＭ個抽出する。また、入力画像を受け取り、上述にて抽出したＭ個の顔候補領域内の画像データ（顔候補領域画像データ）を切り出す。

次に、顔候補領域画像データを順番に顔画像判別手段１４に出力し、順次顔画像判別手段１４が返す結果（顔領域判別結果）を受け取る。また、受け取った顔領域判別結果の系列に基づいて上述した（２）式にしたがってｕの期待値を計算し、顔検出結果として出力する。

＜顔画像判別手段１４＞
次に、顔画像判別手段１４における処理手順について、具体的に説明する。まず、顔画像検出装置１０のシステム起動時に、記録手段１２から顔画像判別パラメータを読み込む。また、顔領域探索手段１３から送られる各々の顔候補領域画像データについて、予め与えられた顔画像判別パラメータをもとに基づいて算出される尤度Ｐ（Ｄ｜ｕ）の値に基づいて顔であるか否かを判別し、その結果（顔領域判別結果）を顔領域探索手段１３に出力する。

ここで、顔画像判別手段１４における顔画像判別手法、すなわち、尤度Ｐ（Ｄ｜ｕ）の値の具体的な計算方法については、与えられた顔候補領域画像データについての顔らしさを定量的に評価できるものであれば何でもよく、例えば、Ｖｉｏｌａ＆Ｊｏｎｅｓらの矩形差分特徴を用いた多数の判別器を多段接続し、各種パラメータを集団学習アルゴリズムによって決定する方法（例えばＰ．ＶｉｏｌａａｎｄＭ．Ｊｏｎｅｓ，“ＲａｐｉｄＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎｕｓｉｎｇａＢｏｏｓｔｅｄＣａｓｃａｄｅｏｆＳｉｍｐｌｅＦｅａｔｕｒｅｓ，”Ｐｒｏｃ．ＣＶＰＲ２００１，Ｖｏｌ．１，ｐｐ．５１１−５１８（２００１）参照。）を用いてもよい。

＜顔分布推定手段１１における顔分布推定例＞
次に、上述した顔分布推定手段１１における顔分布推定の一例について、具体的に説明する。本発明では、当該確率分布に関する全てのパラメータを確率変数とみなし、それぞれの確率変数を顔領域のサンプルデータをもとに統計的学習アルゴリズムにより最適化する。具体的には、顔の出現領域（中心位置と大きさ）を決定する三次元ベクトルｕについて、その確率分布を混合正規分布で表現し、当該確率分布の個々の要素の平均値、分散、及び混合数を、ディリクレ過程ＥＭアルゴリズムにより学習する。

具体的には、まず顔候補領域ｕの事前確率分布「ｕ^（ｉ）〜Ｐ（ｕ）」を、以下に示す（３）式の混合正規分布で定義する。

ここで、上述した（３）式において、ｍ_ｋ，Σ_ｋは、それぞれｋ番目のコンポーネント（正規分布）の平均と共分散行列を表し、各々は以下に示す（４）式、（５）式の確率分布に従うものとする。

ｍ_ｋ〜Ｎ（ｍ；ｕ，Σ_ｋ／λ）・・・（４）
Σ_ｋ〜ＩＷ（Σ；ｎ_０，Ｒ_０）・・・（５）
但し、上述した（４）式に示すＮ（・）は、以下に示す（６）式の正規分布を表す。

また、上述した（５）式に示すＩＷ（・）は、以下に示す（７）式の逆Ｗｉｓｈａｒｔ分布を表す。

なお、上述した（７）式に示すΓ_ｐは以下に示す（８）式の不完全ガンマ関数を表す。

ここでπ_ｋはｋ番目のコンポーネント混合比を表し、以下に示す（９）式で定義する。

ここで、上述した（９）式において、パラメータＶ_ｋはベータ分布は以下に示す（１０）式に従うと仮定する。
Ｖ_ｋ〜Ｂｅｔａ（１，α）・・・（１０）
ここで、上述した（３）〜（１０）式で定義される混合正規分布のコンポーネント（混合）数は、理論上は無限大に設定すべきであるが、実際に計算機で計算する際は、ある自然数Ｋで打ち切る必要がある。このとき、設定するＫの値の増大と共に推定誤差が激減することが知られており、例えば多くの応用においてＫ＝１００とした場合の推定誤差が実用上無視できる程度に小さくなる場合が多い。

なお、自然数Ｋでのコンポーネント数の打ち切りによる推定誤差の評価法については、一般的な手法（例えば、Ｈ．ＩｓｈｗａｒａｎａｎｄＬ．Ｆ．Ｊａｍｅｓ，“ＧｉｂｂｓＳａｍｐｌｉｎｇＭｅｔｈｏｄｆｏｒＳｔｉｃｋ−ＢｒｅａｋｉｎｇＰｒｉｏｒｓ，”ＪｏｕｒｎａｌｏｆｔｈｅＡｍｅｒｉｃａｎＳｔａｔｉｓｔｉｃａｌＡｓｓｏｃｉａｔｉｏｎ，Ｖｏｌ．９６，Ｎｏ．４５３，ｐｐ．１６１−１７３（２００１）参照。）を用いることができる。

ここで、パラメータの真の確率分布を最もよく表現する混合正規分布のコンポーネント数よりもＫを大きく設定した場合、次に示すディリクレ過程ＥＭアルゴリズムによる各種パラメータの学習の過程で、余剰なコンポーネントについての混合比は０に漸近し、その結果、必要なコンポーネント数が自動的に決定される。

本発明の目的の１つは、事前に最適な値に設定することが困難な正規混合分布の混合数を、コンポーネントの確率的生成過程を考慮した学習モデル（ディリクレ過程ＥＭアルゴリズム）を用いて自動的に決定することである。

したがって、Ｎ個の顔領域のサンプルデータ｛ｕ_１，・・・，ｕ_Ｎ｝が与えられたとき、興味の対象であるパラメータＶ_ｋ，ｍ_ｋ，Σ_ｋを、それらの対数結合事後分布の隠れ変数Ｚ_ｋに関する条件付期待値Ｑ（ｍ，Σ，Ｖ｜ｍ^（ｉ），Σ^（ｉ），Ｖ^（ｉ））を最大化することで求める。ここで、上述した条件付期待値Ｑ（ｍ，Σ，Ｖ｜ｍ^（ｉ），Σ^（ｉ），Ｖ^（ｉ））を（１１）式に示す。

なお、上述した（１１）式で与えられるＱ関数の最大化は、例えばディリクレ過程ＥＭアルゴリズムにより実現することができる。

＜ディリクレ過程ＥＭアルゴリズム＞
ここで、ディリクレ過程ＥＭアルゴリズムについて説明する。まず、各パラメータの初期値Ｖ_ｋ ^（０），ｍ_ｋ ^（０），Σ_ｋ ^（０）を設定する。次に、上述した（１１）式に示すＱ関数が収束するまで次の２つのステップ（Ｅ−ｓｔｅｐ、Ｍ−ｓｔｅｐ）を交互に繰り返し行う。但し、インデックスｉは、更新ステップ数を表す。

具体的には、Ｅ−ｓｔｅｐとして、以下に示す各パラメータｐ（Ｚ_ｎ＝ｋ｜ｕ_ｎ，ｍ_ｋ ^（ｉ），Σ_ｋ ^（ｉ），Ｖ_ｋ ^（ｉ））、Ｏ_Ｎ，ｋ ^（ｉ）、Ｍ_Ｎ，ｋ ^（ｉ）、Ｓ_Ｎ，ｋ ^（ｉ）をそれぞれ（１２）〜（１５）式を用いて計算する。また、Ｍ−ｓｔｅｐとして、以下に示す各パラメータをＶ_ｋ ^{（ｉ＋１）}、Ｍ_ｋ ^{（ｉ＋１）}、Σ_ｋ ^{（ｉ＋１）}について、それぞれ（１６）〜（１８）式を用いて更新する。

つまり、上述した顔分布推定手段１１では、パラメータＶ_ｋ，ｍ_ｋ，Σ_ｋについて、初期値として適当な値を設定した後、上述した（１１）式に示されているＱ関数が収束するまで上述した（１２）〜（１６）式までの逐次更新処理を繰り返す。また、顔分布推定手段１１は、コンポーネントの混合比π_ｋを上述した（９）式にしたがって計算する。

上述したように、本実施形態によれば、高速に高精度な顔画像検出を実現することができる。具体的には、多数の顔領域サンプルと統計的学習アルゴリズムとを事前確率分布の推定に用いることによって、未知の画像に対する顔の出現領域を、より高い精度で予測することができる。

また、顔領域探索を実行する際に、学習した確率分布から抽出した有限個の仮説集合を用いることによって、当該仮説集合のサイズを設定可能とし、その結果、顔検出処理の検出精度と処理速度のバランスをユーザが自由に調整することができる。

＜実行プログラム＞
ここで、上述した顔画像検出装置１０は、上述した専用の装置構成により本発明における顔画像検出処理を行うこともできるが、顔画像検出装置１０の一部、例えば、顔分布推定手段１１、記録手段１２、顔領域探索手段１３、及び顔画像判別手段１４等における各機能をコンピュータで実現するようにしてもよい。

この場合、上述した各制御機能を実現するための実行プログラム（顔画像検出プログラム）を生成し、例えば汎用のパーソナルコンピュータやサーバ等のコンピュータに実行プログラムをインストールすることにより、本発明における顔画像検出処理を実現することができる。

また、コンピュータ本体にインストールされる実行プログラムは、例えばＣＤ−ＲＯＭ等の記録媒体等により提供することができる。この場合、実行プログラムを記録した記録媒体は、コンピュータが備えるドライブ装置等にセットされ、記録媒体に含まれる実行プログラムが、記録媒体からドライブ装置を介してコンピュータが備える補助記憶装置等にインストールされる。

なお、記録媒体としては、ＣＤ−ＲＯＭ以外でも、例えばフレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的或いは磁気的に記録する記録媒体、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。

また、コンピュータは、通信ネットワークに接続可能なネットワーク接続装置等を備え、通信ネットワークに接続されている他の端末等から実行プログラムを取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラム自体を他の端末等に提供することができる。

なお、コンピュータが備える補助記憶装置は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。また、コンピュータが備えるメモリ装置は、ＣＰＵにより補助記憶装置から読み出された実行プログラム等を格納する。なお、メモリ装置は、ＲＯＭやＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等からなる。

また、コンピュータは、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を備え、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等の制御プログラムや実行プログラムに基づいて、各種演算や各構成部間のデータの入出力等、コンピュータ全体の処理を制御して各処理を実現することができる。

これにより、特別な装置構成を必要とせず、低コストで効率的に顔画像検出処理を実現することができる。また、プログラムをインストールすることにより、顔画像検出処理を容易に実現することができる。

＜顔画像検出処理＞
次に、本発明における実行プログラムによる顔画像検出処理手順についてフローチャートを用いて説明する。

＜顔画像検出処理手順＞
図３は、本実施形態における顔画像検出処理手順の一例を示すフローチャートである。図３において、まず予め設定される顔領域サンプルデータ｛ｕ_１，・・・，ｕ_Ｎ｝を入力する（Ｓ０１）。次に、パラメータＶ_ｋ，ｍ_ｋ，Σ_ｋについて、初期値として適当な値を設定する（Ｓ０２）。

ここで、後述する予め設定される上述した（１１）式に示すＱ関数が収束するまで逐次更新処理を繰り返す。具体的には、Ｑ関数が収束したか否かを判断し（Ｓ０３）、収束していない場合（Ｓ０３において、ＮＯ）、上述した（１２）〜（１８）式に示すような更新処理を行う（Ｓ０４）。

また、Ｓ０３の処理においてＱ関数が収束した場合（Ｓ０３において、ＹＥＳ）、次に収束後の各々のＶ_ｋの値に基づいてコンポーネントの混合比π_ｋを算出する（Ｓ０５）。その後、最終的に得られたＫ組のパラメータ｛π_ｋ，ｍ_ｋ，Σ_ｋ｝を、顔領域予測パラメータとして出力する（Ｓ０６）。

次に、顔領域予測パラメータから中心位置と大きさが異なる正方形の部分領域（顔候補領域）を、予め設定される事前確率分布の関数式から抽出した顔領域パラメータｕのサンプルとしてＭ個抽出する（Ｓ０７）。また、入力画像を受け取り、抽出したＭ個の顔候補領域内の画像データ（顔候補領域画像データ）を切り出す（Ｓ０８）。

また、顔候補領域画像データを順番に顔画像判別手段１４に送り、順次顔画像判別部が返す結果（顔領域判別結果）を受け取り、受け取った顔領域判別結果の系列に基づいて顔領域パラメータｕの期待値を計算し（Ｓ０９）、顔検出結果として出力する（Ｓ１０）。

上述した処理により、高速に高精度な顔画像検出を実現することができる。また、実行プログラムをコンピュータにインストールすることにより、容易に顔画像検出を実現することができる。

＜顔検出の評価結果＞
次に、本発明を用いた顔検出の評価結果について説明する。図４は、顔画像検出結果の具体例を示す図である。なお、図４（ａ）は従来における顔検出手法を示し、図４（ｂ）は本願発明における顔検出手法を示す図である。また、図４（ａ），（ｂ）には、１画面中における探索領域２１の一部が示されており、実際には、動画として、複数枚の画像フレームにおいて探索領域２１が示される。

図４（ａ）は、事前確率分布を一様分布とした場合の顔検出結果の具体例であり、探索領域総数が２８２１１４箇所、検出処理時間が０．５５秒であったのに対し、本発明である図４（ｂ）によれば、探索領域総数が３００箇所、検出処理時間が０．３６秒となり、高速に高精度な顔画像検出を実現することができた。

上述したように本発明によれば、高速に高精度な顔画像検出を実現することができる。つまり、本発明は、当該確率分布を、統計的学習アルゴリズムを用いて、予め用意した誤りを含まない顔の出現位置のサンプルから自動的に推定し、更に顔の大きさに関する確率分布も同時に推定することによって、より精密かつ正確な顔領域パラメータの予測を実現し、その結果、最終的な顔検出精度の向上及び処理速度の改善を実現することができる。

具体的には、本発明によれば、多数の顔領域サンプルと統計的学習アルゴリズムを事前確率分布の推定に用いることによって、未知の画像に対する顔の出現領域を、より高い精度で予測することができる。

以上本発明の好ましい実施の形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。

顔画像検出装置の一構成例を示す図である。推定した確率分布（顔領域予測パラメータ）に基づいて抽出した顔仮説集合の散布図の一例を示す図である。本実施形態における顔画像検出処理手順の一例を示すフローチャートである。顔画像検出結果の具体例を示す図である。

符号の説明

１０顔画像検出装置
１１顔分布推定手段
１２記録手段
１３顔領域探索手段
１４顔画像判別手段
２１探索領域

Claims

連続する映像を構成する各画像に含まれる顔領域の位置を検出する顔画像検出装置において、
入力される顔領域サンプルデータから顔の出現分布を推定する顔分布推定手段と、
前記顔分布推定手段により得られる顔領域予測パラメータに基づいて顔画像を検出する対象となる入力画像データに対して顔検出のための顔領域を探索する顔領域探索手段と、
前記顔領域探索手段により得られる顔候補領域画像データと、顔画像判別パラメータとを用いて、顔候補領域に顔が存在しているか否かを判別する顔画像判別手段とを有し、
前記顔領域探索手段は、前記顔領域予測パラメータに基づいて、前記各画像に対して中心位置と大きさとが異なる顔候補領域を所定数抽出し、抽出により得られる顔候補領域画像データを前記顔画像判別手段に出力し、前記顔画像判別手段により得られる前記各画像の顔領域判別結果を統合して最終的な顔検出結果を出力することを特徴とする顔画像検出装置。
前記顔分布推定手段は、
前記入力画像データの内容に関する情報が予め設定された属性情報を入力し、入力された属性情報に一意に対応する前記顔の出現傾向を確率分布で表現して前記顔の出現分布を推定することを特徴とする請求項１に記載の顔画像検出装置。
前記顔分布推定手段は、
前記顔の出現分布を推定する確率分布をディリクレ過程による生成モデルで表現し、前記確率分布で用いられる内部変数を、前記顔領域サンプルデータから得られる予め設定された顔の出現位置及び大きさに関する学習サンプルに基づいて推定することを特徴とする請求項１又は２に記載の顔画像検出装置。
前記顔分布推定手段は、
前記顔の出現分布を推定する確率分布を混合正規分布で定義することを特徴とする請求項１乃至３の何れか１項に記載の顔画像検出装置。
前記顔分布推定手段は、
前記混合正規分布の混合数を決定する混合数決定手段を有することを特徴とする請求項４に記載の顔画像検出装置。
連続する映像を構成する各画像に含まれる顔領域の位置を検出する顔画像検出処理をコンピュータに実行させるための顔画像検出プログラムにおいて、
コンピュータを、
入力される顔領域サンプルデータから顔の出現分布を推定する顔分布推定手段、
前記顔分布推定手段により得られる顔領域予測パラメータに基づいて顔画像を検出する対象となる入力画像データに対して顔検出のための顔領域を探索する顔領域探索手段、及び、
前記顔領域探索手段により得られる顔候補領域画像データと、顔画像判別パラメータとを用いて、顔候補領域に顔が存在しているか否かを判別する顔画像判別手段として機能させ、
前記顔領域探索手段は、前記顔領域予測パラメータに基づいて、前記各画像に対して中心位置と大きさとが異なる顔候補領域を所定数抽出し、抽出により得られる顔候補領域画像データを前記顔画像判別手段に出力し、前記顔画像判別手段により得られる前記各画像の顔領域判別結果を統合して最終的な顔検出結果を出力することを特徴とする顔画像検出プログラム。