(第1の実施形態)
図1は、第1の実施形態にかかる顔認識装置100のブロック構成を示した図である。図1に示すように、顔認識装置100は、画像入力部101と、顔領域検出部102と、手法保持部103と、手法選択部104と、特徴点検出部105と、特徴抽出部106と、人物情報管理部107と、認識部108と、表示部109と、を備える。また、顔認識装置100は、カメラ150から撮影された映像に基づいて、人物の認証を行う。
本実施形態にかかる顔認識装置100では、カメラ150などで撮影された映像データから、あらかじめ管理されている顔の特徴情報に基づいて、人物を認識する。その際、本実施形態にかかる顔認識装置では、入力された画像データの顔領域のサイズ(解像度)に応じて、適切な顔の特徴点の検出手法を選択することとした。これにより、顔領域の解像度の違いに対応しつつ、顔認識の認識精度を維持することを可能としている。
カメラ150は、所定の領域に対して撮影を行う。例えば、カメラ150は、通行路の入退場対象エリアに対して撮影を行う監視カメラ等であり、撮影結果である画像データを生成する。そして、画像入力部101は、カメラ150からの画像データを入力処理する。
カメラ150は、少なくとも1箇所、又は複数の地点に設置可能とする。また、カメラ150は、所定の領域に存在する人物の顔画像を入力するものであり、例えばITV(Industrial Television)カメラとする。カメラ150は、カメラのレンズを通して得られた光学的な情報をA/D変換器によりデジタル化して画像データを生成し、顔認識装置100に対して出力する。
また、顔認識装置100は、顔領域を含むデジタル画像データであれば、顔認証の対象となるので、デジタルスチルカメラで撮影した静止画像データを媒体経由で取り込んで顔認証を行っても良いし、スキャナを利用して紙媒体や写真からスキャンをしたデジタル画像に対して顔認証を行っても良い。
そして、本実施形態にかかる顔認識装置100は、生成された画像データに基づいて、人物の顔認証を行い、人物情報管理部107に当該人物があらかじめ登録された人物であるか否かを判定する。認証結果により不審者等の検出を行っても良いし、通行の許可、不許可を制御しても良い。
本実施形態にかかる顔認識装置100は、人物認証に従って、不審者等の検出や、通行の許可、不許可の制御等に用いることが考えられるが、このような制御に制限するものではなく、人物の認識結果を利用するのであれば、どのような制御を行っても良い。例えば、顔認識装置100は、顧客データの中からお得意様の検索、不審者のデータベースから該当者の検索、ID証の更新時の本人確認や新規発行時の二重発給防止などに用いても良い。さらには、画像信号から顔を検出し、フォーカス等を制御するデジタルスチルカメラや、携帯電話端末等に適用しても良い。
図2は、カメラ150から入力された画像データ201の例を示した図である。図2に示すように、画像データには、様々なサイズの顔領域が含まれている場合がある(例えば領域211、212、213)。顔のサイズが映像の中で小さく映っていた場合(例えば領域211の場合)、顔領域に相当する画像の解像度は非常に低くなる。このため、顔のサイズが小さく解像度の低い画像に対して、従来からの高解像度に適した手法で顔認識処理を行うと、顔特徴点検出で正しい位置を検出できず、特徴点の位置がずれやすいという問題が生じていた。また、特徴点を抽出する処理を行う際に、解像度によっては必要な特徴情報が取得できず、識別対象の顔がいずれも類似した特徴情報になってしまい識別精度が低下していた。
そこで、本実施形態にかかる顔認識装置100では、画像データに含まれる、顔領域のサイズに応じて、顔の特徴点の検出手法を異ならせることとした。本実施形態では、顔の特徴点の検出を行う前に、画像データに含まれている、人物の顔が表された領域(以下、顔領域と称す)の検出を行う必要がある。
顔領域検出部102は、画像入力部101により入力された画像データから、人物の顔領域を検出する。本実施形態にかかる顔領域検出部102は、入力された画像データ内において、当該画像データ上の輝度情報を利用して顔の領域を示す座標を求める。当該顔の領域を検出する手法としては、どのような手法を用いても良い。本実施形態は、例として、文献(三田雄志ほか:「顔検出に適した共起に基づくJoint Haar-like特徴」電子情報通信学会論文誌(D),vol.J89-D, 8,pp1791-1801(2006))に示された手法を用いて、顔領域の検出を行う。他の検出手法の例としては、予め用意されたテンプレートを、入力された画像データ内で移動させながら相関値を求めることで、最も高い相関値を与える位置を顔領域として検出する手法や、固有空間法や部分空間法を利用した顔抽出法等を用いる手法を適用しても良い。
また、検出する顔領域の形状は、任意の形状で良いし、顔の向きや大きさの検出結果によって顔の領域の形状を異ならせても良いが、本実施形態は、説明を容易にするために、矩形形状の顔領域を検出する。そして、当該矩形形状の頂点を示す座標を、顔領域の検出結果とする。
ところで、監視カメラなどで撮影された映像データの場合、検出された同一人物の顔が複数のフレームにわたって連続して映っていることが想定される。このため、これらを同一人物として対応付けできるように人物の顔の追跡処理を行う必要がある。この追跡処理の実現手法としては、オプティカルフローを用いて検出した顔が、次のフレームでどの位置に存在するかを推定し、対応付ける手法等を利用することで実現可能できる。そして、特徴抽出部106は、同一人物として対応付けられた複数フレームの顔領域のうち、人物を認識するために、適切な画像を少なくとも1枚選択し、選択された顔領域から顔の特徴情報を抽出してもよい。また、特徴抽出部106は、顔領域のサイズが大きくなる毎に、顔の特徴情報を抽出する処理を行うことで、最大のサイズの顔領域が検出されるまで任意の枚数の画像データを検出に利用しても良い。
手法保持部103は、顔領域検出部102より検出された顔領域から顔の特徴を検出処理する検出手法を、検出処理の粗さの違いに基づいて複数保持する。本実施形態にかかる手法保持部103は、3種類の顔の特徴点の検出手法を保持するが、保持する検出手法の数を制限するものではない。例えば、手法保持部103が、4種類以上の検出手法を保持しても良いし、2種類の検出手法を保持してもよい。
図3は、手法保持部103が保持する顔特徴点手法の特徴を示した図である。図3に示すように、本実施形態にかかる手法保持部103は、第1の顔特徴点検出手法と、第2の顔特徴点検出手法と、第3の顔特徴点検出手法と、を備える。そして、各種顔特徴点検出手法は、図3に示すようにそれぞれ異なる特徴を備える。
第1の顔特徴点検出手法は、3種類の検出手法のうち、検出処理が最も粗いため、低解像度に強いが、認識精度が低いという特徴を有する。第2の顔特徴点検出手法は、3種類の検出手法のうち、2番目に検出処理が粗く、低解像度に2番目に強く、認識精度は2番目に高いという特徴を有する。第3の顔特徴点検出手法は、3種類の検出手法のうち、検出処理が最も細かいため、低解像度に弱いが、解像度が高い場合には認識精度が最も高いという特徴を有する。そして、本実施形態では、検出された顔領域の大きさにあわせて、これら3種類の顔特徴点検出手法のうち、最適な顔特徴点検出手法を用いることとした。
手法選択部104は、顔領域検出部102により検出された顔領域の画像サイズに基づいて、手法保持部103が保持する顔特徴点検出手法から、後述する特徴点検出部105で用いる顔特徴点検出手法を選択する。顔特徴点検出手法の選択はどのような手法を用いても良い。本実施形態では、顔領域を表す矩形の頂点の座標から横幅及び縦幅を示す画素数を算出し、算出した画素数が所定の閾値値以上であるか否かに基づいて、顔特徴点検出手法を選択する。これにより、特徴点検出手法の選択が容易となる。
本実施形態のように3種類の顔特徴点検出手法を保持する場合、手法選択部104は、2種類の解像度の閾値を用いて、顔特徴点検出手法を選択する。2種類の解像度の閾値をA及びB(B<A)とする。そして、手法選択部104は、算出された横幅(又は縦幅)がB未満の場合、第1の顔特徴点検出手法を選択する。さらに、手法選択部104は、算出された横幅(又は縦幅)がB以上且つA未満の場合、第2の顔特徴点検出手法を選択し、A以上の場合、第3の顔特徴点検出手法を選択する。本実施形態は、閾値による選択に制限するものではなく、顔の大きさの時間軸方向の推移を利用して統計的にどの手法を選択するのかを学習する手法も考えられる。
特徴点検出部105は、手法選択部104で選択された顔特徴点検出手法を用いて、顔領域検出部102により検出された顔領域から、目、鼻などの顔部位の位置を顔の特徴点として検出する。
本実施形態にかかる第1の顔特徴点検出手法、第2の顔特徴点検出手法、及び第3の顔特徴点検出手法は、それぞれ検出処理の粗さは異なるものの、検出対象となる特徴点の箇所(例えば、目頭、目尻など)、及び特徴点の数は変わらない。図4は、特徴点検出部105により、各種顔特徴点検出手法で検出された特徴点の例を示した図である。図4の“×”で示された箇所が特徴点の例とする。図4に示すように、本実施形態にかかる特徴点検出部105は、15個の特徴点を検出する。
これにより、第1の顔特徴点検出手法、第2の顔特徴点検出手法、及び第3の顔特徴点検出手法のうち、どの検出手法を用いて顔の特徴情報を抽出した場合でも、認識部108が、人物情報管理部107に格納された各人物の顔の特徴情報と比較して、人物の認証を行うことができる。次に各顔特徴点検出手法について具体的に説明する。
第1の顔特徴点検出手法は、顔の細かい構造情報がみられないほど顔領域が低解像度になる場合に用いられることを想定している。第1の顔特徴点検出手法は、検出したい顔特徴点座標の平均的なモデル(ワイヤフレーム)を顔の向きに応じて複数種類予め備えておく。そして、特徴点検出部105が検出処理を行う際、顔領域に含まれている輝度値と、予め備えておいた平均的なモデル(ワイヤフレーム)と、を比較して、最も一致度が高いワイヤフレームを当てはめる。その際に、顔の向きなども考慮して、最も顔らしい箇所にワイヤフレームを当てはめる。そして、特徴点検出部105は、当てはめたワイヤフレームに従って、顔の特徴点を検出する。
特徴点検出部105が第1の顔特徴点検出手法を用いた場合における詳細な手順について説明する。例えば、顔の向きごとに低い解像度の顔の切り出し画像を多数切り出し、顔の向きごとにクラスタリングを行ってKL展開されることで、顔の向き毎の顔パタンによる部分空間が作成される。第1の顔特徴点検出手法は、当該顔パタンによる部分空間を、顔の平均的なモデルとして保持する。そして、特徴点検出部105は、第1の顔特徴点検出手法を用いて検出を行う際に、入力画像から出力された顔領域が、保持している顔パタンのうち、どの顔パタンに近いかを、部分空間法を利用することで判定する。その際、顔パタンは向き毎に保持されているため、どの顔の向きに近いかも判定できる。このように、特徴点検出部105は、部分空間法で最も高い類似度を与えた部分空間に基づいて、顔の向きを判定し、当該向きにあわせたワイヤフレームに従って、顔の特徴点の位置を検出する。なお、第1の顔特徴点検出手法は、詳細の構造情報はみていないため、低解像度の場合に限って実行するのが好ましい。
第2の特徴点検出手法は、第1の顔特徴点検出手法と比べて顔特徴点の検出位置精度が良いが、後述する第3の顔特徴点検出手法と比べて、顔の部位ごとの詳細な位置あわせ精度を有していない。第2の特徴点検出手法としては、文献(Cootes.T.F、Walker.K、Taylor.C.J、“View-based active appearance models”、Image and Vision Computing 20,pp.227-232, 2002)を参考にした、いわゆるAAM(Active Appearance model)による顔の表情のトラッキングが考えられる。特徴点検出部105では、第2の顔特徴点検出手法を用いて顔の表情のトラッキングを行うことで、顔の特徴点となる位置を検出できる。
第3の顔特徴点検出手法は、顔領域の解像度が十分大きい場合に利用が可能であり、顔特徴点の形状情報や輝度分布情報を利用することで、顔の特徴点を検出する手法である。この第3の顔特徴点検出手法は、顔領域の解像度が十分大きい場合、3種類の顔特徴点検出手法のうち、最も検出位置精度の高い検出手法である。
第3の顔特徴点検出手法としては、文献(福井和広、山口修:「形状抽出とパタン照合の組合せによる顔特徴点抽出」, 電子情報通信学会論文誌(D), vol.J80-D-II, No.8, pp2170-2177(1997))に示された手法が適用される。これにより目や備考、口端などの特徴点を検出できる。また、口の領域を示す特徴点の検出には、文献(湯浅 真由美、中島 朗子:「高精度顔特徴点検出に基づくデジタルメイクシステム」第10回画像センシングシンポジウム予稿集,pp219-224(2004))に示された手法を用いても良い。第3の顔特徴点検出手法としていずれの手法を用いた場合でも、2次元配列状の画像として取り扱える情報を取得し、当該情報から顔の特徴点を検出することができる。
また、本実施形態にかかる特徴点検出部105では、上述した各種顔特徴点検出手法で、マスク、サングラス、又は帽子を着用している場合でも顔の特徴点を検出できるように、予めサングラスやマスクや帽子で顔の一部が隠された場合の顔パタンでテンプレートを学習してもよい。また、特徴点検出部105が顔の特徴点検出をする際、すべての顔の特徴点が検出できない場合でも、一部の顔の特徴点が十分な評価値で検出されていれば、2次元平面、または3次元的な顔のモデルを用いて、検出された特徴点に基づいて、残りの特徴点を推測する。また、特徴点をまったく検出できないぐらいマスク、帽子又はサングラスが特徴点を隠蔽している場合、特徴点検出部105は、隠蔽されている場合の顔全体のパタンを予め学習しておき、検出された顔領域に対して、当該顔全体のパタンに基づいて、顔の特徴点の位置等を推測してもよい。なお、複数の顔が画像データ内に存在した場合、特徴点検出部105は、同様の処理をそれぞれの顔領域に対して実行することで対応可能とする。
特徴抽出部106は、特徴点検出部105が検出した顔の特徴点から、得られる顔の個人を識別可能な顔の特徴を示す特徴情報(以下、顔特徴情報と示す)を抽出する。これにより、複数種類の顔特徴点検出手法のいずれか一つを用いた、顔特徴情報を抽出できる。
特徴抽出部106は、顔特徴情報として、顔の各特徴を示す数列を出力する。本実施形態にかかる特徴抽出部106は、特徴点検出部105により検出された顔の特徴点の座標(顔の特徴的な部品となる位置)に基づいて、顔領域を一定の大きさ、形状に切り出し、その濃淡情報を、顔の特徴を示す特徴量として抽出する。本実施形態では、mピクセル×nピクセルの領域の濃淡値をそのまま情報として用い、m×n次元の情報を、特徴量ベクトルとして抽出する。
特徴抽出部106では、特徴量ベクトルと、特徴量ベクトルの長さとを、単純類似度法によりそれぞれ1とするように正規化し、内積を算出することで特徴ベクトル間の類似性を示す類似度を求める。当該手法は、文献(エルッキ・オヤ著、小川英光、佐藤誠訳、「パタン認識と部分空間法」、産業図書、1986年)で示された部分空間法を利用することで実現できる。また、文献(東芝(小坂谷達夫):「画像認識装置、方法およびプログラム」特許公報 特開2007−4767)で示された1枚の顔画像情報に対してモデルを利用して顔の向きや状態を意図的に変動させた画像データを生成することで、精度を向上させる手法を適用してもよい。これら手法を用いることで、1枚の画像データから、顔特徴情報を抽出できる。
一方、特徴抽出部106が、同一人物に対して連続した複数の画像データを用いて、動画像データによる算出をすることでより精度の高い認識処理を行っても良い。例えば、文献(福井和広、山口修、前田賢一:「動画像を用いた顔認識システム」、電子情報通信学会研究報告PRMU、 vol97、 No.113、 pp17-24(1997))又は文献(前田賢一、渡辺貞一:「局所的構造を導入したパタン・マッチング法」、 電子情報通信学会論文誌(D)、 vol.J68-D、 No.3、pp345--352(1985))に示された相互部分空間法を用いてもよい。これらの文献に示された相互部分空間法を用いた場合、画像入力部101が連続して入力処理した画像データから、特徴点検出部105がm×nピクセルの画像データを切り出し、これらの画像データから特徴量ベクトルの相関行列を算出し、K−L展開による正規直交ベクトルを求めることにより、連続した画像データから得られる顔の特徴情報を示す部分空間を算出する。
部分空間の算出法は、特徴量ベクトルの相関行列(または共分散行列)を求め、そのK−L展開による正規直交ベクトル(固有ベクトル)を求めることで、部分空間が算出される。部分空間は、固有値に対応する固有ベクトルを、固有値の大きな順にk個選択し、選択された固有ベクトル集合を用いて表現される。本実施形態では、相関行列Cdを特徴ベクトルから求め、相関行列Cd=ΦdΛdΦdTと対角化して、固有ベクトルの行列Φを求める。この固有ベクトルの行列Φが、現在認識対象としている人物の顔の特徴を示す部分空間となる。本実施形態では、当該部分空間を、入力された画像データから検出された個人の顔特徴情報とする。
特徴抽出部106は、特徴点検出部105により特徴点検出した後に、当該特徴点に対して向き補正(三次元)、大きさ補正、及び明るさ補正を行う。向き補正とは、例えば、検出された顔の向きが左向きの場合に、予め備えた人物の顔の三次元モデルを左向きの顔を当てはめて、正面に向きを変更する補正とする。大きさ補正とは、予め基準とした顔のサイズに合わせるべく、縮小、拡大を行う補正とする。これら補正を行った後、顔特徴情報を抽出する。これにより、検出された顔の向き及び顔のサイズに関わらず、特徴抽出部106が抽出する顔特徴情報を統一できる。これにより、人物情報管理部107が管理している人物の顔特徴情報との比較が容易となる。
人物情報管理部107は、人物毎に、あらかじめ登録されている顔特徴情報を管理する。人物情報管理部107は、後述する認識部108が人物の認識処理を行う際に用いられるデータベースである。本実施形態にかかる人物情報管理部107は、検索対象となる個人毎に、特徴抽出部106で抽出された顔特徴情報、当該個人の性別、年齢、及び身長などの属性情報の他、当該人物を示す人物IDや名前なども対応付けて管理する。
管理対象となる特徴抽出部106で抽出された顔特徴情報は、m×nの特徴量ベクトルや、部分空間やKL展開を行う直前の相関行列でもよい。さらに、特徴抽出部106で抽出された顔特徴情報を、画像入力部101により入力された画像データと共に、管理することで個人の検索や検索の表示が容易となる。
認識部108は、特徴抽出部106により抽出された顔特徴情報と、人物情報管理部107に記憶された顔特徴情報とに基づいて、画像入力部101により入力された画像データに含まれていた人物を認識する。本実施形態にかかる認識部108は、特徴抽出部106により抽出された顔特徴情報に類似する、人物情報管理部107に記憶された顔特徴情報を抽出し、抽出した顔特徴情報で示された人物を、カメラ150で撮影された候補者として認識する。
本実施形態にかかる認識部108は、特徴抽出部106で抽出された顔特徴情報と、人物情報管理部107に記憶された顔特徴情報との間の類似性を算出し、類似性が高い顔特徴情報の順に、当該顔特徴情報で表された人物に関する情報を表示部109に出力する。
認識部108は、処理結果としては類似性の高い顔識別情報から順に、人物情報管理部107で当該顔識別情報と対応付けられた人物IDや算出された類似性を示す情報を出力する。その他に当該人物IDと対応付けられている人物に関する様々な情報も出力しても良い。
また、認識部108は、特徴抽出部106が抽出した顔特徴情報と対応付けて、特徴点検出部105が検出に用いた顔特徴点検出手法を、特徴抽出部106を介して特徴点検出部105から取得する。そして、認識部108は、取得した顔特徴点検出手法を識別する情報を、当該手法で検出された顔特徴情報と対応付けて表示部109に出力する。
本実施形態にかかる類似性を示す情報は、顔特徴情報として管理されている部分空間同士の類似度とする。類似度の算出方法は、部分空間法や複合類似度法などの算出手法を用いてよい。これら算出手法では、人物情報管理部107に記憶された顔特徴情報、及び特徴抽出部106により抽出された顔特徴情報が、部分空間として表現される。そして、本実施形態では2つの部分空間のなす「角度」を類似度として定義する。そして、認識部108は、これら2つの部分空間に基づいて相関行列Cinを求めた後、Cin=ΦinΛinΦinTと対角化し、固有ベクトルΦinを求める。その後、認識部108は、2つのΦin,ΦinTで表される部分空間の部分空間間類似度(0.0〜1.0)を求め、これを認識するための類似度とする。なお、具体的な算出方法については、例えば、上述した文献(エルッキ・オヤ著、小川英光、佐藤誠訳、「パタン認識と部分空間法」、産業図書、1986年)に示された手法を用いて良い。また、あらかじめ同一人物と分かる複数の顔画像をまとめて部分空間への射影によって本人であるか否かを識別することで精度を向上させてもよい。また、高速に検索するにはTREE構造を利用した検索方法なども利用してもよい。
表示部109は、認識部108により出力された、認識された候補者に関する情報を表示する。また、表示部109は、顔認識結果のみを表示することに制限するものではなく、人物情報管理部107が管理している属性情報に基づく認識結果と組み合わせて表示を行っても良い。
また、表示部109は、認識部108で認識された結果のうち、指定した条件と一致する人物に関する情報に限り、リアルタイムに表示してもよい。そして、指定した条件と一致しない人物に関する情報については、図示しない履歴記憶部に、履歴情報として保存してもよい。これにより、後から検索条件を指定することで、当該検索条件に一致する履歴情報を表示できる。なお、顔認識装置に対して、リアルタイム表示と検索表示とのいずれか一方のみ、又は両方を組み込んでも良い。
また、本実施形態にかかる表示部109は、候補者に関する情報を表示する際に、特徴点検出部105が用いた顔特徴点検出手法に基づいた、顔認証の信頼性を示した情報を表示する。本実施形態にかかる顔認識装置100は、複数種類の顔特徴点検出手法を備えているが、手法毎に検出精度が異なる。そこで、本実施形態にかかる表示部109は、候補者に関する情報と共に、顔特徴点検出手法に基づいた信頼性を示す情報を表示する。
図5は、表示部109が表示する画面例を示した図である。図5に示すように表示部109は、画像入力部101により入力された画像データ群と、当該画像データに含まれていた顔領域に基づいた認識で類似度が高いと判定された候補者に関する情報と、を表示する。図5の右側欄に示すように、表示部109は、類似度が高い順に5番目までの候補者に関する情報を表示している。また、左側欄では、カメラ150で撮影された画像データのうち、人物の顔が含まれていた画像データを表示する。
また、表示部109は、人物の認証結果を表示する際に、顔の特徴点検出手法に基づいた検出信頼度を示す記号を表示する。本実施形態では、画像データに顔が大きく映っている場合には、第3の顔特徴点検出手法が利用できるため、検出された特徴点の座標についても高い精度が期待できる。このため、検出精度が高いことを示す‘○’503を表示する。また、画像データに顔がある程度の大きさで映っている場合には、第2の顔特徴点検出手法を利用できるため、検出精度が並程度であることを示す‘△’502、501を表示する。また、画像データに顔が小さく映っている場合には、第1の顔特徴点検出手法を利用するため、検出された特徴点の座標について、検出精度が他の2つより低いことを示す‘−’を表示する。図5及び後述する図6に示す画面の例では、各人物の顔毎に顔領域のみ表示し、特徴点座標を表示していない。これは、顔の部位を把握しやすいようにするためであり、必要に応じて顔の特徴点を表示しても良い。
このように、本実施形態においては、表示部109が表示を行う際に、顔の特徴点検出手法に応じた、検出信頼度を示す文字または記号を表示することで、利用者は、検出された顔の特徴点の位置精度が高いか否か判断することは容易となる。また、顔の特徴点の位置精度が向上するにつれて、候補者の検索精度の向上にもつながる。このため、表示された候補者の一覧の信頼度が高いか否かを判断することが容易となる。
また、顔特徴点検出手法に基づく基準を予め定め、当該基準を満たしている場合に限り、表示部109が候補者一覧を表示するように制御を行っても良い。例えば、表示部109は、信頼性が他の2つより低い第1の顔特徴点検出手法を用いた顔特徴点検出手法に基づく候補者の一覧は非表示とし、他の2つの顔特徴点検出手法に基づく候補者の一覧を表示するようにしても良い。これにより、信頼性が高いとみなされる候補者の一覧の表示が行われるため、信頼性を向上させることができる。
また、本実施形態は、図5に示す表示態様に制限するものではない。例えば、顔認識装置100が、顔の検出結果を画面に表示する際に、カメラ150で撮像された画像データに対して、当該顔領域と検出の信頼度とを重畳して表示しても良い。
図6は、変形例にかかる表示部109が表示する画面例を示した図である。図6に示すように、表示部109は、入力された画像データのうち、検出された顔領域に対して、利用した顔特徴点検出手法に基づく検出信頼度(例えば、‘○’601、‘△’602)を表示する。これにより、ユーザは、顔領域毎に検出された顔の特徴点の検出精度について、信頼性が高いか否かを認識できる。これにより、検出履歴として格納されている、顔領域毎の候補者一覧の信頼性が高いか否かを認識できる。
次に、本実施形態にかかる顔認識装置100における、人物の顔の認識処理について説明する。図7は、本実施形態にかかる顔認識装置100における上述した処理の手順を示すフローチャートである。
画像入力部101が、カメラ150から画像データを入力処理する(ステップS701)。次に、顔領域検出部102が、入力処理された画像データから、顔領域の検出を行う(ステップS702)。
次に、手法選択部104が、検出された顔領域のサイズが所定の閾値B以上であるか否かを判定する(ステップS703)。そして、所定の閾値B未満であると判定された場合(ステップS703:No)、手法選択部104が、第1の顔特徴点検出手法を選択する(ステップS704)。そして、特徴点検出部105が、検出された顔領域に対して、選択された第1の顔特徴点検出手法を用いて顔の特徴点を検出する(ステップS705)。
一方、手法選択部104が、検出された顔領域のサイズが所定の閾値B以上であると判定された場合(ステップS703:Yes)、さらに、検出された顔領域のサイズが所定の閾値A以上であるか否かを判定する(ステップS706)。なお、閾値A>閾値Bとする。そして、所定の閾値A未満であると判定された場合(ステップS706:No)、手法選択部104が、第2の顔特徴点検出手法を選択する(ステップS707)。そして、特徴点検出部105が、検出された顔領域に対して、選択された第2の顔特徴点検出手法を用いて顔の特徴点を検出する(ステップS708)。
一方、手法選択部104が、検出された顔領域のサイズが所定の閾値A以上であると判定された場合(ステップS706:Yes)、手法選択部104が、第3の顔特徴点検出手法を選択する(ステップS709)。そして、特徴点検出部105が、検出された顔領域に対して、選択された第3の顔特徴点検出手法を用いて顔の特徴点を検出する(ステップS710)。
そして、特徴抽出部106が、検出された顔の特徴点に基づいて、顔の特徴情報を抽出する(ステップS711)。その際、特徴抽出部106は、検出した特徴点に対して向き補正(三次元)、大きさ補正、及び明るさ補正を行っておく。これにより、画像データの顔領域毎に異なるサイズ、明るさ、顔の向きが修正される。
その後、認識部108が、特徴抽出部106により抽出された顔の特徴情報と、人物情報管理部107に記憶された顔の特徴情報に基づいて、認識処理を行い、画像データに映った人物の候補を抽出する(ステップS712)。
そして、表示部109が、抽出された候補者の一覧と、顔特徴点検出手法に基づく信頼度と、を表示する(ステップS713)。
(第1の実施形態の変形例)
第1の実施形態は、検出した顔領域のサイズに応じて3種類の顔特徴点検出手法から選択する例について説明した。しかしながら、サイズに応じた選択に制限するものではなく、ある顔特徴点検出手法を用いた特徴点の検出結果に応じて、他の顔特徴点検出手法に切り替える手法を組み合わせても良い。
上述したように、検出精度が高い顔特徴点検出手法は、低解像度に弱いという特徴を有している。そこで、本変形例では、最初に検出精度が高い顔特徴点検出手法(例えば、第3の顔特徴点検出手法)を用いて顔の特徴点を検出し、検出された顔の特徴点の位置が適切か否か判定し、適切でない場合には、検出対象の顔領域のサイズ(解像度)が適切で無かったと判断し、低解像度に強い顔特徴点検出手法(例えば、第2の顔特徴点検出手法)に切り替えていくこととした。
次に、本変形例にかかる顔認識装置100における、人物の顔の認識処理について説明する。図8は、第1の実施形態の変形例にかかる顔認識装置100における上述した処理の手順を示すフローチャートである。
画像入力部101が、カメラ150から画像データを入力処理する(ステップS801)。次に、顔領域検出部102が、入力処理された画像データから、顔領域の検出を行う(ステップS802)。
次に、手法選択部104が、検出された顔領域のサイズが所定の閾値A’以上であるか否かを判定する(ステップS803)。そして、所定の閾値A’以上であると判定された場合(ステップS803:Yes)、手法選択部104が、第3の顔特徴点検出手法を選択する(ステップS804)。そして、特徴点検出部105が、検出された顔領域に対して、選択された第3の顔特徴点検出手法を用いて顔の特徴点を検出する(ステップS805)。
その後、特徴抽出部106が、ステップS805で検出された特徴点で正規化し、顔領域に基づいた切り出し画像データを生成する(ステップS806)。そして、特徴抽出部106は、生成した切り出し画像データに対して、顔の特徴点の位置に関する検出評価を行う。そして、特徴抽出部106が、検出評価の値が、人物の平均的な顔のパタンに基づく基準値C以上であるか否かを判定する(ステップS807)。なお、閾値Cは実施の態様に併せて設定されるものとする。そして、閾値C以上である場合(ステップS807:Yes)には、ステップS814に移動する。
一方、ステップS807で特徴抽出部106が検出結果の値が基準値C未満であると判定した場合(ステップS807:No)、又はステップS803で手法選択部104が、検出された顔領域のサイズが所定の閾値A’未満と判定した場合(ステップS803:No)、手法選択部104が、第2の顔特徴点検出手法を選択する(ステップS808)。そして、特徴点検出部105が、検出された顔領域に対して、選択された第2の顔特徴点検出手法を用いて顔の特徴点を検出する(ステップS809)。
その後、特徴抽出部106が、ステップS809で検出された特徴点で正規化し、顔領域に基づいた切り出し画像データを生成する(ステップS810)。そして、特徴抽出部106は、生成した切り出し画像データに対して、顔の特徴点の位置に関する検出評価を行う。そして、特徴抽出部106が、検出評価の値が、人物の平均的な顔のパタンに基づく基準値C以上であるか否かを判定する(ステップS811)。そして、基準値C以上である場合(ステップS811:Yes)、ステップS814に移動する。
一方、ステップS811で特徴抽出部106が検出結果の値が基準値C未満であると判定した場合(ステップS811:No)、手法選択部104が、第1の顔特徴点検出手法を選択する(ステップS812)。そして、特徴点検出部105が、検出された顔領域に対して、選択された第1の顔特徴点検出手法を用いて顔の特徴点を検出する(ステップS813)。
そして、特徴抽出部106が、検出された顔の特徴点に基づいて、顔の特徴情報を抽出する(ステップS814)。その際、特徴抽出部106は、検出した特徴点に対して向き補正(三次元)、大きさ補正、及び明るさ補正を行っておく。これにより、画像データの顔領域毎に異なるサイズ、明るさ、顔の向きが修正される。
その後、認識部108が、特徴抽出部106により抽出された顔の特徴情報と、人物情報管理部107に記憶された顔の特徴情報に基づいて、認識処理を行い、画像データに映った人物の候補を抽出する(ステップS815)。
そして、表示部109が、抽出された候補者の一覧と、顔特徴点検出手法に基づく信頼度と、を表示する(ステップS816)。
上述した処理手順により、検出した顔領域に対して適切な顔特徴点検出手法を用いて、顔の特徴点の検出が可能となる。これにより、人物の認識の精度を向上させることができる。
(第2の実施形態)
第1の実施形態では、選択された顔特徴点検出手法を用いて、顔の特徴点を検出する例について説明した。しかしながら、選択された一つの顔特徴点検出手法を用いるのではなく、複数の顔特徴点検出手法を組み合わせて用いても良い。そこで、第2の実施形態では、複数の顔特徴点検出手法を組み合わせて用いる例について説明する。
図9は、第2の実施形態にかかる顔認識装置900の構成を示すブロック図である。本実施形態にかかる顔認識装置900は、上述した第1の実施形態にかかる顔認識装置100とは、手法選択部104とは処理が異なる手法選択部901に変更され、特徴点検出部105とは処理が異なる特徴点検出部902に変更されている点で異なる。以下の説明では、上述した第1の実施形態と同一の構成要素には同一の符号を付してその説明を省略している。
手法選択部901は、顔領域検出部102により検出された顔領域の画像サイズに基づいて、第1の顔特徴点検出手法と第2の顔特徴点検出手法との組み合わせ、及び第2の顔特徴点検出手法と第3の顔特徴点検出手法との組み合わせのうち、どちらの組み合わせで顔の特徴点の検出を行うかを選択する。本実施形態では、顔領域を表す矩形の頂点の座標から横幅及び縦幅を示す画素数を算出し、算出した画素数が所定の閾値A’’以上であるか否かに基づいて、顔特徴点検出手法の組み合わせを選択する。
特徴点検出部902は、手法選択部901で選択された顔特徴点検出手法の組み合わせを用いて、顔領域検出部102により検出された顔領域から、目、鼻などの顔部位の位置を顔の特徴点として検出する。
特徴点検出部902は、検出された顔領域から、顔の部位を顔の特徴点として検出する際、顔領域の大きさの違いにあわせて異なる複数の顔特徴点検出手法を組み合わせて処理をする。
また、特徴点検出部902は、低解像度でも顔の特徴点を検出しやすい顔特徴点検出手法を用いて顔特徴点の検出を行ったのち、各特徴点の周辺の所定領域を上限としてより高い検出位置精度をもつ顔特徴点検出手法を用いて顔の特徴点の位置を補正する。これにより、個人を特定する認識精度の低下をおさえながら低い解像度の顔画像が入力された場合にも精度良く顔認識処理をすることを可能とする。
特徴点検出部902は、第1の特徴点前段検出部911と、第2の特徴点後段検出部912と、第2の特徴点前段検出部913と、第3の特徴点後段検出部914と、を備える。
第1の特徴点前段検出部911は、前段処理として、第1の顔特徴点検出手法を用いて、顔領域検出部102により検出された顔領域から、顔の特徴点を検出する。
第2の特徴点後段検出部912は、後段処理として、第2の顔特徴点検出手法を用いて、第1の特徴点前段検出部911に検出された顔の特徴点の周辺の所定の領域に対して、顔の特徴点を検出する。
第2の特徴点前段検出部913は、前段処理として、第2の顔特徴点検出手法を用いて、顔領域検出部102により検出された顔領域から、顔の特徴点を検出する。
第3の特徴点後段検出部914は、後段処理として、第3の顔特徴点検出手法を用いて、第1の特徴点前段検出部911に検出された顔の特徴点の周辺の所定の領域に対して、顔の特徴点を検出する。
例えば、第3の顔特徴点検出手法は、顔領域の形状情報や輝度分布情報に基づいて、顔の特徴点を検出するが、詳細に検出処理を行うため処理負担が大きい。そこで、特徴点検出部902では、第2の特徴点前段検出部913が、第2の特徴点検出手法を用いて、顔の特徴点を検出し、第3の特徴点後段検出部914が、検出した顔の特徴点の周辺の所定領域に限って第3の顔特徴点検出手法で顔の特徴点の検出を行う。これにより、処理負担を軽減した上で、顔特徴点の位置の特定精度を向上させることができる。なお、特徴点の周辺となる所定の領域は、実施の態様によって予め定められるものとする。
同様に、第1の特徴点前段検出部911は、第1の特徴点検出手法を用いて、特徴点や、顔の向き等を検出し、第2の特徴点後段検出部912が、検出された顔の向きに基づいて顔の特徴点の初期位置を当てはめ、当該初期位置の周辺の所定領域に限って第2の顔特徴点検出手法を用いて、顔の特徴点の検出を行う。これにより、処理負担を軽減した上で、顔特徴点の位置の特定精度を向上させることができる。
なお、本実施形態では、複数の組合せの例として、2種類の顔特徴点検出手法を組み合わせる例について説明したが、3種類以上の顔特徴点検出手法を組み合わせて特徴点の検出を行っても良い。
なお、本実施形態にかかる顔認識装置900の特徴点検出部902は、前段の顔特徴点検出手法を用いて、顔の特徴点の検出を行った後、後段の顔の特徴点検出による位置の補正が必要か否かの検証を行ってもよい。そして、当該検証の結果、後段の顔の特徴点検出による位置の補正が必要と判定された場合に、後段の顔特徴点検出手法を用いて、補正を行う。本実施形態では、特徴点検出部902が、前段及び後段の顔特徴点検出手法のそれぞれを用いた顔の特徴点の検出結果をもとに、M×N画素で構成される顔領域の正規化切り出し画像を生成し、正規化切り出し画像のパタンと、人物の平均的な顔のパタンとして予め学習されたパタンと、の類似度を算出し、算出された類似度が所定の類似度以上とならなかった場合に、後段の顔特徴点検出手法を用いて、顔の特徴点の位置の補正を行う。
次に、本実施形態にかかる顔認識装置900における、人物の顔の認識処理について説明する。図10は、本実施形態にかかる顔認識装置900における上述した処理の手順を示すフローチャートである。
画像入力部101が、カメラ150から画像データを入力処理する(ステップS1001)。次に、顔領域検出部102が、入力処理された画像データから、顔領域の検出を行う(ステップS1002)。
次に、手法選択部901が、検出された顔領域のサイズが所定の閾値A’’以上であるか否かを判定する(ステップS1003)。そして、所定の閾値A’’未満であると判定された場合(ステップS1003:No)、手法選択部901が、第1の顔特徴点検出手法及び第2の顔特徴点検出手法の組み合わせを選択する(ステップS1004)。そして、第1の特徴点前段検出部911が、検出された顔領域に対して、選択された第1の顔特徴点検出手法を用いて顔の特徴点を検出する(ステップS1005)。
その後、特徴点検出部902が、検出された顔の特徴点に対して、位置の補正が必要か否かを判定する(ステップS1006)。当該位置の補正が必要か否かの判定手法としては、どのような手法を用いても良いが、本実施形態では上述したように、予め学習されたパタンとの間で算出された類似度に基づいて、判定する。そして、位置の補正が必要ないと判定した場合(ステップS1006:No)、ステップS1012に移動する。
一方、特徴点検出部902が位置の補正が必要と判定した場合(ステップS1006:Yes)、さらに、第2の特徴点後段検出部912が、ステップS1005で検出された特徴点の周辺の所定の領域に対して、第2の顔特徴点検出手法を用いて、顔の特徴点の検出、つまり位置の修正を行う(ステップS1007)。
また、ステップS1003で、手法選択部901が、検出された顔領域のサイズが所定の閾値A’’以上であると判定した場合(ステップS1003:Yes)、手法選択部901が、第2の顔特徴点検出手法及び第3の顔特徴点検出手法の組み合わせを選択する(ステップS1008)。そして、第2の特徴点前段検出部913が、検出された顔領域に対して、選択された第2の顔特徴点検出手法を用いて顔の特徴点を検出する(ステップS1009)。
その後、特徴点検出部902が、検出された顔の特徴点に対して、位置の補正が必要か否かを判定する(ステップS1010)。そして、位置の補正が必要ないと判定した場合(ステップS1010:No)、ステップS1012に移動する。
一方、特徴点検出部902が位置の補正が必要と判定した場合(ステップS1010:Yes)、さらに、第3の特徴点後段検出部914が、ステップS1009で検出された特徴点の周辺の所定の領域に対して、第3の顔特徴点検出手法を用いて、顔の特徴点の検出、つまり位置の修正を行う(ステップS1011)。
そして、特徴抽出部106が、検出された顔の特徴点に基づいて、顔の特徴情報を抽出する(ステップS1012)。その際、特徴抽出部106は、検出した特徴点に対して向き補正(三次元)、大きさ補正、及び明るさ補正を行っておく。これにより、画像データの顔領域毎に異なるサイズ、明るさ、顔の向きが修正される。
その後、認識部108が、特徴抽出部106により抽出された顔の特徴情報と、人物情報管理部107に記憶された顔の特徴情報に基づいて、認識処理を行い、画像データに映った人物の候補を抽出する(ステップS1013)。
そして、表示部109が、抽出された候補者の一覧と、顔特徴点検出手法に基づく信頼度と、を表示する(ステップS1014)。
上述した処理手順により、顔領域のサイズに応じて顔特徴点検出手法を異ならせた上で、複数の顔特徴点検出手法を組み合わせて顔の特徴点の検出を行うことができる。これにより、顔の特徴点の位置の検出精度を向上させると共に、精度は高いが処理負担の大きい顔特徴点検出手法が使用される領域は所定の領域に限られるため、処理負担を軽減できる。
なお、本実施形態にかかる表示部109は、候補者に関する情報を表示する際に、特徴点検出部902が用いた顔特徴点検出手法に基づいた、顔認証の信頼性を示した情報を表示する。例えば、表示部109は、後段の検出処理を行った場合には後段の顔特徴点検出手法に基づいた信頼性を示す情報を表示する。表示部109は、前段の検出処理のみ行った場合、前段の顔特徴点検出手法に基づいた信頼性を表示しても良いし、位置の補正が必要ないと判断された以上、後段の特徴点検出手法と同等の信頼性を表示しても良い。
また、本実施形態では、顔領域のサイズ(解像度)によって、顔特徴点検出手法の組み合わせを切り替える例について説明したが、顔領域のサイズによって切り替えることを必ず行う必要があるものではない。例えば、顔領域のサイズにかかわらず、常に低解像度に対応した顔特徴点検出手法から順に顔の特徴点の検出処理を行うようにしてもよい。
このように、第2の実施形態にかかる顔認識装置900では、低解像度の画像であっても顔の特徴点検出の位置が極端に誤ることを抑えることができるとともに、可能なかぎり位置精度を高めることができる。
(第2の実施形態の変形例)
なお、このような複数の顔特徴点検出手法を組み合わせた手法は、第2の実施形態で示したような後段の顔特徴点検出手法を、前段の顔特徴点検出手法で検出された顔特徴点の位置を基準に所定領域内に限って検出を行うことに制限するものではない。
例えば、後段の顔特徴点検出手法でも所定の領域より広い領域(例えば顔領域全体)に対して顔の特徴点の検出を行ってもよい。この場合、当該後段の顔特徴点検出手法で得られた検出座標と、前段の顔特徴点検出手法で得られた検出座標と、を比較し、後段の検出座標が前段の検出座標から所定領域内の誤差であれば後段の検出結果を利用し、所定領域以上離れている場合、前段の顔特徴点検出手法を維持する手法が考えられる。
以上の第1〜第2の実施形態により、画像データ内の顔領域のサイズ等に応じて、適切な顔特徴点検出手法を選択することで、顔の認識精度の低下を抑止することが可能となる。
図11は、上述した実施形態にかかる顔認識装置100、900のハードウェア構成を示した図である。図11に示すように、顔認識装置100、900は、CPU1101と、ROM(Read Only Memory)1102と、RAM1103と、通信I/F1104と、HDD1105と、表示装置1106と、キーボードやマウスなどの入力デバイス1107と、これらを接続するバス1108と、を備えており、通常のコンピュータを利用したハードウェア構成となっている。
本実施形態の顔認識装置100、900で実行される顔認識プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、本実施形態の顔認識装置100、900で実行される顔認識プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施形態の顔認識装置100、900で実行される顔認識プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
また、本実施形態の顔認識プログラムを、ROM等に予め組み込んで提供するように構成してもよい。
本実施形態の顔認識装置100、900で実行される顔認識プログラムは、上述した各構成を含むモジュール構成となっており、実際のハードウェアとしてはCPU1101が上記記憶媒体から顔認識プログラムを読み出して実行することにより上記各構成がRAM1103上にロードされ、上記各構成がRAM1103上に生成される。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。