JP4642128B2

JP4642128B2 - 画像処理方法、画像処理装置及びシステム

Info

Publication number: JP4642128B2
Application number: JP2009204760A
Authority: JP
Inventors: ウェイゼン; ホンミンチャン
Original assignee: NEC China Co Ltd
Current assignee: NEC China Co Ltd
Priority date: 2008-09-09
Filing date: 2009-09-04
Publication date: 2011-03-02
Anticipated expiration: 2029-09-04
Also published as: CN101673346B; CN101673346A; JP2010103980A

Description

本発明は、顔画像キャプチャに関し、特に、さらに進んだクラスタリングのための複数のカメラからの顔画像を処理する画像処理方法、画像処理装置及びシステムに関する。

顔検出はパターン認識研究開発における最新の話題である。過去十年間で、顔検出技術は、十分な精度および速度を持つ高水準に達成した。顔検出の目的は、画像が顔画像領域を有するかどうか判定し、これらの顔画像領域を自動的に特定することである。顔検出は、人々の日々の生活において広く用いられている。例えば、近年、顔検出技術は、ディジタル・カメラに埋め込まれている。ディジタル・カメラは、人々が自動顔検出によって顔に焦点の合った上手な写真を取得するのを支援することができる。さらに、セキュリティ応用において、顔検出技術は顔画像を自動的に分析するのための顔認識装置に対して顔画像を抽出し提供するために用いられている。

カメラベースの顔キャプチャ技術は顔検出が適用される場面である。顔キャプチャ技術において、画像は、カメラによって最初にキャプチャされる。次に、顔画像領域を含む画像が出力される。顔キャプチャ技術は、今後の解析において、顔イメージデータを提供するために、顔認識あるいは顔解析アプリケーションのフロントエンドモジュールにおいて用いられているかもしれない。

顔キャプチャの目的は入力画像から自動的に顔画像を抽出することである。通常、画像内の顔領域を特定するために顔検出技術を使用する。人間の顔は3Dのオブジェクトであり、顔画像は実際に2Dの画像平面上への3Dの顔オブジェクトの投影であるので、1つの3Dの顔は様々な顔のポーズを表し、その結果、複数の異なる顔画像を生成する。従って、顔をキャプチャするタスクは、正面顔画像を検出し抽出するだけでなく、側面顔画像のような非正面顔画像も検出し抽出する。

既存の顔キャプチャ技術は、通常単一のカメラで作動する。顔検出モジュールは、最初にカメラからキャプチャされた画像を取得する。次に、顔検出モジュールは、画像毎に全ての箇所を調べる。各箇所において、顔検出モジュールは、まず、予め定義されたサイズの画像領域を判定し、その領域が顔画像領域であるかどうかを判定する。領域が顔画像領域と識別されれば、その領域は顔画像領域候補として扱われる。調査後に、それらがオーバラップすれば、それらの顔画像領域候補はマージされる。最後に、マージされた顔画像領域の箇所は顔画像領域としてマーク付けされる。もし、顔画像だけが必要ならば、顔画像領域がサンプリングされる。

Ming-Hsuan Yan, David J. Kriengman, and NarendraAhuja. Detecting Faces in Images: A Survey. IEEE Transactions On Patternanalysis and Machine Intelligence, Vol. 24, No. 1, pp. 34-58, 2002 Paul A. Viola, Michael J. Jones: Rapid ObjectDetection using a Boosted Cascade of Simple Features. In Proceedings of IEEEComputer Society Conference on Computer Vision and Pattern Recognition (CVPR2001), Vol. 1, pp. 511-518, Kauai, HI, USA , 8-14 December 2001 W. Zhao, R. Chellappa, A.Rosenfeld, P.J. Phillips, Face Recognition: A Literature Survey, ACM ComputingSurveys, Vol. 35, Issue 4, pp. 399-458, December 2003

単一のカメラベースの顔検出の問題は、顔検出モジュールは、正面顔画像について高精度を達成することができるが、非正面顔画像の同様なケースでは高精度を達成できないことである。
他の問題は、人々がカメラにまっすぐに向かい合う場合に限り、正面顔画像をキャプチャすることができるが、現実の世界においてこのような条件を必ずしも満たすことができるとは限らないことである。
このため、顔キャプチャシステムは、可能な限り正面顔画像を取得することが要求される。
言いかえれば、人々がカメラに必ずしもまっすぐに向かい合うとは限らないので、撮影された人物の異なる顔のポーズによって引き起こされる問題は、単一のカメラベースの顔検出には避けられないことである。
人々がカメラの方へまっすぐに向かなければ、キャプチャされた顔画像は非前面の顔画像あるいは側面顔画像になるだろう。

マルチカメラ顔キャプチャ技術においては、人々に向かって数台のカメラがあり、正面顔画像をキャプチャする可能性が高くなるので、正面顔画像をより容易にキャプチャすることができる。
一方、多重カメラ顔キャプチャ技術においては、数台のカメラが、一度に一人の人物の異なる方向の顔画像をキャプチャする。
このため、異なるカメラから１つの人物の顔画像をマージすることが必要になってくる。

本発明は、マルチカメラ方式に基づいた画像処理技術を提供する。
複数のカメラが一度に一人の人物の異なる方向の顔画像をキャプチャするので、本発明は、異なる人物にそれぞれ対応するクラスターに顔画像をグループ化するクラスタリング方法を提供することを目的とする。

本発明の実施の形態において、異なる顔のポーズの画像間の類似度は、それらの画像の間の距離を利用することにより測定される。
これにより、顔のポーズの判断により引き起こされる複雑な計算を回避することが可能である。
すなわち、本発明の画像処理技術は、顔のポーズの判断を行うことなく効率的に顔画像をキャプチャし、高品質顔画像の出力することを可能とする。

本発明による共通の場面の様々な位置に配置された複数のカメラによってキャプチャされる画像を処理する方法は、キャプチャされた画像から顔画像を検出するステップと、各々の対応する顔画像について様々な顔のポーズ角について複数の合成画像を含む１セットの合成画像を生成するために、所定の顔のポーズモデルを用いることにより、様々なポーズ角について検出された各顔画像を処理するステップと、各合成画像から特徴ベクトルを抽出するステップと、異なるセットの合成画像間の特徴ベクトル距離を計算することにより、合成画像の異なるセットの間の距離を計算するステップと、合成画像の異なるセット間の距離に基づいて、検出された顔画像をクラスタリングするステップとを含む。

本発明による共通の場面の様々な位置に配置された複数のカメラによってキャプチャされる画像を処理する装置は、キャプチャされた画像から顔画像を検出する検出手段と、所定の顔のポーズモデルを記憶する顔モデル記憶手段と、各々の対応する顔画像について様々な顔のポーズ角について複数の合成画像を含む１セットの合成画像を生成するために、所定の顔のポーズモデルを用いることにより、様々なポーズ角について検出された各顔画像を処理する処理手段と、各合成画像から特徴ベクトルを抽出する抽出手段と、異なるセットの合成画像間の特徴ベクトル距離を計算することにより、合成画像の異なるセットの間の距離を計算する計算手段と、合成画像の異なるセット間の距離に基づいて、検出された顔画像をクラスタリングするクラスタリング手段とを備える。

本発明による画像を処理するシステムは、共通の場面の画像をキャプチャする様々な位置に配置された複数のカメラと、キャプチャされた画像から顔画像を検出する検出手段と、所定の顔のポーズモデルを記憶する顔モデル記憶手段と、各々の対応する顔画像について様々な顔のポーズ角について複数の合成画像を含む１セットの合成画像を生成するために、所定の顔のポーズモデルを用いることにより、様々なポーズ角について検出された各顔画像を処理する処理手段と、各合成画像から特徴ベクトルを抽出する抽出手段と、異なるセットの合成画像間の特徴ベクトル距離を計算することにより、合成画像の異なるセットの間の距離を計算する計算手段と、合成画像の異なるセット間の距離に基づいて、検出された顔画像をクラスタリングするクラスタリング手段とを備える。

本発明によれば、高品質の顔画像を容易に検出し抽出することが可能である。本発明によれば、異なる方向の数個のカメラを用いるので、顔のポーズ問題に直観的に対処することができる。顔ポーズ領域は、同時に動作するカメラにより複数の準顔ポーズ領域に分離される。顔のポーズは、これらのカメラ間でほとんど変わらない。

本発明の実施の形態は、顔画像のクラスタリングにおいて効果的な顔距離を用いることで、より高いロバスト性と計算量の削減を実現することができる。

本発明の前述した目的、特徴及び効果と他の目的、特徴及び効果は、添附の図面を参照した本発明の実施の形態に関する以下の説明からより明らかになるであろう。
本発明の実施の形態による画像処理システムの概略ブロック図である。本発明の実施の形態による画像処理方法を説明するフローチャートである。顔画像の処理に用いられるポーズ角の概略を示す図である。距離の計算に用いられる距離行列の概略を示す図である。

以下、本発明の好ましい実施の形態について図面を参照して説明する。なお、以下の説明において、周知の機能及び構成については、本発明を不必要に不明瞭にしないために省略する。

図1は、本発明の実施の形態による画像処理システムの概略ブロック図を示している。図１に示すように、本実施の形態による画像処理システムは、ビデオキャプチャユニット１０、顔検出ユニット２０、顔クラスタリングユニット３０および選択ユニット４０を備える。本実施の形態において、顔クラスタリングユニット３０は、画像レンダリングユニット３１、特徴抽出ユニット３２、距離計算ユニット３３およびクラスタリングユニット３４を備える。

ビデオキャプチャユニット１０は、例えば、様々な場所に配置された複数のカメラである。これらのカメラは、ビルの入口などのような共通の場面の画像をキャプチャし、キャプチャした映像信号をデジタル画像データに変換する。同時に、キャプチャされた画像は顔検出ユニット２０に転送される。人間の顔を含む領域の箇所が特定され、かつ顔画像はこれらの箇所でキャプチャされた画像から抽出される。次に、異なるカメラからのそれぞれの顔画像は、顔クラスタリングユニット３０において、異なる各人物毎に、画像クラスターにグループ化される。最後に、選択ユニット４０は、鮮明度あるいは目の間の距離のような予め定義された判定基準に基づいて、グループ化された画像クラスターから各画像クラスター毎に代表的な画像を出力として選択する。

顔クラスタリングユニット３０において、画像レンダリングユニット３１は、異なるポーズ角の合成された顔画像を、それぞれの顔画像に対する合成画像セットとして生成するために、予め顔モデルメモリ（示されない）に格納されている３Ｄあるいは２Ｄのポーズモデルで各顔画像を処理する。その後、特徴抽出ユニット３２は、各合成画像についてＬＤＡあるいはＰＣＡベクトルを抽出する。距離計算ユニット３３は、２つの異なる合成画像セットから合成顔画像の間の距離を計算し、２つのセットの間の距離として最小距離を採用する。次に、クラスタリングユニット３４は、異なる人物毎に、合成画像セットの間の距離に基づいて顔画像をクラスタに分けて、画像クラスターを生成する。

上述したように、次いで、選択ユニット４０が、鮮明度あるいは目の間の距離のような予め定義された判定基準に基づいて、出力として、グループ化された画像クラスターから各画像クラスター毎に代表的な画像を選択する。

以下、上記各ユニットの詳細な構成および動作を図２〜図４に従って説明する。図２は、本発明の実施の形態による画像処理方法のフローチャートを示す。

本実施の形態において、画像は、ビルの入口のような共通の目標を撮影するために配列された複数のカメラの協同によって取り込まれる。すなわち、少なくともこれらのカメラのいくつかは共通した視界を有している。

ステップＳ１１で、カメラとビデオキャプチャカードを含むビデオキャプチャユニット１０は、共通の場面の映像信号を生成し映像信号をサンプリングし、それらをデジタルビデオ画像に変換する。そのデジタルビデオ画像はシステムのバッファメモリ（図示しない）中に記憶される。本発明の実施の形態では、画像の形式は、ＰＡＬあるいはＮＴＳＣ形式であってもよいし、あるいは利用者の要求に応じた形式でもよい。また、各画像のサイズは、所定のサイズでもよいし、利用者の要求に応じたサイズでもよい。

ステップＳ１２で、顔検出ユニット２０は、検出器を使用することにより、取り込まれた画像の中の顔領域を検出する。検出器としては、非特許文献１（Ming-Hsuan Yan, David J. Kriengman, and Narendra Ahuja. Detecting
Faces in Images: A Survey. IEEE Transactions On Pattern analysis and Machine
Intelligence, Vol. 24, No. 1, pp. 34-58, 2002（ミン−センヤン、デビッドジェイクリンマン、ナンドゥラアウジャ、画像中の顔の検出、IEEE パターンの分析と機械知能、２００２年、巻２４号１、３４−５８頁））に記載された顔検出器あるいは非特許文献２（Paul
A. Viola, Michael J. Jones: Rapid Object Detection using a Boosted Cascade of
Simple Features. In Proceedings of IEEE Computer Society Conference on Computer
Vision and Pattern Recognition (CVPR 2001), Vol. 1, pp. 511-518, Kauai, HI, USA
, 8-14 December 2001（ポールエイビオラ、マイケルジェイジョーンズ、簡易特徴のブースト化されたカスケードを用いた高速物体検知、IEEEコンピュータソサイエティ大会コンピュータビジョンとパターン認識について、２００１年１２月８−１４日アメリカ合衆国巻１号５１１−５１８頁））に示された分類器のような、様々な適切な検出器を用いることが可能である。
具体例として、分類器は、最初に顔を含む画像と顔を含まない画像でトレーニングされ、次に、関心のある領域の検出に適用される。分類器は、いくつかの領域が顔を含んでいれば、「１」を出力し、そうでなければ、「０」を出力する。このように、分類器は、様々な基準で画像の全ての箇所を検索することにより、各画像中の顔領域を見つけ出す。

ステップＳ１３で、顔画像は合成画像セットを取得するために様々なポーズ角で処理される。マルチカメラ・アプリケーションにおいて、カメラが様々な箇所および方向に配置されるので、上述したように、様々なポーズ角の顔画像は、１人の同一人物に対するいくつかのカメラのキャプチャから生じるだろう。この点で、クラスタリング処理は、１人の同一人物について様々なポーズの顔画像を分類する処理と見なすことができる。

一般に、同じポーズの人物からの２つの顔画像間の類似度は、異なるポーズの顔画像間のそれより大きい。同じポーズの二人の人物からの２つの顔画像間の類似度は、同じポーズの一人の人物からの顔画像間のそれより小さい。
したがって、同じポーズの顔画像は、より簡単にクラスタに分けられるであろう。本実施の形態によれば、非特許文献３（W. Zhao, R. Chellappa, A. Rosenfeld, P.J. Phillips, Face
Recognition: A Literature Survey, ACM Computing Surveys, Vol. 35, Issue 4, pp.
399-458, December 2003（ウェイザオ、ラマチェラッパ、エイローゼンフェルド、ピージェイフィリップス、顔認識、論文ACMコンピュ−ティング、３５号４版、３９９−４５８頁、２００３年１２月））に説明されるように、顔画像間の類似度はＬＤＡまたはＰＣＡのように特徴の間の距離によって表わされる。本発明の実施の形態によれば、顔画像の合成画像セットとして、例えば、水平と垂直の少なくと１方向に−４５度から＋４５度に及ぶ様々なポーズ角について合成顔画像を生成するために、異なるポーズ角の顔画像には、レンダリングのような所定の処理が施される。
図３は、いくつかの顔画像のポーズ角の具体例を示す。

ステップＳ１４で、合成画像セット内の各画像から特徴が抽出される。ステップＳ１５で、合成画像セットの間の距離が、特徴からの距離を計算することにより決定される。

具体例として、ＬＤＡまたはＰＣＡの特徴距離は、様々な画像セットの各合成画像間で計算される。次に、これらの距離のうち最小距離が、合成画像セットの間の距離として決定される。
ここで、処理手順の詳細について説明する。

２の顔画像ｆｉおよびｆｊが与えられた場合、対応する顔画像セットＦｉおよびＦｊは、顔のポーズモデルを使用して顔画像をそれぞれレンダリングすることで取得される。
顔画像セットは、
Fi={fi(-nθ),…,fi(-θ), fi(0), fi(θ),…, fi(nθ),
Fj={fj(-nθ),…,fj(-θ), fj(0), fj(θ),…, fj(nθ)}
と表される。

ｆｉ（ｋθ）およびｆｊ（ｋθ）は、ポーズ角ｋθの顔ポーズモデルを用いてレンダリングされた顔画像である。θは、予め定義された顔のポーズ角である。ｋは、−ｎからｎの範囲の整数変数である。
顔画像ｆｉ（ｋθ）とｆｊ（ｋθ）の各ペアについて、ＬＤＡまたはＰＣＡ特徴の特徴距離によって距離行列を取得することができる。
図４は距離行列を示している。距離行列を計算した後、画像ｆｉおよびｆｊについてのＭＦＰＤは、距離行列の最小距離として定義される。
ＭＦＰＤは、以下の式で表される。

ステップＳ１６で、顔画像は画像セットの間の距離に基づいてクラスタ化される。
一旦２つの顔画像の間の距離が定義されれば、制約付きのマージベースの階層的クラスタリングアルゴリズムを、顔画像をグループ化するために用いることが可能である。
制約は、それらが１つの同じカメラから取得されたものであれば、２以上の顔画像が異なるクラスタにグループ化されるということである。
例えば、マージするクラスターがなくなるまで、最小のクラスター距離で２つのクラスターＣｉおよびＣｊが１つのクラスターにマージされる。
２つのクラスターの距離は次のように定義される。

また、２つのクラスターの距離は、最大あるいは平均のＭＦＰＤ距離である。
ステップＳ１７で、上記顔クラスタリングの後、画像が所定の判定基準に従って各クラスター毎に代表的な顔画像として選択される。
例えば、目の間の距離が最大の画像あるいは最も高い鮮明度の画像が、クラスター毎に代表的な顔画像として選択される。

以上の説明は、本発明の好ましい実施の形態のみを提示するものである。当業者であれば、本発明の原理に沿ってなされた任意の変形あるいは置き換えが添附の請求項の範囲で定義される本発明の範囲に属するものであることは十分に理解するだろう。

１０：ビデオキャプチャユニット
２０：顔検出ユニット
３０：顔クラスタリングユニット
３１：画像レンダリングユニット
３２：特徴抽出ユニット
３３：距離計算ユニット
３４：クラスタリングユニット
４０：選択ユニット

Claims

共通の場面の様々な位置に配置された複数のカメラによってキャプチャされる画像を処理する画像処理方法であって、
キャプチャされた画像から顔画像を検出するステップと、
各々の対応する顔画像について様々な顔のポーズ角について複数の合成画像を含む１セットの合成画像を生成するために、所定の顔のポーズモデルを用いることにより、様々なポーズ角について検出された各顔画像を処理するステップと、
各合成画像から特徴ベクトルを抽出するステップと、
異なるセットの合成画像間の特徴ベクトル距離を計算することにより、合成画像の異なるセットの間の距離を計算するステップと、
合成画像の異なるセット間の距離に基づいて、検出された顔画像をクラスタリングするステップと
を含むことを特徴とする画像処理方法。
クラスター毎に、最大の目の間隔を有する検出顔画像をクラスターの代表的な顔画像として選択するステップをさらに含むことを特徴とする請求項１に記載の画像処理方法。
クラスター毎に、最も高い鮮明度の検出顔画像をクラスターの代表的な顔画像として選択するステップをさらに含むことを特徴とする請求項１に記載の画像処理方法。
前記特徴ベクトルが、ＬＤＡあるいはＰＣＡ特徴ベクトルであることを特徴とする請求項１に記載の画像処理方法。
合成画像の異なるセット間の距離に基づいて、検出された顔画像をクラスタリングするステップが、
合成画像のセット間の距離が所定の閾値より小さい検出顔画像をクラスターとして分類するステップを含むことを特徴とする請求項１に記載の画像処理方法。
異なるカメラで取得された検出顔画像を、異なるクラスターに分類することを特徴とする請求項１に記載の画像処理方法。
前記ポーズ角が、水平と垂直の少なくと１方向に−４５度から＋４５度に及ぶ範囲であることを特徴とする請求項１に記載の画像処理方法。
異なるセットの合成画像間の特徴ベクトル距離を計算することにより、合成画像の異なるセットの間の距離を計算するステップが、
合成画像の異なるセットの間の特徴ベクトル距離の計算するステップと、
計算した距離が最小のものを合成画像の異なるセットの間の距離として決定するステップとを含むことを特徴とする請求項１に記載の画像処理方法。
顔のポーズモデルが、２Ｄあるいは３Ｄの顔のポーズモデルであることを特徴とする請求項１に記載の画像処理方法。
共通の場面の様々な位置に配置された複数のカメラによってキャプチャされる画像を処理する画像処理装置であって、
キャプチャされた画像から顔画像を検出する検出手段と、
所定の顔のポーズモデルを記憶する顔モデル記憶手段と、
各々の対応する顔画像について様々な顔のポーズ角について複数の合成画像を含む１セットの合成画像を生成するために、所定の顔のポーズモデルを用いることにより、様々なポーズ角について検出された各顔画像を処理する処理手段と、
各合成画像から特徴ベクトルを抽出する抽出手段と、
異なるセットの合成画像間の特徴ベクトル距離を計算することにより、合成画像の異なるセットの間の距離を計算する計算手段と、
合成画像の異なるセット間の距離に基づいて、検出された顔画像をクラスタリングするクラスタリング手段と
を備えることを特徴とする画像処理装置。
クラスター毎に、最大の目の間隔を有する検出顔画像をクラスターの代表的な顔画像として選択する選択手段をさらに備えることを特徴とする請求項１０に記載の画像処理装置。
クラスター毎に、最も高い鮮明度の検出顔画像をクラスターの代表的な顔画像として選択する選択手段をさらに備えることを特徴とする請求項１０に記載の画像処理装置。
前記特徴ベクトルが、ＬＤＡあるいはＰＣＡ特徴ベクトルであることを特徴とする請求項１０に記載の画像処理装置。
前記クラスタリング手段が、合成画像のセット間の距離が所定の閾値より小さい検出顔画像をクラスターとして分類することを特徴とする請求項１０に記載の画像処理装置。
前記クラスタリング手段が、異なるカメラで取得された検出顔画像を、異なるクラスターに分類することを特徴とする請求項１０に記載の画像処理装置。
前記ポーズ角が、水平と垂直の少なくと１方向に−４５度から＋４５度に及ぶ範囲であることを特徴とする請求項１０に記載の画像処理装置。
前記計算手段が、合成画像の異なるセットの間の特徴ベクトル距離の計算し、計算した距離が最小のものを合成画像の異なるセットの間の距離として決定することを特徴とする請求項１０に記載の画像処理装置。
顔のポーズモデルが、２Ｄあるいは３Ｄの顔のポーズモデルであることを特徴とする請求項１０に記載の画像処理装置。
画像を処理するシステムであって、
共通の場面の画像をキャプチャする様々な位置に配置された複数のカメラと、
キャプチャされた画像から顔画像を検出する検出手段と、
所定の顔のポーズモデルを記憶する顔モデル記憶手段と、
各々の対応する顔画像について様々な顔のポーズ角について複数の合成画像を含む１セットの合成画像を生成するために、所定の顔のポーズモデルを用いることにより、様々なポーズ角について検出された各顔画像を処理する処理手段と、
各合成画像から特徴ベクトルを抽出する抽出手段と、
異なるセットの合成画像間の特徴ベクトル距離を計算することにより、合成画像の異なるセットの間の距離を計算する計算手段と、
合成画像の異なるセット間の距離に基づいて、検出された顔画像をクラスタリングするクラスタリング手段と
を備えることを特徴とするシステム。