JP2008533606A

JP2008533606A - 顔認識を実行する方法

Info

Publication number: JP2008533606A
Application number: JP2008501478A
Authority: JP
Inventors: グレムゼ，フェーリクス; フィロミン，ヴァサント
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2005-03-18
Filing date: 2006-03-15
Publication date: 2008-08-21
Also published as: TW200707313A; BRPI0608711A2; WO2006097902A3; CN101142586A; WO2006097902A2; US20080192991A1; EP1864245A2

Abstract

本発明は、顔認識を実行する方法を記載するものであり、当該方法は、多数の個別の顔画像Ｉ₁，Ｉ₂，．．．，Ｉ_jから顔の領域を表す状態のマトリクスを含む平均の顔モデルＭ_AVを生成し、多数の既知の顔のうちのそれぞれ１つについて参照の顔モデルＭ₁，Ｍ₂，．．．，Ｍ_nをトレーニングするステップを含み、この場合、参照の顔モデルは、平均の顔モデルに基づく。テスト画像Ｉ_Tは、識別されるべき顔について取得され、平均の顔モデルＭ_AVを通してベストパスは、テスト画像に基づいて計算される。類似の程度は、平均の顔モデルのベストパスをそれぞれの参照の顔モデルに適用し、テスト画像の最も類似する参照の顔モデルを識別することで、テスト画像に対してそれぞれの参照の顔モデルについて評価され、この識別された参照の顔モデルは、その類似の程度に基づいて許可又は拒否される。さらに、本発明は、顔認識を実行するシステムを記載する。また、本発明は、顔認識システムで使用される参照の顔モデルＭ₁をトレーニングする方法及びシステム、顔認識システムで使用される参照の顔モデルＭ_nについて類似性の閾値を計算する方法及びシステム、顔認識システムで使用される画像を最適化する方法及びシステムに関する。

Description

本発明は、顔認識を実行する方法、及び顔認識を実行するシステムに関する。

顔認識に関わる用途はセキュリティシステムと関連されることがあり、ここでは、顔認識技術は、人物がシステム又は監視システムへのアクセスを許可されるか又は拒否されるかを判定するために使用され、これらのシステムは、所定の個人を識別又は追跡するために使用される。更に普及しつつある他の用途は、家庭用ダイアログシステムのようなダイアログシステムのユーザを識別する用途、若しくは、ビデオ又はフォトアーカイブにおける特定の顔を位置決めするか、又は、絵画又は他の記録されたビデオ系列における所定の俳優を発見するイメージサーチの用途を含む。

任意の顔認識技術は、顔のモデルに基づいている。顔モデルのデータベースが一般に使用され、これに対して、プローブ画像は、最も近い整合を発見するために比較される。たとえば、ビルディングのようなシステムへのエントリを得るのを望む人物は、はじめに、顔認識ステップを受ける必要があり、このステップでは、彼の顔の画像をセキュリティバンクの顔モデルに整合させ、その人物のアクセルを許可するか又は拒否するかが判定される。顔のモデルは、異なる照明又は異なる姿勢のような僅かに異なる状況下で全て撮影された、通常は多数の同じ顔の画像である、画像から得られた情報を使用して構築又はトレーニングされる。

ＵＳ２００４／００７１３３８Ａ１は、最大尤度（ＭＬ）基準に関して個別にそれぞれの人物についてのモデルをトレーニングすることを指摘する。これは、多くの顔認識応用にモデルをトレーニングするために使用される公知の技術である。顔認識へのアプローチにおいて、ＵＳ２００４／００７１３３８は、所与のプローブイメージ又は顔の画像について最も近いモデルを判定するが、プローブ画像が未知の人物から生じる不測の事態をカバーすることができず、未知の人物がこのアプローチによりプロテクトされるシステムへのアクセスを得る可能性をオープンにしたままとなる。このシステムの問題点は、顔認識システムが識別結果を見つけ出す前に、人が比較的長い時間について待つ必要があるように、認識プロセスが非常に時間のかかることである。長い遅延の理由は、プローブ画像におけるのと同じ顔をデータベースのモデルが表す確率を判定するため、データベースにおけるそれぞれのモデルについて時間集約の計算を実行して、どのモデルが識別手順を受けている人物に最も類似しているかを判定することが必要である。しかし、大部分の顔認識システムでは、知覚される時間遅延がユーザを困惑させるので、顔認識はできるだけ迅速に計算されることが望まれる。

さらに、残念ながら、プローブ画像が捕捉される状況は理想よりも低いケースがある。ユーザがカメラに面するアスペクト又は彼が想定する顔の表現を正確に制御することが不可能なこととは別に、変動する照明条件は、異なる画像で異なって現れる同じ顔をもたらす。現実の応用のために使用される顔認識システムは、係る制約されていない環境において機能する必要がある。

全体として、顔認識プロセス全体が低速かつ不正確であること、すなわち多くの顔認識システムが満足のいく挙動を示さないという問題を残している。
したがって、本発明の目的は、顔認識を実行する高速かつ更に正確な方法を提供することにある。

上記目的のため、本発明は、顔認識を実行する方法を提供するものであり、当該顔認識方法は、多数の個別の顔画像から、顔の領域を表す状態のマトリクスを含む平均の顔モデルを生成するステップ、多数の既知の顔のそれぞれ１つについて基準となる顔モデルをトレーニングするステップを含み、基準の顔モデルは、平均の顔モデルに基づいている。したがって、基準の顔モデルは、平均の顔モデルと互換性がある。当該方法は、識別されるべき顔のテスト画像を取得し、テスト画像に基づいて平均の顔モデルを通して最良のパスを計算するステップ、平均の顔モデルの最良のパスをそれぞれの基準の顔モデルに適用することで、テスト画像に対するそれぞれの基準の顔モデルに類似の程度を評価するステップ、テスト画像に最も類似する基準の顔モデルを識別するステップ、及び、類似性の程度に基づいて、識別された基準の顔モデルを許可又は拒否するステップを含む。

顔認識を実行する適切なシステムは、それぞれの顔モデルが顔の領域を表す状態のマトリクスを含む多数の基準の顔モデル及び平均の顔モデル、テスト画像を取得する取得ユニット、及び、平均の顔モデルを通して最良の経路を計算するベストパス計算手段を有する。システムは、平均の顔モデルの最良のパスをそれぞれの基準の顔モデルに適用して、それぞれの基準の顔モデルとテスト画像の間の類似性の程度を評価する評価ユニットを更に有する。最も高い類似性の程度をもつ基準の顔モデルを許可又は拒否するかを判定するため、システムは、決定ユニットを有する。

本発明における使用向けの顔モデルは、１つの特定の状態が耳、目、まゆ、又は顔の特徴の一部のような局所的な顔の特徴と関連付けされるように、状態のマトリクスからなる統計的なモデルであり、それぞれの状態は、顔の領域を表す。それぞれの状態は、たとえば、局所的な顔の領域が与えられる局所的な特徴のベクトルの可能性をモデル化するガウスミクスチャモデルを有する。ＨＭＭ（Hidden Markov Model）として知られる統計モデルのタイプを使用して、係る状態のリニアシーケンスがモデル化される。しかし、顔画像は２次元画像であり、ここではそれぞれの行がリニアな状態系列として見ることができるので、本発明で使用される統計モデルは、擬似２次元ＨＭＭ（Ｐ２ＤＨＭＭ）のような２次元モデルであることが好ましく、この擬似２次元ＨＭＭは、その状態がそれ自身ＨＭＭである垂直方向について外側ＨＭＭを使用し、水平方向をモデル化することで、２次元データをモデル化する。ＨＭＭ及びＰ２ＤＨＭＭの強度は、ストレッチ又はシフトのような信号の「歪み」を補償する能力である。顔の画像を顔のモデルに比較するケースでは、かかる歪みは、顔がカメラから離れ、短縮された場合、又は顔が不正確に検出又は位置決めされた場合に生じる可能性がある。顔の画像を顔のモデルと比較するため、顔の領域は、「アラインメント」又は「セグメンテーション」として知られる技術において、はじめに画像で識別され、次いで、モデルの対応する領域に比較される。

「ユニバーサルバックグランドモデル（ＵＢＭ）」又は「ストレンジャーモデル」とも呼ばれる「平均の顔モデル」は、たとえば１００人からの４００画像といった多くの異なる人からの多くの画像を使用して、「構築」又はトレーニングされる。トレーニングのために使用される画像は、全ての適切なタイプの顔を通して代表的な断面であるように、好ましくは選択される。セキュリティシステムについて、たとえば、平均の顔モデルは、適切な国籍の大人の顔を使用してトレーニングされる場合がある。ビデオアーカイブにおいて俳優の画像を位置決めするために使用されるアーカイブサーチシステムは、広い年齢のグループにわたり人々の画像に基づいて平均の顔モデルを必要とする。

平均の顔モデルは、「期待値最大化」アルゴリズムを適用する公知の方法を使用してトレージングされ、このアルゴリズムは、画像の顔の特徴のケースにおいて、所与のデータセットの確率密度を推定するために一般に使用される。このトレーニングの方法は、「最大尤度（ＭＬ）」トレーニングとも呼ばれ、低速であり、平均の顔モデルをトレーニングするために数時間を要するが、この最初の投資は、１度実行されるのを必要とする。ひとたび平均の顔モデルがトレーニングされると、顔認識用の適切なシステムで利用することができる。

「基準の顔モデル」は、特定の顔をモデル化するために使用される。たとえば、基準の顔モデルは、システムへのアクセスを得るために許可された人物の顔をモデル化するために使用される。係る基準の顔のモデルは、非常に少ない画像により、平均の顔モデルをトレーニングする方法を使用してトレーニングされ、この場合、画像は、全てその人物の顔である。顔認識用のシステムは、システムが識別することができるそれぞれの顔について少なくとも１つの、多数の基準の顔モデルを有することが好ましい。たとえば、セキュリティシステムは、システムへのアクセスが許可される多数の従業員のそれぞれについて１つである、基準の顔モデルのデータベースを有する。

平均の顔モデル及び基準の顔モデルをトレーニングするために使用される画像は、たとえばカラーデジタル画像の圧縮のために一般に使用される規格であるＪＰＥＧ（Joint Photographic Experts Group）、又は他の適切な画像フォーマットといった任意の適切な画像フォーマットからなる。画像は、アーカイブから取得されるか、トレーニングの目的で明示的にカメラにより生成される。同様に、識別手順を受けることになる人物のテスト画像は、カメラ又はビデオカメラにより取得される。このように取得された画像は、必要に応じて、適切な変換ツールを使用して適切な電子データフォーマットに変換される。その後、テスト画像は、局所的なベクトルのマトリクスを抽出するために処理され、照明条件に対して不変であるが人物のアイデンティティに関して関連する情報を含むテスト画像における顔の代表が導出される。

テスト画像が参照の顔モデルの何れかに整合するかを判定するため、テスト画像は、参照の顔モデルのそれぞれに対して評価される。はじめに、テスト画像の特徴マトリクスは、平均の顔モデルに揃えられ、これは、特徴マトリクスの局所的な顔の特徴の平均モデルの状態へのマッピングのタイプであると理解することができる。このため、平均顔モデルの状態シーケンスを通した最適な経路又はアラインメントは、テスト画像の特徴マトリクスについて計算される。この最適な経路は、「ベストパス」と一般に呼ばれる。通常、Viterbiアルゴリズムは、ベストパスを効率的に発見するために適用される。本発明の方法によれば、ベストパスは、顔認識システムの参照の顔モデルのそれぞれに適用され、「類似の程度」は、それぞれの参照モデルについて効率的に計算される。最も簡単なケースでは、類似の程度はスコアであり、これは、参照の顔モデルに対してテスト画像を評価するときに参照モデルについて計算される。スコアは、どの位良好にテスト画像を参照の顔モデルに適用することができるかに関する示唆であり、たとえばスコアは、参照モデルが与えられた画像の生成可能性を示す場合がある。効率の理由のため、平均モデルを通したベストパスを使用して、近似的なスコアが計算される。参照の顔モデルの高い類似の程度は、参照の顔モデルとテスト画像との間で比較的近い整合を示し、低い類似の程度は、低い整合を示す。

本発明に係る顔認識を実行する方法の最も明らかな利点は、認識プロセスを迅速にするために顔画像間の類似性の効果的な利用である。ベストパスの計算、全体の計算の労力の大きな部分を必要とする費用集約型のプロセスは、平均の顔モデルについて一度だけ計算される必要があり、顔認識システムのそれぞれの参照の顔モデルに対して画像を評価するために使用される。したがって、本発明に係る方法を使用して、それぞれ参照の顔モデルについて費用集約型のベストパスの計算を実行する必要がない。

類似の程度を計算するための迅速なやり方は、スコアを計算するのを残すように、ベストパスを参照の顔モデルに直接に適用することである。本発明の更なる実施の形態では、平均の顔モデルのベストパスは、特定の参照の顔モデルについて、はじめに変更又は最適化され、幾分大きな計算の労力となるが、対応して更に正確なスコアとなり、顔認識システムの精度を更に改善することができる。

参照の顔モデルについて比較的高いスコアは、特徴は通常は照明条件に全体として不変であるため、一般の照明条件が高いスコアを導くので、参照の顔モデルがテスト画像について曖昧さのない整合であることを意味することを必ずしも必要としない。しかし、平均モデルのスコアは、係るケースでは、一般に高い。したがって、類似性の程度は、平均の顔モデルのスコアに対する参照の顔モデルのスコアの比率となるように取られることが好ましい。したがって、好適な実施の形態では、平均の顔モデルについてスコアが計算され、平均の顔モデルのスコアに対する最も高い参照の顔モデルのスコアの比率が計算される。この比率は、閾値の値に比較される。この比率が閾値よりも大きい場合、システムは、対応する参照の顔モデルを受け入れ、さもなければ、その参照の顔モデルを却下する。参照モデルがＭＡＰパラメータ予測を使用して平均モデルから導出されることは、照明条件に対する両方のモデルの感度が類似するので、比率の使用をサポートする。

最新の顔認識システムの精度は、プローブ画像に最も近く類似しているとして識別される顔モデルを許容するか又は拒否するかを判定するために使用される、幾らかの程度で閾値レベルに依存する。今日の顔認識システムは、全ての顔モデルについて単一の閾値を使用する。この閾値レベルが余りに高い場合、それが確かにプローブ画像に対応する正しい顔モデルであるとしても、顔モデルは拒否される。他方で、閾値レベルが余りに低い場合、プローブ画像に関連しない顔モデルは、「正しい」顔モデルとして誤って許容される場合がある。

したがって、特に、本発明の好適な実施の形態では、固有の類似の閾値は、それぞれの参照の顔モデルに割り当てられ、参照の顔モデルを許容又は却下するためのシステムの制度を改善する。

顔認識システムでの使用向けの参照の顔モデルのための類似性の閾値を計算する好適な方法は、同じ顔の多数の個別の画像に基づいて参照の顔のモデルを取得し、関連しない顔画像の制御グループを取得するステップを有する。参照の顔モデルは、制御グループにおける関連しない顔画像のそれぞれに対して評価され、評価スコアは、関連しない顔画像のそれぞれについて計算される。評価スコアは、この参照の顔モデルについて類似の閾値を判定するために使用され、これにより、これら関連しない顔画像の予め定義された過半数が却下され、この参照の顔モデルに対して評価されることになる。

従来技術の顔認識システムにより使用される固定された閾値は、テスト画像の識別に関する誤った判定を招く可能性がある。この理由は、幾つかの顔が他の顔よりも平均の顔モデルに近く類似しているためである。したがって、かかる人物の顔のテスト画像は、平均の顔モデルに対して評価されたとき、ハイスコアとなる。これは、平均の顔モデルのスコアに対するその人物の顔の参照の顔モデルにスコアの低い比率となる。結果として、この人物の顔の参照の顔モデル、したがってこの人物は、係るシステムより却下される可能性が高い。さらに、その顔が平均の顔モデルのそれとは非常に異なるが、ある程度にシステムにおける参照の顔モデルのうちの１つに類似している人物は、誤って許容される場合がある。

これら望まれない誤った拒否及び誤った許容のエラーは、顔認識システムにおけるそれぞれの参照の顔モデルについて類似の閾値を計算するための上述された方法を使用して、最小に低減される。このため、それぞれの参照の顔モデルは、画像の制御グループに対して評価される。それぞれの画像は、参照の顔モデルによりモデル化された顔とは異なる顔からなり、画像の制御グループは、参照の顔モデルによりモデル化された顔への変化する類似性の顔の代表的な選択であることが好ましい。評価スコアは、平均の顔モデルを通してベストパスを発見し、参照の顔モデルに対してそれぞれを評価するため、制御グループにおける画像のそれぞれにこのベストパスを適用することで、制御グループのそれぞれの画像について計算される。また、ベストパスは、そのスコアを計算するため参照の顔のモデルに適用される。制御グループにおける画像のそれぞれのスコア及び参照の顔モデルのスコアは、閾値を選択するために使用される。後者の顔認識手順において、参照の顔モデルに対して評価されたときに、これら画像のたとえば９９％といった予め定義された過半数が拒否されることを保証する。

係る固有の類似性の閾値は、上述された顔認識を実行する特定の方法で使用されるだけでなく、識別手順において、参照の顔モデルのそれぞれに対してテスト画像が評価され、テスト画像に最も近く類似する参照の顔モデルが識別される場合、及び参照の顔モデルがその参照の顔モデルの類似の閾値に基づいて許容又は拒否される場合の顔認識を実行する方法においても使用され、したがって、本発明の基礎となる目的に対処することに独立した貢献を与える。

顔認識システムでの使用向けの参照の顔モデルの類似の閾値を計算する適切なシステムは、多数の同じ顔からなる個別の画像に基づいて参照の顔モデルを取得する手段、関連されない顔画像の制御グループを取得する手段を有する。さらに、システムは、制御グループの関連されない顔画像のそれぞれに対する参照の顔モデルを評価する評価ユニット、及び、関連しない顔画像のそれぞれについて評価スコアを計算する評価スコア計算ユニットを有する。システムは、これら関連しない顔画像の予め定義された過半数が拒否され、この参照の顔モデルに対して評価されるべき、評価スコアに基づいて参照の顔モデルについて類似の閾値を判定する類似の閾値判定ユニットを有する。

低速かつ問題のある顔認識となる現在のアプローチの別の特徴は、モデルをトレーニングするために必要とされる労力が非常に大きいことである。モデルをトレーニングすることに費やされる時間は画像の数に比例し、さらに、できるだけ高い精度を得るためにモデルをトレーニングすることにおいて、比較的多数の画像を使用することが望まれる。モデルの精度を更に改善するために新たな画像が導入されるときは何時でも、モデルは、全ての画像を使用してトレーニングされる必要がある。したがって、全体のプロセスは、非常に低速であって、費用がかかる。

したがって、好ましくは、参照の顔モデルをトレーニングする方法は、顔認識システムで使用され、当該方法は、多数の異なる顔の顔画像に基づいて平均の顔モデルを取得するステップ、参照の顔モデルがトレーニングされるべき顔のトレーニングイメージを取得するステップを含む。参照の顔モデルを与えるためにトレーニングイメージから得られる情報により平均の顔モデルにトレーニングアルゴリズムが適用される。

その人物の参照の顔モデルをトレーニングするために使用される人物のトレーニングイメージは、たとえばカメラ又はビデオカメラを使用するか、又は写真等からスキャンすることで得られる。画像は、必要に応じて、上述されたような適切なデジタル形式に変換される。好ましくは、多数のトレーニングイメージは、その人物の参照の顔モデルをトレーニングするために使用され、全てのトレーニングイメージはその人物のものである。好ましくはＰ２ＤＨＭＭである二次元モデルは、上述された方法を使用してそれぞれの画像について計算される。

トレーニングアルゴリズム、好ましくはＭＡＰ（Maximum A Posteriori）技術を使用したアルゴリズムは、平均の顔モデルのクローン又はコピーを使用し、トレーニングイメージのために生成された特徴マトリクスを使用することで人物の顔に合うようにこれを調節する。調節された平均の顔モデルは、その人物の参照の顔モデルとなる。

本発明の特に好適な実施の形態では、人物の顔の更なるトレーニングイメージは、参照の顔モデルをリファイン又は改善するために使用される。このため、トレーニングアルゴリズムは、任意の新たな画像データを使用して古い参照モデルを調節するため、古い参照の顔モデル、平均の顔モデル、及び新たなトレーニングイメージに適用される。新たな画像データは、古い参照の顔モデルに累積的に追加される。

最終的に、参照の顔モデルは、それを更にリファインする必要がないように、知覚的に改善することができない、あるレベルに到達する。本明細書で提案される参照の顔モデルをトレーニングする方法を使用して、このレベルは、人物の約１０の画像を使用した後に一般に達成される。この人物の全ての公知の画像を使用して参照の顔モデルをトレーニングする必要なしに、新たな画像データが累積的に追加されるので、トレーニングプロセスは、参照の顔モデルをトレーニングする既存の方法よりもかなり高速である。

上述のように異なる顔の顔画像の選択を使用してトレーニングされた平均の顔モデルは、顔認識システムで使用される同じ平均の顔モデルであることが好ましい。したがって、本発明に係る顔認識方法とのこのトレーニング方法の適用は、本発明の基本的な目的に対処することにおける独立の寄与を提供するように、更なる計算上の労力を要せず、極端に有利である。

平均の顔モデルは、このシステム用に明示的にトレーニングされるか、又は供給者から購入される。
参照の顔モデルをトレーニングする適切なシステムは、平均の顔モデルを取得する手段、及び多数の同じ顔からなるテスト画像を取得する手段を有する。さらに、システムは、トレーニングイメージから参照の顔モデルを生成する参照の顔モデルジェネレータを有し、これにより、参照の顔モデルは平均の顔モデルに基づく。

通常、識別手順を受けることになる顔の画像は、理想的な条件下で考慮されない。より詳細には、照明は完全よりも低く、たとえばサイドからバックライティング又はストロングライティング、若しくはプアライティングである。これらにより、局所的な強度における強い変動を受ける顔画像となり、たとえば、顔の一方のサイドが比較的影であり、他方のサイドが強く照明される。更に重要なことに、同じ顔の異なる画像は、照明条件の変動に依存して、外観で重要な区別を示す。したがって、ある人物の１つの画像からトレーニングされたモデルは、異なる照明条件下で考慮される同じ人物の別の画像について高いスコアを達成することができない。したがって、特徴を照明条件に独立な形式に変換することは非常に重要であり、さもなければ、理想的な照明条件よりも低い条件下で考慮された人物の顔のテスト画像は、誤って拒否されるか、又は更に悪いことに誤って許可される。

更に正確な顔認識を提供するため、好ましくは、画像を最適化する方法は、顔認識プロセス及び／又はトレーニングプロセスで使用され、画像の照明強度は、画像を小さなサブ画像に小分割し、好ましくは、それぞれのサブ画像について特徴ベクトルをオーバラップ、計算し、そのサブ画像の全体の強度を表す値によりその特徴ベクトルのそれぞれの係数を割り算することでサブ画像の特徴ベクトルを変更することで一様にされる。通常、この値は、特徴ベクトルの第一の係数に対応する。次いで、この第一の係数は、もはや必要とされず、廃棄される。代替的又は付加的に、特徴ベクトルは、正規化されたベクトルに変換される。

先に提案された両方の方法では、全体の画像のそれぞれのサブ画像の特徴ベクトルは、局所的な照明強度への依存を除くために変更されるか、又は無相関にされる（decorrelated）。両方の技術は、認識の性能を著しく改善する。

これらの方法は、本発明にかかる顔認識の方法との使用向けに制限されないが、他の技術水準の顔認識システム及び顔モデルトレーニングシステムにおける顔認識精度を改善する役割を果たし、したがって、本発明の基本的な目的に対処することにおける独立の寄与を提供する。

提案される方法に係る顔認識における使用向けに画像を最適化する適切なシステムは、画像を多数のサブ画像に小分割する小分割ユニット、それぞれのサブ画像に関連される局所的な特徴ベクトルを決定する特徴ベクトル決定ユニット、及び、あるサブ画像の全体の強度を表す値によりその特徴ベクトルのそれぞれの係数を割ること、及び／又は、特徴ベクトルの係数を廃棄すること、及び／又は、その特徴ベクトルを正規化されたベクトルに変換することで、そのサブ画像に関連される局所的な特徴ベクトルを変更する特徴ベクトル変更ユニットを有する。

本発明の他の目的及び特徴は、添付図面と共に考慮される以下の詳細な説明から明らかとされるであろう。しかし、図面は例示を目的とするものであり、本発明の制限の定義として解釈されるべきではない。

図面では、同じ番号は、同じオブジェクトを通して示す。
図１は、顔認識のシステムのメインブロックを示す。カメラ、ビデオカメラ又は閉回路のＴＶカメラのような画像取得ユニット２は、識別されるべき人物のテスト画像Ｉ_Tを捕捉するために使用される。画像Ｉ_Tは、画像処理ブロック８で処理され、ここで特徴ベクトルのマトリクス又は特徴マトリクスは、画像のタイプに従って、画像Ｉ_Tについて計算されるか、又は画像Ｉ_Tからシンプルに抽出される。また、この処理ブロック８では、特徴ベクトルは、適切に特徴ベクトルを変更することで画像Ｉ_Tにおける非一様な照明の影響を補正するために最適化される。この変更又は補正ステップは、図５の下で更に詳細に説明される。

特徴マトリクスを使用して、テスト画像Ｉ_Tの最適な状態系列又はベストパス１０は、ベストパス計算ブロック３において、先の記載で説明されたアラインメントの方法にViterbiアルゴリズムを適用することで、平均の顔モデルＭ_AVを通して計算される。次いで、このベストパス１０は、データベース６から検索された多数の参照の顔モデルＭ₁，Ｍ₂,…,Ｍ_nのそれぞれについて、類似の程度すなわちスコアを計算する基礎として、評価ユニット４で使用される。

最も高いスコア１１は、平均の顔モデルのスコア１２であるとして、意思決定ユニット５に送出される。これら２つのスコア１１，１２の比率が計算され、ファイルから読み取られた閾値１３に比較される。このケースでは、閾値１３は、テスト画像Ｉ_Tに対する評価において最も高いスコア１１を達成する、参照の顔モデルに対応する閾値である。係る閾値が得られるやり方は、図４に詳細に記載される。

意思決定ユニット５の出力１４は、比較の結果に依存する。２つのスコア１１，１２の比率が閾値１３以下に下がる場合、最も接近してフィットする参照の顔モデルが誤りであり、すなわち、システムは、その顔がテスト画像Ｉ_Tで捕捉されている人物がそのデータベース６における参照の顔モデルから識別することができないことを判断する。このケースでは、出力１４は、識別の失敗を示すためのメッセージである。システムがセキュリティシステムである場合、人物はアクセスが拒否される。システムがアーカイブサーチシステムである場合、テスト画像Ｉ_Tがアーカイブに位置されていないことが報告される。

比較が成功した場合、すなわち２つのスコア１１，１２の比率が閾値１３を超える場合、その参照の顔モデルは、そのテスト画像Ｉ_Tが顔認識プロセスを受ける人物に一致するために採用される。このケースでは、その人物は、システムへのアクセスが許可され、又は、システムは、必要に応じて成功したサーチ結果を報告する。

図２は、上述した顔認識システムでの使用向けの平均の顔モデルＭ_AVの作成を例示する。できるだけ多様であって、全ての顔の代表的な断面である、多数の異なる人物から関連しない顔画像Ｆ₁，Ｆ₂，．．．，Ｆ_nの集合が取得される。これらの画像は、Ｆ₁，Ｆ₂，．．．，Ｆ_nは、供給者から購入されるか、トレーニングプロセスについて明示的に生成される。図５の下で詳細に記載される画像処理ユニット２０では、特徴ベクトル２１のセット、又は特徴ベクトルのマトリクスが計算されるか、又は必要に応じて画像Ｆ₁，Ｆ₂，．．．，Ｆ_nから抽出され、トレーニングユニット２２に送出される。

トレーニングユニット２２では、トレーニングの方法は、それぞれの画像Ｆ₁，Ｆ₂，．．．，Ｆ_nの処理された特徴ベクトル２１に適用される。このケースでは、トレーニング方法は、平均の顔モデルＭ_AVのモデルパラメータを発見するため、最大尤度（ＭＬ）基準に従うＥＭ（Expectation Maximization）アルゴリズムを使用する。平均の顔モデルＭ_AVは、擬似２次元隠れマルコフモデル（Ｐ２ＤＨＭＭ）として、顔の局所的な特徴のそれぞれの一般的な可能性を記述する。「平均」の顔の特徴をもつ顔は、更なる異常な顔の特徴を示す顔よりも高いスコアを達成する。一般的な照明条件下で撮影された顔画像は、高いスコアを達成する。集合における顔画像Ｆ₁，Ｆ₂，．．．，Ｆ_nは、満足のいく平均の顔モデルＭ_AVを与えるために選択される。

図３ａは、特定の人物について、好ましくは上述された顔認識システムでの使用のために、参照の顔モデルＭ₁をトレーニングするシステムを示す。ここで、トレーニングシステムは、その人物の顔の全てである、多数のトレーニング画像Ｔ₁，Ｔ₂，．．．，Ｔ_mが供給される。画像処理ユニット３１では、特徴ベクトルのマトリクスは、それぞれのトレーニング画像Ｔ₁，Ｔ₂，．．．，Ｔ_mから導出される。作成されている参照の顔モデルＭ₁の品質を改善するため、それぞれのトレーニング画像Ｔ₁，Ｔ₂，．．．，Ｔ_mの特徴ベクトルは、図５の下で更に詳細に記載されるやり方で、任意の非一様な照明効果を補償するため、画像処理ユニット３０ではじめに処理される。

平均の顔モデルＭ_AVのコピー又はクローンは、トレーニング画像Ｔ₁，Ｔ₂，．．．，Ｔ_mから得られる情報と共に、参照の顔モデルジェネレータ３１への入力として、使用される。参照の顔モデルジェネレータ３１では、平均の顔モデルＭ_AVは、開始ポイントとして使用され、トレーニング画像Ｔ₁，Ｔ₂，．．．，Ｔ_mで示された顔について参照の顔モデルＭ₁に到達するため、ＭＡＰ（Maximum A Posteriori）パラメータ予測の適用の下で、画像Ｔ₁，Ｔ₂，．．．，Ｔ_mから抽出された情報を使用して変更される。ある人物の参照の顔モデルＭ₁の最初のトレーニングは、その人物の顔の１つの画像の最小を使用して行われるが、多数の画像は、明らかに良好な参照の顔モデルＭ₁を与える。その状態がガウシャンミクスチャであるＰ２ＤＨＭＭのＭＡＰパラメータの予測の１つの方法は、以下の通りである。平均モデルを通したベストパスは、それぞれのトレーニング画像について計算される。特徴ベクトル（以下では「特徴」とも呼ばれる）は、ベストパスに従ってＰ２ＤＨＭＭの状態に割り当てられる。ガウシャンミクスチャに割り当てられたそれぞれの特徴は、ミクスチャの最も近いガウシャンに割り当てられる。ガウシャンの平均は、平均モデルの平均（the average model’s mean）と特徴の平均（the mean of the features）の重み付け平均に設定される。参照モデルは、トレーニング画像における人物の外観の良好な代表を与えるために変更される。Ｐ２ＤＨＭＭの他のパラメータは、平均は最も重要なパラメータであるので、類似のやり方で変更されるか、又は平均モデルからシンプルにコピーされる。特徴の平均を予測するために計算された特徴の総和と、特徴の全体の数又はカウントは、いかに記載されるインクリメンタルトレーニングを可能にするためにガウシャンと記憶される。

ある人物の参照の顔モデルＭ₁は、その人物の顔の更なる画像データＴ_newを使用してそれをリファインすることで更に改善される。図３ｂでは、更なるトレーニング画像Ｔ_newは、その人物について取得される。新たなトレーニング画像Ｔ_newは、先の図３ａの下で記載されたように、画像処理ユニット３０ではじめに処理され、新たなトレーニング画像Ｔ_newからの画像情報は、平均の顔モデルＭ_AV及びこの人物の参照の顔モデルのコピーＭ₁’と合わせて、参照の顔モデルジェネレータ３１に入力され、ＭＡＰパラメータの予測は、この人物について改善された参照の顔モデルＭ₁を与えるために古いデータ及び新しいデータに適用される。その状態がガウシャンミクスチャ（Gaussian mixtures）であるＰ２ＤＨＭＭを使用するとき、インクリメンタルＭＡＰトレーニングは、以下のやり方で実現される。新たなトレーニング画像の特徴が上述されたガウシャンに割り当てられ、この場合、平均モデルは、割り当てのために使用される。参照モデルのガウシャンの平均は、平均モデルの平均と全てのトレーニングの特徴の平均との重み付けされた平均に設定される。全てのトレーニングの特徴の平均は、合計及び古い特徴のカウントはガウシャンに合わせて記憶されるので、容易に計算される。合計及びカウントは、更なるトレーニングセッションをイネーブルにするために新たな特徴を含めることで更新される。したがって、トレーニング画像が到達する順序がどのようなものであっても、同じ参照モデルが得られる。

テスト画像への最も近い整合として識別された参照の顔モデルを許容するか又は拒絶するかに関する判定の精度を改善するため、顔認識データベースのそれぞれの参照の顔モデルＭ₁，Ｍ₂，．．．，Ｍ_nには、それ自身の特定の類似性の閾値が供給される。図４は、参照の顔モデルＭ_nについて固有の類似性の閾値を生成するシステムを示す。特定の人物の既存の基準の顔モデルＭ_nが取得される。関連しない顔画像Ｇ₁，Ｇ₂，．．．，Ｇ_kの制御グループも取得される。これらの画像Ｇ₁，Ｇ₂，．．．Ｇ_kは、基準の顔モデルＭ_nによりモデル化される人物への変化する類似の程度に関する顔の代表的な選択として選択される。画像は、それぞれの画像について特徴のマトリクス４８を抽出するため、図５の下で更に詳細に記載される画像処理ユニット４２ではじめに処理される。

ベストパスの計算ユニット４０では、それぞれの画像について平均の顔モデルＭ_AVを通してベストパス４７が計算され、平均モデルＭ_AVのスコア４３も計算される。特徴のマトリクス４８、スコア４３及びベストパス４７は、平均のモデルが決して変化しないのでひとたび計算される必要がある。後の使用のためにファイルＦに保存される。ユニット４４は、参照のモデルのスコア及び平均のモデルのスコアから類似性４９の程度を計算する。類似性の閾値の判定ユニット４５は、基準モデルＭ_nに比較されたときに制御グループの画像Ｇ₁，Ｇ₂，．．．Ｇ_kの過半数の拒否となる閾値Ｖ_nを発見するため、全ての制御グループの画像Ｇ₁，Ｇ₂，．．．Ｇ_kについて類似性の程度４９を必要とする。基準モデルＭ_nのスコア４３は、ベストパス４７及び制御グループの画像の特徴マトリクス４８を参照モデルＭ_nのそれと同様に必要とするユニット４１により供給される。計算の上で費用のかかる部分は、平均モデルＭ_AVを通してベストパス４７の計算である。しかし、このステップは、オフラインで実行することができ、実際の較正は、非常に高速であり、参照の顔モデルＭ_nをトレーニングした後に直接的にオンラインで実行される。

顔認識のため、平均顔モデルをトレーニングするため、参照の顔モデルをトレーニングするため、及び参照の顔モデルのために類似の閾値を計算するために使用された画像は、照明の設定に対して不変である表現に変換するために使用する前に、最適化される。図５は、前の図の説明で記載された画像処理ユニット８，２０，３０，４２として使用することができる、画像の最適化のためのシステムのコンポーネントを示す。

画像Ｉは、画像小分割ユニット５０に入力され、このユニットは、画像をオーバラップするサブ画像に分割する。サブ画像がある程度にオーバラップするのを可能にすることで、入力画像から最終的に導出された、モデルの全体の精度が改善される。サブ画像５３は、特徴ベクトル判定ユニット４１に送出され、このユニットは、それぞれのサブ画像５３について局所的な特徴ベクトルを計算する。局所的な特徴を計算する可能性のある方法は、局所的なサブ画像に離散コサイン変換を適用し、周波数の係数のサブセットを抽出することである。それぞれのサブ画像５３の照明強度は、特徴ベクトルの変更ユニット５２でその局所的な特徴ベクトル５４を変更することで等化される。これは、サブ画像の全体の強度を表す値で局所的な特徴のベクトル５４のそれぞれの係数を割り算し、局所的な特徴のベクトル５４の第一の係数を廃棄し、単位ベクトルを与えるために局所的な特徴ベクトル５４を正規化することで、若しくはこれらの技術の組み合わせにより行われる。特徴ベクトルの変更ユニット５２の出力は、入力画像Ｉを記述する無相関にされた局所的な特徴ベクトルのマトリクス５５である。

この特徴ベクトルマトリクス５５は、上述されたように、顔モデルをトレーニングするため、顔認識のため、及び類似性の閾値の計算のためのシステムで使用される。

本発明は好適な実施の形態及びその変形の形式で開示されたが、本発明の範囲を逸脱することなしに、様々な更なる変更及びバリエーションが行われることを理解されたい。特に、顔認識し、参照の顔モデルをトレーニングし、顔認識システムでの使用向けの画像を最適化し、及び、類似性の閾値を計算する方法、並びに、顔認識し、参照の顔モデルをトレーニングし、参照の顔モデルについて類似性の閾値を計算し、顔認識システムでの使用向けの画像を最適化する対応するシステムは、これらの組み合わせが本発明の範囲にあるように、技術水準の顔認識システム及びトレーニング方法及びシステムと共に、任意の適切な組み合わせで利用することができる。

明確さのため、「有する“comprising”」は、他のステップ又はエレメントを排除するものではないことを理解されたい。「ユニット“unit”」は、単一のエンティティとして明示的に記載されない場合、多数のブロック又はデバイスを有する場合がある。

顔認識を実行するシステムのブロック図である。顔認識システムでの使用向けの平均の顔モデルをトレーニングするシステムのブロック図である。第一の実施の形態に係る顔認識システムにおける使用向けの参照の顔モデルをトレーニングするシステムのブロック図である。第二の実施の形態に係る顔認識システムにおける使用向けの参照の顔モデルをトレーニングするシステムのブロック図である。参照の顔モデルの類似の閾値レベルを計算するシステムを示すブロック図である。顔認識での使用向けに画像を最適化するシステムを使用するブロック図である。

Claims

顔認識を実行する方法であって、
当該方法は、
多数の個別の顔画像から顔の領域を表す状態のマトリクスを含む平均の顔モデルを生成するステップと、
多数の既知の顔のうちのそれぞれ１つについて、前記平均の顔モデルに基づいた基準の顔モデルをトレーニングするステップと、
識別されるべき顔についてテスト画像を取得するステップと、
前記テスト画像に基づいて前記平均の顔モデルを通してベストパスを計算するステップと、
前記平均の顔モデルのベストパスをそれぞれの基準の顔モデルに適用することで、前記テスト画像に対するそれぞれの基準の顔モデルに類似の程度を評価するステップと、
前記テスト画像に最も類似する前記基準の顔モデルを識別するステップと、
前記類似の程度に基づいて識別された基準の顔モデルを許容又は拒否するステップと、
を含む方法。
前記平均の顔モデルを通したベストパスは、前記テスト画像に対する基準の顔モデルの類似の程度の評価について前記基準の顔モデルに関して最適化される、
請求項１記載の方法。
基準の顔モデルとテスト画像の間の類似の程度を評価するステップは、前記平均の顔モデルのベストパスを前記基準の顔モデルに適用して、前記テスト画像の基準の顔モデルのスコアを計算するステップ、前記テスト画像の前記平均の顔モデルのスコアを計算するステップ、前記基準の顔モデルのスコアの前記平均の顔モデルのスコアへの比率の形式で類似性の程度を取得するステップを含み、
前記識別された基準の顔モデルを許容又は拒否するステップは、類似の程度を予め定義された類似性の閾値に比較するステップを含む、
請求項１又は２記載の方法。
前記識別された基準モデルを許容又は拒否する判定を行うため、それぞれ基準の顔モデルについて固有の類似の閾値が使用される、
請求項３記載の方法。
顔認識システムでの使用向けに基準の顔モデルをトレーニングする方法であって、
多数の異なる顔からなる顔画像に基づいて平均の顔モデルを取得するステップと、
前記基準の顔モデルがトレーニングされる多数の顔のテスト画像を取得するステップと、
トレーニングアルゴリズムを前記平均の顔モデルに適用し、前記基準の顔モデルを与えるために前記テスト画像から情報を取得するステップと、
を含む方法。
前記基準の顔モデルは、前記トレーニングアルゴリズムを前記平均の顔モデルに適用することで改善され、改善された基準のモデルを与えるために同じ顔の更なるテスト画像及び前記基準のモデルのコピーから情報が取得される、
請求項５記載の方法。
顔認識システムにおける使用のため、基準の顔モデルの類似の閾値を計算する方法であって、
当該方法は、
多数の同じ顔からなる個別の画像に基づいて基準の顔モデルを取得するステップと、
関連しない顔の画像の制御グループを取得するステップと、
前記制御グループにおける関連しない顔画像のそれぞれに対して基準の顔モデルを評価するステップと、
前記関連しない顔画像のそれぞれについて評価スコアを計算するステップと、
前記評価スコアを使用して、これら関連しない顔画像の予め定義された過半数が拒否され、この基準の顔モデルに対して評価される、この基準の顔モデルの類似の閾値を決定するステップと、
を含む方法。
顔認識を実行する方法であって、
当該方法は、
多数の異なる顔について、それぞれの基準の顔モデルが多数の同じ顔からなる個別の画像に基づく多数の基準の顔モデルを取得するステップと、
請求項７記載の方法を使用して、それぞれの基準の顔モデルについて類似の閾値を決定するステップと、
テスト画像を取得するステップと、
前記テスト画像に最も類似の基準の顔モデルを識別するステップと、
前記類似の閾値に基づいて、識別された基準の顔モデルを許容又は拒否するステップと、
を含む方法。
請求項１乃至４及び／又は請求項８のいずれか記載の顔認識を実行する方法であって、
前記基準の顔モデルは、請求項５又は請求項６記載の方法を使用してトレーニングされる、方法。
顔認識における使用のために画像を最適化する方法であって、
画像の照明強度は、前記画像を該画像よりも小さなサブ画像に小分割し、それぞれのサブ画像について特徴ベクトルを計算し、そのサブ画像の全体の強度を表す値でその特徴ベクトルのそれぞれの係数を割り算し、及び／又は前記特徴ベクトルの係数を廃棄し、及び／又は前記特徴ベクトルを正規化されたベクトルに変換することで、サブ画像の特徴ベクトルを変更することで等化される、方法。
前記基準の顔モデルのトレーニング及び／又は顔認識のために使用される画像は、請求項１０の方法に従ってはじめに最適化される、
請求項１乃至４又は請求項８又は請求項９のいずれか記載の顔認識を実行する方法。
顔認識を実行するシステムであって、
それぞれの顔モデルが顔の領域を表す状態のマトリクスを含む、多数の基準の顔モデル及び平均の顔モデルと、
テスト画像を取得する取得ユニットと、
前記平均の顔モデルを通してベストパスを計算するベストパス計算手段と、
それぞれの基準の顔モデルと前記テスト画像との間の類似の程度を評価するため、前記平均の顔モデルのベストパスをそれぞれの基準の顔モデルに適用する評価ユニットと、
最も類似の程度が高い基準の顔モデルを許容又は拒否する判定ユニットと、
を有するシステム。
平均の顔モデルを取得する手段と、
多数の同じ顔からなるトレーニング画像を取得する手段と、
前記トレーニング画像から、前記平均の顔モデルに基づいた基準の顔モデルを生成する基準の顔モデル生成手段と、
を有する基準の顔モデルをトレーニングするシステム。
顔認識システムにおける使用のために、基準の顔モデルの類似の閾値を計算するシステムであって、
多数の同じ顔の個別の画像に基づいて基準の顔モデルを取得する手段と、
関連しない顔画像の制御グループを取得する手段と、
前記制御グループの関連しない顔画像のそれぞれに対して前記基準の顔モデルを評価する評価ユニットと、
関連しない顔画像のそれぞれについて評価スコアを計算する評価スコア計算ユニットと、
前記評価スコアに基づいて、これら関連しない顔画像の予め定義された過半数が拒否され、この基準の顔モデルに対して評価される、基準の顔モデルについて類似の閾値を決定する類似の閾値決定ユニットと、
を有するシステム。
顔認識における使用のために、画像を最適化するシステムであって、
画像を多数のサブ画像に小分割する小分割ユニットと、
それぞれのサブ画像に関連する局所的な特徴ベクトルを決定する特徴ベクトル決定ユニットと、
そのサブ画像の全体の強度を表す値でその特徴ベクトルのそれぞれの係数を割り算し、及び／又は前記特徴ベクトルの係数を廃棄し、及び／又は前記特徴ベクトルを正規化されたベクトルに変換することで、サブ画像に関連する局所的な特徴ベクトルを変更する特徴ベクトル変更ユニットと、
を有するシステム。
請求項１３記載の基準の顔モデルをトレーニングするシステム、及び／又は請求項１４記載の基準の顔モデルの類似の閾値を計算するシステム、及び／又は請求項１５記載の顔認識システムにおける使用のために画像を最適化するシステムを含む、
顔認識を実行するシステム。