JP4486594B2

JP4486594B2 - 確率的外観集合体を使用するビデオに基づく顔認識

Info

Publication number: JP4486594B2
Application number: JP2005502285A
Authority: JP
Inventors: カングチーリー; ミングスアンヤング; ジェフリーホ
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2002-11-07
Filing date: 2003-11-06
Publication date: 2010-06-23
Anticipated expiration: 2023-11-06
Also published as: EP1565887A2; JP2006505875A; WO2004042539A9; WO2004042539A3; AU2003301795A8; AU2003301795A1; US20090041310A1; US7499574B1; WO2004042539A2; EP1565887A4

Description

本発明は、一般にコンピュータによる物体認識に関し、特に、一連の画像に適用される顔認識技術に関する。

物体認識によるコンピュータ・ビジョンは、無数の新しい能力を提供するコンピュータ・インテリジェンスの大きな一歩である。顔認識は、人の同一性、人間とロボットの相互作用、セキュリティ監視などを識別する際に特に価値のある応用を有する。信頼できる顔認識システムで、コンピュータは、認可された個人に安全許可を提供することができ、また、ロボットは、特定の個人のために設計された一連の行動を行なうことができる。しかし、現在利用可能な顔認識システムが識別を行なう場合、それらは、理想的な状況の下で生成された単一の画像にそのような識別を基づかせることに制限される。現在利用可能な顔認識システムの例としては、Ｒ．シェララパ、Ｃ．Ｌ．らの「人間および顔の機械認識、調査」、ＩＥＥＥ（１９９５）の議事録、Ａ．サマールらの「人間の顔および顔の表情の自動認識および分析、調査」、パターン認識（１９９２）、およびＷ．Ｙ．チャオらの「顔認識、文献調査」、技術報告書ＣＡＲ−ＴＲ−９４８、オートメーション研究センター、メリーランド大学（２０００）が挙げられる。

認識される個人が理想姿勢で位置すると仮定するような理想状況に依存することに関する１つの問題は、状況はめったに理想的ではないということである。理想姿勢では、カメラは、頭位傾斜のない顔の十分な正面撮影像を有する。いかなる二次元または三次元回転は、誤った識別を引き起こす、またはカメラが比較用データポイントの十分な数を集めるのを妨げる可能性がある。個人が理想的な画像のために自分の位置を合わせることを試みる場合さえ、位置づけの誤った判断は、さらに問題であるかもしれない。

個人の顔とカメラの間の障害は、従来の認識システムにさらなる問題を引き起こす。それらのシステムが、得られる画像中の個人の顔から障害を区別することができないので、障害は、任意の次の比較をゆがめる。顔の回転でのように、隠蔽された顔は、さらにカメラが十分なデータを集めるのを妨げるかもしれない。

非理想状況と関係する問題は、典型的な認識システムが単一画像を使用するということである。したがって、単一の画像がゆがめられれば、前記識別は影響される。誤った識別は、従って、機密漏洩等に帰着する場合がある。時間投票技術のような、認識に１つより多くの画像を組み入れるシステムさえ、誤った識別の影響をうける。時間投票技術は、第１の画像のために識別を行い、第２の画像のために独立した識別等を行い、認識を基づく際に、最も頻繁な独立した識別を行う。時間投票技術の例は、Ａ．Ｊ．ハウエルおよびＨ．バクストンの「画像シーケンスからの拘束されない顔認識に関して」国際電気電子技術者協会、自動顔および身振り認識（１９９６）、Ｇ．シャーフナロビッチらの「長期間観察の顔認識」、ヨーロッパ協会、コンピュータ・ビジョン（１９９２）、およびＨ．ウェクスラーらの「ＲＢＦネットワークを使用する自動的ビデオに基づく人認証」、オーディオおよびビデオに基づいた人認証（１９９７）が挙げられる。しかし、それぞれの識別は、他の画像に依存しない。したがって、保持された姿勢変化および／または隠蔽は、さらに結果を歪める。

したがって、必要なものは、認識決定を下すために連続画像間の時間干渉性を利用する強固な顔認識システムである。そのため、前記システムは、姿勢変化または隠蔽のような非理想状況で対象個人の正確な識別を行うべきである。

本発明は、認識システムに時間干渉性を提供することにより、これらのニーズを満足する。本発明の一実施例では、一連の画像を使用して識別を行なうための集合体認識モジュールを含む。集合体トレーニングモジュールは、複数のトレーニング画像シーケンス（例えば、ビデオカメラから）を受け、それぞれのトレーニング画像シーケンスは、複数の姿勢の個人を含む。前記集合体トレーニングモジュールは、認識のために対象個人を含む画像間の関係を確立し、前記認識画像に対応するトレーニング画像の関係に基づいて対象個人を識別する。

一例として、分割モジュールは、姿勢集合体または姿勢と関係する画像の一群に、前記トレーニング画像シーケンスを分割する。前記姿勢集合体の結合は、個人に関する外観集合体を定義する。線形近似モジュールは、それぞれの姿勢の線形化により非線形外観集合体を一次関数に変換する。推移確率モジュールは、トレーニング画像シーケンスの画像間の確率的関係のマトリックスを生成する。

別の実施例では、外観集合体は、外観集合体が認識画像シーケンスに最接近しているかを決定するために推移確率を使用する。一例として、識別情報が一度に識別しきい値以下に下がる場合、その時、明確な認識はない。さらに、明確な認識は、現在の識別情報に基づいて時間とともに変化してもよい。

さらに他の実施例では、隠蔽モジュールは、ゆがんだ識別を防ぐために、個人の顔の隠蔽された部分を覆う。前記隠蔽モジュールは、代表的な姿勢画像を認識画像と比較して、姿勢画像からの大きな変化で、前記認識画像（例えば、個人の画素）の部分を見つける。マスク調節モジュールは、変化に基づいて２値画像を検討し、加重マスクを構築する。識別情報への画像の隠蔽部分の影響は低減される。

図１は、本発明の一実施例による集合体外観認識用システムを示すブロック図である。システム１００は、例えば、ロボット、検証システム、セキュリティシステム等である。システム１００は、ビデオカメラ１１０に接続されたコンピューティング環境１０５および出力装置１２０を含む。

ビデオカメラ１１０は、トレーニングおよび認識プロセスの両方に使用される一連の画像を生成する。画像は個人を含むことができる。ビデオカメラは、例えば、ロボットの目、検証カメラ、監視カメラ、または一連の画像を生成することができる任意のカメラである。一実施例では、第１のビデオカメラはトレーニングに使用され、また、第２のビデオカメラは、認識に使用される。さらに他の実施例では、システム１００は、ビデオカメラ以外の供給源からの画像が取り込まれる。出力装置１２０は、例えば、ディスプレイ、ロボット制御システム、セキュリティレスポンスシステム、またはコンピューティング環境１０５から認識出力を受ける他の任意の装置である。

コンピューティング環境１０５は、さらに、入出力制御装置１３０、プロセッサ１４０、メモリ１５０およびデータ記憶装置１６０を含み、それぞれはバス１９９に接続されている。入出力制御装置１３０は、処理用のビデオカメラ１１０からビデオデータを受け、出力装置１２０に、処理されたビデオデータを送る。プロセッサ１４０は、例えば、カリフォルニア州サンタクララのインテル社製のＰｅｎｔｉｕｍ４、サニーヴェールのアドバンスト・マイクロ・デバイセズ社のアスロンＸＰ，ＡＳＩＣまたはＦＰＧであり、指示を実行し、データを操作する。メモリ１５０は、図２で示される集合体認識モジュール１５５のような、ソフトウェアおよびデータの揮発性記憶装置を備える。データ記憶装置１６０は、図３で示される集合体データベース１６５のようなデータの不揮発性記憶装置を備える。

コンピューティング環境１０５は、コンピュータなどの別個の装置、または、ロボットや車両などのホスト環境へ結合されたコンポーネントのシステムであってもよいことを留意する。上述のコンポーネントは、ハードウェア、ハードウェアで実行するソフトウェア、または組み合わせて使用することができる。さらに、コンピューティング環境１０５は、オペレーティング・システム、ＢＩＯＳ、ユーザー・インタフェースなどの他のコンポーネントを含む。コンピューティング環境１０５およびそのコンポーネントは、外観集合体認識のために最適化されていてもよいが、他のコンピューティングタスクに使用されてもよい。以下に、システム１００で作動する方法を記載する。

図２は、本発明の一実施例による集合体認識モジュールを示すブロック図である。集合体認識モジュール１５５は、ビデオバッファ２１０、集合体トレーニングモジュール２２０および確率識別モジュール２３０を含む。

ビデオバッファ２１０は、図８で示されるように、ビデオカメラ１１０から画像シーケンスを表示するビデオデータを受ける。トレーニング過程で、ビデオバッファ２１０は、集合体トレーニングモジュール２２０に信号を送り、トレーニング画像または一連のトレーニング画像が処理のために準備されることを示す。処理中に、最初の操作された画像は、ビデオバッファ２１０に格納される。処理後、ビデオバッファ２１０は、集合体データベース１６５にトレーニング画像を格納する。認識過程で、ビデオバッファ２１０は、認識画像または一連の認識画像が処理のために準備される確率識別モジュールに信号を送る。ビデオバッファ２１０は、例えば、メモリ１５０の一部であり、分離系統、プロセッサメモリ、または他のものである。

集合体トレーニングモジュール２２０は、複数のトレーニング画像から複数の外観集合体を生成する。一連のトレーニング画像は、それぞれ様々な姿勢の個人を含む。集合体トレーニングモジュール２２０は、画像を処理して、いくつかの姿勢集合体を含む外観集合体を生成する。また、集合体トレーニングモジュール２２０は、第２の画像での第２の姿勢が後に続く第１の画像での第１の姿勢の可能性を述べる確率のマトリックスを決定する。集合体トレーニングモジュール２２０は、個人の画像トレーニングシーケンスと関連して集合体トレーニングデータベース１６５にその結果を格納する。集合体トレーニングモジュール２２０および関連する方法を、より詳細に以下に記載する。

確率識別モジュール２３０は、複数の外観集合体から認識される対象個人を含む複数の認識画像を受ける。確率識別モジュール２３０は、認識画像間の相互関係を考慮して、識別情報を生成する。一実施例では、識別しきい値を越える単一の明確な認識がない場合、識別情報は、１つ以上の可能な識別に関する。確率識別モジュール２３０および関連する方法を、より詳細に以下に記載する。

図３は、本発明の一実施例による集合体トレーニングモジュールを示すブロック図である。集合体トレーニングモジュール２２０は、分割モジュール３１０、線形近似モジュール３２０および推移確率モジュール３３０を含む。

分割モジュール３１０は、関連するトレーニング画像をパーティションにグループ化することにより姿勢集合体を生成する。一実施例では、分割モジュール３１０は、グループ化のために一団とするｋ平均法を使用する。各パーティションの画像は、共通の姿勢のわずかな変化である。姿勢変化は、参照姿勢に対して二次元または三次元回転である。例えば、個人は、第１のパーティションで前を向き、第２のパーティションで右を向き、第３のパーティションで左を向く。さらに、個人は、上下を向くことができ、頭位傾斜または上記の任意の組み合わせを有することができる。

線形近似モジュール３２０は、いくつかの姿勢集合体の線形近似を生成する。各姿勢集合体について、線形近似モジュール３２０は、ＰＣＡ（主成分分析）を使用して、アフィン平面として表わされる部分空間を決定する。一実施例では、分割モジュール３１０は、図１０で示されるように、単一の画像に各分割画像を組み合わせることにより、代表的な姿勢画像を生成する。

推移確率モジュール３３０は、姿勢集合体間の関係を決定することにより、時間干渉性を組込む。この関係は、外観集合体の姿勢集合体間の距離によって決定され、確率として表示され、個人の第１の姿勢が付与されて、第２の姿勢となる。一実施例では、確率は、条件付き確率として表わされる。

図４は、本発明の一実施例による確率識別モジュールを示すブロック図である。確率識別モジュール２３０は、外観集合体モジュール４２０および隠蔽モジュール４２０を含む。

識別制御モジュール４１０は、どの姿勢集合体が認識画像に接近しているか決定することにより、対象個人を識別する。識別制御モジュール４１０は、識別情報を評価し、それが識別しきい値を満足する場合、識別を出力する。

外観集合体モジュール４２０は、対象個人の時間に伴う姿勢変化に基づいて、識別情報を決定する。識別情報は、１つまたは複数の潜在的識別を含んでもよい。例えば、第１の認識画像は、２人の個人の姿勢集合体に対してほとんど同じ距離であってもよく、したがって、外観集合体４２０は、両方の個人を次の認識画像のための潜在的対象個人と見なし続ける。この決定は、前の認識画像中で前の姿勢集合体が与えられた現在の認識画像中の現在の姿勢集合体の可能性に基づく。一実施例では、外観集合体モジュール４２０は、現在と直前の姿勢との間の推移確率を含む共有の条件付き確率、および直前の共有の条件付き確率の結果を算出する。

隠蔽モジュール４２０は、識別プロセスからみて閉鎖される対象個人の部分を覆うことにより、識別情報を決定する。図５を参照して、隠蔽モジュール４２０は、さらに、マスク生成モジュール５１０およびマスク調節モジュール５２０を含む。マスク生成モジュール５１０は、どの画素クラスタが代表的姿勢画像から最も大きな変化を有しているか決定することにより、隠蔽マスクを生成する。識別情報を生成しながらマスクを適用する際に、マスク調節モジュール５２０は、マスクされた画素の重みづけを低減する、または識別プロセスからそれらを取り除く。

図６は、本発明の一実施例による集合体外観認識の方法を示すフローチャートである。このプロセスは、ビデオカメラ１１０からコンピューティング環境１０５で画像を受けることに応じて６０５を初期化する。一般に、集合体認識モジュール１５５は、２つの過程で作動し、トレーニング過程では、集合体トレーニングモジュール２２０は、トレーニング画像シーケンスを分析することによって複数の個人を有する集合体データベース１６５を配置し、また、認識過程では、確率識別モジュール２３０は、複数の個人から対象個人６２０を認識する。

以下に、配置工程６１０を図７〜１０により詳細に記載する。図７は、本発明の一実施例による集合体データベース１６５を配置する方法６１０を示すフローチャートである。配置工程６１０は、ビデオバッファ２１０で、数式（１）で表示されるように、個人のための１または複数の連続するトレーニング画像Ｉ₁のセットＳ_kを受ける７１０に応答して初期化する。
Ｓ_k＝｛Ｉ₁，Ｉ₂，．．．，Ｉ_l｝（１）

一実施例では、トレーニング画像は、ユーザ、ビット、信号によって、またはトレーニング過程中で作動することに応じて、認識画像と識別される。例えば、ユーザは、コンピューティング環境１０５に対してトレーニング画像シーケンスを有するハードドライブを搭載し、ユーザー・インタフェースによってトレーニング分析を初期化することができる。他の実施例では、ビデオカメラ１１０の視界内の個人は、当然にまたは二次元および三次元動作の所定のパターンで移動する。他の実施例では、確率識別モジュール２３０が、画像中の対象個人を認識しない場合、集合体認識モジュール１５５は、トレーニング過程に入り、それによって、トレーニング画像として受信画像を処理する。

図８は、本発明の一実施例による複数のトレーニング画像シーケンスの説明図である。当業者は、複数のトレーニング画像８００が単に例示であり、本発明の範囲を限定しないことを認識する。複数のトレーニング画像８００は、いくつかの列のトレーニング画像シーケンス８１０ａ−ｌを含み、それぞれの列は、異なる個人（例えば、８１０ａ）を表す。画像シーケンスは、時間と共に姿勢を変える際の個人を表わす。図９に示されるように、別の姿勢、または同じ姿勢の変形として、次の画像が分類されてもよい。次の画像間の時間増分は、例えば、１／２４秒、１／３０秒、１／６０秒または他の時間増分である。個人のトレーニング画像は、ビデオカメラ１１０から直接受けられ、環境フレームから補間される、または別の方法で構築される。画像形式は、例えば、ＪＰＥＧ（ジェイペグ）、ＧＩＦ（ジフ）、ＢＭＰ（ビットマップ）、ＴＩＦＦ（ティフ）等である。

図７を参照して、分割モジュール３１０は、トレーニング画像シーケンスを、ｍ個の互いに素な部分集合に分割する（７２０）。それぞれの互いに素な部分集合は、図９に示されるような姿勢およびその変化を表す。姿勢変化は、画像間の二次元または三次元回転である。姿勢としては、前を向く、左を向く、右を向く、上を向く、下を向く等が挙げられる。前を向く姿勢の変化の例としては、頭を左に傾ける、頭を右に傾ける等が挙げられる。他の実施例では、上記変化は姿勢自体である。確かに、当業者は、姿勢および変化が単に例示であり、他の多くの実施例が本発明の範囲内であることを認識する。

一実施例では、分割モジュール３１０は、画像のグループ化のためにｋ平均法クラスタリングアルゴリズムを使用します。ｋ平均法クラスタリングの例は、Ｄ．ホックボームおよびＤ．シモイズの「Ｋ−中心問題のための最高のヒューリスティックス」、オペレーションズ・リサーチの数学（１９８５）に記載されている。第１の反復では、画像空間で互いからの最大のハウスドルフ距離（Ｌ²）のｍ個のシードは、パーティション・センターを表す。それぞれの画像は、最も接近するシードと関連する。反復の反復では、パーティション・センターは、センターとグループ化された画像との間の距離に基づいて再算出される。最適化されたパーティション・センターは、姿勢集合体（Ｃ_k）である。姿勢集合体の全体集合は、個人のために外観集合体（Ｍ_k）を含む。

図７を再び参照して、線形近似モジュール３２０は、各パーティションの線形近似を構築する（７３０）。図９は、本発明の一実施例による姿勢集合体を含む、線形近似外観集合体を備えた画像パーティションの説明図である。外観集合体９１０は、最初に、トレーニング画像シーケンス９１１の非線形画像空間表示である。画像パーティションは、左に向く姿勢９２０ａ、前を向く姿勢９２０ｂおよび右を向く姿勢９２０ｃを含む。それぞれの姿勢は、その部分空間９１５ａ〜ｃを表示する線形近似を備えた主な姿勢の変化である、３つの関連する画像を有する。部分空間の結合は、外観モジュールの線形近似を形成する。

一実施例では、線形近似モジュール３２０は、画像のための固定次元のＰＣＡ平面の算出により、線形近似９１５ａ〜ｃを構築する。ＰＣＡ平面（すなわち、部分空間）は、物体（すなわち、顔、人相、または任意の３Ｄ物体）のコンパクトな低次元表示を提供するために構築される。

図７では、推移確率モジュール３３０は、トレーニング画像間の推移確率、または時間干渉性を決定する。隣接する姿勢集合体間の推移確率は、図９で示される。式Ｐ（Ｃ^k1｜Ｃ^k2）９１２は、第２の姿勢が第１の姿勢に続く確率を表す。さらに、式Ｐ（Ｃ^k2｜Ｃ^k3）９２３は、第３の姿勢が第１の姿勢に続く確率を表す。姿勢間の包括的な一連の関係は、図１０で示されるように、移行マトリックス中に表わされる。

一実施例では、推移確率モジュール３３０は、数式（２）で示されるような画像シーケンスで観察される、異なる互いに素な部分集合Ｓｉ間の実際の移行を計算することにより推移確率を決定する。

図１０は、本発明の一実施例による推移確率マトリックスの説明図である。推移確率マトリックス１０００は、トレーニング画像シーケンスからの５つの姿勢を含む。この実施例では、数式（３）に関してｍ＝５である。この姿勢は、関連する画像を有し、第１パーティション９１０で３つの画像などの分割画像を組み合わせることにより、一実施例で生成される。より明るいブロックは、より高い推移確率を有する。２つの連続する画像にわたって左向きの姿勢から右向きの姿勢まで直接移行するよりはむしろ、少なくとも１つの中間姿勢を通る可能性が高いので、姿勢１は、姿勢５より姿勢２に続く可能性がより高い。このプロセスは、区分線形の構造にわたって、第１のオーダー・マルコフ工程または有限状態機械を配置する。

推移確率モジュール３３０は、認識過程で使用される集合体データベース１６５中の推移確率マトリックスの結果を格納する（７５０）。さらに個人がいれば（７６０）、プロセス６１０は、データベースを配置し続ける。そうでなければ、認識が要求されるまで、７９５に戻る。

図６に戻って、認識工程６２０は、図１１〜１７に、より詳細に記載される。図１１は、本発明の一実施例による複数の個人から個人を認識する方法を示すフローチャートである。このプロセスは、１つ以上の認識画像を受ける（１１１０）ことに応答して初期化する。例えば、個人は認証を要求し、適切な視野で立つ場合、ビデオカメラは、ビデオバッファ２１０へ一連の認識画像を送る。

集合体モジュール４２０は、それは複数の個人に関連する複数の姿勢集合体からの姿勢集合体は、第１の認識画像に最接近することを決定する（１１２０）。図１２は、本発明の一実施例による姿勢集合体を決定する方法を示すフローチャートである。第１の認識は、図１３で示されるのと同じ外観集合体または異なる外観集合体のいずれかから、複数の姿勢集合体に投影される（１２１０）。

姿勢変化１１３０または隠蔽１１５０が検知されない場合、外観集合体モジュール４２０が、最も接近する外観集合体に関連した個人を識別する（１１７０）。さらに認識画像がある場合（１１８０）、プロセスは繰り返す。そうでなければ、１１９５に戻り、６９５を終了する。

外観集合体モジュール４２０は、姿勢集合体が画像空間の第１の画像に最接近することを決定する。（１２２０）。周囲空間でプロットする画像の例は、Ｈ．村瀬およびＳ．Ｋ．ナイヤルの「外観からの３Ｄ物体の視覚学習および認識」国際Ｊ．コンピュータ・ビジョン（１９９５）に示される。識別情報は、最も接近する姿勢集合体に関連した外観集合体を含む（１２３０）。最も接近する姿勢集合体に関連する個人は、対象個人の識別に対する候補である。一実施例では、第１の認識画像と結合すると考えられる次の認識画像に基づいて、最有力な候補が変化できるので、識別情報は、１つ以上の候補の統計を含む。

図１３は、本発明の一実施例による最も接近している姿勢集合体に投影された認識画像の説明図である。ポイントＩ１３１０は、認識画像のベクトル表示である。線形化された外観集合体は、一連の姿勢集合体Ｃ^k1〜Ｃ^k6１３２０ａ〜ｆを含む。変数ｘ１３３０は、画像１３１０と一連の姿勢集合体１３２０ａ〜ｆとの間の最小距離ｄ_H １３４０を表し、それは、この場合Ｃ^k4１３２０ｄである。そのｘ１３３０が他の外観集合体に関連する姿勢集合体中で最も接近すると仮定すると、示された外観集合体１３５０に関連する個人は、識別のための最有力候補である。

一実施例で、対象個人ｋに関して、数式（４）に示されるように、認識画像Ｉに、識別ｋ^*は、最小距離ｄ_hの外観集合体Ｍ_kを見つけることにより決定される。

図１１を再び参照して、姿勢変化１１３０がある場合に、集合体モジュール４２０は、外観集合体が認識画像シーケンスに最接近する１１４０を決定する。周囲の空間の第２の画像に最も近い姿勢集合体を見つけるために、外観集合体モジュール４２０は、複数の姿勢集合体に第２の画像を投影する。最小距離は、時間依存を組込むために、第１の画像と結合して考慮される第２の画像から生じる。
一実施例では、最小距離は、数式（６）〜（８）として表される。

第２の識別情報は、第２の姿勢モジュールが第１の姿勢モジュールに続く確率に基づく。バイエの法則を使用することによって、数式（９）〜（１１）で表示されるように、トレーニング過程から推移確率を含む条件付きの複合確率から確率は決定される。

さらに別の実施例では、外観集合体モジュール４２０は、画像ではなく前処理された識別情報から第２の識別情報を決定する。前の画像から上述されるように、前処理された識別情報が生成される。

第２の識別情報が識別しきい値を越える確率を有する場合、明確な認識は、最も接近する姿勢集合体に関連した、外観集合体４１０からなることができる。一実施例では、外観集合体モジュール４２０は、出力装置１２０に識別を出力する。

一実施例で、第２の識別情報が識別しきい値を越えない場合、並列の統計は可能な識別のために維持される。このプロセスがより多くの認識画像を受けることに応じて反復によって継続するとともに、識別情報は、更新され、また、識別しきい値が越される場合、明確な認識が行われる。明確な認識が行われたとしても行われていなくても、プロセスは絶えず新しい画像を受けることに反応する識別情報を更新する。

図１４は、本発明の一実施例による２つの外観集合体に投影された認識画像シーケンスの説明図である。認識画像シーケンス１４２０は、時間ｔ−６〜ｔ＋３にわたる。ｔ−６からｔ−４まで、認識画像シーケンスは、周囲空間の外観集合体Ｂ１４３０に最も接近する。したがって、識別情報は、関連する識別を含む。しかし、ｔ〜ｔ−３で、認識画像シーケンス１４２０は、外観集合体Ａ１５１０に最も接近する。一実施例では、時間事例ｔ−４およびｔ−３では、認識画像シーケンス１４２０が明確な認識のためのいずれか一つに十分に接近していないので、識別情報は、両方の外観集合体１４１０、１４３０を含む。ｔ＋１からｔ＋３では、認識画像シーケンス１４２０は、再び、外観集合体Ｂ１４３０に最接近する。しかし、その後、ｔおよびｔ＋ｌでは、明確な認識はない。

有利に、それぞれの追加の認識画像で、新しいデータポイントは、外観集合体に加えられる。従って、時間とともに、認識正確度が増加する。

図１１で、隠蔽が検知された場合（１１５０）、隠蔽モジュール４２０は、隠蔽調節を決定する（１１６０）。図１５は、本発明の一実施例による隠蔽調節を決定する方法を示すフローチャートである。物体が個人のビデオカメラ１１０の視界を遮る場合、隠蔽が生じ、または、画像が、そうでなければ妨害される。図１６（ａ）は、隠蔽１６１０ａを備えた第１の画像および隠蔽１６１０ｂのない第２の画像を示し、両方の画像は、同じ姿勢で同じ個人を含む。

マスク生成モジュールは、画像を工程１１２０でのようなその最も接近している姿勢モジュール、または工程１１４０で選択された外観モジュールに関連した最も接近している姿勢モジュールと比較することによって、隠蔽を検知する（１５１０）。図１６（ｂ）は、第１および第２の画像１６２０ａ〜ｂに関連した姿勢モジュールを示し、それには同じ姿勢モジュールが好適である。

マスク生成モジュール４２０は、画素がそれぞれ隠蔽される確率を決定する（１５２０）。一実施例では、この確率は、画素が、対応する姿勢モジュール画像画素からどれくらい色変化するかによって測定され、それは、高い確率および０に対応する大きな変化または低い確率に対応する無視できる変化である。図１６（ｃ）は、第１の画像１６３０ａおよび第２の画像１６３０ｂの濃淡表示を示す。変化のない画素が白と呼ばれる間、大きな変化の画素は黒と呼ばれ、中間の変化の画素は、灰色の適切な陰と呼ばれる。一実施例では、変化データは、２進法であり、このように黒白で表わされる。

マスク調節モジュール５２０は、隠蔽一群を識別し、生じる隠蔽マスクを定義する（１５３０）。図１６（ｃ）の例では、第１の２値画像１６３０ａのより低い左側領域は、フレームに渡って色の変化が高い画素の大きな一群を示す黒い画素のクラスタを含む。クラスタおよび生じる隠蔽マスクは、画像１６１０ａで示される隠蔽に一致する。

マスク調節モジュール５２０は、将来の決定において覆われた画素の影響の低減によって、姿勢集合体へ加重隠蔽マスクを適用する（１５４０）。対照的に、工程１１２０で、外観集合体を決定する一実施例では、全ての画素は等しく扱われる。次の認識画像が受け取られる場合、マスクは、最も接近している姿勢または外観集合体を決定する際に、認識画像または姿勢集合体に直接適用されてもよい。

一実施例では、覆われた画素は、ｄ_H（Ｍ_k*，Ｗ_t*Ｉ_t）に距離算出ｄ_H（ｍ_k，Ｉ_t）を修正することにより、加重される。Ｍ _k*上のＷ_t*Ｉ_tの加重投影はｘ^*である。マスクＷ_lは、数式（１２）による前の構造Ｗ_t-lでの評価によってそれぞれの連続画像Ｉ_lで更新する。

有利に、隠蔽マスクは、より正確な顔認識を可能とするために時間干渉性を使用する。

要約すれば、本発明は、顔認識精度を増大させるために、認識過程中に画像間の時間干渉性を使用する。集合体トレーニングモジュール２２０は、変化する姿勢の個人のために、一連の認識画像間の確率的相互関係のマトリックスを確立する。外観集合体モジュール４２０は、現在の識別決定をするために、先の証拠および受信画像間の確率的関係を使用する。隠蔽モジュール４３０は、識別決定から認識画像の非顔部分を覆うことにより、一層の精度を達成する。

上記記載は、好ましい実施例の作用を示すために含まれており、本発明の範囲を限定するのが目的ではない。本発明の範囲は、本発明の請求項によってのみ限定される。上記議論から、本発明の精神および範囲に含まれる多くの変形が、当業者に明らかとなる。

本発明の一実施例による集合体外観認識のためのシステムを示すブロック図である。本発明の一実施例による集合体認識モジュールを示すブロック図である。本発明の一実施例による集合体トレーニングモジュールを示すブロック図である。本発明の一実施例による確率識別モジュールを示すブロック図である。本発明の一実施例による隠蔽モジュールを示すブロック図である。本発明の一実施例による集合体外観認識の方法を示すフローチャートである。本発明の一実施例による集合体データベースを配置する方法を示すフローチャートである。本発明の一実施例による複数のトレーニング画像シーケンスの説明図である。本発明の一実施例による姿勢集合体を含む線形近似外観集合体を備えた画像分割の説明図である。本発明の一実施例による推移確率マトリックスの説明図である。本発明の一実施例による複数の個人から個人を認識する方法を示すフローチャートである。本発明の一実施例による姿勢集合体を決定する方法を示すフローチャートである。本発明の一実施例による姿勢に投影された認識画像の説明図である。本発明の一実施例による２つの外観集合体に投影された一連の認識画像の説明図である。本発明の一実施例による隠蔽調節を決定する方法を示すフローチャートである。（ａ）〜（ｃ）は、本発明の一実施例による隠蔽された画像を示す。

Claims

第１の認識画像は第１の姿勢の対象個人の第１の画像を含むものであり、前記第１の認識画像が１回目に取り込まれるものであり、一連の認識用画像から前記第１の認識画像を受ける工程と、
第２の認識画像は第２の姿勢の前記対象個人の第２の画像を含むものであり、前記第２の認識画像が２回目に取り込まれるものであり、前記一連の認識用画像から前記第２の認識画像を受ける工程と、
前記第１の画像に基づいて決定した前記対象個人の識別候補を含む第１の識別情報を生成する工程と、
前記第１の識別情報、および前記一連の認識用画像において前記第２の姿勢が前記第１の姿勢に続く確率に基づいて変更を加えた前記対象個人の識別候補を含む第２の識別情報を生成する工程とを含むことを特徴とする、対象個人を認識するためにコンピュータが実行する方法。
前記第２の姿勢は、第１の姿勢に対して二次元回転した顔の位置であることを特徴とする請求項１に記載の方法。
前記第２の姿勢は、前記第１の姿勢に対して三次元回転した顔の位置であることを特徴とする請求項１に記載の方法。
コンピュータに、
第１の認識画像は第１の姿勢の対象個人の第１の画像を含むものであり、前記第１の認識画像が１回目に取り込まれるものであり、一連の認識用画像から前記第１の認識画像を受ける工程と、
第２の認識画像は第２の姿勢の前記対象個人の第２の画像を含むものであり、前記第２の認識画像が２回目に取り込まれるものであり、前記一連の認識用画像から前記第２の認識画像を受ける工程と、
前記第１の画像に基づいて決定した前記対象個人の識別候補を含む第１の識別情報を生成する工程と、
前記第１の識別情報、および前記一連の認識用画像において前記第２の姿勢が前記第１の姿勢に続く確率に基づいて変更を加えた前記対象個人の識別候補を含む第２の識別情報を生成する工程とを実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
前記第２の姿勢は、第１の姿勢に対して二次元回転した顔の位置であることを特徴とする請求項４に記載のコンピュータ読み取り可能な記録媒体。
前記第２の姿勢は、前記第１の姿勢に対して三次元回転した顔の位置であることを特徴とする請求項４に記載のコンピュータ読み取り可能な記録媒体。
コンピュータに、
一連の認識用画像から第１の認識画像を受け、前記第１の認識画像は第１の姿勢の前記対象個人の第１の画像を含むものであり、前記第１の認識画像が１回目に取り込まれるものであり、および前記一連の認識用画像から第２の認識画像を受け、前記第２の認識画像は第２の姿勢の前記対象個人の第２の画像を含むものであり、前記第２の認識画像が２回目に取り込まれるものである、メモリに記憶されたビデオバッファと、
前記第１の画像に基づいて決定した前記対象個人の識別候補を含む第１の識別情報を生成し、前記第１の識別情報、および前記一連の認識用画像において前記第２の姿勢が前記第１の姿勢に続く確率に基づいて変更を加えた前記対象個人の識別候補を含む第２の識別情報を生成する、前記メモリに記憶された識別モジュールとを実現する、対象個人を認識するためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
前記第２の姿勢は、第１の姿勢に対して二次元回転した顔の位置であることを特徴とする請求項７に記載のコンピュータ読み取り可能な記録媒体。
前記第２の姿勢は、前記第１の姿勢に対して三次元回転した顔の位置であることを特徴とする請求項７に記載のコンピュータ読み取り可能な記録媒体。
コンピュータを、
一連の認識用画像から第１の認識画像を受け、前記第１の認識画像は第１の姿勢の前記対象個人の第１の画像を含むものであり、前記第１の認識画像が１回目に取り込まれるものであり、および前記一連の認識用画像から第２の認識画像を受け、前記第２の認識画像は第２の姿勢の前記対象個人の第２の画像を含むものであり、前記第２の認識画像が２回目に取り込まれるものである、メモリに記憶されたバッファ手段と、
前記第１の画像に基づいて決定した前記対象個人の識別候補を含む第１の識別情報を生成し、前記第１の識別情報、および前記一連の認識用画像において前記第２の姿勢が前記第１の姿勢に続く確率に基づいて変更を加えた前記対象個人の識別候補を含む第２の識別情報を生成する、前記メモリに記憶された識別手段として機能させる、対象個人を認識するためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
前記第２の姿勢は、第１の姿勢に対して二次元回転した顔の位置であることを特徴とする請求項１０に記載のコンピュータ読み取り可能な記録媒体。
前記第２の姿勢は、前記第１の姿勢に対して三次元回転した顔の位置であることを特徴とする請求項１０に記載のコンピュータ読み取り可能な記録媒体。