JP4486594B2 - 確率的外観集合体を使用するビデオに基づく顔認識 - Google Patents

確率的外観集合体を使用するビデオに基づく顔認識 Download PDF

Info

Publication number
JP4486594B2
JP4486594B2 JP2005502285A JP2005502285A JP4486594B2 JP 4486594 B2 JP4486594 B2 JP 4486594B2 JP 2005502285 A JP2005502285 A JP 2005502285A JP 2005502285 A JP2005502285 A JP 2005502285A JP 4486594 B2 JP4486594 B2 JP 4486594B2
Authority
JP
Japan
Prior art keywords
image
posture
recognition
recognition image
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005502285A
Other languages
English (en)
Other versions
JP2006505875A (ja
Inventor
カング チー リー
ミング スアン ヤング
ジェフリー ホ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of JP2006505875A publication Critical patent/JP2006505875A/ja
Application granted granted Critical
Publication of JP4486594B2 publication Critical patent/JP4486594B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Collating Specific Patterns (AREA)

Description

本発明は、一般にコンピュータによる物体認識に関し、特に、一連の画像に適用される顔認識技術に関する。
物体認識によるコンピュータ・ビジョンは、無数の新しい能力を提供するコンピュータ・インテリジェンスの大きな一歩である。顔認識は、人の同一性、人間とロボットの相互作用、セキュリティ監視などを識別する際に特に価値のある応用を有する。信頼できる顔認識システムで、コンピュータは、認可された個人に安全許可を提供することができ、また、ロボットは、特定の個人のために設計された一連の行動を行なうことができる。しかし、現在利用可能な顔認識システムが識別を行なう場合、それらは、理想的な状況の下で生成された単一の画像にそのような識別を基づかせることに制限される。現在利用可能な顔認識システムの例としては、R.シェララパ、C.L.らの「人間および顔の機械認識、調査」、IEEE(1995)の議事録、A.サマールらの 「人間の顔および顔の表情の自動認識および分析、調査」、パターン認識(1992)、およびW.Y.チャオら の「顔認識、文献調査」、技術報告書CAR−TR−948、オートメーション研究センター、メリーランド大学(2000)が挙げられる。
認識される個人が理想姿勢で位置すると仮定するような理想状況に依存することに関する1つの問題は、状況はめったに理想的ではないということである。理想姿勢では、カメラは、頭位傾斜のない顔の十分な正面撮影像を有する。いかなる二次元または三次元回転は、誤った識別を引き起こす、またはカメラが比較用データポイントの十分な数を集めるのを妨げる可能性がある。個人が理想的な画像のために自分の位置を合わせることを試みる場合さえ、位置づけの誤った判断は、さらに問題であるかもしれない。
個人の顔とカメラの間の障害は、従来の認識システムにさらなる問題を引き起こす。それらのシステムが、得られる画像中の個人の顔から障害を区別することができないので、障害は、任意の次の比較をゆがめる。顔の回転でのように、隠蔽された顔は、さらにカメラが十分なデータを集めるのを妨げるかもしれない。
非理想状況と関係する問題は、典型的な認識システムが単一画像を使用するということである。したがって、単一の画像がゆがめられれば、前記識別は影響される。誤った識別は、従って、機密漏洩等に帰着する場合がある。時間投票技術のような、認識に1つより多くの画像を組み入れるシステムさえ、誤った識別の影響をうける。時間投票技術は、第1の画像のために識別を行い、第2の画像のために独立した識別等を行い、認識を基づく際に、最も頻繁な独立した識別を行う。時間投票技術の例は、A.J.ハウエルおよびH.バクストンの「画像シーケンスからの拘束されない顔認識に関して」国際電気電子技術者協会、自動顔および身振り認識(1996)、G. シャーフナロビッチらの「長期間観察の顔認識」、ヨーロッパ協会、コンピュータ・ビジョン(1992)、およびH.ウェクスラーらの「RBFネットワークを使用する自動的ビデオに基づく人認証」、オーディオおよびビデオに基づいた人認証(1997)が挙げられる。しかし、それぞれの識別は、他の画像に依存しない。したがって、保持された姿勢変化および/または隠蔽は、さらに結果を歪める。
したがって、必要なものは、認識決定を下すために連続画像間の時間干渉性を利用する強固な顔認識システムである。そのため、前記システムは、姿勢変化または隠蔽のような非理想状況で対象個人の正確な識別を行うべきである。
本発明は、認識システムに時間干渉性を提供することにより、これらのニーズを満足する。本発明の一実施例では、一連の画像を使用して識別を行なうための集合体認識モジュールを含む。集合体トレーニングモジュールは、複数のトレーニング画像シーケンス(例えば、ビデオカメラから)を受け、それぞれのトレーニング画像シーケンスは、複数の姿勢の個人を含む。前記集合体トレーニングモジュールは、認識のために対象個人を含む画像間の関係を確立し、前記認識画像に対応するトレーニング画像の関係に基づいて対象個人を識別する。
一例として、分割モジュールは、姿勢集合体または姿勢と関係する画像の一群に、前記トレーニング画像シーケンスを分割する。前記姿勢集合体の結合は、個人に関する外観集合体を定義する。線形近似モジュールは、それぞれの姿勢の線形化により非線形外観集合体を一次関数に変換する。推移確率モジュールは、トレーニング画像シーケンスの画像間の確率的関係のマトリックスを生成する。
別の実施例では、外観集合体は、外観集合体が認識画像シーケンスに最接近しているかを決定するために推移確率を使用する。一例として、識別情報が一度に識別しきい値以下に下がる場合、その時、明確な認識はない。さらに、明確な認識は、現在の識別情報に基づいて時間とともに変化してもよい。
さらに他の実施例では、隠蔽モジュールは、ゆがんだ識別を防ぐために、個人の顔の隠蔽された部分を覆う。前記隠蔽モジュールは、代表的な姿勢画像を認識画像と比較して、姿勢画像からの大きな変化で、前記認識画像(例えば、個人の画素)の部分を見つける。マスク調節モジュールは、変化に基づいて2値画像を検討し、加重マスクを構築する。識別情報への画像の隠蔽部分の影響は低減される。
図1は、本発明の一実施例による集合体外観認識用システムを示すブロック図である。システム100は、例えば、ロボット、検証システム、セキュリティシステム等である。システム100は、ビデオカメラ110に接続されたコンピューティング環境105および出力装置120を含む。
ビデオカメラ110は、トレーニングおよび認識プロセスの両方に使用される一連の画像を生成する。画像は個人を含むことができる。ビデオカメラは、例えば、ロボットの目、検証カメラ、監視カメラ、または一連の画像を生成することができる任意のカメラである。一実施例では、第1のビデオカメラはトレーニングに使用され、また、第2のビデオカメラは、認識に使用される。さらに他の実施例では、システム100は、ビデオカメラ以外の供給源からの画像が取り込まれる。出力装置120は、例えば、ディスプレイ、ロボット制御システム、セキュリティレスポンスシステム、またはコンピューティング環境105から認識出力を受ける他の任意の装置である。
コンピューティング環境105は、さらに、入出力制御装置130、プロセッサ140、メモリ150およびデータ記憶装置160を含み、それぞれはバス199に接続されている。入出力制御装置130は、処理用のビデオカメラ110からビデオデータを受け、出力装置120に、処理されたビデオデータを送る。プロセッサ140は、例えば、カリフォルニア州サンタクララのインテル社製のPentium4、サニーヴェールのアドバンスト・マイクロ・デバイセズ社のアスロンXP,ASICまたはFPGであり、指示を実行し、データを操作する。メモリ150は、図2で示される集合体認識モジュール155のような、ソフトウェアおよびデータの揮発性記憶装置を備える。データ記憶装置160は、図3で示される集合体データベース165のようなデータの不揮発性記憶装置を備える。
コンピューティング環境105は、コンピュータなどの別個の装置、または、ロボットや車両などのホスト環境へ結合されたコンポーネントのシステムであってもよいことを留意する。上述のコンポーネントは、ハードウェア、ハードウェアで実行するソフトウェア、または組み合わせて使用することができる。さらに、コンピューティング環境105は、オペレーティング・システム、BIOS、ユーザー・インタフェースなどの他のコンポーネントを含む。コンピューティング環境105およびそのコンポーネントは、外観集合体認識のために最適化されていてもよいが、他のコンピューティングタスクに使用されてもよい。以下に、システム100で作動する方法を記載する。
図2は、本発明の一実施例による集合体認識モジュールを示すブロック図である。集合体認識モジュール155は、ビデオバッファ210、集合体トレーニングモジュール220および確率識別モジュール230を含む。
ビデオバッファ210は、図8で示されるように、ビデオカメラ110から画像シーケンスを表示するビデオデータを受ける。トレーニング過程で、ビデオバッファ210は、集合体トレーニングモジュール220に信号を送り、トレーニング画像または一連のトレーニング画像が処理のために準備されることを示す。処理中に、最初の操作された画像は、ビデオバッファ210に格納される。処理後、ビデオバッファ210は、集合体データベース165にトレーニング画像を格納する。認識過程で、ビデオバッファ210は、認識画像または一連の認識画像が処理のために準備される確率識別モジュールに信号を送る。ビデオバッファ210は、例えば、メモリ150の一部であり、分離系統、プロセッサメモリ、または他のものである。
集合体トレーニングモジュール220は、複数のトレーニング画像から複数の外観集合体を生成する。一連のトレーニング画像は、それぞれ様々な姿勢の個人を含む。集合体トレーニングモジュール220は、画像を処理して、いくつかの姿勢集合体を含む外観集合体を生成する。また、集合体トレーニングモジュール220は、第2の画像での第2の姿勢が後に続く第1の画像での第1の姿勢の可能性を述べる確率のマトリックスを決定する。集合体トレーニングモジュール220は、個人の画像トレーニングシーケンスと関連して集合体トレーニングデータベース165にその結果を格納する。集合体トレーニングモジュール220および関連する方法を、より詳細に以下に記載する。
確率識別モジュール230は、複数の外観集合体から認識される対象個人を含む複数の認識画像を受ける。確率識別モジュール230は、認識画像間の相互関係を考慮して、識別情報を生成する。一実施例では、識別しきい値を越える単一の明確な認識がない場合、識別情報は、1つ以上の可能な識別に関する。確率識別モジュール230および関連する方法を、より詳細に以下に記載する。
図3は、本発明の一実施例による集合体トレーニングモジュールを示すブロック図である。集合体トレーニングモジュール220は、分割モジュール310、線形近似モジュール320および推移確率モジュール330を含む。
分割モジュール310は、関連するトレーニング画像をパーティションにグループ化することにより姿勢集合体を生成する。一実施例では、分割モジュール310は、グループ化のために一団とするk平均法を使用する。各パーティションの画像は、共通の姿勢のわずかな変化である。姿勢変化は、参照姿勢に対して二次元または三次元回転である。例えば、個人は、第1のパーティションで前を向き、第2のパーティションで右を向き、第3のパーティションで左を向く。さらに、個人は、上下を向くことができ、頭位傾斜または上記の任意の組み合わせを有することができる。
線形近似モジュール320は、いくつかの姿勢集合体の線形近似を生成する。各姿勢集合体について、線形近似モジュール320は、PCA(主成分分析)を使用して、アフィン平面として表わされる部分空間を決定する。一実施例では、分割モジュール310は、図10で示されるように、単一の画像に各分割画像を組み合わせることにより、代表的な姿勢画像を生成する。
推移確率モジュール330は、姿勢集合体間の関係を決定することにより、時間干渉性を組込む。この関係は、外観集合体の姿勢集合体間の距離によって決定され、確率として表示され、個人の第1の姿勢が付与されて、第2の姿勢となる。一実施例では、確率は、条件付き確率として表わされる。
図4は、本発明の一実施例による確率識別モジュールを示すブロック図である。確率識別モジュール230は、外観集合体モジュール420および隠蔽モジュール420を含む。
識別制御モジュール410は、どの姿勢集合体が認識画像に接近しているか決定することにより、対象個人を識別する。識別制御モジュール410は、識別情報を評価し、それが識別しきい値を満足する場合、識別を出力する。
外観集合体モジュール420は、対象個人の時間に伴う姿勢変化に基づいて、識別情報を決定する。識別情報は、1つまたは複数の潜在的識別を含んでもよい。例えば、第1の認識画像は、2人の個人の姿勢集合体に対してほとんど同じ距離であってもよく、したがって、外観集合体420は、両方の個人を次の認識画像のための潜在的対象個人と見なし続ける。この決定は、前の認識画像中で前の姿勢集合体が与えられた現在の認識画像中の現在の姿勢集合体の可能性に基づく。一実施例では、外観集合体モジュール420は、現在と直前の姿勢との間の推移確率を含む共有の条件付き確率、および直前の共有の条件付き確率の結果を算出する。
隠蔽モジュール420は、識別プロセスからみて閉鎖される対象個人の部分を覆うことにより、識別情報を決定する。図5を参照して、隠蔽モジュール420は、さらに、マスク生成モジュール510およびマスク調節モジュール520を含む。マスク生成モジュール510は、どの画素クラスタが代表的姿勢画像から最も大きな変化を有しているか決定することにより、隠蔽マスクを生成する。識別情報を生成しながらマスクを適用する際に、マスク調節モジュール520は、マスクされた画素の重みづけを低減する、または識別プロセスからそれらを取り除く。
図6は、本発明の一実施例による集合体外観認識の方法を示すフローチャートである。このプロセスは、ビデオカメラ110からコンピューティング環境105で画像を受けることに応じて605を初期化する。一般に、集合体認識モジュール155は、2つの過程で作動し、トレーニング過程では、集合体トレーニングモジュール220は、トレーニング画像シーケンスを分析することによって複数の個人を有する集合体データベース165を配置し、また、認識過程では、確率識別モジュール230は、複数の個人から対象個人620を認識する。
以下に、配置工程610を図7〜10により詳細に記載する。図7は、本発明の一実施例による集合体データベース165を配置する方法610を示すフローチャートである。配置工程610は、ビデオバッファ210で、数式(1)で表示されるように、個人のための1または複数の連続するトレーニング画像I1のセットSkを受ける710に応答して初期化する。
k={I1,I2,...,Il} (1)
一実施例では、トレーニング画像は、ユーザ、ビット、信号によって、またはトレーニング過程中で作動することに応じて、認識画像と識別される。例えば、ユーザは、コンピューティング環境105に対してトレーニング画像シーケンスを有するハードドライブを搭載し、ユーザー・インタフェースによってトレーニング分析を初期化することができる。他の実施例では、ビデオカメラ110の視界内の個人は、当然にまたは二次元および三次元動作の所定のパターンで移動する。他の実施例では、確率識別モジュール230が、画像中の対象個人を認識しない場合、集合体認識モジュール155は、トレーニング過程に入り、それによって、トレーニング画像として受信画像を処理する。
図8は、本発明の一実施例による複数のトレーニング画像シーケンスの説明図である。当業者は、複数のトレーニング画像800が単に例示であり、本発明の範囲を限定しないことを認識する。複数のトレーニング画像800は、いくつかの列のトレーニング画像シーケンス810a−lを含み、それぞれの列は、異なる個人(例えば、810a)を表す。画像シーケンスは、時間と共に姿勢を変える際の個人を表わす。 図9に示されるように、別の姿勢、または同じ姿勢の変形として、次の画像が分類されてもよい。次の画像間の時間増分は、例えば、1/24秒、1/30秒、1/60秒または他の時間増分である。個人のトレーニング画像は、ビデオカメラ110から直接受けられ、環境フレームから補間される、または別の方法で構築される。画像形式は、例えば、JPEG(ジェイペグ)、GIF(ジフ)、BMP(ビットマップ)、TIFF(ティフ)等である。
図7を参照して、分割モジュール310は、トレーニング画像シーケンスを、m個の互いに素な部分集合に分割する(720)。それぞれの互いに素な部分集合は、図9に示されるような姿勢およびその変化を表す。姿勢変化は、画像間の二次元または三次元回転である。姿勢としては、前を向く、左を向く、右を向く、上を向く、下を向く等が挙げられる。前を向く姿勢の変化の例としては、頭を左に傾ける、頭を右に傾ける等が挙げられる。他の実施例では、上記変化は姿勢自体である。確かに、当業者は、姿勢および変化が単に例示であり、他の多くの実施例が本発明の範囲内であることを認識する。
一実施例では、分割モジュール310は、画像のグループ化のためにk平均法クラスタリングアルゴリズムを使用します。k平均法クラスタリングの例は、D.ホックボームおよびD.シモイズの「K−中心問題のための最高のヒューリスティックス」、オペレーションズ・リサーチの数学(1985)に記載されている。第1の反復では、画像空間で互いからの最大のハウスドルフ距離(L2)のm個のシードは、パーティション・センターを表す。それぞれの画像は、最も接近するシードと関連する。反復の反復では、パーティション・センターは、センターとグループ化された画像との間の距離に基づいて再算出される。最適化されたパーティション・センターは、姿勢集合体(Ck)である。姿勢集合体の全体集合は、個人のために外観集合体(Mk)を含む。
図7を再び参照して、線形近似モジュール320は、各パーティションの線形近似を構築する(730)。図9は、本発明の一実施例による姿勢集合体を含む、線形近似外観集合体を備えた画像パーティションの説明図である。外観集合体910は、最初に、トレーニング画像シーケンス911の非線形画像空間表示である。画像パーティションは、左に向く姿勢920a、前を向く姿勢920bおよび右を向く姿勢920cを含む。それぞれの姿勢は、その部分空間915a〜cを表示する線形近似を備えた主な姿勢の変化である、3つの関連する画像を有する。部分空間の結合は、外観モジュールの線形近似を形成する。
一実施例では、線形近似モジュール320は、画像のための固定次元のPCA平面の算出により、線形近似915a〜cを構築する。PCA平面(すなわち、部分空間)は、物体(すなわち、顔、人相、または任意の3D物体)のコンパクトな低次元表示を提供するために構築される。
図7では、推移確率モジュール330は、トレーニング画像間の推移確率、または時間干渉性を決定する。隣接する姿勢集合体間の推移確率は、図9で示される。式P(Ck1|Ck2)912は、第2の姿勢が第1の姿勢に続く確率を表す。さらに、式P(Ck2|Ck3)923は、第3の姿勢が第1の姿勢に続く確率を表す。姿勢間の包括的な一連の関係は、図10で示されるように、移行マトリックス中に表わされる。
一実施例では、推移確率モジュール330は、数式(2)で示されるような画像シーケンスで観察される、異なる互いに素な部分集合Si間の実際の移行を計算することにより推移確率を決定する。
図10は、本発明の一実施例による推移確率マトリックスの説明図である。推移確率マトリックス1000は、トレーニング画像シーケンスからの5つの姿勢を含む。この実施例では、数式(3)に関してm=5である。この姿勢は、関連する画像を有し、第1パーティション910で3つの画像などの分割画像を組み合わせることにより、一実施例で生成される。より明るいブロックは、より高い推移確率を有する。2つの連続する画像にわたって左向きの姿勢から右向きの姿勢まで直接移行するよりはむしろ、少なくとも1つの中間姿勢を通る可能性が高いので、姿勢1は、姿勢5より姿勢2に続く可能性がより高い。このプロセスは、区分線形の構造にわたって、第1のオーダー・マルコフ工程または有限状態機械を配置する。
推移確率モジュール330は、認識過程で使用される集合体データベース165中の推移確率マトリックスの結果を格納する(750)。さらに個人がいれば(760)、プロセス610は、データベースを配置し続ける。そうでなければ、認識が要求されるまで、795に戻る。
図6に戻って、認識工程620は、図11〜17に、より詳細に記載される。図11は、本発明の一実施例による複数の個人から個人を認識する方法を示すフローチャートである。このプロセスは、1つ以上の認識画像を受ける(1110)ことに応答して初期化する。例えば、個人は認証を要求し、適切な視野で立つ場合、ビデオカメラは、ビデオバッファ210へ一連の認識画像を送る。
集合体モジュール420は、それは複数の個人に関連する複数の姿勢集合体からの姿勢集合体は、第1の認識画像に最接近することを決定する(1120)。図12は、本発明の一実施例による姿勢集合体を決定する方法を示すフローチャートである。第1の認識は、図13で示されるのと同じ外観集合体または異なる外観集合体のいずれかから、複数の姿勢集合体に投影される(1210)。
姿勢変化1130または隠蔽1150が検知されない場合、外観集合体モジュール420が、最も接近する外観集合体に関連した個人を識別する(1170)。さらに認識画像がある場合(1180)、プロセスは繰り返す。 そうでなければ、1195に戻り、695を終了する。
外観集合体モジュール420は、姿勢集合体が画像空間の第1の画像に最接近することを決定する。(1220)。周囲空間でプロットする画像の例は、H.村瀬およびS.K.ナイヤルの「外観からの3D物体の視覚学習および認識」国際J.コンピュータ・ビジョン(1995)に示される。識別情報は、最も接近する姿勢集合体に関連した外観集合体を含む(1230)。最も接近する姿勢集合体に関連する個人は、対象個人の識別に対する候補である。一実施例では、第1の認識画像と結合すると考えられる次の認識画像に基づいて、最有力な候補が変化できるので、識別情報は、1つ以上の候補の統計を含む。
図13は、本発明の一実施例による最も接近している姿勢集合体に投影された認識画像の説明図である。ポイントI 1310は、認識画像のベクトル表示である。線形化された外観集合体は、一連の姿勢集合体Ck1〜Ck61320a〜fを含む。変数x 1330は、画像1310と一連の姿勢集合体1320a〜fとの間の最小距離dH 1340を表し、それは、この場合Ck41320dである。そのx 1330が他の外観集合体に関連する姿勢集合体中で最も接近すると仮定すると、示された外観集合体1350に関連する個人は、識別のための最有力候補である。
一実施例で、対象個人kに関して、数式(4)に示されるように、認識画像Iに、識別k*は、最小距離dhの外観集合体Mkを見つけることにより決定される。
図11を再び参照して、姿勢変化1130がある場合に、集合体モジュール420は、外観集合体が認識画像シーケンスに最接近する1140を決定する。周囲の空間の第2の画像に最も近い姿勢集合体を見つけるために、外観集合体モジュール420は、複数の姿勢集合体に第2の画像を投影する。最小距離は、時間依存を組込むために、第1の画像と結合して考慮される第2の画像から生じる。
一実施例では、最小距離は、数式(6)〜(8)として表される。
第2の識別情報は、第2の姿勢モジュールが第1の姿勢モジュールに続く確率に基づく。バイエの法則を使用することによって、数式(9)〜(11)で表示されるように、トレーニング過程から推移確率を含む条件付きの複合確率から確率は決定される。
さらに別の実施例では、外観集合体モジュール420は、画像ではなく前処理された識別情報から第2の識別情報を決定する。前の画像から上述されるように、前処理された識別情報が生成される。
第2の識別情報が識別しきい値を越える確率を有する場合、明確な認識は、最も接近する姿勢集合体に関連した、外観集合体410からなることができる。一実施例では、外観集合体モジュール420は、出力装置120に識別を出力する。
一実施例で、第2の識別情報が識別しきい値を越えない場合、並列の統計は可能な識別のために維持される。このプロセスがより多くの認識画像を受けることに応じて反復によって継続するとともに、識別情報は、更新され、また、識別しきい値が越される場合、明確な認識が行われる。明確な認識が行われたとしても行われていなくても、プロセスは絶えず新しい画像を受けることに反応する識別情報を更新する。
図14は、本発明の一実施例による2つの外観集合体に投影された認識画像シーケンスの説明図である。認識画像シーケンス1420は、時間t−6〜t+3にわたる。t−6からt−4まで、認識画像シーケンスは、周囲空間の外観集合体B1430に最も接近する。したがって、識別情報は、関連する識別を含む。しかし、t〜t−3で、認識画像シーケンス1420は、外観集合体A1510に最も接近する。一実施例では、時間事例t−4およびt−3では、認識画像シーケンス1420が明確な認識のためのいずれか一つに十分に接近していないので、識別情報は、両方の外観集合体1410、1430を含む。t+1からt+3では、認識画像シーケンス1420は、再び、外観集合体B1430に最接近する。しかし、その後、tおよびt+lでは、明確な認識はない。
有利に、それぞれの追加の認識画像で、新しいデータポイントは、外観集合体に加えられる。従って、時間とともに、認識正確度が増加する。
図11で、隠蔽が検知された場合(1150)、隠蔽モジュール420は、隠蔽調節を決定する(1160)。図15は、本発明の一実施例による隠蔽調節を決定する方法を示すフローチャートである。物体が個人のビデオカメラ110の視界を遮る場合、隠蔽が生じ、または、画像が、そうでなければ妨害される。図16(a)は、隠蔽1610aを備えた第1の画像および隠蔽1610bのない第2の画像を示し、両方の画像は、同じ姿勢で同じ個人を含む。
マスク生成モジュールは、画像を工程1120でのようなその最も接近している姿勢モジュール、または工程1140で選択された外観モジュールに関連した最も接近している姿勢モジュールと比較することによって、隠蔽を検知する(1510)。図16(b)は、第1および第2の画像1620a〜bに関連した姿勢モジュールを示し、それには同じ姿勢モジュールが好適である。
マスク生成モジュール420は、画素がそれぞれ隠蔽される確率を決定する(1520)。一実施例では、この確率は、画素が、対応する姿勢モジュール画像画素からどれくらい色変化するかによって測定され、それは、高い確率および0に対応する大きな変化または低い確率に対応する無視できる変化である。図16(c)は、第1の画像1630aおよび第2の画像1630bの濃淡表示を示す。変化のない画素が白と呼ばれる間、大きな変化の画素は黒と呼ばれ、中間の変化の画素は、灰色の適切な陰と呼ばれる。一実施例では、変化データは、2進法であり、このように黒白で表わされる。
マスク調節モジュール520は、隠蔽一群を識別し、生じる隠蔽マスクを定義する(1530)。図16(c)の例では、第1の2値画像1630aのより低い左側領域は、フレームに渡って色の変化が高い画素の大きな一群を示す黒い画素のクラスタを含む。クラスタおよび生じる隠蔽マスクは、画像1610aで示される隠蔽に一致する。
マスク調節モジュール520は、将来の決定において覆われた画素の影響の低減によって、姿勢集合体へ加重隠蔽マスクを適用する(1540)。対照的に、工程1120で、外観集合体を決定する一実施例では、全ての画素は等しく扱われる。次の認識画像が受け取られる場合、マスクは、最も接近している姿勢または外観集合体を決定する際に、認識画像または姿勢集合体に直接適用されてもよい。
一実施例では、覆われた画素は、dH(Mk*,Wt*t)に距離算出dH(mk,It)を修正することにより、加重される。M k*上のWt*Itの加重投影はx*である。マスクWlは、数式(12)による前の構造Wt-lでの評価によってそれぞれの連続画像Ilで更新する。
有利に、隠蔽マスクは、より正確な顔認識を可能とするために時間干渉性を使用する。
要約すれば、本発明は、顔認識精度を増大させるために、認識過程中に画像間の時間干渉性を使用する。集合体トレーニングモジュール220は、変化する姿勢の個人のために、一連の認識画像間の確率的相互関係のマトリックスを確立する。外観集合体モジュール420は、現在の識別決定をするために、先の証拠および受信画像間の確率的関係を使用する。隠蔽モジュール430は、識別決定から認識画像の非顔部分を覆うことにより、一層の精度を達成する。
上記記載は、好ましい実施例の作用を示すために含まれており、本発明の範囲を限定するのが目的ではない。本発明の範囲は、本発明の請求項によってのみ限定される。上記議論から、本発明の精神および範囲に含まれる多くの変形が、当業者に明らかとなる。
本発明の一実施例による集合体外観認識のためのシステムを示すブロック図である。 本発明の一実施例による集合体認識モジュールを示すブロック図である。 本発明の一実施例による集合体トレーニングモジュールを示すブロック図である。 本発明の一実施例による確率識別モジュールを示すブロック図である。 本発明の一実施例による隠蔽モジュールを示すブロック図である。 本発明の一実施例による集合体外観認識の方法を示すフローチャートである。 本発明の一実施例による集合体データベースを配置する方法を示すフローチャートである。 本発明の一実施例による複数のトレーニング画像シーケンスの説明図である。 本発明の一実施例による姿勢集合体を含む線形近似外観集合体を備えた画像分割の説明図である。 本発明の一実施例による推移確率マトリックスの説明図である。 本発明の一実施例による複数の個人から個人を認識する方法を示すフローチャートである。 本発明の一実施例による姿勢集合体を決定する方法を示すフローチャートである。 本発明の一実施例による姿勢に投影された認識画像の説明図である。 本発明の一実施例による2つの外観集合体に投影された一連の認識画像の説明図である。 本発明の一実施例による隠蔽調節を決定する方法を示すフローチャートである。 (a)〜(c)は、本発明の一実施例による隠蔽された画像を示す。

Claims (12)

  1. 第1の認識画像は第1の姿勢の対象個人の第1の画像を含むものであり、前記第1の認識画像が1回目に取り込まれるものであり、一連の認識用画像から前記第1の認識画像を受ける工程と、
    第2の認識画像は第2の姿勢の前記対象個人の第2の画像を含むものであり、前記第2の認識画像が2回目に取り込まれるものであり、前記一連の認識用画像から前記第2の認識画像を受ける工程と、
    前記第1の画像に基づいて決定した前記対象個人の識別候補を含む第1の識別情報を生成する工程と、
    前記第1の識別情報および前記一連の認識用画像において前記第2の姿勢が前記第1の姿勢に続く確率に基づいて変更を加えた前記対象個人の識別候補を含む第2の識別情報を生成する工程とを含むことを特徴とする、対象個人を認識するためにコンピュータが実行する方法。
  2. 前記第2の姿勢は、第1の姿勢に対して二次元回転した顔の位置であることを特徴とする請求項1に記載の方法。
  3. 前記第2の姿勢は、前記第1の姿勢に対して三次元回転した顔の位置であることを特徴とする請求項1に記載の方法。
  4. コンピュータに、
    第1の認識画像は第1の姿勢の対象個人の第1の画像を含むものであり、前記第1の認識画像が1回目に取り込まれるものであり、一連の認識用画像から前記第1の認識画像を受ける工程と、
    第2の認識画像は第2の姿勢の前記対象個人の第2の画像を含むものであり、前記第2の認識画像が2回目に取り込まれるものであり、前記一連の認識用画像から前記第2の認識画像を受ける工程と、
    前記第1の画像に基づいて決定した前記対象個人の識別候補を含む第1の識別情報を生成する工程と、
    前記第1の識別情報および前記一連の認識用画像において前記第2の姿勢が前記第1の姿勢に続く確率に基づいて変更を加えた前記対象個人の識別候補を含む第2の識別情報を生成する工程とを実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
  5. 前記第2の姿勢は、第1の姿勢に対して二次元回転した顔の位置であることを特徴とする請求項4に記載のコンピュータ読み取り可能な記録媒体。
  6. 前記第2の姿勢は、前記第1の姿勢に対して三次元回転した顔の位置であることを特徴とする請求項4に記載のコンピュータ読み取り可能な記録媒体。
  7. コンピュータに、
    一連の認識用画像から第1の認識画像を受け、前記第1の認識画像は第1の姿勢の前記対象個人の第1の画像を含むものであり、前記第1の認識画像が1回目に取り込まれるものであり、および前記一連の認識用画像から第2の認識画像を受け、前記第2の認識画像は第2の姿勢の前記対象個人の第2の画像を含むものであり、前記第2の認識画像が2回目に取り込まれるものである、メモリに記憶されたビデオバッファと、
    前記第1の画像に基づいて決定した前記対象個人の識別候補を含む第1の識別情報を生成し、前記第1の識別情報および前記一連の認識用画像において前記第2の姿勢が前記第1の姿勢に続く確率に基づいて変更を加えた前記対象個人の識別候補を含む第2の識別情報を生成する、前記メモリに記憶された識別モジュールとを実現する、対象個人を認識するためのプログラムを記録したコンピュータ読み取り可能な記録媒体
  8. 前記第2の姿勢は、第1の姿勢に対して二次元回転した顔の位置であることを特徴とする請求項7に記載のコンピュータ読み取り可能な記録媒体
  9. 前記第2の姿勢は、前記第1の姿勢に対して三次元回転した顔の位置であることを特徴とする請求項7に記載のコンピュータ読み取り可能な記録媒体
  10. コンピュータを、
    一連の認識用画像から第1の認識画像を受け、前記第1の認識画像は第1の姿勢の前記対象個人の第1の画像を含むものであり、前記第1の認識画像が1回目に取り込まれるものであり、および前記一連の認識用画像から第2の認識画像を受け、前記第2の認識画像は第2の姿勢の前記対象個人の第2の画像を含むものであり、前記第2の認識画像が2回目に取り込まれるものである、メモリに記憶されたバッファ手段と、
    前記第1の画像に基づいて決定した前記対象個人の識別候補を含む第1の識別情報を生成し、前記第1の識別情報および前記一連の認識用画像において前記第2の姿勢が前記第1の姿勢に続く確率に基づいて変更を加えた前記対象個人の識別候補を含む第2の識別情報を生成する、前記メモリに記憶された識別手段として機能させる、対象個人を認識するためのプログラムを記録したコンピュータ読み取り可能な記録媒体
  11. 前記第2の姿勢は、第1の姿勢に対して二次元回転した顔の位置であることを特徴とする請求項10に記載のコンピュータ読み取り可能な記録媒体
  12. 前記第2の姿勢は、前記第1の姿勢に対して三次元回転した顔の位置であることを特徴とする請求項10に記載のコンピュータ読み取り可能な記録媒体
JP2005502285A 2002-11-07 2003-11-06 確率的外観集合体を使用するビデオに基づく顔認識 Expired - Fee Related JP4486594B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US42521402P 2002-11-07 2002-11-07
US47864403P 2003-06-12 2003-06-12
PCT/US2003/035496 WO2004042539A2 (en) 2002-11-07 2003-11-06 Video-based face recognition using probabilistic appearance manifolds

Publications (2)

Publication Number Publication Date
JP2006505875A JP2006505875A (ja) 2006-02-16
JP4486594B2 true JP4486594B2 (ja) 2010-06-23

Family

ID=32314578

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005502285A Expired - Fee Related JP4486594B2 (ja) 2002-11-07 2003-11-06 確率的外観集合体を使用するビデオに基づく顔認識

Country Status (5)

Country Link
US (1) US7499574B1 (ja)
EP (1) EP1565887A4 (ja)
JP (1) JP4486594B2 (ja)
AU (1) AU2003301795A1 (ja)
WO (1) WO2004042539A2 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5127583B2 (ja) * 2008-06-20 2013-01-23 株式会社豊田中央研究所 対象物判定装置及びプログラム
US9405995B2 (en) * 2008-07-14 2016-08-02 Lockheed Martin Corporation Method and apparatus for facial identification
GB2462851B (en) 2008-08-21 2010-09-15 4Sight Imaging Ltd Image processing
US9202140B2 (en) * 2008-09-05 2015-12-01 Siemens Medical Solutions Usa, Inc. Quotient appearance manifold mapping for image classification
TWI382354B (zh) * 2008-12-02 2013-01-11 Nat Univ Tsing Hua 臉部辨識方法
US11080513B2 (en) 2011-01-12 2021-08-03 Gary S. Shuster Video and still image data alteration to enhance privacy
US8744119B2 (en) * 2011-01-12 2014-06-03 Gary S. Shuster Graphic data alteration to enhance online privacy
US9020192B2 (en) 2012-04-11 2015-04-28 Access Business Group International Llc Human submental profile measurement
US8953843B1 (en) * 2012-07-17 2015-02-10 Google Inc. Selecting objects in a sequence of images
US8977003B1 (en) * 2012-07-17 2015-03-10 Google Inc. Detecting objects in a sequence of images
US9558396B2 (en) 2013-10-22 2017-01-31 Samsung Electronics Co., Ltd. Apparatuses and methods for face tracking based on calculated occlusion probabilities
US9721079B2 (en) 2014-01-15 2017-08-01 Steve Y Chen Image authenticity verification using speech
US9483997B2 (en) 2014-03-10 2016-11-01 Sony Corporation Proximity detection of candidate companion display device in same room as primary display using infrared signaling
US9696414B2 (en) 2014-05-15 2017-07-04 Sony Corporation Proximity detection of candidate companion display device in same room as primary display using sonic signaling
US10070291B2 (en) 2014-05-19 2018-09-04 Sony Corporation Proximity detection of candidate companion display device in same room as primary display using low energy bluetooth
US9594949B1 (en) * 2015-08-31 2017-03-14 Xerox Corporation Human identity verification via automated analysis of facial action coding system features
US10474908B2 (en) * 2017-07-06 2019-11-12 GM Global Technology Operations LLC Unified deep convolutional neural net for free-space estimation, object detection and object pose estimation
US10896318B2 (en) * 2017-09-09 2021-01-19 Apple Inc. Occlusion detection for facial recognition processes
US11853390B1 (en) * 2018-08-03 2023-12-26 Amazon Technologies, Inc. Virtual/augmented reality data evaluation
GB2583101B (en) * 2019-04-16 2021-05-19 Sony Interactive Entertainment Inc Video processing

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5164992A (en) * 1990-11-01 1992-11-17 Massachusetts Institute Of Technology Face recognition system
GB9123210D0 (en) * 1991-11-01 1991-12-18 Marconi Gec Ltd Filter
JPH07302327A (ja) * 1993-08-11 1995-11-14 Nippon Telegr & Teleph Corp <Ntt> 物体画像検出方法及び検出装置
US6188776B1 (en) * 1996-05-21 2001-02-13 Interval Research Corporation Principle component analysis of images for the automatic location of control points
JPH1013832A (ja) * 1996-06-25 1998-01-16 Nippon Telegr & Teleph Corp <Ntt> 動画像認識方法および動画像認識検索方法
US6144755A (en) * 1996-10-11 2000-11-07 Mitsubishi Electric Information Technology Center America, Inc. (Ita) Method and apparatus for determining poses
JP3943223B2 (ja) * 1997-02-12 2007-07-11 富士通株式会社 候補テーブルを用いて分類を行うパターン認識装置および方法
JPH1125269A (ja) * 1997-07-02 1999-01-29 Sanyo Electric Co Ltd 顔画像認識装置及びその方法
US6272231B1 (en) * 1998-11-06 2001-08-07 Eyematic Interfaces, Inc. Wavelet-based facial motion capture for avatar animation
JP2000099722A (ja) * 1998-09-22 2000-04-07 Toshiba Corp 人物顔認識装置及び人物顔認識方法
JP2000163396A (ja) * 1998-11-25 2000-06-16 Nippon Telegr & Teleph Corp <Ntt> クラス数未知のデータのクラスタリング装置および方法と該方法を実施するプログラムを記録した記録媒体
JP2000220333A (ja) * 1999-01-29 2000-08-08 Toshiba Corp 人物認証装置およびその方法
US7117157B1 (en) * 1999-03-26 2006-10-03 Canon Kabushiki Kaisha Processing apparatus for determining which person in a group is speaking
US6741756B1 (en) 1999-09-30 2004-05-25 Microsoft Corp. System and method for estimating the orientation of an object
JP4092059B2 (ja) * 2000-03-03 2008-05-28 日本放送協会 画像認識装置
JP2001331799A (ja) * 2000-03-16 2001-11-30 Toshiba Corp 画像処理装置および画像処理方法
US6671391B1 (en) * 2000-05-26 2003-12-30 Microsoft Corp. Pose-adaptive face detection system and process
WO2002039371A2 (en) * 2000-11-03 2002-05-16 Koninklijke Philips Electronics N.V. Estimation of facial expression intensity using a bidirectional star topology hidden markov model
US7330566B2 (en) * 2003-05-15 2008-02-12 Microsoft Corporation Video-based gait recognition

Also Published As

Publication number Publication date
EP1565887A2 (en) 2005-08-24
JP2006505875A (ja) 2006-02-16
WO2004042539A9 (en) 2005-07-21
WO2004042539A3 (en) 2004-09-02
AU2003301795A8 (en) 2004-06-07
AU2003301795A1 (en) 2004-06-07
US20090041310A1 (en) 2009-02-12
US7499574B1 (en) 2009-03-03
WO2004042539A2 (en) 2004-05-21
EP1565887A4 (en) 2009-05-27

Similar Documents

Publication Publication Date Title
JP4486594B2 (ja) 確率的外観集合体を使用するビデオに基づく顔認識
Portmann et al. People detection and tracking from aerial thermal views
Lee et al. Video-based face recognition using probabilistic appearance manifolds
US7912253B2 (en) Object recognition method and apparatus therefor
JP4479478B2 (ja) パターン認識方法および装置
JP6018674B2 (ja) 被写体再識別のためのシステム及び方法
US9898677B1 (en) Object-level grouping and identification for tracking objects in a video
JP5642410B2 (ja) 顔認識装置及び顔認識方法
US9098760B2 (en) Face recognizing apparatus and face recognizing method
US8553931B2 (en) System and method for adaptively defining a region of interest for motion analysis in digital video
US7957560B2 (en) Unusual action detector and abnormal action detecting method
US20100296706A1 (en) Image recognition apparatus for identifying facial expression or individual, and method for the same
JP7447302B2 (ja) デバイスのハンドジェスチャベースの制御のための方法及びシステム
JP2014093023A (ja) 物体検出装置、物体検出方法及びプログラム
US11151412B2 (en) Systems and methods for determining actions performed by objects within images
Garcia-Bunster et al. Crowded pedestrian counting at bus stops from perspective transformations of foreground areas
Alqahtani et al. 3D face tracking using stereo cameras: A review
WO2018050644A1 (en) Method, computer system and program product for detecting video surveillance camera tampering
US10990859B2 (en) Method and system to allow object detection in visual images by trainable classifiers utilizing a computer-readable storage medium and processing unit
Thabet et al. Algorithm of local features fusion and modified covariance-matrix technique for hand motion position estimation and hand gesture trajectory tracking approach
Miramontes-Jaramillo et al. Descriptor-based tracking algorithm using a depth camera
Granger et al. Survey of academic research and prototypes for face recognition in video
KR102443330B1 (ko) 치아 기반 개인 식별 장치 및 방법
US20240152549A1 (en) Image processing apparatus for search of an image, image processing method and storage medium
Sajid Robust background subtraction for moving cameras and their applications in Ego-vision systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061017

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091102

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100309

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100326

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130402

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees