JP4951700B2

JP4951700B2 - 視覚追跡のための適応型判別生成モデル及び逐次的フィッシャー判別分析並びにアプリケーション

Info

Publication number: JP4951700B2
Application number: JP2010178651A
Authority: JP
Inventors: ヤン，ミンシュエン; リュエイスンリン，; リン，ジョンウ; ロス，デイビッド
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2004-07-09
Filing date: 2010-08-09
Publication date: 2012-06-13
Anticipated expiration: 2025-07-11
Also published as: US7369682B2; US7650011B2; JP2008506201A; JP2011003207A; US20060036399A1; WO2006010129A3; WO2006010129A2; US20060023916A1

Description

本出願は、合衆国法典（ＵＳＣ）第３５編１１９条（ｅ）の下、２００４年７月９日に出願された米国仮特許出願第６０／５８６，５９８号「逐次的フィッシャー判別分析を用いたオブジェクト追跡」に基づいて優先権を主張するものであり、参照により本明細書中に組み込むものとする。

本出願は、合衆国法典（ＵＳＣ）第３５編１１９条（ｅ）の下、２００４年１１月５日に出願された米国仮特許出願第６０／６２５，５０１号「適応型判別生成モデル及びそのアプリケーション」に基づいて優先権を主張するものであり、参照により本明細書中に組み込むものとする。

本出願は、２００５年７月１１日に出願された米国特許出願第＿＿／＿＿＿，＿＿＿号「逐次的フィッシャー判別分析を用いたオブジェクト追跡」にも関連しており、参照により本明細書中に組み込むものとする。

本出願は、２００５年７月１１日に出願された米国特許出願第＿＿／＿＿＿，＿＿＿号「適応型判別生成モデル及びそのアプリケーション」にも関連しており、参照により本明細書中に組み込むものとする。

本出願は、２００４年１１月１５日に出願された米国特許出願第１０／９８９，９８６号「逐次的部分空間更新を用いた適応型確率的視覚追跡」にも関連しており、参照により本明細書中に組み込むものとする。

本発明は、一般的にはコンピュータに基づく視覚認知の分野に関し、より詳細には、適応型確率的判別生成モデルに関する。

視覚認知の分野において、多くのアプリケーションが、背景から対象オブジェクト又は関心のある画像を分離することを必要としている。特に、動画ビデオアプリケーションは、関心のある画像に対して、静的又は時間によって変化する背景に抗して追跡されることを要求する。

視覚追跡の問題は、「潜在モデル」に基づく連続又は離散時間状態推定として説明可能である。このようなモデルにおいて、観測結果すなわち観測データは、取得された画像の情報を符号化し、非観測状態は、対象オブジェクトの実際の位置又は動きパラメータを表す。このモデルは、長期の観測データから非観測状態を推測する。

各時間ステップにおいて、動的モデルは、以前及び現在の知識に基づいて、次の時間ステップでの対象物のいくつかの可能な位置（例えば、仮説）を予測する。以前の知識は、以前の観測結果と、推定された状態変遷と、を含む。新たな観測結果を受け取る度に、観測モデルは、対象物の実際の位置を推定する。観測モデルは、種々の動的モデル仮説を確認することにより、対象オブジェクトの最もあり得る位置を決定する。したがって、このような追跡アルゴリズムの総合的な性能は、観測モデルの正確さにより制限される。

ある従来のアプローチは、追跡を開始する前に、静的な観測モデルを作成する。このようなモデルは、照明、視角及び形状変形のような因子が長期にわたって明らかに変化することはないと仮定する。このような因子における全ての可能な変化を説明するために、大きなトレーニング例セットが必要となる。しかし、オブジェクトの外観は、このような因子が変化するにつれて明らかに変化する。それゆえ、不可能ではないとしても、視覚的に動的な環境の全ての可能なシナリオに適応するトレーニングセットを得ることは困難である。

他の従来のアプローチは、それぞれが対象オブジェクトの異なる特徴又はパーツを追跡する複数の追跡アルゴリズムを組み合わせる。各追跡アルゴリズムは、静的な観測モデルを備えている。各追跡アルゴリズムは任意の環境下では失敗するかもしれないが、全てが同時に失敗することは起こりそうにない。このアプローチは、現時点においてロバストな追跡アルゴリズムを適応的に選択する。このことは、全体的なロバスト性を改善するが、静的な観測モデルのそれぞれは、追跡を開始する前に、トレーニングを受ける、すなわち初期化されなければならない。このことは、適用領域を厳しく制限し、以前の見えない対象物に対する適用を妨害する。

したがって、トレーニングを必要とせずに、改善された追跡の正確さを提供し、実時間において対象ターゲットの外観変化にロバストに適応するために、観測の正確さの改善が必要とされている。

一実施形態によると、判別生成モデル又はＤＧＭと呼ばれる改善された仮説検証アルゴリズムが、観測アルゴリズムを補完する。ＤＧＭは、二値分類アプローチにより、視覚的に動的な環境において背景から対象画像を分離する。このアプローチは、観測結果を対象クラス又は一以上の背景クラスに属するものとして分類し、これらのクラスは、それぞれ陽性クラス及び陰性クラスとも呼ばれる。

このアプローチは、動的モデルにより予測される画像位置が対象クラス又は背景クラスから生成される確率を決定する。このことは、陽性クラス例セット及び陰性クラス例セットが与えられた場合に、高い確率を陽性例に割り当て、低い確率を陰性例に割り当てる確率分布を定義することにより達成される。このことは、二段階のプロセスを含む。

第一段階、すなわち生成段階では、確率的主成分分析（ＰＰＣＡ）が、陽性例の確率密度をモデリングする。陽性例の分散のほとんどを含む線形部分空間が定義される。ＰＰＣＡは、線形部分空間内に存在する例に高い確率を割り当てるガウス分布を提供する。

第二段階、すなわち判別段階では、生成モデルにより高い確率を間違って割り当てられた陰性例の確率を低減させる新たな確率分布が作成される。このことは、陰性例の射影と線形部分空間の平均との距離が増大するような、観測されたデータサンプルを線形部分空間上にマッピングする射影を適合することにより達成される。

この二段階のプロセスは、適応型判別生成モデル（ＡＤＧＭ）と呼ばれる反復／再帰的手法により実現される。ＡＤＧＭは、二値分類に確率的解釈を与えることにより、従来の観測モデルを増補する。この結合が、対象オブジェクトクラスに最もありそうな画像サンプルを、（動的モデル仮説セットから）より効率的に選択することにより、追跡アルゴリズム及び他のアプリケーションの正確さを改善する。追加的な利点は、トレーニングの必要性を減らすのに加え、実時間における対象物の実質的な外観変化に適合することである。実験結果がこれらの利点を証明する。

他の実施形態によると、画像シーケンスにわたる視覚追跡が、一のオブジェクトクラスと一以上の背景クラスとを定義することにより決定される。画像から得られる判別特徴のほとんどが、各画像の部分をオブジェクトクラスに属するものとして選択するために用いられる。このアプローチは、分類と呼ばれる。

フィッシャー線形判別（ＦＬＤ）手法は、高次元画像データを、より低次元な空間、例えば、線に射影し、低次元な空間において分類を実行するために用いられる。射影関数は、各クラスの分散を最小化する一方で、オブジェクトクラス及び背景クラスの平均間の距離を最大化する。

ＦＬＤは、各クラスのサンプルがクラスタリングされること、すなわち、各クラス内の外観分散が比較的小さいことを必要とする。実際には、この制約はオブジェクトクラスでは成立するが、単一の背景クラスでは成立しない。したがって、本発明の一実施形態は、一のオブジェクトクラスと複数の背景クラスとを備えている。しかし、背景クラスに要求される数が問題である。他の実施形態は、背景をモデリングするためにサンプルごとに一のクラスを用いることにより、この問題を克服する。さらに他の実施形態は、射影関数を逐次的に更新することによりＦＬＤを拡張する。実験結果は、本発明の効果を裏付けている。

本明細書に記載された特徴及び利点は、全てを包含しているものではなく、特に、当業者にとっては、図面、明細書及び特許請求の範囲を参照することにより、多くの追加的な特徴及び利点が明らかとなるであろう。さらに、明細書で用いられる言語は、原則として読みやすさと説明の目的のために選択されたものであり、発明の主題を線引き又は制限するために選択されたものではないことに留意されたい。

本発明は、添付された図面と併せたときに、以下の発明の詳細な説明及び添付された特許請求の範囲から直ちに明らかになる他の特徴及び利点を有する。

本発明の方法の一実施形態において用いられる潜在モデルを説明するための図である。本発明の方法の一実施形態を説明するためのフローチャートである。本発明の一実施形態において用いられる動的モデルを説明するための図である。本発明の一実施形態において用いられる観測モデルを説明するための図である。本発明の一実施形態において用いられる判別生成モデルによる陽性例及び陰性例並びにこれらの線上への射影を説明するための図である。（ａ）は陽性例及び陰性例の悪い判別を説明するための図であり、（ｂ）は陽性例及び陰性例の良い判別、並びにクラス内散乱及びクラス間散乱を説明するための図である。本発明を実行するためのコンピュータシステムの一実施形態を説明するための図である。本発明の一実施形態の実験例の一部結果を説明するための図である。本発明の一実施形態の他の実験例の一部結果を説明するための図である。本発明の方法の他の実施形態を説明するためのフローチャートである。本発明の他の実施形態の他の実験例の一部結果を説明するための図である。本発明の他の実施形態の他の実験例の一部結果を説明するための図である。

次に、本発明のいくつかの実施形態について詳細に説明し、それらの実施例に関して添付図面で図解する。これらの図面において、実際に同様又は類似の符号が用いられる場合には、同様又は類似の機能を示しうることに留意されたい。これらの図面は、単なる例示の目的のみで本発明の実施形態を示すものである。当業者であれば、以下の説明により、本明細書に記載された本発明の要旨を逸脱しない限り、本明細書で例示された構造及び方法に対する代替の実施形態を用いることができることを容易に理解するであろう。

図１には、視覚追跡の問題点が図式的に説明されている。各時間ステップｔで、観測画像領域すなわちフレームｏ_ｔが順に観測されており、対象オブジェクトに対応する状態変数ｓ_ｔは、観測されないものとして扱われる。一のフレームから次のフレームへのオブジェクトの動きは、ｓ_ｔ−１で与えられたオブジェクトが、ｓ_ｔで表れる確率に基づいてモデリングされる。換言すると、このモデルは、時刻ｔでのオブジェクトの可能な位置を、現時点での画像フレームを観測するために予め決定されたもので表す。オブジェクトが特定の可能な位置にある尤度は、確率分布に応じて決定される。ゴールは、最もあり得る帰納的なオブジェクト位置を決定することである。

視覚追跡の問題点は、このステップにおいて、帰納的な状態推定の問題点として説明される。このことに関する記述は、M. Isard and A. Blake, Contour Tracking by Stochastic Propagation of Conditional Density, Proceedings of the Fourth European Conference on Computer Vision, LNCS 1064, Springer Verlag, 1996 に開示されており、参照により本明細書に組み込むものとする。また、「逐次的部分空間更新を有する適応型確率的視覚追跡」という表題の米国特許出願第１０／９８９，９８６号明細書に開示されており、前記したように参照するものとする。

時刻ｔで観測された画像領域ｏ_ｔに基づいて、Ｏ_ｔ＝｛ｏ_１，…，ｏ_ｔ｝は、開始から時刻ｔまでに観測された画像領域セットとして定義される。視覚追跡プロセスは、観測結果Ｏ_ｔから状態ｓ_ｔを推測し、状態ｓ_ｔは、追跡されたオブジェクトの画像ｏ_ｔにおける２−Ｄ位置、向き及びスケールに関するパラメータセットを含んでいる。マルコフ状態遷移を仮定すると、この推定の問題点は、帰納的な式を用いて説明される。
ここで、ｋは、定数であり、ｐ（ｏ_ｔ｜ｓ_ｔ）及びｐ（ｓ_ｔ｜ｓ_ｔ−１）は、後記するように、それぞれ観測モデル及び動的モデルに対応する。

式（１）において、ｐ（ｓ_ｔ−１｜Ｏ_ｔ−１）は、時刻ｔ−１までの全ての以前の観測結果が与えられた状態推定であり、ｐ（ｏ_ｔ｜ｓ_ｔ）は、状態ｓ_ｔでの観測画像ｏ_ｔの尤度である。視覚追跡に関して、ｐ（ｓ_ｔ｜Ｏ_ｔ）の理想的な分布は、ｏ_ｔ、すなわち、観測されたオブジェクトの位置ｏ_ｔにマッチングしたｓ_ｔでピークとなるべきである。式（１）における積分は、オブジェクトが与えられた全ての以前の観測結果で現れそうな領域を予測し、観測モデルｐ（ｏ_ｔ｜ｓ_ｔ）は、時刻ｔでの観測結果にマッチングする最もあり得る状態を決定する。

この実施形態によると、ｐ（ｏ_ｔ｜ｓ_ｔ）は、ｏ_ｔを観測する確率を、対象ターゲットクラスにより生成されたサンプルとして測定する。Ｏ_ｔは、画像シーケンスであり、画像が高フレームレートで取得される場合には、オブジェクトの外観が視角、照明及び可能な自己変形に応じて変化する場合であっても、ｏ_ｔとｏ_ｔ−１との差が小さくなることが期待される。複雑な静的モデルを採用して全ての可能なｏ_ｔに関するｐ（ｏ_ｔ｜ｓ_ｔ）を学習するのに代えて、単純な適用モデルは、外観変化を説明するのに十分である。さらに、ｏ_ｔとｏ_ｔ−１とが類似していることは最もあり得ると思われ、かつ、ｐ（ｏ_ｔ｜ｓ_ｔ）の算出がｐ（ｏ_ｔ−１｜ｓ_ｔ−１）に依存するので、以前の情報ｐ（ｏ_ｔ−１｜ｓ_ｔ−１）は、ｐ（ｏ_ｔ｜ｓ_ｔ）におけるオブジェクトとその背景との間の区別を強化するのに用いられる。

ここで図２を参照すると、式（１）を解く方法の一実施形態が示されている。初期フレームベクトルを受け取る（２０６）。このフレームベクトルは、ピクセルごとに一の要素を備えており、各ピクセルは、明るさ、色等の記述を備えている。続いて、対象ターゲットの初期位置が決定される（２１２）。このことは、手動又は自動手段を介して達成可能である。自動的なオブジェクト位置決定の例としては、顔検出が挙げられる。顔検出の一実施形態は、米国特許出願第１０／８５８，８７８号、オブジェクトを検出するための方法、装置及びプログラムに説明されており、参照により本明細書に組み込むものとする。このような実施形態は、画像内のオブジェクト又は関心のある領域の追跡アルゴリズムを教えてくれる。

図２に戻り、本発明は、動的モデルを適用して（２２４）、分布ｐ（Ｓｔ｜Ｓｔ−１）によって、現在のフレームｓｔ内の位置に基づいて、次のフレームｓｔ＋１における対象ターゲットの可能な位置を予測する。このことは、現在のフレーム３１０における位置と、次のフレーム３２０ｉと、を含む図３に概念的に示されている。換言すると、動的モデルにより提供された確率分布は、各フレーム及び画像領域を観測する前に、対象オブジェクトが時刻ｔで位置する場所についての信念を符号化する。適用された（２２４）動的モデルによると、時刻ｔでの対象オブジェクトの位置ｓ_ｔは、ウィンドウ位置（ｘ，ｙ）、角度の向き（θ）並びに幅及び高さ（ｗ，ｈ）をパラメータ化した、長さが５のベクトルｓ＝（ｘ，ｙ，θ，ｗ，ｈ）である。

続いて、画像観測モデルが適用される（２３０）。このモデルは、確率的主成分分析（ＰＰＣＡ）に基づいている。このことの記述は、M. E. Tipping and C. M. Bishop, Probabilistic principle components analysis, Journal of the Royal Statistical Society, Series B, 1999 に開示されており、参照により本明細書に組み込むものとする。

観測モデルの適用（２３０）は、対象オブジェクトクラスにより生成されたサンプルとして、ｏ_ｔを観測する確率ｐ（ｏ_ｔ｜ｓ_ｔ）を決定する。Ｏ_ｔは画像のシーケンスであり、画像が高フレームレートで取得される場合には、オブジェクトの外観が視角、照明及び可能な自己変形のよって変化する場合であっても、ｏ_ｔとｏ_ｔ−１との間の差が小さくなることが期待されることに留意されたい。複雑な静的モデルを採用して全ての可能なｏ_ｔに関するｐ（ｏ_ｔ｜ｓ_ｔ）を学習するのに代えて、より単純な適用モデルが、外観変化を説明するのに十分である。さらに、ｏ_ｔとｏ_ｔ−１とが類似していることは最もあり得ると思われ、かつ、ｐ（ｏ_ｔ｜ｓ_ｔ）の算出がｐ（ｏ_ｔ−１｜ｓ_ｔ−１）に依存するので、以前の情報ｐ（ｏ_ｔ−１｜ｓ_ｔ−１）は、ｐ（ｏ_ｔ｜ｓ_ｔ）におけるオブジェクトとその背景との間の区別を強化するのに用いられる。

再び図２に戻り、区別生成モデル（ＤＧＭ）が適用されて（２３６）、推定された対象オブジェクト位置を改善する。ＤＧＭの開発は、Tipping and Bishopの著作物に続くものであり、これは、前記したように参照される。図１の潜在モデルは、式（２）に応じて、ｎ次元の外観ベクトルｙと潜在変数ｘのｍ次元ベクトルとを関連付ける。
ｙ＝Ｗｘ＋μ＋ε （２）
式（２）において、ｙ及びｘは、それぞれｏ及びｓに類似しており、Ｗは、ｙ及びｘに関連するｎ×ｍ射影行列であり、μは、ｙの平均であり、εは、付加雑音である。因子分析及び他のグラフィカルモデルにおいて一般に仮定されているように、潜在変数ｘは、ユニットの分散ｘ〜Ｎ（０，Ｉ_ｍ）に対して独立であり、ここでＩ_ｍは、ｍ次元の単位行列であり、εは、ゼロ平均ガウス雑音ε〜Ｎ（０，σ^２Ｉ_ｎ）である。このことの記述は、An Introduction to Multivariate Statistical Analysis, T. W. Anderson, Wiley, 1984 及びLearning in Graphical Models, Michael I. Jordan, MIT Press, 1999 に開示されており、参照により本明細書に組み込むものとする。

ｘ及びεはともにガウス的にランダムなベクトルであるので、ベクトルｙはガウス分布ｙ〜Ｎ（μ，Ｃ）を有し、ここでＣ＝ＷＷ^Ｔ＋σ^２Ｉであり、Ｉ_ｎは、ｎ次元の単位行列である。式（２）とともに、生成観測モデルは、
により定義される。この潜在変数モデルは、確率的主成分分析の形態に従い、そのパラメータは、例示画像セットから推定可能である。画像フレームセットＹ＝｛ｙ_１，…，ｙ_Ｎ｝が与えられると、Ｙの共分散行列は、
として示される。｛λ_ｉ｜ｉ＝１，…，Ｎ｝は、降順、すなわち、ｉ＜ｊであればλ_ｉ≧λ_ｊとなるように配列されたＳの固有値である。また、対角行列Σ_ｍ＝ｄｉａｇ（λ_１，…，λ_ｍ）が定義され、Ｕ_ｍは、Σ_ｍにおける固有値に対応する固有ベクトルである。
Tipping and Bishop は、μ，Ｗ，εの最大尤度推定が
により得られることを示している。ここで、Ｒは、任意のｍ×ｍ直交回転行列である。

この実施形態によると、モデルパラメータＷ，μ，σ^２が外観変化を説明するために動的に適合されるので、前記した単一の線形ＰＰＣＡモデルは、モデルの段階的な外観変化に十分である。

ベクトルｙがこの生成外観モデルのサンプルである対数確率は、式（４）から
として算出可能である。ここで、
である。
定数項を無視すると、対数確率は、
により決定される。Ｃ＝ＷＷ^Ｔ＋σ^２Ｉ_ｎ及び式（４）とともに、以下のようになる。

は、Ｕｍによって測られる部分空間内におけるｙの距離であり、図４ではｄｗにより表される。
は、ｙからこの部分空間までの最短距離であり、図４ではｄｔにより表される。σは大抵の場合小さい値に設定されるので、結果的に、確率は単に距離ｄｔにより決定されることになる。式（６）から、σの値が実際の値よりもさらに小さく設定される場合には、距離ｄｔは重視され、距離ｄｗは無視され、これにより不正確な推定になってしまう。σの選択は、外観が動的に変化する状況における重要な因子である。この感受性の結果として、本発明の一実施形態は、新たに到着したサンプルによってσを適応して調節する。σの初期化及び調節のさらなる説明は、以下に与えられる。

前記したように、対象オブジェクトの外観は、ｏ_ｔ−１からｏ_ｔまで明らかに変化しないことが期待される。したがって、ｏ_ｔ−１での観測結果は、ｏ_ｔに対応する尤度測定を改善するために使用可能である。すなわち、サンプルセット（例えば、画像パッチ）が描かれ、大きなｐ（ｏ_ｔ−１｜ｓ^ｉ _ｔ−１）を有するが小さい後のｐ（ｓ^ｉ _ｔ−１｜Ｏ_ｔ−１）を有するｏ_ｔ−１において｛ｓ^ｉ _ｔ−１｜ｉ＝１，…，ｋ｝によりパラメータ化される。これらは、生成モデルがＯ_ｔで（対象ターゲットから生成された）陽性サンプルとして混同しがちな陰性サンプル（すなわち、対象ターゲットのクラスから生成されないサンプル）として扱われる。

画像サンプルセットＹ’＝｛ｙ^１，…，ｙ^ｋ｝、が与えられると、線形射影Ｖ^＊は、部分空間におけるＹ’の尤度が最小化されるように、Ｙ’を部分空間に射影するものと決定される。ここでｙ^ｉは状態パラメータｓ^ｉ _ｔ−１に基づいてｏ_ｔ−１内で収集された外観ベクトルである。Ｖをｐ×ｎ行列とすると、ｐ（ｙ｜Ｗ，μ，σ）がガウス分布であるので、ｐ（Ｖｙ｜Ｖ，Ｗ，μ，σ）〜Ｎ（Ｖμ，ＶＣＶ^Ｔ）もガウス分布である。尤度の対数は、
により算出され、ここで、
である。以下の分析を容易にするために、ＶがＹ’を一次元空間、すなわち、ｐ＝１，Ｖ＝ν^Ｔに射影すると仮定すると、
となる。

ν^ＴＣνは、射影空間におけるオブジェクトサンプルの分散である。例えば、ν^ｔＣν＝１といった制約が、νの最小尤度解が射影空間における分散を増加させないことを保証するために課される。
ν^ＴＣν＝１とすることにより、最適化問題は、
となる。

式（１１）において、νは、射影空間における対象オブジェクトのサンプル（例えば、陽性サンプル）を（分散ν^ＴＣν＝１という制約を有する）μの近くの場所に維持し、Ｙ’における陰性サンプルをμから離れた場所に維持する射影である。νの最適値は、生成されたＳ’の固有ベクトル及び最大の固有値に対応するＣである。一般的な場合において、それは、
のように示される。ここで、Ｖ^＊は、生成されたＳ’の固有値問題とＣとを解くことにより得られる。観測オブジェクトをより低次元の部分空間に射影することにより、生成モデルの判別力が高められる。さらに、このことは、確率を算出するために要する時間を低減させ、視覚追跡のようなリアルタイム適用に関して重大な改善を表す。

射影ν及びその最適値の理解は、図５の参照により得られるであろう。二次元空間における陽性及び陰性サンプルは、それぞれ「○」と「×」とにより表される。代表サンプル５１０のようなサンプルは、それぞれライン５２０，５４０に射影することができる（５３０，５５０）。ライン５４０は、陽性サンプルと陰性サンプルとの間の判別性が低いので、下手な選択を表している。このことは、図６（ａ）に示される射影により概念的に示される。ライン５２０は、図６（ｂ）に示すように、陽性及び陰性サンプルの射影が一般的に上手く分離されるので、より良い選択である。

図６（ｂ）は、非常に良い判別を提示する仮想一次元例に係るＣ及びＳ’の意味を説明するための図である。Ｃは、個々のクラスとされる陽性又は陰性サンプルクラスタの分散に対応する。これは、「クラス内散乱」と呼ばれる。Ｓ’は、陽性クラスタと陰性クラスタとの間の分離に対応しており、「クラス間散乱」と呼ばれる。したがって、Ｖ^＊は、クラス内散乱に対するクラス間散乱の比を最大化する線形射影に対応する。

射影行列Ｖの算出は、行列Ｃ，Ｓ’に依存する。Ｓ’は、以下のように更新可能である。
及び
とすると
となる。Ｓ’，Ｃが与えられると、Ｖは、一般的な固有値問題を解くことにより算出可能である。Ｓ’＝Ａ^ＴＡ及びＣ＝Ｂ^ＴＢが分解されると、Ｖは、一般的な特異値分解（ＳＶＤ）を用いて、より効率的に決定可能である。Ｕ_Ｙ’，Σ_Ｙ’をＳ_Ｙ’のＳＶＤとすることにより、Ａ＝［Ｕ_Ｙ’Σ_Ｙ’ ^１／２｜（μ−μ_Ｙ’］^Ｔ及びＢ＝［Ｕ_ｍΣ_ｍ ^１／２｜σ^２Ｉ］^Ｔと定義することによって、Ｓ’＝Ａ^ＴＡ及びＣ＝Ｂ^ＴＢとなる。

Ｖは、まず、ＱＲ因数分解
を実行し、Ｖ＝Ｒ^−１Ｖ_Ａを生成する
Ｑ_Ａ＝Ｕ_ＡＤ_ＡＶ^Ｔ _Ａ（１５）
によりＱ_Ａの特異値分解を算出することにより算出可能である。Ａの階数は、視覚適用において大抵の場合小さく、Ｖは、効率的に算出可能であるので、追跡プロセスを容易にすることができる。前記した導出に用いられる方法の記述は、G.H. Golumb and C. F. Van Loan, Matrix Computations, Johns Hopkins University Press, 1996 に開示されており、参照により本明細書に組み込むものとする。

図２に戻り、先行ステップに基づき、かつ、式（１）により、前記した推論モデルが適用される（２４２）。対象オブジェクトの外観又はその照明が時間に依存して変化することがあり、固有基底がオブジェクト表現に用いられるので、固有基底は、時間依存性の共分散行列から連続的に更新される（２４８）ことが望ましい。この問題は、いくつかの算出効率化技術が再帰アルゴリズムの形態で提案されている信号処理団体において研究されている。このことの記述は、B. Champagneand Q. G. Liu, “Plane rotation-based EVD updating schemes for efficient subspace tracking”, IEEE Transactions on Signal Processing 46 (1998) に開示されており、参照により本明細書に組み込むものとする。この実施形態において、効率的な逐次的カルーネン−レーベアルゴリズムの改良型が固有基底を更新するのに用いられており、このことは、A. Levy and M. Lindenbaum, “Sequential Karhunen-Loeve bases extraction and its application to images”, IEEE Transactions on Image Processing 9 (2000) に開示されており、参照により本明細書に組み込むものとする。同様に、これは、クラシックなＲ−ＳＶＤ法に基づいている。このことの記述は、G. H. Golub and C. F. Van Loan, “Matrix Computations”, The Johns Hopkins University Press (1996) に開示されており、参照により本明細書に組み込むものとする。

続いて、本発明の一実施形態は、動画ビデオシーケンスの全てのフレームが処理されたか否かを判定する（２６２）。処理されていない場合には、本方法は、次のフレームベクトルを受け取り（２６８）、ステップ２２４−２５６が繰り返される。

追跡アルゴリズムの実施形態の記載された特徴のいくつかを有すると、ここで、この実施形態の追加的な態様が留意される。本アルゴリズムは、それまでの全ての観測結果が与えられた場合における、現在時刻における対象オブジェクトの最もありそうな位置を決定する最大尤度推定に基づいている。このことは、ｓ^＊ _ｔ＝ａｒｇｍａｘ_ｓｔｐ（ｓ_ｔ｜Ｏ_ｔ）により示される。状態遷移がガウス分布であると仮定すると、すなわち、
ｐ（ｓ_ｔ｜ｓ_ｔ−１）〜Ｎ（ｓ_ｔ−１，Σ_ｓ）（１６）
であり、ここで、Σ_ｓは対角行列である。この分布によると、追跡アルゴリズムは、対象物の可能な位置を表すＮ個のサンプル、すなわち、状態ベクトルＳ_ｔ＝｛ｃ_１，…，ｃ_Ｎ｝を描く。ｙ^ｉ _ｔは、ｏ_ｔの外観ベクトルであり、Ｙ_ｔ＝｛ｙ^１ _ｔ，…，ｙ^Ｎ _ｔ｝は、状態ベクトルセットＳ_ｔに対応する外観ベクトルセットである。追跡されたオブジェクトがｃ_ｉでビデオフレームｏ_ｔに存在する事後確率は、
として定義され、ここで、κは定数である。したがって、
である。

ｓ^＊ _ｔが一旦決定されると、対応する観測結果ｙ^＊ _ｔは、Ｗ及びμを更新するための新たな例となる。大きなｐ（ｙ^ｉ _ｔ｜Ｖ，Ｗ，μ，σ）を有するが、対応する状態パラメータｃ_ｉがｓ^＊ _ｔから離れている外観ベクトルｙ^ｉ _ｔは、Ｖを更新するための新たな例として用いられる。追跡アルゴリズムは、ｏ_１及びｓ^＊ _１が（前記したようにオブジェクト検出を介して）与えられていると仮定し、順にμの初期値として用いられる１番目の外観ベクトルｙ_１を得る。しかし、Ｖ及びＷは、始めは未知である。Ｖ及びＷの初期値が得られないときには、追跡アルゴリズムは、テンプレートであるμを用いたテンプレートマッチングに基づく。行列Ｗは、少しの外観ベクトルが観測された後に算出される。Ｗが得られると、Ｖは、それに応じて算出及び更新可能である。

前記したように、σの正確な初期推定を得ることは困難である。したがって、σは、ＷのΣ_ｍによって適応的に更新される。σは、初期には、ごく少量、例えばΣ_ｍの最小の固有値である０．１に設定される。このことは、式（６）における距離測定がｄｗ又はｄｔを重視するように偏らないことを保証する。

ここで図７を参照すると、本発明の一実施形態に係るシステムが示されている。コンピュータシステム７００は、入力モジュール７１０と、メモリ装置７１４と、プロセッサ７１６と、出力モジュール７１８と、を備えている。他の実施形態において、画像処理プロセッサ７１２は、主プロセッサ７１６、すなわち、デジタル画像を所望の画像フォーマットに予めフォーマットした専用装置の一部とすることができる。同様に、メモリ装置７１４は、スタンドアロンのメモリ装置（例えば、ランダムアクセスメモリチップ、フラッシュメモリ等）であってもよく、プロセッサ７１６を有するオンチップメモリ（例えば、キャッシュメモリ）であってもよい。同様に、コンピュータシステム７００は、サーバ、パーソナルコンピュータ等のようなスタンドアロンのシステムであってもよい。また、コンピュータシステム７００は、例えば、視覚システムを有するロボット、セキュリティシステム（例えば、空港セキュリティシステム）等のように巨大システムの一部であってもよい。

この実施形態によると、コンピュータシステム７００は、デジタル画像Ｏを受け取るための入力モジュール７１０を備えている。デジタル画像は、例えば、デジタルカメラ７０１ａ（例えば、ロボットの眼）、ビデオシステム７０１ｂ（例えば、有線テレビ）、画像スキャナ等の撮像装置７０１から直接受け取ってもよい。また、入力モジュール７１０は、例えば、画像データベース、他の視覚システム、インターネットサーバ等の他のネットワークシステムからデジタル画像を受け取るためのネットワークインターフェースであってもよい。ネットワークインターフェースは、ＵＳＢ、ＲＳ−２３２シリアルポート、イーサネット（登録商標）カード等のような有線インターフェースであってもよく、例えば、ブルートゥース、ＷｉＦｉ、ＩＥＥＥ８０２．１１等の無線プロトコルを用いて通信するように構成された無線装置のような無線インターフェースモジュールであってもよい。

任意の画像処理プロセッサ７１２は、プロセッサ７１２、すなわち、システム７００の専用装置の一部であってもよい。画像処理プロセッサ７１２は、入力モジュール７１０を介して受け取ったデジタル画像を前処理して、デジタル画像をプロセッサ７１６上で動作する好適なフォーマットに変換するために使用可能である。例えば、入力モジュール７１０を介して受け取ったデジタル画像がＪＰＥＧフォーマットでデジタルカメラ７１０ａから来ており、プロセッサがラスタ画像データを操作するように構成されている場合には、画像処理プロセッサ７１２は、ＪＰＥＧをラスタ画像データに変換するために使用可能である。

デジタル画像Ｏは、画像処理プロセッサ７１２が用いられている場合には一旦所望の画像フォーマットになっており、メモリ装置７１４に記憶されてプロセッサ７１６により処理される。プロセッサ７１６は、例えば、動的モデル、観測モデル等の本発明に係る一以上の方法を実行する命令セットを適用する。一実施形態において、この命令セットは、メモリ装置７１４内の適応判別生成（ＡＤＧ）ユニットに記憶される。命令セットを実行する間、プロセッサ７１６は、メモリ装置７１４にアクセスし、本発明の方法に係る操作をメモリ装置７１４内に記憶された画像データに実行する。

プロセッサ７１６は、入力画像Ｉ内の対象オブジェクトの位置を追跡し、追跡された対象物のアイデンティティ及び位置の指示を、出力モジュール７１８を介して外部装置７２５（例えば、データベース７２５ａ、ネットワーク要素又はサーバ７２５ｂ、ディスプレイ装置７２５ｃ等）に出力する。入力モジュール７１０と同様、出力モジュール７１８は、有線又は無線とすることができる。出力モジュール７１８は、ストレージドライブインターフェース（例えば、ハードドライブ又は光学式ドライブドライバ）、ネットワークインターフェース装置（例えば、イーサネット（登録商標）インターフェースカード、無線ネットワークカード等）若しくはディスプレイドライバ（例えば、グラフィックスカード等）又は対象オブジェクトの識別番号及び／又は位置を出力するための他の装置であってもよい。

判別生成モデルを有する追跡アルゴリズムは、多数の実験でテストされた。アルゴリズムが動的環境に適応してオブジェクトを追跡するか否かを試験するために、外観変化、大きな照明変化及び大きなポーズ変化を禁じた映像が記録された。全ての画像シーケンスは、３２０×２４０ピクセルのグレースケール映像からなり、３０フレーム／秒、１ピクセルにつき２５６グレーレベルで記録された。忘却期間は、経験的に０．８５として選択され、更新のためのバッチサイズは、算出効率と早い動きの存在下におけるモデル化した外観変化の有効性とのトレードオフとして５に設定された。忘却期間の記述は、Levy and Lindenbaum に開示されており、これは、前記したように引用された。

図８，９は、矩形ウィンドウ８１０，９１０で囲まれたいくつかの追跡結果のサンプルを示す。主ビデオフレームのそれぞれの下には、小さい画像の二つの横列がある。第一の横列８２０／９２０は、判別生成モデル（ＤＧＭ）によって対象物位置の最も大きい尤度を有する現在のフレームにおけるサンプル画像を示す。第二の横列８３０／９３０は、ＤＧＭを更新するためにオンラインで選択された現在のビデオフレームにおけるサンプル画像を示す。図８における結果は、追跡アルゴリズムがポーズ及び照明の変化を受けた対象物をうまく追跡することを示す。図９は、ポーズ、照明及び影の明らかな変化の存在下で追跡がうまくいくことを示す。これら二つのシーケンスは、従来の視野に基づく固有追跡装置及びテンプレートに基づく方法でテストされた。このことに関する記述は、M. J. Black and A. D. Jepson, Eigentracking: Robust matching and tracking of articulated objects using view-based representation, Proceedings of the Fourth European Conference on Computer Vision, LNCS 1064, Springer Verlag, 1996 に開示されており、参照により本明細書に組み込むものとする。結果は、このような方法がＤＧＭに基づく方法と同様には機能せず、前者は外観変化を説明するためにオブジェクト表現を更新することはない。

本発明の他の実施形態によると、フィッシャー線形判別（ＦＬＤ）が、画像サンプルを、より低次元な部分空間に射影する。判別生成モデルに基づく実施形態に関して記載したように、より低次元な部分空間内で、クラス間散乱行列が最大化される一方で、クラス内散乱行列は最小化される。背景クラスの分布は、複数のガウス分布又は単一のガウス分布によってモデル化される。望ましくは、一のクラスが対象オブジェクトをモデル化し、複数のクラスが背景をモデル化する。一実施形態によると、画像サンプルごとに一のクラスが背景クラスをモデル化する。ＦＬＤは、背景クラスのサンプルからオブジェクトクラスのサンプルを区別する。

Ｘ_ｉ＝｛ｘ_１ ^ｉ，…，ｘ_Ｎｉ ^ｉ｝をクラスｉのサンプルとする。ＦＬＤは、観測関数を最大化することにより、最適な射影行列Ｗを算出する。
ここで、
は、それぞれクラスｉの平均であるｍ_ｉ、クラスｉのサンプル数であるＮ_ｉ及びサンプルの全体的な平均であるｍを有するクラス間及びクラス内散乱行列である。

Ｘ＝｛ｘ_１，…，ｘ_Ｎｘ｝をオブジェクトクラスのサンプルとし、Ｙ＝｛ｙ_１，…，ｙ_Ｎｙ｝を背景クラスのサンプルとする。背景の各サンプルを個別のクラスとして扱うと、Ｘ_１＝Ｘ及びＸ_ｉ＝｛ｙ_ｉ−１｝，ｉ＝２，…，Ｎｙ＋１を有するＮ_ｙ＋１個のクラスが存在する。Ｘ_１を除き、全てのクラスは、正確に一つのサンプルを有する。したがって、ｉ≠１である場合に、ｍ_ｉ＝ｙ_ｉ−１である。これらの関係の式（１８）（１９）への適用は、
を生じさせる。ここで、ｍ_ｘ及びｍ_ｙはＸ及びＹにおけるサンプルの平均を示し、Ｃ_ｘ及びＣ_ｙはＸ及びＹにおけるサンプルの共分散行列を示す。
という事実を適用することにより、クラス間及びクラス内散乱行列は、
として記載可能である。

ここで図１０を参照すると、この実施形態に対応する視覚追跡方法が示されている。
初期フレームベクトルを受け取る（１００６）。このフレームベクトルの特徴は、ステップ２０６に関連して前記したものと同様である。続いて、対象オブジェクトの初期位置が決定される（１０１２）。このことは、ステップ２１２に関して前記したのと同様に達成可能である。この方法は、最初に、一番目のビデオフレームを用いて、対象物及び背景を分類する。一番目のビデオフレームで始めると、ステップ２２４に関して前記したように、動きパラメータセットが、初期対象オブジェクト位置を定義するウィンドウを特定する。そのウィンドウ内の画像部分は、オブジェクトクラスに関する初期例であることが望ましい。

続いて、ステップ２２４に関連して前記したように、動的モデルが適用されて（１０２４）時刻ｔ＋１でのオブジェクトの位置ｓ_ｔ＋１を予測する。小さい摂動がオブジェクトクラスを表すウィンドウに適用され、対応する画像領域がトリミングされ、例えば、ウィンドウにより特定された領域の部分が取り出される。時刻ｔからｔ＋１までの期間にわたって対象オブジェクトクラスの可能な変化をエミュレートすることにより、より大きいサンプルセットが得られる。また、より大きい摂動の適用は、非対象背景クラスのサンプルを提供する。例えば、時刻ｔ＋１でのトリミングされた画像セットに対応して、ｎ_０個（例えば、５００）のサンプルが描かれてもよい。これらの画像は、射影行列Ｗを用いて低次元空間に射影される。射影空間におけるオブジェクト画像はガウス分布により律則されるものと仮定する。続いて、推論モデルが適用される（１０４２）。描かれたｎ_０個のサンプルの中から、このモデルは、射影空間において射影されたサンプルの平均までの最小距離を有する画像を決定する。この距離は、図４に示され、判別生成モデルに関連して前記したｄｗに等しい。この画像が、時刻ｔ＋１でのオブジェクトの位置として選択される。

続いて、ＦＬＤが更新される（１０５６）。対応する動きパラメータが選択されたサンプルの動きパラメータに近いｎ０個のサンプルの選択されなかった要素が、時刻ｔ＋１でのオブジェクトクラスに関するトレーニング例として選択される。背景クラスに関する例は、射影空間においてオブジェクト平均までの最小距離を有し、選択された例の動きパラメータから明らかに外れた動きパラメータを有するものとして選択される。これらの動きパラメータが選択されたサンプルの動きパラメータと明らかに異なるので、これらのサンプルは、背景クラスの一つから生成されている可能性が高い。しかし、これらのサンプルは図４に示すようにオブジェクト平均までの小さい距離ｄｗを有するので、これらのサンプルは、射影空間においてオブジェクトクラスに属するように見える。したがって、これらのサンプルは、オブジェクト及び背景クラスを判別するのに効果的な例である。

さらに、式（１８）のＪ（Ｗ）を最小化するＷを見つけ出すことにより、ＦＬＤが更新される（１０５６）。このことは、一般的な固有値問題を解くことにより達成可能である。Ｓ_Ｗは階数が不完全な行列であるので、Ｊ（Ｗ）は、
に変換される。ここで、εは、小さい値を有するスカラー量である。前記した逐次的カルーネン−レーベアルゴリズムを用いると、Ｃ_ｘ及びＣ_ｙは、
により近似される。
ここで、
と定義すると、
Ｓ_Ｂ＝Ａ^ＴＡ
Ｓ_Ｗ＋εＩ＝Ｂ^ＴＢ（２６）
であることが示される。所望のＷの値は、ＷでＶを代用し、前記した式（１４）（１５）を適用することにより求められる。

図１０に戻り、ステップ１０６２，１０６８が、ステップ２６２，２６８に関して前記したようにそれぞれ適用される。

ＦＬＤを用いた追跡アルゴリズムは、顔追跡実験によってテストされた。ヒトのサブジェクトの顔を含み、照明変化及びポーズ変化を禁止した映像が記録された。全ての画像シーケンスは、３２０×２４０ピクセルのグレースケールビデオからなっており、３０フレーム／秒かつ１ピクセルにつき２５６グレースケールで記録された。初期化に関し、対象物クラスに対する１００の例と背景クラスに対する５００の例とがＦＬＤを算出するために用いられた。これらのサンプルのサイズは、妥協として選択された。より陽性及び陰性のサンプルが用いられると、より良い結果が得られる。しかし、例の数が増えると、より多くの計算が必要となる。一以上のクラスが陰性の例のために用いられることが望ましいので、陰性の例の数は、陽性の例の数よりも大きいことが望ましい。ＦＬＤは、５フレームごとに逐次的に更新された。追跡中に、フレームごとに５個の新たなオブジェクト及び背景の例が追加され、以前に用いられた例が保持された。

図１１及び図１２は、実験結果を示す図である。各メインビデオフレームの下には、小さい画像からなる二つの横列がある。第一の横列１１２０／１２２０は、各フレームで収集された５個の新たなオブジェクト画像例を受けたオブジェクトクラスの現在の平均を示す。第二の横列１１３０／１２３０は、各フレームで収集された新たな背景例を示す。このように、鋭い照明及びポーズ変化並びに顔の表情の変化があるにもかかわらず、追跡は安定している。

視覚追跡に適用された本発明の利点は、従来の手法に対する、改善された追跡の正確さ及び算出効率を含む。視覚追跡モデルが継続的に適合するので、ポーズ及び照明の変化による対象オブジェクト及び背景の大きな外観変化が効率的に適合される。

当業者であれば、開示された本発明の原理を介して判別生成モデル及びフィッシャー線形判別モデル並びにこれらのアプリケーションに関する他の代替の構成設計及び機能設計を高く評価するであろう。以上、本発明の特定の実施形態及び適用例について図解し説明したが、本発明が本明細書で開示された厳密な構成及び構成要素に限定されず、また、本明細書に記載された本発明の方法及び装置の配置、処理並びに詳細において、当業者にとって明白な改変、変更及び変形を多様に行うことができることを理解するであろう。

Claims

デジタル画像フレームのシーケンス内において、オブジェクトの位置を追跡するコンピュータを用いた方法であって、
前記コンピュータは、
前記デジタル画像フレームのシーケンス内の第一の画像フレームを表す第一の画像ベクトルを受け取り、
前記第一の画像ベクトルから、前記第一の画像フレーム内における前記オブジェクトの初期位置を決定し、
前記第一の画像ベクトルに対して動的モデルを適用し、前記第一の画像フレームと次の画像フレームとの間の前記オブジェクトの動きを推測し、前記デジタル画像フレームのシーケンスの前記次の画像フレーム内における前記オブジェクトの少なくとも１つの推測位置を決定し、
前記次の画像フレーム内の前記オブジェクトの少なくとも１つの推測位置から低次元投影空間に対し、投影パラメータに応じて、サンプルを投影し、
前記低次元投影空間において適用され、前記投影されたサンプルのそれぞれを前景オブジェクトタイプ及び背景タイプのうちの何れか１つに分類する分類モデルを、前記次の画像フレームの前記投影されたサンプルに対して適用し、
前記低次元投影空間内で分類されたサンプルに対して推論モデルを適用して、前記デジタル画像フレームのシーケンスの前記第一の画像フレームと前記次の画像フレームとの間を前記オブジェクトが動いた結果である、前記オブジェクトの最もあり得る位置を推測し、
前記オブジェクトの前記最もあり得る位置に基づいて、前記投影パラメータを更新すること、
を特徴とする方法。
前記動的モデルは、
前記オブジェクトのウィンドウ位置、角度方向、幅及び高さを表すこと、
を特徴とする請求項１に記載の方法。
前記推論モデルは、
前記次の画像ベクトルから前記前景オブジェクトタイプの平均までの距離を決定すること、
を特徴とする請求項１に記載の方法。
前記分類モデルは、
フィッシャー線形判別モデルを含むこと、
を特徴とする請求項１に記載の方法。
前記背景タイプは、
単一のクラスからなること、
を特徴とする請求項１に記載の方法。
前記背景タイプは、
複数のクラスからなること、
を特徴とする請求項１に記載の方法。
前記背景タイプは、
前記デジタル画像セット内の画像の数と等しい数のクラスを備えていること、
を特徴とする請求項１に記載の方法。
デジタル画像フレームのシーケンス内において、オブジェクトの位置を追跡するコンピュータシステムであって、
前記コンピュータシステムは、
前記デジタル画像フレームのシーケンス内の第一の画像フレームを表す第一の画像ベクトルを受け取る手段と、
前記第一の画像ベクトルから、前記第一の画像フレーム内における前記オブジェクトの初期位置を決定する手段と、
前記第一の画像ベクトルに対して動的モデルを適用し、前記第一の画像フレームと次の画像フレームとの間の前記オブジェクトの動きを推測し、前記デジタル画像フレームのシーケンスの前記次の画像フレーム内における前記オブジェクトの少なくとも１つの推測位置を決定する手段と、
前記次の画像フレーム内の前記オブジェクトの少なくとも１つの推測位置から低次元投影空間に対し、投影パラメータに応じて、サンプルを投影する手段と、
前記低次元投影空間において適用され、前記投影されたサンプルのそれぞれを前景オブジェクトタイプ及び背景タイプのうちの何れか１つに分類する分類モデルを、前記次の画像フレームの前記投影されたサンプルに対して適用する手段と、
前記低次元投影空間内で分類されたサンプルに対して推論モデルを適用して、前記デジタル画像フレームのシーケンスの前記第一の画像フレームと前記次の画像フレームとの間を前記オブジェクトが動いた結果である、前記オブジェクトの最もあり得る位置を推測する手段と、
前記オブジェクトの前記最もあり得る位置に基づいて、前記投影パラメータを更新する手段と、
を有することを特徴とするコンピュータシステム。
前記背景タイプは、
単一のクラスからなること、
を特徴とする請求項８に記載のコンピュータシステム。
前記背景タイプは、
複数のクラスからなること、
を特徴とする請求項８に記載のコンピュータシステム。
前記推測位置を決定する手段は、
前記オブジェクトのウィンドウ位置、角度方向、幅及び高さを表す手段を有すること、
を特徴とする請求項８に記載のコンピュータシステム。
前記オブジェクトの最もあり得る位置を推測する手段は、
前記次の画像ベクトルから前記前景オブジェクトタイプの平均までの距離を決定する手段を有すること、
を特徴とする請求項８に記載のコンピュータシステム。
前記分類モデルは、
フィッシャー線形判別モデルであること、
を特徴とする請求項８に記載のコンピュータシステム。
前記背景タイプは、
前記デジタル画像セット内の画像の数と等しい数のクラスを備えていること、
を特徴とする請求項８に記載のコンピュータシステム。
デジタル画像フレームのシーケンス内において、オブジェクトの位置を追跡する画像処理コンピュータシステムであって、
前記画像処理コンピュータシステムは、
前記デジタル画像フレームのシーケンスを示すデータを受け取る入力モジュールと、
前記入力モジュールと接続されており、前記デジタル画像フレームのシーケンスを示すデータを格納する記憶装置と、
前記記憶装置と接続されており、前記デジタル画像フレームのシーケンスを示すデータを反復的に検索するプロセッサと、
を有し、
前記プロセッサは、
第一の画像ベクトルに対して動的モデルを適用し、第一の画像フレームと次の画像フレームとの間の前記オブジェクトの動きを推測し、前記デジタル画像フレームのシーケンスの前記次の画像フレーム内における前記オブジェクトの少なくとも１つの推測位置を決定し、
前記次の画像フレーム内の前記オブジェクトの少なくとも１つの推測位置から低次元投影空間に対し、投影パラメータに応じて、サンプルを投影し、
前記低次元投影空間において適用され、前記投影されたサンプルのそれぞれを前景オブジェクトタイプ及び背景タイプのうちの何れか１つに分類する分類モデルを、前記次の画像フレームの前記投影されたサンプルに対して適用し、
前記低次元投影空間内で分類されたサンプルに対して推論モデルを適用して、前記デジタル画像フレームのシーケンスの前記第一の画像フレームと前記次の画像フレームとの間を前記オブジェクトが動いた結果である、前記オブジェクトの最もあり得る位置を推測し、
前記オブジェクトの前記最もあり得る位置に基づいて、前記投影パラメータを更新する
こと、
を特徴とする画像処理コンピュータシステム。
前記動的モデルは、
前記オブジェクトのウィンドウ位置、角度方向、幅及び高さを表すこと、
を特徴とする請求項１５に記載の画像処理コンピュータシステム。
前記推論モデルは、
前記次の画像ベクトルから前記前景オブジェクトタイプの平均までの距離を決定すること、
を特徴とする請求項１５に記載の画像処理コンピュータシステム。
前記分類モデルは、
フィッシャー線形判別モデルであること、
を特徴とする請求項１５に記載の画像処理コンピュータシステム。
前記背景タイプは、
前記デジタル画像セット内の画像の数と等しい数のクラスを備えていること、
を特徴とする請求項１５に記載の画像処理コンピュータシステム。
前記背景タイプは、
単一のクラスからなること、
を特徴とする請求項１５に記載の画像処理コンピュータシステム。
前記背景タイプは、
複数のクラスからなること、
を特徴とする請求項１５に記載の画像処理コンピュータシステム。
デジタル画像セットの二以上のデジタル画像内のオブジェクトの位置を追跡するためのコンピュータを用いた方法であって、
前記コンピュータは、
前記デジタル画像セット内の第一の画像を表す第一の画像ベクトルを受け取るステップと、
前記第一の画像ベクトルから、前記第一の画像内のオブジェクトの位置を決定するステップと、
前記第一の画像ベクトルに第一のモデルを適用し、前記デジタル画像セット内にある第二の画像を表す次の画像ベクトル内において前記オブジェクトの可能な複数の位置を推測し、前記可能な複数の位置に対応する複数のサンプル画像を生成するステップと、
前記複数のサンプル画像に第二のモデルを適用し、前記複数のサンプル画像が前記オブジェクトに対応する確率を決定するステップと、
前記確率に第三のモデルを適用して、第一のタイプ及び第二のタイプのうちの何れか１つに前記複数のサンプル画像を分類するステップと、
前記分類された複数のサンプル画像に推論モデルを適用して、前記オブジェクトの最もあり得る位置を推測するステップと、
前記複数のサンプル画像を分類する分類パラメータを表す前記第三のモデルの固有基底を更新するステップと、
を実行することを特徴とする方法。
前記第一のモデルは、
動的モデルを含むこと、
を特徴とする請求項２２に記載の方法。
前記第二のモデルは、
観測モデルを含むこと、
を特徴とする請求項２２に記載の方法。
前記第三のモデルは、
判別生成モデルを含むこと、
を特徴とする請求項２２に記載の方法。
前記判別生成モデルを適用することは、
（ａ）第一の期間からの観測結果セットを受け取り、
（ｂ）前記第一の期間より前の観測結果に基づく判別生成モデルに基づく第一のタイプ及び第二のタイプのうちの１つに、前記観測結果セットの要素を分類し、
（ｃ）前記第一の期間より前の観測結果に基づく判別生成モデルに基づく前記第一のタイプとして分類された観測結果セットの要素に第一の確率セットを割り当て、前記第一の期間より前の観測結果に基づく判別生成モデルに基づく前記第二のタイプとして分類された観測結果セットの要素に第二の確率セットを割り当てることにより、前記観測結果セットの確率密度をモデリングし、
（ｄ）前記第一の確率セット及び前記第二の確率セットに基づいて、前記第一の期間での前記観測結果を記述するように前記判別生成モデルを修正し、
前記第一の期間より後の期間において、前記（ａ）、（ｂ）、（ｃ）及び（ｄ）の処理を繰り返すこと、
を特徴とする請求項２５に記載の方法。