JP2006331416A

JP2006331416A - シーンをモデル化する方法

Info

Publication number: JP2006331416A
Application number: JP2006131540A
Authority: JP
Inventors: Oncel Tuzel; オンセル・チュゼル; Faith M Porikli; ファティー・エム・ポリクリ
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2005-05-20
Filing date: 2006-05-10
Publication date: 2006-12-07
Anticipated expiration: 2026-05-10
Also published as: JP4619987B2; US20060262959A1; US7466842B2

Abstract

【課題】低フレームレート時の追跡性能を向上させる。
【解決手段】ビデオがシーンについて取得される。ビデオの各フレーム内の各画素が複数の層によって表現される。各層は複数のガウス分布を含む。各ガウス分布は平均及び共分散を含む。共分散は逆ウィシャート分布である。次に、層はフレーム毎に、再帰的なベイズ推定プロセスにより更新されて、シーンのモデルが構築される。このモデルは、層の信頼度に従って前景画素及び背景画素を検出するために用いることができる。
【選択図】図３

Description

本発明は、包括的にはコンピュータビジョン及びシーンのモデル化に関し、特に、シーンについて低フレームレートで取得されたビデオ中の物体の追跡に関する。

多くのコンピュータビジョン用途における１つの基本的なタスクは、シーンについて取得されたフレームシーケンス、すなわちビデオ中の前景領域と背景領域を分割する。この分割は、移動物体の追跡等の高レベルの動作に有用である。

ビデオ中の「移動」画素領域を検出する１つの方法は、先ず、静止シーンの基準フレームを取得することである。次に、そのシーンについて取得された後続のフレームが基準フレームから画素毎に減算され、ビデオが異なる画像に分割される。異なる画像の強度値は閾値処理して、シーン中の移動物体に関連する可能性が高い移動画素領域を検出することができる。

このタスクは非常に単純に見えるが、実世界の用途では、この手法はほとんど機能しない。通常、背景が静的であることは決してない。それどころか、背景は、照明の変化、背景、例えば、雲、木の葉、及び水の波の移動、並びにカメラのノイズにより経時的に変化する。さらに、多くの用途では、背景の様々な外見、例えば、日光が、移動する前景物体とは必ずしも関連しない徐々に移動する影を背景に作り出すことによる差異をモデル化することが望ましい。

これらの問題を克服するために、適応的背景モデル及びフィルタが使用されてきた。例えば、カルマンフィルタは、各画素の動的特性をモデル化することができる（ディーター・コラー（Dieter Koller）、ジョセフ・ウェーバー（Joseph Weber）、及びジテンドラ・マリク（Jitendra Malik）著「Robust multiple car tracking with occlusion reasoning」（ECCV'94, May 1994））。カルマンフィルタの単純なバージョン、例えばウィーナーフィルタは、画素強度値の最近の履歴に基づく確率予測を行うことができる（Ｋ．トヤマ（Toyama）、Ｊ．クルム（Krumm）、Ｂ．ブルミット（Brumitt）、及びＢ．マイヤーズ（Meyers）著「Wallflower: Principles and practice of background maintenance」（Proc. 7th Intl. Conf. on Computer Vision, pp. 255-261, 1999））。

代替的な方法は画素強度値の確率分布をモデル化する（Ｃ．Ｒ．レン（Wren）、Ａ．アゼルバイジャニ（Azarbayejani）、Ｔ．Ｊ．ダレル（Darrell）、及びＡ．Ｐ．ペントランド（Pentland）著「Pfinder: Real-time tracking of the human body」（PAMI, 19(7), pp. 780-785, July 1997））。この方法は、観測を行う順序を実質的に無視する。通常、各画素は、経時的に変化する正規分布Ｎ（μ，σ^２）でモデル化される。ノイズは、ゼロ平均の正規分布Ｎ（０，σ^２）から生じるものと見なされる。したがって、このような統計分布を表現する合理的なモデルは単一ガウス関数である。モデルのパラメータは適応フィルタに従って更新される。このモデルは、シーンの背景が単一モードである場合に適切に機能する。しかし、これは通常、実世界の用途では当てはまらない。

多くの場合、単一ガウスモデルは、照明条件の変化により影が変化する背景のような動的背景における画素強度値の時間変化を正確にモデル化するためには不適である。したがって、より複雑なシステムは、影により生じる強度変動のような照明の変化を排除する機構を含む（イスマイール・ハリタオグル（Ismail Haritaoglu）、デビッド・ハーウッド（David Harwood）、及びラリー（Larry）Ｓ．デービス（Davis）著「W4: Who? When? Where? What?」（Proceedings of FG'98, IEEE, April 1998））。

複数のモデルを使用して動的背景を画素レベルで記述することは、背景のモデル化における突破口であった。具体的には、ガウス分布の混合を使用する方法が、多数の関連するコンピュータビジョン用途にとって一般的になった。

３つのガウス成分の混合を用いて各画素の視覚特性をモデル化することができる（Ｎ．フリードマン（Friedman）及びＳ．ラッセル（Russell）著「Image segmentation in video sequences: A probabilistic approach」（Thirteenth Conference on Uncertainty in Artificial Intelligence, August 1997））。このモデルはまた、期待値最大化（ＥＭ）プロセスを用いて、ガウス混合モデル（ＧＭＭ）を経時的に適応させる。交通監視用途では、各画素の強度値を３つの仮説、すなわち、道路、影、及び車両に制限する。残念ながら、この単純な仮定は、ＧＭＭが個々の画素の任意の分布をモデル化する能力を大幅に低下させる。さらに、この方法は計算上の要求が高い。

別の方法はシーンが非静的であることを許容する（クリス・シュタウファー（Chris Stauffer）及びＷ．Ｅ．Ｌ．グリムソン（Grimson）著「Adaptive background mixture models for real-time tracking」（Computer Vision and Pattern Recognition, volume 2, June 1999））。この方法において、各画素は、可変数のガウス成分を有するガウス分布の混合としてモデル化される。これらの方法は、背景を、各峰が静的モデルにゼロ平均の白色ガウス雑音プロセスを足したものである多峰性プロセスとして表現する。モデルは、近似を用いたリアルタイムの更新であり得る。このビデオ監視システムは、昼夜サイクル及び長期間にわたるシーン変化に適している。

この方法は、一対のステレオカメラから取得される奥行き情報を含む特徴ベクトルを使用することによって拡張することができる（Ｍ．ハービル（Harville）、Ｇ．ゴードン（Gordon）、及びＪ．ウッドフィル（Woodfill）著「Foreground segmentation using adaptive mixture models in color and depth」（IEEE Workshop on Detection and Recognition of Events in Video, pp. 3-11, 2001））。

勾配情報を用いて、より正確な背景分割を達成することもできる（Ｓ．ヤブリ（Jabri）、Ｚ．デュリック（Duric）、Ｈ．ウェクスラー（Wechsler）、及びＡ．ローゼンフェルド（Rosenfeld）著「Location of people in video images using adaptive fusion of color and edge information」（Proc. 15th Int'l Conf. on Pattern Recognition, volume 4, pp. 627-630, 2000）、並びにＫ．ジャヴェド（Javed）、Ｏ．シャフィック（Shafique）及びＭ．シャー（Shah）著「A hierarchical approach to robust background subtraction using color and gradient information」（IEEE Workshop on Motion and Video Computing, 2002））。

ガウスモデルの混合は、十分な数の成分があれば何らかの任意の分布に収束し得るが、これは通常、多数の成分を必要とする。しかし、これは計算上、リアルタイム用途では可能でない。一般に画素毎に３〜５個の成分が用いられる。

このような困難な状況に対処するために、ノンパラメトリック技法が開発されている。これらの技法はカーネル密度を用いて、新たに取得されたサンプルに基づいて、各画素における背景特性を推定する。これらの技法は、高速な背景変化に適応することができる（エルガマル（Elgammal）、Ｄ．ハーウッド、Ｌ．Ｓ．デービス著「Non-parametric model for background subtraction」（ECCV 2000, June 2000））。この方法は、正規カーネル関数を密度推定に用いる。このモデルは、長いビデオシーケンスにわたる最近のサンプル値の履歴を表現する。

他の同様の技法は、適応的な密度推定の目的で帯域可変型カーネルを強調する。オプティカルフローも用いることができる（アヌラーグ・ミッタル（Anurag Mittal）、ニコス・パラジオス（Nikos Paragios）著「Motion-based background subtraction using adaptive kernel density estimation」（CVPR 2004, Volume 2, pp. 302-309, June, 2004））。

ノンパラメトリックモデルは、背景のモデル化のための合理的な選択のように見えるが、ノンパラメトリックモデルは時間がかかり、リアルタイム用途には使用できない。

別の方法はシーンを離散状態として表現する。これらの状態は、シーン中の環境条件に対応する。この方法は、観測値に従って状態間で切替を行う。隠れマルコフモデル（ＨＭＭ）はこの目的に非常に適している。３状態ＨＭＭがリッチャー（Rittscher）等著「A probabilistic background model for tracking」（Proc. European Conf. on Computer Vision, volume II, pp. 336-350, 2000）によって使用されている。別の方法は観測値からトポロジを学習する（Ｂ．ステンガー（Stenger）、Ｖ．ラメッシュ（Ramesh）、Ｎ．パラジオス、Ｆ．クッツェー（Coetzee）、及びＪ．バーマン（Buhmann）著「Topology free hidden Markov models: Application to background modeling」（Proc. 8th Intl. Conf. on Computer Vision, pp. 294-301, 2001））。

したがって、動的シーンをモデル化する方法を提供することが望ましい。さらに、モデルを使用して、非常に低いフレームレートで取得されたビデオ中の物体を追跡することが望ましい。

本発明は、シーンをモデル化し、このモデルを用いて、シーンについて低フレームレート、例えば１フレーム毎秒（１ｆｐｓ）以下で取得されたビデオ中の移動物体を追跡する方法を提供する。

ビデオを低フレームレートで取得すると、プロセッサ、ネットワーク帯域幅及び記憶媒体等の必要な資源が減る。しかし、低フレームレートのビデオでは、物体はフレーム間で予想よりも速い速度で移動し、連続するフレームにおいて物体の位置が重なることはほとんどない。したがって、従来の物体追跡方法は用いることができない。ビデオ、特に低フレームレートで取得されたビデオ中の物体の追跡は、難しいコンピュータビジョンのタスクである。

固定カメラを用いる場合、正確なシーンモデルは物体の追跡を改善することができる。したがって、本発明は、シーンについて取得された低フレームレートのビデオから動的シーンをモデル化する方法を提供する。

各画素がガウス分布の複数の層によって表現されて、シーンのモデルが構築される。このモデルはフレーム毎に更新される。本方法は、再帰的なベイズ推定を用いて、各ガウス分布の平均及び共分散を推定する。

本発明による方法は、背景の多峰性を保存し、各画素を表現するために必要な層の数を推定する。

本発明は、再帰的なベイズ推定を用いてシーンをモデル化するための効率的な方法を提供する。このシーンモデルは、多峰性シーンを表現する上で非常に効果的である。このモデルを用いれば、低フレームレートで取得したビデオ中の移動物体の追跡が可能になる。３２０×２４０のカラービデオモニタの場合、Ｐｅｎｔｉｕｍ（登録商標）ＩＶの２．４ＧＨｚプロセッサで、１画素当たり５層の１フレームを処理するための時間は０．０５秒である。したがって、本発明による方法は、高フレームレートで取得されたビデオに対しても動作することができる。

方法の概観
図１は、本発明による、シーン１０２中の移動物体を検出するためにシーン１０２をモデル化する方法１００を示す。カメラ１０３によりシーン１０２についてビデオ１０１を取得する。ビデオの各フレーム内の画素毎に、モデルパラメータ１０９に従って３Ｄ多変量ガウス分布の複数の層２００によってシーンをモデル化する１１０。各層は、画素の経時的な様々な外観、すなわち、色強度に対応する。本発明では、赤、緑、及び青（ＲＧＢ）の色空間で動作を行う。シーンモデルの層の変化を判定して、シーン中の移動物体１２１を検出する１２０。本方法の詳細なステップは、後述する図３に示す。

モデル層
図２は、本発明によるモデルの複数の層２００の単純化した概略図である。縦軸２０１は信頼度（confidence score）を示し、横軸２０２は画素の色値を示し、ともに［０，１］の範囲に標準化されている。或る層が所定の信頼度閾値２０３未満である場合、その層はシーン中の背景をモデル化するものとみなされ、そうでない場合、その層は前景をモデル化する。図示の例の場合、層２１０は「最も信頼度の高い」前景層とみなされ、層２２０は「最も信頼度の低い」背景層である。

再帰的なベイズ推定
本発明では、再帰的なベイズ推定を用いてモデルを更新するが、各層の平均パラメータ及び分散パラメータは推定せず、その代わりに、図２に示すような、各ガウス分布の平均及び分散の確率分布を推定する。次に、この確率分布から層のモデルパラメータの統計情報を抽出する。平均及び分散の期待値を用いることによってシーンにおける変化を検出する。平均の分散は、本発明の再帰的なベイズ推定の埋め込み信頼度２０１である。

本発明の方法では、事前知識を事前パラメータと統合することができる。本発明では、全共分散行列を求めるため、本発明の特徴空間は、動き情報等の他の情報を含むように変更することができる。

本発明のシーンモデルの多様性は、再帰的なベイズ更新プロセスによって維持される。各更新中、最大で１つの層が現フレームの画素値に従って更新される。これにより、モデルの層間の重なりが確実に最小になるようにする。本発明はまた、各画素を最も良く表現するために必要な層の数を求め、背景画素と前景画素を分割する際に必要な層のみを使用する。これは、本発明のモデルに埋め込まれる信頼度に従って行われる。

多層モデル
本発明では、ビデオ中の画素の色強度は、平均がμであり共分散がΣである正規分布であると仮定する。平均及び分散は未知であり、ランダム変数としてモデル化される。ベイズの定理によれば、結合事後密度（joint posterior density）は次のように表すことができる。

更新中に新たな画素値について再帰的なベイズ推定を行うために、結合事前密度（joint prior density）ｐ（μ，Σ）は結合事後密度ｐ（μ，Σ｜Ｘ）と同じ形式を有する。分散について調整されると、結合事前密度は次のように表すことができる。

上の条件は、共分散に逆ウィシャート分布を仮定し、共分散について調整された平均に多変量正規分布を仮定すると実現される。逆ウィシャート分布は、スケーリングされた逆χ^２分布の多変量一般化である。

ウィシャート分布は次のようにパラメータ化される。

ここで、ｖ_ｔ−１及びΛ_ｔ−１はそれぞれ、逆ウィシャート分布の自由度３３１及びスケール行列３３４であり、θ_ｔ−１は前の密度の平均３３３であり、κ_ｔ−１は以前の密度測定値の数３３２である。図３を参照のこと。これらの仮定により、結合事前密度は、３次元の特徴空間について

となる。

本発明ではこれを、次のような正規逆ウィシャート分布としてラベル付けする。

事前密度に正規尤度を乗算し、項を並べると、結合事後密度は正規逆ウィシャート分布（θ_ｔ−１，Λ／κ_ｔ−１，Λ_ｔ−１）となる。パラメータ１０９は次式に従って更新される。

ここで、

は新たなサンプルの平均であり、ｎはモデルの更新に使用されるサンプル数である。図３を参照のこと。

再帰的なベイズ更新がフレーム毎に行われる場合、ｎは１となる。システムの速度を上げるために、更新は周期的に行うことができる。

本発明では、フレーム毎にモデルの１／４を更新するため、重みｎには４が割り当てられる３４０。新たなパラメータは、前の測定値３３２を観測したサンプルと結合する。事後平均θ_ｔは事前平均とサンプル平均の加重平均である。事後自由度は事前自由度にサンプルサイズを足した値に等しい。本発明のモデルは、以下のパラメータにより初期化される。

ここで、Ｉは３次元単位行列である。

結合事後密度を共分散Σについて積分することによって、次のような平均の周辺事後密度を得る。

ここで、ｔ_ｖｔ−２は自由度がｖ_ｔ−２である多変量ｔ分布である。

本発明では、平均及び共分散の周辺事後分布の期待値を時刻ｔにおける本発明のモデルのパラメータとして用いる。その場合、周辺事後平均の期待値、すなわち、多変量ｔ分布の期待値は、

となり、周辺事後共分散の期待値、すなわち、逆ウィシャート分布の期待値は

となる。

本発明における層の信頼度は、次のような、１をμ｜Ｘの共分散の行列式で割った値に等しい。

周辺事後平均の分散が大きい場合、その層の信頼度は低い。スケール行列がΣであり自由度がｖである多変量ｔ分布の分散は以下に等しくなる。

カラーチャネル毎に独立した仮定を行うことにより本方法を加速化することができる。全共分散行列の更新は９個のパラメータを求めた。さらに、距離推定の間、本発明では全共分散行列を転置する。１つの層に対して１つの多変量ガウス分布を用いる代わりに、本発明では、３つの一変量ガウス分布をビデオ中の各カラーチャネルに対して１つずつ用いる。本発明では、各カラーチャネルを独立して更新した後、分散を結合し、次のような、３つ（ＲＧＢ）の色の対角共分散行列を構築する。

この場合、各一変量ガウスについて、平均の一変量正規分布の分散について調整した分散に対してスケーリングした逆χ^２分布を仮定する。

モデルの更新
図３に示すように、本発明では、モデル２００を各画素のガウス分布のｋ個の層により初期化する。通常、本発明では、シーンの複雑度に応じて３つ〜５つの層を選択する。非常に動的なシーンでは追加の層を用いることができる。各画素の新たなサンプルｘを観測すると、本発明のモデルのパラメータ１０９を更新する。

本発明の現モデルにおける最も信頼度の高い層２１０から更新を開始する３０１。観測されたサンプルが現モデルの９９％信頼区間内にある場合、モデルのパラメータを式（６）、（７）及び（８）に従って更新する。下位層は更新しない。

背景をモデル化するには、以前の観測値がモデルに与える影響が小さくなるように「忘却」機構を有することが有用である。したがって、背景の変化は経時的に動的に適合される。忘却は、不適合モデルの以前の観測値のパラメータ数を低減することによって行われる。現サンプルが信頼区間外にある場合、以前の測定値の数のパラメータ３３２を

のように更新し、次の信頼層の更新を続ける３０２。本発明では、κ_ｔを初期値である１０未満にはしない。

いずれの層も更新されない場合、最も信頼度の低い層を削除（「忘却」）し３０３、現サンプルを有する新たな層を初期平均及び分散として初期化する。１画素の更新プロセスは以下のように要約することができる。

更新プロセスへの入力は、時刻ｔにおける新たなサンプルｘ、及び時刻ｔ−１におけるｋ個の背景層｛（θ_ｔ−１，Λ_ｔ−１，ｉ，ｋ_ｔ−１，ｖ_ｔ−１，ｉ）｝（ｉ＝１，．．．，ｋ）である。

先ず、信頼度を更新し３１０、式（１３）で定義される信頼度に従って層を並べ替える３１１。次に、ｉがｋ未満である間、次の各層について次のようなマハラノビス距離を測定する３２０。

サンプルｘが９９％信頼区間内にある場合３２１、上述のように式（６）、（７）、（８）に従ってモデルのパラメータ１０９を更新する。更新されるパラメータは、自由度３３１、以前の測定値の数３３２、平均３３３、及びスケール行列３３４を含む。

そうでない場合、式（１５）に従ってモデルパラメータ１０９を更新し、層のインデックスｉをインクリメントし３４０、次の層を行う。全ての層を更新したら３０４、式（９）に従って定義されるパラメータを有する新たな層を初期化する３０５。最大層カウントに達した場合３０６、最後の層ｋ、すなわち、信頼度の最も低い層２２０を削除する３０７。

この更新プロセスは、ノイズ又はモデルの背景部分にある前景画素を抑制する。また、この更新プロセスは、照明効果のような滑らかな強度変化に適応する。埋め込まれた信頼度は、使用される層の数を決め、不要な層を抑制する。

通常、二次層は、背景画素の影付き形態、又はシーンの移動領域の様々な色に対応する。シーンが単峰性である場合、１番目の層以外の層の信頼度は非常に低くなる。

オンライン期待値最大化（ＥＭ）との比較
本発明のモデルは、シュタウファー等（上記を参照）によって作成されるモデルと同じように見えるが、大きな違いがある。シュタウファーのモデルでは、各画素がガウス分布の混合として表現される。ガウス分布及び混合係数のパラメータが、オンラインでの期待値最大化（ＥＭ）のＫ平均近似により更新される。この方法は、初期観測値に非常に影響を受け易い。ガウス分布が不適切に初期化された場合、全ての成分が最終的には分布の最も大きな峰に収束する。大きな峰の付近にある小さな峰は決して検出されない。

対照的に、本発明では、各画素をガウス分布の複数の層でモデル化し、再帰的なベイズ推定を行ってモデルのパラメータの確率分布を求める。本発明では、各層を他の全ての層とは独立したものとして解釈する。したがって、本発明の方法はより柔軟性が高い。

前景の分割
シーンモデルの推定統計値を用いて、シーン中の「変化している」領域、すなわち、おそらくは移動物体に対応する画素領域を検出することができる。１つの画素を表現するために必要な層の数は事前には分からないため、モデルを必要な数よりも多い層で初期化する。

信頼度を用いて、画素毎にいくつの層が重要であるかを決める。式（１３）によって求められる信頼度に従って層を並べ替え３１１、信頼度が所定閾値Ｔ_ｃ２０３よりも大きい層のみを選択する。

本明細書では、これらの層を「信頼層」と呼ぶ。閾値Ｔ_ｃ２０３は画素強度の平均の共分散に依存する。したがって、閾値は画素の色範囲２０２に依存する。様々な色範囲について閾値Ｔ_ｃを変更することができる。

観測された色の、信頼層からのマハラノビス距離を測定する３２０。全ての信頼層の９９％信頼区間外にある画素は前景（移動）画素と見なされる。最後に、前景画素に対して連結成分解析を行って、移動物体を検出する。

動き、テクスチャ及び方向
上述のように、シーンモデルは、ビデオ中の画素の色を表す。このモデルを画素の動き特徴、テクスチャ特徴、及び方向特徴により拡張することも可能である。例えば、画素毎に、色に加えて動き、テクスチャ及び方向を求めることが可能である。画素の方向は、画素強度勾配から求めることができる。動き、テクスチャ及び方向を次に、上述のようなガウス分布の複数の動き層、テクスチャ層及び方向層によって同様に表現して、シーンの対応する動きモデル、テクスチャモデル及び方向モデルを構築することができる。

本発明を、好適な実施形態の例として記載してきたが、本発明の精神及び範囲内で様々な他の適用及び変更を行ってもよいことが理解されるべきである。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲に入るそのような変形及び変更をすべて網羅することである。

本発明による、シーンをモデル化する方法のフロー図である。本発明による、ガウス分布の複数の層を含むシーンのモデルの概略図である。図１の方法の詳細なフロー図である。

Claims

シーンをモデル化する方法であって、
シーンのビデオを取得すること、
前記ビデオの各フレーム内の各画素を複数の層により表現することであって、各層は複数のガウス分布を含み、各ガウス分布は平均及び共分散を含み、前記共分散は逆ウィシャート分布であること、及び
フレーム毎に、前記複数の層を再帰的なベイズ推定プロセスにより更新することによって、前記シーンのモデルを構築すること
を含む、シーンをモデル化する方法。
前記再帰的なベイズ推定プロセスは、各ガウス分布の前記平均及び前記共分散の確率分布を推定する、請求項１に記載の方法。
前記推定される確率分布の前記平均を前記モデルの前記層のパラメータとして割り当てることをさらに含む、請求項２に記載の方法。
各画素の各層は前記画素の経時的な様々な外観に対応する、請求項１に記載の方法。
前記複数の層における変化を判定することによって、前記シーン中の移動物体を検出することをさらに含む、請求項１に記載の方法。
前記再帰的なベイズ推定プロセスは、各ガウス分布の前記平均及び前記共分散の確率分布を経時的に求め、前記平均の分散は、前記ベイズ推定プロセスによる各層の信頼度である、請求項１に記載の方法。
信頼度が所定閾値未満である層は背景画素を表し、そうでない場合は前景画素を表す、請求項６に記載の方法。
各層は３つの一変量ガウス分布として表現され、前記一変量分布は前記ビデオ中の各カラーチャネルに対して１つずつである、請求項１に記載の方法。
前記層の数は前記シーンの複雑度に依存する、請求項１に記載の方法。
信頼度の低い層を経時的に削除すること、及び
新たな層を初期化すること
をさらに含む、請求項６に記載の方法。
前記ビデオは、１フレーム毎秒のフレームレートで取得される、請求項１に記載の方法。
各層についてマハラノビス距離を測定すること
をさらに含む、請求項１に記載の方法。
以前にサンプリングされた色値の組を画素毎に記憶すること、
前記更新のレートを下げること、及び
以前にサンプリングされた色値を前記再帰的なベイズ推定プロセスに用いること
をさらに含む、請求項１に記載の方法。
各フレーム内の各画素の動きを求めること、
前記ビデオの各フレーム内の各画素の前記動きを複数の動き層により表現すること、及び
フレーム毎に、前記複数の動き層を前記再帰的なベイズ推定プロセスにより更新することによって、前記シーンの動きモデルを構築すること
をさらに含む、請求項１に記載の方法。
各画素のテクスチャを求めること、
前記ビデオの各フレーム内の各画素の前記テクスチャを複数のテクスチャ層により表現すること、及び
フレーム毎に、前記複数のテクスチャ層を前記再帰的なベイズ推定プロセスにより更新することによって、前記シーンのテクスチャモデルを構築すること
をさらに含む、請求項１に記載の方法。
各画素の勾配を求めること、
前記勾配に従って各画素の方向を求めること、
前記ビデオの各フレーム内の各画素の前記方向を複数の方向層により表現すること、及び
フレーム毎に、前記複数の方向層を前記再帰的なベイズ推定プロセスにより更新することによって、前記シーンの方向モデルを構築すること
をさらに含む、請求項１に記載の方法。
シーンをモデル化する方法であって、
シーンのビデオを取得すること、及び
前記ビデオの各フレーム内の画素毎に、再帰的なベイズ推定プロセスを用いて、前記画素の色の第１の平均及び第１の共分散並びに該第１の共分散の第２の平均及び第２の共分散を更新すること
を含む、シーンをモデル化する方法。
画素毎に、前記第１の平均、前記第１の共分散、前記第２の平均及び前記第２の共分散を複数の層として表現することであって、各層は複数のガウス分布を含むこと
をさらに含む、請求項１７に記載の方法。
前記第１の共分散及び前記第２の共分散は、逆ウィシャート分布である、請求項１７に記載の方法。
前記第１の平均、前記第１の共分散、前記第２の平均及び第２の共分散における変化を判定することによって、前記シーン中の移動物体を検出すること
をさらに含む、請求項１７に記載の方法。
前記再帰的なベイズ推定プロセスは、各ガウス分布の前記平均及び分散の確率分布を経時的に求め、前記平均の前記分散の逆は各層の信頼度である、請求項１７に記載の方法。
信頼度が所定閾値よりも高い層は背景画素を表し、そうでない場合は前景画素を表す、請求項２１に記載の方法。
各層は多数の多変量ガウス分布として表現され、該多変量分布は前記ビデオ中の全カラーチャネルに対して１つずつである、請求項１７に記載の方法。
前記層の最大数は前記シーンの複雑度に依存する、請求項１７に記載の方法。
前記ビデオの前記現フレーム内の各画素の前記観測された色から各層についてマハラノビス距離を測定すること
をさらに含む、請求項１７に記載の方法。
層平均、自由度、及び層スケール行列を更新する以前の測定値の数をインクリメントすること
をさらに含む、請求項１７に記載の方法。
計算されたマハラノビス距離が前記層の前記共分散に比例する閾値よりも大きい層の前記信頼度を経時的に低減すること、
信頼度の低い層を経時的に削除すること、及び
新たな層を初期化すること
をさらに含む、請求項２５に記載の方法。
各画素の以前の色値の組を記憶すること、
前記更新のフレームレートを下げること、
更新パラメータを前記組中の前記色値の数に等しく調整すること、及び
前記色値の組及び前記更新パラメータを前記再帰的なベイズ推定プロセスに使用すること
をさらに含む、請求項１７に記載の方法。