JP2005531844A

JP2005531844A - 改良された背景・前景分割のためのオブジェクト分類を採用する拡張背景モデル

Info

Publication number: JP2005531844A
Application number: JP2004517111A
Authority: JP
Inventors: グッタ　スリニヴァス; アントニオジェイコルメナレズ; ミロスラヴトライコヴィク
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-06-28
Filing date: 2003-06-18
Publication date: 2005-10-20
Also published as: KR20050013236A; CN1777912A; US7190809B2; US20040001612A1; AU2003237023A1; WO2004003847A3; EP1520257A2; WO2004003847A2; AU2003237023A8

Abstract

背景・前景分割において使用する拡張背景モデルを生成及び維持する方法及び装置が開示される。背景モデルは、典型的には静止しているオブジェクトの指標を含むように修正される。この後、もしオブジェクトが移動し、且つ典型的には静止しているオブジェクトとして以前に識別されていれば、前記オブジェクトは、背景・前景分割の間に不必要に前景の一部として識別されることはない。模範的実施において、移動しているオブジェクトは、２つのセットに分類される。第１セットは、典型的には独立に移動するオブジェクトを含み、第２セットは、典型的には静止しているオブジェクトを含む。一般に、一度オブジェクトが前記第２（静止しているオブジェクト）セットに割り当てられると、前記オブジェクトは、たとえ移動されたとしても、前記背景のままである（通常は、前記対象の移動は前記対象を前記前景の一部にする）。

Description

本発明は、コンピュータシステムにより実行される背景・前景分割（background-foreground segmentation）に関し、特に、背景・前景分割で用いる改良背景モデルの生成及び維持に関する。

背景・前景分割は、静止カメラの視野においてオブジェクトを検出するよく知られたコンピュータビジョンベースの技術である。最初に、システムは、オブジェクトが存在しないトレーニング段階の間にシーンを学習する。前記シーンの背景モデルは、前記シーンから捕えられた（captured）画像のシーケンスを使用して前記トレーニング段階の間に構築される。この後、通常動作中に、新しい画像が前記背景モデルと比較される。前記背景モデルからの大きな偏差を持つピクセル位置は、前景ピクセルとして分類され、残りのピクセルは背景ピクセルとしてラベル付けされる。このアルゴリズムの出力は、一般に前記シーンで見つかった前景オブジェクトの輪郭を表すバイナリ画像である。

従来の背景・前景分割技術は、駐車場のような広々とした戸外の領域、又は倉庫、事務所スペース若しくは地下鉄の駅のような閉鎖された広々とした施設において人々及び他のオブジェクトを分割及び追跡するために効果的に機能する。しかしながらこれらのシーンは、典型的な家のシーンとは全く異なる。例えば、住宅環境は典型的には、小さな領域に多数のオブジェクトを含む。加えて、住宅環境における多数のオブジェクトは、衣服及びカーテンのように非剛体であるか、又は家具及びブラインドのように変形可能であり、人々は、住宅環境において立った姿勢、座った姿勢及び寝ている姿勢のように頻繁に姿勢を変える傾向にある。

ほとんどの既存の背景・前景分割技術は、散らかった環境における下半身の隠蔽（occlusion）、非直立の体の姿勢、並びにドア、椅子及びテーブルのような大きな背景オブジェクトの任意の移動の存在下では効果的に機能しない。

従って、背景・前景分割で用いる改良背景モデルを生成及び維持する方法及び装置に対する要望が存在する。

一般に、背景・前景分割で用いる改良背景モデルを生成及び維持する方法及び装置が開示される。本発明の一態様によると、拡張背景モデルは、前景及び背景の分割を改良するために採用される。前記背景モデルは、典型的には静止しているオブジェクトの指標（indication）を含むように本発明により修正される。この後、もしオブジェクトが移動し、以前に典型的には静止しているオブジェクトとして識別されていれば、前記オブジェクトは、背景・前景分割の間に不必要に前記前景の一部として識別されることはない。

模範的な実施例において、移動するオブジェクトは、２つのセットに分類される。第１セットは、人間及び動物のような典型的には独立して移動するオブジェクトを含み、第２セットは、家具のような典型的には静止しているオブジェクトを含む。一般に、一度オブジェクトが前記第２（静止オブジェクト）セットに割り当てられると、前記オブジェクトは、たとえ前記オブジェクトが移動されたとしても、背景のままである（通常、前記オブジェクトの移動は、前記オブジェクトを前記前景の一部にする）。

本発明の拡張背景モデルは、背景・前景分割を改良するために採用されることができる。トレーニング手順の間に、前記背景モデルのパラメータが推定される。オブジェクトの移動が検出された場合、前記オブジェクトは、前記２つのセットの１つに分類される。通常動作中に、捕えられた画像の尤度確率（likelihood probability）は、前記背景モデルを使用して推定される。以前に静止オブジェクトとしてフラグを立てられていない背景シーンに属する低い尤度確率を持つピクセルは、前景として分類され、残りは背景としてラベル付けされる。

本発明のより完全な理解並びに本発明の他のフィーチャ及び利点は、以下の詳細な記述及び図面を参照することにより得られるだろう。

ここで図１を参照すると、背景・前景分割のために本発明の好適実施例により背景モデルを生成及び維持するビデオ処理システム１２０が示される。ビデオフィード１０７、デジタル多用途ディスク（ＤＶＤ）１１０及びネットワーク１１５を介してカメラ１０５のような１つ又は複数のカメラと相互運用するビデオ処理システム１２０が、示される。ビデオ処理システム１２０は、プロセッサ１３０と、メディアインターフェース１３５と、ネットワークインターフェース１４０と、メモリ１４５とを有する。メモリ１４５は、画像グラバ（image grabber）１５０と、入力画像１５５と、背景モデル生成／維持処理部２００／３００と、背景モデルオブジェクト分類処理部４００と、確率表１６５と、大域的閾値１８０と、ピクセル閾値１９５と、分割画像１９０とを有する。

前記模範的実施例において、前記背景モデルは、下で説明される、複数の確率表１７０−１１乃至１７０−ＨＷを有する確率表のセット１６５として実施される。エントリ１７５−１１乃至１７５−ＮＭを有する１つの確率表１７０−１１が、図１に示される。背景モデルは、一般に各カメラに対して構築され、前景及び背景の速い分割を促進する。（前景オブジェクトとして扱うために）背景モデルが全てのオブジェクトを検出する必要を防ぐために、前記背景モデルは、典型的には静止しているオブジェクトの指標を含むように本発明により修正される。この後、もしオブジェクトが移動し、且つ以前に典型的には静止しているオブジェクトとして識別されていれば、前記オブジェクトは、背景・前景分割の間に不必要に前景の一部になることはない。

一実施例において、移動しているオブジェクトは、２つのセットの１つに分類される。第１セットは、人間及び動物のような典型的には独立に移動するオブジェクトを含む。前記第１セットからのオブジェクトが画像内で移動する場合、前記オブジェクトは、前記前景の一部となるべきである。第２セットは、家具のような典型的には静止しているオブジェクトを含む。一般に、一度オブジェクトが前記第２セットに割り当てられると、前記オブジェクトは、たとえ前記オブジェクトが移動されたとしても、前記背景のままである（通常は、前記オブジェクトの移動は、前記オブジェクトを前記前景の一部にする）。このように、背景オブジェクトは、移動された場合にも不必要に前記前景の一部にならない。

図１に示されるようにビデオ処理システム１２０は、ビデオフィード１０７をカメラ１０５から画像グラバ１５０に結合する。画像グラバ１５０は、ビデオフィード１０７から単一の画像を“つかみ取り（grab）”、一般に複数のピクセルである入力画像１５５を作成する。実例的に、入力画像１５５は、高さにＨピクセル及び幅にＷピクセルを有し、各ピクセルは、赤、緑及び青（ＲＧＢ）情報のそれぞれに対して８ビット、合計２４ビットのＲＧＢピクセルデータを持つ。他のシステムが画像を表すために使用されることができるが、ＲＧＢは一般的に使用される。

背景・前景分割処理２００、３００は、前記背景モデルを生成し、背景・前景分割を実行する。背景・前景分割処理２００は、ビデオ処理システム１２０の通常動作中に使用されるが、背景・前景分割処理３００は、トレーニング中に使用され、前記背景モデルを生成する。１つの単一の処理が処理２００及び３００の両方を実行し、前記単一の処理が単純に通常動作モード又はトレーニングモードの何れかに設定されることが期待される。しかしながら、希望に応じて、別々の処理が使用されてもよい。

ビデオ処理システム１２０の通常動作中に、背景・前景分割処理２００は、入力画像１５５におけるＨ×Ｍ個のピクセルのそれぞれに対して尤度確率を決定するために確率表１６５を使用する。前記尤度確率のそれぞれは、ピクセル閾値１９５と比較される。もし前記尤度確率がピクセル閾値１９５より低ければ、前記ピクセルは前記背景に属すると仮定される。ビデオ処理システム１２０が、もしピクセルに対する尤度確率がピクセル閾値１９５より大きければ、前記ピクセルが前記背景に属すると仮定することを可能にするために、背景・前景分割処理２００により使用される確率モデルを修正することも可能である。ビデオ処理システム１２０は、もしピクセルに対する尤度確率がピクセル閾値の範囲内であれば、前記ピクセルを前記背景に割り当てることさえ可能である。しかしながら、ここで単純のため、もし尤度確率がピクセル閾値１９５より低ければ、ピクセルは前記背景に属すると仮定されると仮定されるであろう。

通常動作中に、背景・前景分割処理２００は、確率表１６５及びピクセル閾値１９５を使用することにより前記入力画像から分割画像１９０を決定する。加えて、確率モデル（図示されない）は、各ピクセルに対して尤度確率を決定するために背景・前景分割処理２００により使用される。好適確率モデルは、下で詳細に説明される。これらの確率モデルは、背景・前景分割処理２００が前記モデルに従って一連のステップを実行するという意味で、背景・前景分割処理２００（及び３００）に“組み込まれる”。換言すると、背景・前景分割処理２００は、確率モデル又は複数の確率モデルにより少なくとも部分的に定められたステップを持つ。単純のため、前記背景・前景分割を実行するために使用される前記確率モデル及び前記背景・前景分割処理は、交換可能であると見なされるだろう。しかしながら、前記背景・前景分割処理は、モデルにより確率を決定するために必要なステップを実行する間に、モデルによる確率の決定に関係しない追加ステップを有することができる。例えば、入力画像１５５からのデータの取り出し及びこのようなデータのデータ構造への記憶は、確率モデルによって実行されない１つの可能なステップである。

トレーニング中に、背景・前景分割処理３００は、確率表１７０−１１乃至１７０−ＨＷ（ここではまとめて“確率表１７０”）を定め、リファインする。好ましくは、入力画像１５５の各ピクセルに対して１つの確率表が存在する。各確率表は、Ｍ×Ｎマトリクスを持ち、確率表１７０−１１に対してエントリ１７５−１１乃至１７５−ＮＭ（ここではまとめて“エントリ１７５”）として図示される。各ピクセルに対してＭ個の大域的状態（global state）及びＮ個のガウシアンモードが存在する。一般に、各確率表１７０は、１つの大域的状態及び１つのガウシアンモードから開始し、トレーニング後には、Ｍ×Ｎ個のエントリ１７５を含むであろう。

トレーニング中に、大域的閾値１８０は、状態が追加されるべきか又は選択された状態のパラメータが修正されるべきかを決定するために背景・前景分割処理３００により使用される。ピクセル閾値１９５は、他のガウシアンモードが追加されるべきか、又は選択されたガウシアンモードのパラメータが調整されるべきかを決定するためにトレーニング中に使用される。

模範的な背景・前景分割処理３００は、トレーニングが付加的（incremental）であることを可能にすることに注意すべきである。模範的な背景・前景分割処理３００は、画像が前記モデルに移されるたびに、又は所定数の画像が前記モデルに移された後に、前記モデルのパラメータが調整されることを可能にする。後者も可能であるが、前者が好ましい。

当技術分野で知られているように、ここで説明される方法及び装置は、これ自体がここで実施されるコンピュータ読取可能コード手段を持つコンピュータ読取可能媒体を有する製品として流通されることができる。前記コンピュータ読取可能プログラムコード手段は、ビデオ処理システム１２０のようなコンピュータシステムと併せて、ここに記述される前記方法を実行するステップ又は前記装置を作成するステップの全て又は幾つかを実行するように動作する。前記コンピュータ読取可能媒体は、記録可能媒体（例えば、フロッピー（登録商標）ディスク、ハードドライブ、メディアインターフェース１３５を介してアクセスされるＤＶＤ１１０のようなコンパクトディスク、又はメモリカード）であってもよく、又は伝送媒体（例えば、光ファイバ、ワールドワイドウェブ、ケーブル又は時分割多重アクセス、コード分割多重アクセス若しくは他の無線周波数チャネルを使用する無線チャネルを有するネットワーク１１５）であってもよい。コンピュータシステムとの使用に適した情報を記憶することができる既知の又は開発された媒体が、使用されることができる。前記コンピュータ読取可能コード手段は、磁気媒体上の磁気変化又はＤＶＤ１１０のようなコンパクトディスクの表面における高さの変化のようなデータ及び命令をコンピュータが読むことを可能にする機構である。

メモリ１４５は、ここで開示された方法、ステップ及び機能を実施するようにプロセッサ１３０を構成するであろう。メモリ１４５は分散型又はローカルであることができ、プロセッサ１３０は分散型又は単独型であることができる。メモリ１４５は、電子、磁気若しくは光学メモリ又はこれら若しくは他のタイプの記憶装置の組み合わせとして実施されることができる。用語“メモリ”は、プロセッサ１３０によりアクセスされるアドレス可能なスペースにおけるアドレスから読み取られる又はアドレスに書き込まれることができる情報を含むように十分幅広く解釈されるべきである。この定義を用いて、ネットワークインターフェース１４０を介してアクセスされるネットワーク１１５のようなネットワーク上の情報は、プロセッサ１３０が前記ネットワークから前記情報を取り出すことができるので、依然としてビデオ処理システム１２０のメモリ１４５内である。ビデオ処理システム１２０の全て又は一部が、プログラム可能な論理回路のような集積回路又は他の同様な装置内に作られることにも注意すべきである。

ここでシステムが説明されたので、大域的及び局所的ピクセル依存性及び付加的なトレーニングを提供することができる確率モデルが説明されるだろう。

確率モデル
好ましい確率的な枠組みにおいて、画像（即ち、ピクセル外観（pixel appearance）の２次元アレイ）は、高次元ランダム過程から得られたサンプルとして解釈される。この過程において、前記画像の複数のピクセルは、複数の次元を定める。より形式的には、Ｉ＝{Ｉ_x,y∈Θ^WH}が観測空間Θの値（即ち、２４ビット／ピクセルでのＲＧＢ値）を持つＷ×Ｈ個のピクセルの画像を表すとする。

ランダム過程に関連した確率分布Ｐ(Ｉ|Ω)は、前記シーン及び前記イメージングシステムの両方に関連した基礎をなす画像生成過程を捕えるであろう。これは、前記シーンに存在する色及びテクスチャ、並びに前記シーンにおける運動、光の変化、カメラの自動ゲイン制御及び他の画像変化のような画像変化の様々なソースを含む。

ほとんどの従来のアルゴリズムは、前記ピクセルのそれぞれが互いに独立であると仮定してシーンの画像をモデル化する。実際に、画像形成処理及び典型的なシーンの物理的特徴は、前記ピクセルを大域的な意味（即ち、前記画像全体又は一連の画像）及び局所的な意味（即ち、前記画像内の領域）の両方で非常に相互依存する状態にする複数の拘束条件を課す。

提案された模範的モデルは、シーンの観測の大域的状態を捕える隠された過程ξを導入することにより前記シーンの画像内のピクセル間の依存性を利用する。例えば、複数の可能な照度設定を持つシーンの場合に、離散的な変数ξは、有限個の可能な照度状態に対するポインタを表す。

前記提案されたモデルの裏にある基本的なアイデアは、前記画像における前記ピクセル間の依存性を捕えるモデル期間を前記ピクセルのそれぞれの外観を捕えるモデル期間から分離することであり、これにより問題はより扱いやすくなる。即ち、以下の式から前記画像の尤度確立を計算することは有益である。
Ｐ(Ｉ|Ω)＝Σ_∀ξＰ(Ｉ|ξ,Ω)Ｐ(ξ|Ω) ｛１｝
ここで、Ｐ(ξ|Ω)は前記シーンの大域的状態の確率を表し、Ｐ(Ｉ|ξ,Ω)は、シーンξの大域的状態に調整された前記ピクセルの外観の尤度確率を表す。前記ピクセル間の依存性は第１期間により捕えられるので、シーンξの大域的状態に調整されて、画像Ｉのピクセルが互いに独立であると仮定することは妥当であることに注意する。従って、式｛１｝は以下のように書き直されることができる。
Ｐ(Ｉ|Ω)＝Σ_∀ξＰ(ξ|Ω)Π_∀(x,y)Ｐ(Ｉ_x,y|ξ,Ω) ｛２｝
ここでＰ(Ｉ_x,y|ξ,Ω)は、画像Ｉの(x,y)ピクセルをモデル化するのに使用された確率を表す。

シーンの観測の大域的状態を捕えるのに使用されたモデル、即ちＰ(ξ|Ω)の複雑さに依存して、実施された処理は、様々な応用シナリオ（application scenario）に存在する異なるタイプのイメージング変化を扱うことができるであろう。例えば、もしゲイン関数のパラメータ表現がξの表現において使用されるならば、カメラの自動ゲイン制御による変化に対してロバストな（robust）背景・前景分割処理を実施することは可能である。

単純のために、大域的状態ξに調整されたピクセル値のそれぞれＰ(Ｉ_x,y|ξ,Ω)は、３次元ＲＧＢカラー空間における完全な共分散マトリクスを持つ混合ガウス分布を使用してモデル化される。より形式的には、以下の式が使用されることができる。

ここで

及びΣ_a,x,yは、(x,y)ピクセルに対するａ番目の混合ガウスモードの平均値及び共分散マトリクスである。これらのパラメータは、画像モデル全体を表すのに使用される記号パラメータ変数Ωのサブセットである。

以前の調査は、他のカラー空間が影のような問題に対処するのに好ましいことを示し、この調査は、希望に応じてここで使用されることができることに注意する。しかしながら、この記述は、前記シーンの大域的状態のモデル化を強調する。

シーンの観測の大域的状態は、好ましくは前記シーンの大域的及び局所的変化を捕える離散的変数ξ＝{1,2,…,M}を使用してモデル化され、これにより式｛２｝は以下のようになる。

記述されたモデルと従来のガウシアンの混合との間の違いを示す。本発明のモデルは、ピクセルのそれぞれを独立にモデル化する混合ガウス分布と対照的に、大域的状態に関連して各ピクセルをモデル化するためにガウス分布の集合を使用する。

式３は、以下のように書き直されることができる。

ここで、項Ｇ(ξ,ａ_x,y)＝Ｐ(ξ|Ω)^(1/WH)Ｐ(ａ_x,y)は、単純に画像モデルのピクセル位置のそれぞれに関連したＭ×Ｎマトリクスとして扱われることができる。本例において、Ｍは大域的状態の数であり、Ｎはガウシアンモードの数である。図１の例において、前記Ｍ×Ｎマトリクスは確率表１６５に記憶され、ここで各ピクセルに対して１つのＭ×Ｎマトリクス１７０が存在する。

分割手順
上で述べられた前記提案されたモデルの１つは、シーンからの画像観測のセットから首尾よくトレーニングされたと仮定すると、新しく観測された画像の分割手順は、単純に最大の尤度の分類に基づく。トレーニングは、次のセクションで説明される。

模範的な分割手順は、図２の方法２００として示される。方法２００は、背景・前景分割を実行するために通常動作中にシステムにより使用される。上で示されたように、トレーニングは、既に実行された。

方法２００は、画像が取り出されるステップ２０において開始する。一般に、各画像は、前記画像の各ピクセルに対して２４ビットを使用して記憶され、この２４ビットは、ＲＧＢ値に対応する。上で述べたように、他のシステムが使用されることができるが、模範的方法２００は、ＲＧＢ値が使用されることを仮定する。

テスト画像Ｉ^tが与えられ、この分割アルゴリズムは、以下のモデルを与えられて前記画像の尤度確率を最大化する大域的状態ξ^*を決定する（ステップ２２０）。
ξ^*＝arg
maxＰ(ξ|Ω)Π_∀(x,y)Ｐ(Ｉ^t _x,y|ξ,Ω) ｛５｝

この場合、前記背景・前景分割は、個別の尤度確率を使用して各ピクセルに対して独立に、しかし最も尤度の高い大域的状態ξ^*のみを考慮して実行される。このステップを実行するために、ピクセルはステップ２３０において選択される。各ピクセルに対する個別の尤度確率は、最も尤度の高い大域的状態に対して決定され（ステップ２４０）、前記尤度確率は、各ピクセルが背景に割り当てられるべきか又は前景に割り当てられるべきかを決定する（ステップ２５０）ために以下の式において使用される。

ここでｓ＝{ｓ_x,y ∀(x,y)}は、前記背景・前景分割のバイナリ画像を表し、非ゼロピクセルは、前景オブジェクトを示す。基本的に式｛６｝は、もしピクセルに対する尤度確率がピクセル閾値より小さければ（ステップ２５０＝ＹＥＳ）、前記ピクセルが以前に本発明による背景モデルオブジェクト分類処理４００により前記背景の一部としてフラグを立てられているかを決定するために、更に他のテストがステップ２５５の間に実行され、そうでなければ（ステップ２５０＝ＮＯ）、前記ピクセルは背景に割り当てられる（ステップ２７０）。

もしステップ２５５の間に、前記ピクセルが以前に背景モデルオブジェクト分類処理４００により前記背景の一部としてフラグを立てられたことが決定されるならば、前記ピクセルは、ステップ２７０の間に前記背景に割り当てられる。しかしながら、もしステップ２５５の間に、前記ピクセルが以前に背景モデルオブジェクト分類処理４００により前記背景の一部としてフラグを立てられていないことが決定されるならば、前記ピクセルは、前記前景に割り当てられる（ステップ２６０）。

式｛６｝は、関心のある各ピクセル（一般的には、画像内の全てのピクセル）に対して実行される。従って、ステップ２８０において、もし前記画像内の全てのピクセルが前記背景又は前景に割り当てられていれば（ステップ２８０＝ＮＯ）、方法２００は終了し、そうでなければ（ステップ２８０＝ＹＥＳ）、前記方法は、ステップ２３０に続き、式６は、新しく選択されたピクセルに対して実行される。

どのようにして、ピクセルのカラー値が、異なる大域的状態の下で前記背景の一部としてモデル化される場合でさえも、処理２００が、前記ピクセルを前景として首尾よく分類することが可能であるのかを示す。例えば、もし赤いシャツを着た人が前記トレーニング手順の間に前記シーンの背景を通りかかるならば、赤い色は、この人のシャツによりぶつかられた全てのピクセルにおいて前記混合ガウシアンモードの１つにより捕えられることになる。後でテストの間に、もしこの人が前記シーンの背景を再び歩くならば（もちろん、大体同じ経路をたどる）、彼又は彼女は、前景として検出されないであろう。しかしながら、もしこの人が前記シーンの大域的状態を効果的に変化しながら前記カメラの近くに来るならば、彼又は彼女の赤いシャツは、赤が前記背景に関連付けられた画像領域でさえも正しく分割されるであろう。

追加の例として、前記背景の一部が（i）前記シーンにおいて暗い照明の下で黒く見え、（ii）前記シーンが適切に照らされるときに暗い緑に見える場合を考慮する。ピクセル間の全体的な依存性を利用する本発明のモデルは、前記シーンが照らされる場合の前記背景の黒いオブジェクト及び前記シーンが暗い場合の緑の前景オブジェクトを検出することができるであろう。従来のモデルにおいては、黒及び緑の両方は、背景色として見なされ、これによりこれらのオブジェクトは、完全に見逃されているであろう。

トレーニング手順
期待値最大化（ＥＭ）アルゴリズムを使用する、画像サンプル（例えばビデオセグメント）の所定のセットを有する前記提案されたモデルのオフライントレーニングは、容易である。例えば、個別のピクセルモデルＰ(Ｉ^t _x,y|ξ^*,Ω)のパラメータは、観測されたトレーニングデータの平均値の周辺でランダムに初期化されることができるが、個別の状態の確率は、一様に初期化されることができる。この場合、ＥＭサイクルを使用して、前記モデルの全てのパラメータは、典型的には良い解である局所極大解に更新されることになる。前記ＥＭアルゴリズムは、よく知られたアルゴリズムであり、例えば、参照によりここに組み込まれるA.
Dempster, N. Laird, and D. Rubin, “Maximum Likelihood From Incomplete Data via the EM Algorithm”, J. Roy. Statist. Soc. B 39:1-38 (1977)において記述される。

図３に記述された模範的トレーニング手順は、前記モデルを付加的にトレーニングし、自動的に大域的状態の適切な数を決定する。前記モデルの付加的トレーニングは、モデル化されたシーンの様々な画像変化全てを含むトレーニングサンプルの完全なセットを捕えるために、前記処理が長い時間期間にわたり連続的に実行することを可能にする。大域的状態の数の自動的な決定は、前記モデルのサイズを最小化し、これは、前記処理のメモリ所要量を減少し、前記背景・前景分割手順を加速する。

模範的トレーニング処理は、図３に示される。この模範的トレーニング処理は、無制限の数のトレーニングサンプルが前記モデルに移動されることができる付加的手順を有する。新しいサンプル画像が前記モデルに移動される（即ち、新しい画像Ｉ^tがステップ３０５において前記モデルに移動される）たびに、処理３００は、第一に最も尤度の高い大域的状態ξ^*（ステップ３１０）及び前記画像の各ピクセルの最も尤度の高い混合ガウシアンモードａ_x,y（ステップ３１５）を決定する予期ステップ（前記ＥＭアルゴリズムからのＥステップ）を実行する。これらのステップは分割手順処理２００におけるステップと同様であることに注意する。

ステップ３２０において、選択された状態に対する同じ画像の尤度確率が決定される。この場合、前記選択された大域的状態に対する前記サンプル画像の前記尤度確率の値に依存して（ステップ３２５）、処理３００は、前記選択された状態のパラメータの調整（ステップ３３５）、又は新しいパラメータの追加（ステップ３３０）の間で選択する。もし前記選択された状態に対する前記サンプル画像の前記尤度確率が、大域的閾値より大きければ（ステップ３２５＝ＹＥＳ）、前記選択された状態のパラメータが調整される（ステップ３３５）。もし前記選択された状態に対する前記サンプル画像の前記尤度確率が大域的閾値以下であれば（ステップ３２５＝ＮＯ）、新しい状態が追加される（ステップ３３０）。

ステップ３４０において、各ピクセル位置に対する選択された混合ガウシアンモードの個別の尤度確率が決定される。この場合、各ピクセル位置に対する前記選択された混合ガウシアンモードの前記個別の尤度確率に依存して、前記アルゴリズムは、前記選択されたモードの調整又は新しいモードの追加の間で選択する。これを行うためにステップ３４５においてピクセルが選択される。もしこのピクセル位置に対する選択された混合ガウシアンモードの個別の尤度確率が、ピクセル閾値より大きければ（ステップ３５０＝ＹＥＳ）、前記選択されたモードが調整され（ステップ３６０）、そうでなければ（ステップ３５０＝ＮＯ）、新しいモードが追加される（ステップ３５５）。もし更に多くのピクセルが存在すれば（ステップ３６５＝ＹＥＳ）、方法３００はステップ３４５に続き、そうでなければ（ステップ３６５＝ＮＯ）、前記方法はステップ３７０に続く。もし更に多くの処理すべきサンプル画像が存在すれば（ステップ３７０＝ＹＥＳ）、方法３００はステップ３０５に続き、そうでなければ（ステップ３７０＝ＮＯ）、前記方法は終了する。

模範的トレーニング方法３００において２つの閾値が使用され、即ち一方は各ピクセル位置における決定に対する閾値であり、他方は前記画像の大域的状態についての決定に対する閾値であることに注意する。

ピクセル位置毎の各混合ガウシアンモードは、好ましくはパラメータを計算するのに使用されるサンプルの総数の経過を追い、これにより新しいサンプルが追加される場合に前記パラメータの再推定が付加的に実行される。例えば、前記混合ガウシアンモードの平均及び共分散は、以下の式を使用して単純に更新される。

ここでＫ_a,x,yはこの混合ガウシアンモードをトレーニングするために既に使用されたサンプル数である。

同様に、各大域的状態は、トレーニングに使用されたサンプルの総数の経過を追い、これによりサンプルが追加された場合に確率表Ｇ(ξ,ａ_x,y)は、前記新しいサンプルの追加を考慮して混合ガウシアンモード及び個別の状態の使用統計（usage statistics）を使用して更新される。

有益に、全体的なモデルは、各ピクセル位置に対する１つの混合ガウシアンモード及び１つの状態のみを用いて初期化される。また、大域的状態及び／又は混合ガウシアンモードが予期ステップ（ステップ３１５及び３２０）において使用される前に、最小の１０個のサンプルが必要とされるべきである。

背景モデルの拡張
以前に示されたように、背景・前景分割処理３００は、トレーニング段階の間に確率表１７０−１１乃至１７０−ＨＷ（まとめてここでは“確率表１７０”）を定め、リファインする。初めに、確率表１７０は、入力画像１５５の各ピクセルに対する確率表を有する。図４と併せて後で説明されるように、背景モデルオブジェクト分類処理４００は、典型的には静止しているオブジェクトの指標を含むように前記背景モデルの確率表１７０を修正する。このように、もしオブジェクトが移動し、且つ典型的には静止しているオブジェクトとして以前に識別されていたならば、前記オブジェクトは、背景・前景分割の間に不必要に前記前景の一部にはならないであろう。

背景モデルオブジェクト分類処理４００の模範的実施において、移動するオブジェクトは、２つのセットの１つに分類される。第１セットは、人間及び動物のような典型的には独立して移動するオブジェクトを含み、第２セットは、家具のような典型的には静止しているオブジェクトを含む。一般に、一度オブジェクトが前記第２オブジェクトに割り当てられると、前記オブジェクトは、たとえ移動されたとしても前記背景のままである（通常は、前記オブジェクトの移動は、前記オブジェクトを前記前景の一部にする）。このように、背景オブジェクトは、移動された場合に、不必要に前記前景の一部にはならない。

図４は、本発明のフィーチャを組み込む模範的な背景モデルオブジェクト分類処理４００を記述するフローチャートである。図４に示されるように、背景モデルオブジェクト分類処理４００は、最初は、ブロブ（blob）と称される剛体オブジェクトを形成する既知の接続された構成要素解析技術（connected
component analysis techniques）を使用してステップ４０５の間に各画像の前景におけるピクセルをグループ化する。

この場合、背景オブジェクトが指定された閾値Ｔ以上に移動したことが決定されるまで、ステップ４１０の間にテストが実行される。背景オブジェクトの移動は、例えば周知のオプティカルフロー法を使用して検出されることができる。一般に、前記背景は、２つの連続的な画像において抑制され、前記前景は、運動と、所定のオブジェクトがどれだけ移動したかと、前記運動の速度とを検出するために減算される。アスペクト比情報及び複数フレーム処理技術は、参照によりここに組み込まれる米国特許出願シリアル番号09/794,443、２００１年２月２７日出願、題“Classification
of Objects Through Model Ensembles”において記述されたように、採用されることができる。

一度、前記背景オブジェクトの運動がステップ４１０の間に検出されると、移動した前記背景オブジェクトが典型的には静止しているかを決定するために、更に他のテストがステップ４２０の間に実行される。例えば、上で参照された米国特許出願シリアル番号09/794,443、２００１年２月２７日出願、題“Classification
of Objects Through Model Ensembles”において記述された技術は、例えば、家具の一部のような無生物オブジェクトとしてオブジェクトを分類するために使用されることができ、ルールのセットは、特定の分類されたオブジェクトが典型的には静止しているかどうかを示すために確立されることができる。

もし移動した前記背景オブジェクトが典型的には静止していることが、ステップ４２０の間に決定されるならば、前記移動したオブジェクトが典型的には静止していることを示す前記オブジェクトに関連したピクセルに対してステップ４３０の間にフラグが立てられる。

しかしながら、もし移動した前記背景オブジェクトが典型的には静止していないことがステップ４２０の間に決定されるならば、前記移動したオブジェクトが典型的には独立に移動することを示す前記オブジェクトに関連したピクセルに対してステップ４４０の間にフラグが立てられる。プログラム制御は、この場合、前記背景オブジェクトの運動がステップ４１０の間に再び検出されるまでステップ４６０の間に完了する。

追加の実施例
和の必要性を除去するために最高の確率を持つガウシアンモードを用いて混合ガウシアンの確率を近似することは一般的な方法であり、これは、式の更に他の単純化を防止する。

この近似を両方のレベルで使用し、（ａ）各ピクセルに対する混合の和は、以下のようになり、

（ｂ）様々な大域的状態の和は以下のようになる。

式｛４｝は以下のように単純化する。

２重最大化に注目する。第１最大化はピクセルレベルにおいて、前記大域的状態のそれぞれの前（prior）を考慮して、最も良く合うガウシアンモードを決定するために使用される。第２最大化は画像レベルにおいて、観測の最大尤度確率を持つ状態を決定するために使用される。

このアルゴリズムのファミリの実施を加速する他の通常の方法は、実際の確率ではなく前記確率の対数の計算である。この場合、ガウス分布の指数関数の評価の必要が無く、式｛７｝の積は、対数の減少された範囲のために固定小数点演算を使用して実行されることができる和になる。

ここに記述されたモデルは修正されることができ、これによりもし確率が閾値より上であれば１つの機能を実行するようにこれまで書かれたテストステップは、修正されたルールの下で書き直されることができ、これにより同じテストステップは、もし確率が閾値以下であるか又は特定の値の範囲内であれば同じ機能を実行するであろうことに注意すべきである。前記テストステップは、単に説明されている特定の例のモデルに対する模範的例である。異なるモデルは、異なるテストステップを要する可能性がある。

ここに示され記述された実施例及び変更例は、単に本発明の原理を説明し、様々な修正例が本発明の範囲及び精神から外れることなく当業者により実施されうると理解されるべきである。

本発明の好適実施例による背景・前景分割を実行する模範的システムのブロック図である。本発明の好適実施例による背景・前景分割を実行するシステムに対する入力画像を分類する方法のフローチャートである。本発明の好適実施例による背景・前景分割を実行するシステムをトレーニングする方法のフローチャートである。本発明の好適実施例による背景・前景分割を実行するシステムをトレーニングする方法のフローチャートである。図１の背景モデルオブジェクト分類処理の模範的実施を説明するフローチャートである。

Claims

複数のピクセルを有するシーンの画像を取り出すステップと、
前記シーンの背景モデルを得るステップと、
前記背景モデルにおいて前記背景モデル内のオブジェクトが典型的には静止していることを示す指標を与えるステップと、
を有する方法。
移動されたオブジェクトに関連するピクセル情報を前記オブジェクトの新しい位置に転送するステップを更に有する、請求項１に記載の方法。
前記オブジェクトを背景として維持するステップを更に有する、請求項１に記載の方法。
たとえ前記オブジェクトが移動されたとしても、前記オブジェクトを背景として維持するステップを更に有する、請求項１に記載の方法。
前記背景モデル内の前記オブジェクトの運動が、オプティカルフロー方法を使用して検出される、請求項４に記載の方法。
前記オプティカルフロー方法が、移動された前記オブジェクトの前記画像内の新しい位置を示す、請求項５に記載の方法。
前記背景モデル内のオブジェクトが典型的には静止していることを示す指標が、前記オブジェクトが指定された閾値より大きく移動された場合に与えられる、請求項１に記載の方法。
前記シーンの背景モデルを得るステップが更に、前記画像のピクセルに対応する少なくとも１つの確率分布を決定するステップであって、前記画像内の少なくとも幾つかのピクセルが他のピクセルに依存するようにモデル化されたモデルを使用することにより実行される当該決定するステップを有する、請求項１に記載の方法。
前記背景モデルが、前記シーンの大域的状態の確率を表す項と、前記シーンの前記大域的状態に対して調整されたピクセル外観の確率を表す項とを有する、請求項１に記載の方法。
前記モデルにトレーニング画像を供給するステップと、
前記モデルのパラメータを決定するステップと、
所定数のトレーニング画像に対して前記トレーニング画像を供給するステップ及び前記パラメータを決定するステップを実行するステップと、
を有する、請求項１に記載の方法。
コンピュータ読取可能コードを記憶するメモリと、
前記メモリに動作的に結合されたプロセッサであって、
複数のピクセルを有するシーンの画像を取り出し、
前記シーンの背景モデルを得、
前記背景モデルにおいて前記背景モデル内のオブジェクトが典型的には静止していることを示す指標を与える
ように構成された前記コンピュータ読取可能コードを実行するように構成された当該プロセッサと、
を有するシステム。
前記プロセッサが更に、移動されたオブジェクトに関連するピクセル情報を前記オブジェクトの新しい位置に転送するように構成される、請求項１１に記載のシステム。
前記プロセッサが更に、前記オブジェクトを背景として維持するように構成される、請求項１１に記載のシステム。
前記プロセッサが更に、たとえ前記オブジェクトが移動されたとしても前記オブジェクトを背景として維持するように構成される、請求項１１に記載のシステム。
前記背景モデルにおける前記オブジェクトの運動が、オプティカルフローシステムを使用して検出される、請求項１４に記載のシステム。
前記オプティカルフローシステムが、移動された前記オブジェクトの前記画像における新しい位置を示す、請求項１５に記載のシステム。
前記背景モデル内のオブジェクトが典型的には静止していることを示す指標が、前記オブジェクトが指定された閾値より大きく移動された場合に与えられる、請求項１１に記載のシステム。
コンピュータ読取可能コード手段を持つコンピュータ読取可能媒体であって、前記コンピュータ読取可能コード手段が、
複数のピクセルを有するシーンの画像を取り出すステップと、
前記シーンの背景モデルを得るステップと、
前記背景モデルにおいて前記背景モデル内のオブジェクトが典型的には静止していることを示す指標を与えるステップと、
を有する、当該コンピュータ読取可能媒体、
を有する製造品。
複数のピクセルを有するシーンの画像を取り出すステップと、
前記シーンの背景モデルを得るステップと、
前記背景モデル内のオブジェクトが無生物オブジェクトであることを前記背景モデル内に示す指標を与えるステップと、
を有する方法。
前記無生物オブジェクトを背景として維持するステップを更に有する、請求項１９に記載の方法。
たとえ前記無生物オブジェクトが移動されたとしても、前記無生物オブジェクトを背景として維持するステップを更に有する、請求項１９に記載の方法。