JP2006331416A - シーンをモデル化する方法 - Google Patents

シーンをモデル化する方法 Download PDF

Info

Publication number
JP2006331416A
JP2006331416A JP2006131540A JP2006131540A JP2006331416A JP 2006331416 A JP2006331416 A JP 2006331416A JP 2006131540 A JP2006131540 A JP 2006131540A JP 2006131540 A JP2006131540 A JP 2006131540A JP 2006331416 A JP2006331416 A JP 2006331416A
Authority
JP
Japan
Prior art keywords
pixel
layer
covariance
layers
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006131540A
Other languages
English (en)
Other versions
JP4619987B2 (ja
Inventor
Oncel Tuzel
オンセル・チュゼル
Faith M Porikli
ファティー・エム・ポリクリ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Research Laboratories Inc
Publication of JP2006331416A publication Critical patent/JP2006331416A/ja
Application granted granted Critical
Publication of JP4619987B2 publication Critical patent/JP4619987B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

【課題】低フレームレート時の追跡性能を向上させる。
【解決手段】ビデオがシーンについて取得される。ビデオの各フレーム内の各画素が複数の層によって表現される。各層は複数のガウス分布を含む。各ガウス分布は平均及び共分散を含む。共分散は逆ウィシャート分布である。次に、層はフレーム毎に、再帰的なベイズ推定プロセスにより更新されて、シーンのモデルが構築される。このモデルは、層の信頼度に従って前景画素及び背景画素を検出するために用いることができる。
【選択図】図3

Description

本発明は、包括的にはコンピュータビジョン及びシーンのモデル化に関し、特に、シーンについて低フレームレートで取得されたビデオ中の物体の追跡に関する。
多くのコンピュータビジョン用途における1つの基本的なタスクは、シーンについて取得されたフレームシーケンス、すなわちビデオ中の前景領域と背景領域を分割する。この分割は、移動物体の追跡等の高レベルの動作に有用である。
ビデオ中の「移動」画素領域を検出する1つの方法は、先ず、静止シーンの基準フレームを取得することである。次に、そのシーンについて取得された後続のフレームが基準フレームから画素毎に減算され、ビデオが異なる画像に分割される。異なる画像の強度値は閾値処理して、シーン中の移動物体に関連する可能性が高い移動画素領域を検出することができる。
このタスクは非常に単純に見えるが、実世界の用途では、この手法はほとんど機能しない。通常、背景が静的であることは決してない。それどころか、背景は、照明の変化、背景、例えば、雲、木の葉、及び水の波の移動、並びにカメラのノイズにより経時的に変化する。さらに、多くの用途では、背景の様々な外見、例えば、日光が、移動する前景物体とは必ずしも関連しない徐々に移動する影を背景に作り出すことによる差異をモデル化することが望ましい。
これらの問題を克服するために、適応的背景モデル及びフィルタが使用されてきた。例えば、カルマンフィルタは、各画素の動的特性をモデル化することができる(ディーター・コラー(Dieter Koller)、ジョセフ・ウェーバー(Joseph Weber)、及びジテンドラ・マリク(Jitendra Malik)著「Robust multiple car tracking with occlusion reasoning」(ECCV'94, May 1994))。カルマンフィルタの単純なバージョン、例えばウィーナーフィルタは、画素強度値の最近の履歴に基づく確率予測を行うことができる(K.トヤマ(Toyama)、J.クルム(Krumm)、B.ブルミット(Brumitt)、及びB.マイヤーズ(Meyers)著「Wallflower: Principles and practice of background maintenance」(Proc. 7th Intl. Conf. on Computer Vision, pp. 255-261, 1999))。
代替的な方法は画素強度値の確率分布をモデル化する(C.R.レン(Wren)、A.アゼルバイジャニ(Azarbayejani)、T.J.ダレル(Darrell)、及びA.P.ペントランド(Pentland)著「Pfinder: Real-time tracking of the human body」(PAMI, 19(7), pp. 780-785, July 1997))。この方法は、観測を行う順序を実質的に無視する。通常、各画素は、経時的に変化する正規分布N(μ,σ)でモデル化される。ノイズは、ゼロ平均の正規分布N(0,σ)から生じるものと見なされる。したがって、このような統計分布を表現する合理的なモデルは単一ガウス関数である。モデルのパラメータは適応フィルタに従って更新される。このモデルは、シーンの背景が単一モードである場合に適切に機能する。しかし、これは通常、実世界の用途では当てはまらない。
多くの場合、単一ガウスモデルは、照明条件の変化により影が変化する背景のような動的背景における画素強度値の時間変化を正確にモデル化するためには不適である。したがって、より複雑なシステムは、影により生じる強度変動のような照明の変化を排除する機構を含む(イスマイール・ハリタオグル(Ismail Haritaoglu)、デビッド・ハーウッド(David Harwood)、及びラリー(Larry)S.デービス(Davis)著「W4: Who? When? Where? What?」(Proceedings of FG'98, IEEE, April 1998))。
複数のモデルを使用して動的背景を画素レベルで記述することは、背景のモデル化における突破口であった。具体的には、ガウス分布の混合を使用する方法が、多数の関連するコンピュータビジョン用途にとって一般的になった。
3つのガウス成分の混合を用いて各画素の視覚特性をモデル化することができる(N.フリードマン(Friedman)及びS.ラッセル(Russell)著「Image segmentation in video sequences: A probabilistic approach」(Thirteenth Conference on Uncertainty in Artificial Intelligence, August 1997))。このモデルはまた、期待値最大化(EM)プロセスを用いて、ガウス混合モデル(GMM)を経時的に適応させる。交通監視用途では、各画素の強度値を3つの仮説、すなわち、道路、影、及び車両に制限する。残念ながら、この単純な仮定は、GMMが個々の画素の任意の分布をモデル化する能力を大幅に低下させる。さらに、この方法は計算上の要求が高い。
別の方法はシーンが非静的であることを許容する(クリス・シュタウファー(Chris Stauffer)及びW.E.L.グリムソン(Grimson)著「Adaptive background mixture models for real-time tracking」(Computer Vision and Pattern Recognition, volume 2, June 1999))。この方法において、各画素は、可変数のガウス成分を有するガウス分布の混合としてモデル化される。これらの方法は、背景を、各峰が静的モデルにゼロ平均の白色ガウス雑音プロセスを足したものである多峰性プロセスとして表現する。モデルは、近似を用いたリアルタイムの更新であり得る。このビデオ監視システムは、昼夜サイクル及び長期間にわたるシーン変化に適している。
この方法は、一対のステレオカメラから取得される奥行き情報を含む特徴ベクトルを使用することによって拡張することができる(M.ハービル(Harville)、G.ゴードン(Gordon)、及びJ.ウッドフィル(Woodfill)著「Foreground segmentation using adaptive mixture models in color and depth」(IEEE Workshop on Detection and Recognition of Events in Video, pp. 3-11, 2001))。
勾配情報を用いて、より正確な背景分割を達成することもできる(S.ヤブリ(Jabri)、Z.デュリック(Duric)、H.ウェクスラー(Wechsler)、及びA.ローゼンフェルド(Rosenfeld)著「Location of people in video images using adaptive fusion of color and edge information」(Proc. 15th Int'l Conf. on Pattern Recognition, volume 4, pp. 627-630, 2000)、並びにK.ジャヴェド(Javed)、O.シャフィック(Shafique)及びM.シャー(Shah)著「A hierarchical approach to robust background subtraction using color and gradient information」(IEEE Workshop on Motion and Video Computing, 2002))。
ガウスモデルの混合は、十分な数の成分があれば何らかの任意の分布に収束し得るが、これは通常、多数の成分を必要とする。しかし、これは計算上、リアルタイム用途では可能でない。一般に画素毎に3〜5個の成分が用いられる。
このような困難な状況に対処するために、ノンパラメトリック技法が開発されている。これらの技法はカーネル密度を用いて、新たに取得されたサンプルに基づいて、各画素における背景特性を推定する。これらの技法は、高速な背景変化に適応することができる(エルガマル(Elgammal)、D.ハーウッド、L.S.デービス著「Non-parametric model for background subtraction」(ECCV 2000, June 2000))。この方法は、正規カーネル関数を密度推定に用いる。このモデルは、長いビデオシーケンスにわたる最近のサンプル値の履歴を表現する。
他の同様の技法は、適応的な密度推定の目的で帯域可変型カーネルを強調する。オプティカルフローも用いることができる(アヌラーグ・ミッタル(Anurag Mittal)、ニコス・パラジオス(Nikos Paragios)著「Motion-based background subtraction using adaptive kernel density estimation」(CVPR 2004, Volume 2, pp. 302-309, June, 2004))。
ノンパラメトリックモデルは、背景のモデル化のための合理的な選択のように見えるが、ノンパラメトリックモデルは時間がかかり、リアルタイム用途には使用できない。
別の方法はシーンを離散状態として表現する。これらの状態は、シーン中の環境条件に対応する。この方法は、観測値に従って状態間で切替を行う。隠れマルコフモデル(HMM)はこの目的に非常に適している。3状態HMMがリッチャー(Rittscher)等著「A probabilistic background model for tracking」(Proc. European Conf. on Computer Vision, volume II, pp. 336-350, 2000)によって使用されている。別の方法は観測値からトポロジを学習する(B.ステンガー(Stenger)、V.ラメッシュ(Ramesh)、N.パラジオス、F.クッツェー(Coetzee)、及びJ.バーマン(Buhmann)著「Topology free hidden Markov models: Application to background modeling」(Proc. 8th Intl. Conf. on Computer Vision, pp. 294-301, 2001))。
したがって、動的シーンをモデル化する方法を提供することが望ましい。さらに、モデルを使用して、非常に低いフレームレートで取得されたビデオ中の物体を追跡することが望ましい。
本発明は、シーンをモデル化し、このモデルを用いて、シーンについて低フレームレート、例えば1フレーム毎秒(1fps)以下で取得されたビデオ中の移動物体を追跡する方法を提供する。
ビデオを低フレームレートで取得すると、プロセッサ、ネットワーク帯域幅及び記憶媒体等の必要な資源が減る。しかし、低フレームレートのビデオでは、物体はフレーム間で予想よりも速い速度で移動し、連続するフレームにおいて物体の位置が重なることはほとんどない。したがって、従来の物体追跡方法は用いることができない。ビデオ、特に低フレームレートで取得されたビデオ中の物体の追跡は、難しいコンピュータビジョンのタスクである。
固定カメラを用いる場合、正確なシーンモデルは物体の追跡を改善することができる。したがって、本発明は、シーンについて取得された低フレームレートのビデオから動的シーンをモデル化する方法を提供する。
各画素がガウス分布の複数の層によって表現されて、シーンのモデルが構築される。このモデルはフレーム毎に更新される。本方法は、再帰的なベイズ推定を用いて、各ガウス分布の平均及び共分散を推定する。
本発明による方法は、背景の多峰性を保存し、各画素を表現するために必要な層の数を推定する。
本発明は、再帰的なベイズ推定を用いてシーンをモデル化するための効率的な方法を提供する。このシーンモデルは、多峰性シーンを表現する上で非常に効果的である。このモデルを用いれば、低フレームレートで取得したビデオ中の移動物体の追跡が可能になる。320×240のカラービデオモニタの場合、Pentium(登録商標) IVの2.4GHzプロセッサで、1画素当たり5層の1フレームを処理するための時間は0.05秒である。したがって、本発明による方法は、高フレームレートで取得されたビデオに対しても動作することができる。
方法の概観
図1は、本発明による、シーン102中の移動物体を検出するためにシーン102をモデル化する方法100を示す。カメラ103によりシーン102についてビデオ101を取得する。ビデオの各フレーム内の画素毎に、モデルパラメータ109に従って3D多変量ガウス分布の複数の層200によってシーンをモデル化する110。各層は、画素の経時的な様々な外観、すなわち、色強度に対応する。本発明では、赤、緑、及び青(RGB)の色空間で動作を行う。シーンモデルの層の変化を判定して、シーン中の移動物体121を検出する120。本方法の詳細なステップは、後述する図3に示す。
モデル層
図2は、本発明によるモデルの複数の層200の単純化した概略図である。縦軸201は信頼度(confidence score)を示し、横軸202は画素の色値を示し、ともに[0,1]の範囲に標準化されている。或る層が所定の信頼度閾値203未満である場合、その層はシーン中の背景をモデル化するものとみなされ、そうでない場合、その層は前景をモデル化する。図示の例の場合、層210は「最も信頼度の高い」前景層とみなされ、層220は「最も信頼度の低い」背景層である。
再帰的なベイズ推定
本発明では、再帰的なベイズ推定を用いてモデルを更新するが、各層の平均パラメータ及び分散パラメータは推定せず、その代わりに、図2に示すような、各ガウス分布の平均及び分散の確率分布を推定する。次に、この確率分布から層のモデルパラメータの統計情報を抽出する。平均及び分散の期待値を用いることによってシーンにおける変化を検出する。平均の分散は、本発明の再帰的なベイズ推定の埋め込み信頼度201である。
本発明の方法では、事前知識を事前パラメータと統合することができる。本発明では、全共分散行列を求めるため、本発明の特徴空間は、動き情報等の他の情報を含むように変更することができる。
本発明のシーンモデルの多様性は、再帰的なベイズ更新プロセスによって維持される。各更新中、最大で1つの層が現フレームの画素値に従って更新される。これにより、モデルの層間の重なりが確実に最小になるようにする。本発明はまた、各画素を最も良く表現するために必要な層の数を求め、背景画素と前景画素を分割する際に必要な層のみを使用する。これは、本発明のモデルに埋め込まれる信頼度に従って行われる。
多層モデル
本発明では、ビデオ中の画素の色強度は、平均がμであり共分散がΣである正規分布であると仮定する。平均及び分散は未知であり、ランダム変数としてモデル化される。ベイズの定理によれば、結合事後密度(joint posterior density)は次のように表すことができる。
Figure 2006331416
更新中に新たな画素値について再帰的なベイズ推定を行うために、結合事前密度(joint prior density)p(μ,Σ)は結合事後密度p(μ,Σ|X)と同じ形式を有する。分散について調整されると、結合事前密度は次のように表すことができる。
Figure 2006331416
上の条件は、共分散に逆ウィシャート分布を仮定し、共分散について調整された平均に多変量正規分布を仮定すると実現される。逆ウィシャート分布は、スケーリングされた逆χ分布の多変量一般化である。
ウィシャート分布は次のようにパラメータ化される。
Figure 2006331416
ここで、vt−1及びΛt−1はそれぞれ、逆ウィシャート分布の自由度331及びスケール行列334であり、θt−1は前の密度の平均333であり、κt−1は以前の密度測定値の数332である。図3を参照のこと。これらの仮定により、結合事前密度は、3次元の特徴空間について
Figure 2006331416
となる。
本発明ではこれを、次のような正規逆ウィシャート分布としてラベル付けする。
Figure 2006331416
事前密度に正規尤度を乗算し、項を並べると、結合事後密度は正規逆ウィシャート分布(θt−1,Λ/κt−1,Λt−1)となる。パラメータ109は次式に従って更新される。
Figure 2006331416
ここで、
Figure 2006331416
は新たなサンプルの平均であり、nはモデルの更新に使用されるサンプル数である。図3を参照のこと。
再帰的なベイズ更新がフレーム毎に行われる場合、nは1となる。システムの速度を上げるために、更新は周期的に行うことができる。
本発明では、フレーム毎にモデルの1/4を更新するため、重みnには4が割り当てられる340。新たなパラメータは、前の測定値332を観測したサンプルと結合する。事後平均θは事前平均とサンプル平均の加重平均である。事後自由度は事前自由度にサンプルサイズを足した値に等しい。本発明のモデルは、以下のパラメータにより初期化される。
Figure 2006331416
ここで、Iは3次元単位行列である。
結合事後密度を共分散Σについて積分することによって、次のような平均の周辺事後密度を得る。
Figure 2006331416
ここで、tvt−2は自由度がv−2である多変量t分布である。
本発明では、平均及び共分散の周辺事後分布の期待値を時刻tにおける本発明のモデルのパラメータとして用いる。その場合、周辺事後平均の期待値、すなわち、多変量t分布の期待値は、
Figure 2006331416
となり、周辺事後共分散の期待値、すなわち、逆ウィシャート分布の期待値は
Figure 2006331416
となる。
本発明における層の信頼度は、次のような、1をμ|Xの共分散の行列式で割った値に等しい。
Figure 2006331416
周辺事後平均の分散が大きい場合、その層の信頼度は低い。スケール行列がΣであり自由度がvである多変量t分布の分散は以下に等しくなる。
Figure 2006331416
カラーチャネル毎に独立した仮定を行うことにより本方法を加速化することができる。全共分散行列の更新は9個のパラメータを求めた。さらに、距離推定の間、本発明では全共分散行列を転置する。1つの層に対して1つの多変量ガウス分布を用いる代わりに、本発明では、3つの一変量ガウス分布をビデオ中の各カラーチャネルに対して1つずつ用いる。本発明では、各カラーチャネルを独立して更新した後、分散を結合し、次のような、3つ(RGB)の色の対角共分散行列を構築する。
Figure 2006331416
この場合、各一変量ガウスについて、平均の一変量正規分布の分散について調整した分散に対してスケーリングした逆χ分布を仮定する。
モデルの更新
図3に示すように、本発明では、モデル200を各画素のガウス分布のk個の層により初期化する。通常、本発明では、シーンの複雑度に応じて3つ〜5つの層を選択する。非常に動的なシーンでは追加の層を用いることができる。各画素の新たなサンプルxを観測すると、本発明のモデルのパラメータ109を更新する。
本発明の現モデルにおける最も信頼度の高い層210から更新を開始する301。観測されたサンプルが現モデルの99%信頼区間内にある場合、モデルのパラメータを式(6)、(7)及び(8)に従って更新する。下位層は更新しない。
背景をモデル化するには、以前の観測値がモデルに与える影響が小さくなるように「忘却」機構を有することが有用である。したがって、背景の変化は経時的に動的に適合される。忘却は、不適合モデルの以前の観測値のパラメータ数を低減することによって行われる。現サンプルが信頼区間外にある場合、以前の測定値の数のパラメータ332を
Figure 2006331416
のように更新し、次の信頼層の更新を続ける302。本発明では、κを初期値である10未満にはしない。
いずれの層も更新されない場合、最も信頼度の低い層を削除(「忘却」)し303、現サンプルを有する新たな層を初期平均及び分散として初期化する。1画素の更新プロセスは以下のように要約することができる。
更新プロセスへの入力は、時刻tにおける新たなサンプルx、及び時刻t−1におけるk個の背景層{(θt−1,Λt−1,i,kt−1,vt−1,i)}(i=1,...,k)である。
先ず、信頼度を更新し310、式(13)で定義される信頼度に従って層を並べ替える311。次に、iがk未満である間、次の各層について次のようなマハラノビス距離を測定する320。
Figure 2006331416
サンプルxが99%信頼区間内にある場合321、上述のように式(6)、(7)、(8)に従ってモデルのパラメータ109を更新する。更新されるパラメータは、自由度331、以前の測定値の数332、平均333、及びスケール行列334を含む。
そうでない場合、式(15)に従ってモデルパラメータ109を更新し、層のインデックスiをインクリメントし340、次の層を行う。全ての層を更新したら304、式(9)に従って定義されるパラメータを有する新たな層を初期化する305。最大層カウントに達した場合306、最後の層k、すなわち、信頼度の最も低い層220を削除する307。
この更新プロセスは、ノイズ又はモデルの背景部分にある前景画素を抑制する。また、この更新プロセスは、照明効果のような滑らかな強度変化に適応する。埋め込まれた信頼度は、使用される層の数を決め、不要な層を抑制する。
通常、二次層は、背景画素の影付き形態、又はシーンの移動領域の様々な色に対応する。シーンが単峰性である場合、1番目の層以外の層の信頼度は非常に低くなる。
オンライン期待値最大化(EM)との比較
本発明のモデルは、シュタウファー等(上記を参照)によって作成されるモデルと同じように見えるが、大きな違いがある。シュタウファーのモデルでは、各画素がガウス分布の混合として表現される。ガウス分布及び混合係数のパラメータが、オンラインでの期待値最大化(EM)のK平均近似により更新される。この方法は、初期観測値に非常に影響を受け易い。ガウス分布が不適切に初期化された場合、全ての成分が最終的には分布の最も大きな峰に収束する。大きな峰の付近にある小さな峰は決して検出されない。
対照的に、本発明では、各画素をガウス分布の複数の層でモデル化し、再帰的なベイズ推定を行ってモデルのパラメータの確率分布を求める。本発明では、各層を他の全ての層とは独立したものとして解釈する。したがって、本発明の方法はより柔軟性が高い。
前景の分割
シーンモデルの推定統計値を用いて、シーン中の「変化している」領域、すなわち、おそらくは移動物体に対応する画素領域を検出することができる。1つの画素を表現するために必要な層の数は事前には分からないため、モデルを必要な数よりも多い層で初期化する。
信頼度を用いて、画素毎にいくつの層が重要であるかを決める。式(13)によって求められる信頼度に従って層を並べ替え311、信頼度が所定閾値T203よりも大きい層のみを選択する。
本明細書では、これらの層を「信頼層」と呼ぶ。閾値T203は画素強度の平均の共分散に依存する。したがって、閾値は画素の色範囲202に依存する。様々な色範囲について閾値Tを変更することができる。
観測された色の、信頼層からのマハラノビス距離を測定する320。全ての信頼層の99%信頼区間外にある画素は前景(移動)画素と見なされる。最後に、前景画素に対して連結成分解析を行って、移動物体を検出する。
動き、テクスチャ及び方向
上述のように、シーンモデルは、ビデオ中の画素の色を表す。このモデルを画素の動き特徴、テクスチャ特徴、及び方向特徴により拡張することも可能である。例えば、画素毎に、色に加えて動き、テクスチャ及び方向を求めることが可能である。画素の方向は、画素強度勾配から求めることができる。動き、テクスチャ及び方向を次に、上述のようなガウス分布の複数の動き層、テクスチャ層及び方向層によって同様に表現して、シーンの対応する動きモデル、テクスチャモデル及び方向モデルを構築することができる。
本発明を、好適な実施形態の例として記載してきたが、本発明の精神及び範囲内で様々な他の適用及び変更を行ってもよいことが理解されるべきである。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲に入るそのような変形及び変更をすべて網羅することである。
本発明による、シーンをモデル化する方法のフロー図である。 本発明による、ガウス分布の複数の層を含むシーンのモデルの概略図である。 図1の方法の詳細なフロー図である。

Claims (28)

  1. シーンをモデル化する方法であって、
    シーンのビデオを取得すること、
    前記ビデオの各フレーム内の各画素を複数の層により表現することであって、各層は複数のガウス分布を含み、各ガウス分布は平均及び共分散を含み、前記共分散は逆ウィシャート分布であること、及び
    フレーム毎に、前記複数の層を再帰的なベイズ推定プロセスにより更新することによって、前記シーンのモデルを構築すること
    を含む、シーンをモデル化する方法。
  2. 前記再帰的なベイズ推定プロセスは、各ガウス分布の前記平均及び前記共分散の確率分布を推定する、請求項1に記載の方法。
  3. 前記推定される確率分布の前記平均を前記モデルの前記層のパラメータとして割り当てることをさらに含む、請求項2に記載の方法。
  4. 各画素の各層は前記画素の経時的な様々な外観に対応する、請求項1に記載の方法。
  5. 前記複数の層における変化を判定することによって、前記シーン中の移動物体を検出することをさらに含む、請求項1に記載の方法。
  6. 前記再帰的なベイズ推定プロセスは、各ガウス分布の前記平均及び前記共分散の確率分布を経時的に求め、前記平均の分散は、前記ベイズ推定プロセスによる各層の信頼度である、請求項1に記載の方法。
  7. 信頼度が所定閾値未満である層は背景画素を表し、そうでない場合は前景画素を表す、請求項6に記載の方法。
  8. 各層は3つの一変量ガウス分布として表現され、前記一変量分布は前記ビデオ中の各カラーチャネルに対して1つずつである、請求項1に記載の方法。
  9. 前記層の数は前記シーンの複雑度に依存する、請求項1に記載の方法。
  10. 信頼度の低い層を経時的に削除すること、及び
    新たな層を初期化すること
    をさらに含む、請求項6に記載の方法。
  11. 前記ビデオは、1フレーム毎秒のフレームレートで取得される、請求項1に記載の方法。
  12. 各層についてマハラノビス距離を測定すること
    をさらに含む、請求項1に記載の方法。
  13. 以前にサンプリングされた色値の組を画素毎に記憶すること、
    前記更新のレートを下げること、及び
    以前にサンプリングされた色値を前記再帰的なベイズ推定プロセスに用いること
    をさらに含む、請求項1に記載の方法。
  14. 各フレーム内の各画素の動きを求めること、
    前記ビデオの各フレーム内の各画素の前記動きを複数の動き層により表現すること、及び
    フレーム毎に、前記複数の動き層を前記再帰的なベイズ推定プロセスにより更新することによって、前記シーンの動きモデルを構築すること
    をさらに含む、請求項1に記載の方法。
  15. 各画素のテクスチャを求めること、
    前記ビデオの各フレーム内の各画素の前記テクスチャを複数のテクスチャ層により表現すること、及び
    フレーム毎に、前記複数のテクスチャ層を前記再帰的なベイズ推定プロセスにより更新することによって、前記シーンのテクスチャモデルを構築すること
    をさらに含む、請求項1に記載の方法。
  16. 各画素の勾配を求めること、
    前記勾配に従って各画素の方向を求めること、
    前記ビデオの各フレーム内の各画素の前記方向を複数の方向層により表現すること、及び
    フレーム毎に、前記複数の方向層を前記再帰的なベイズ推定プロセスにより更新することによって、前記シーンの方向モデルを構築すること
    をさらに含む、請求項1に記載の方法。
  17. シーンをモデル化する方法であって、
    シーンのビデオを取得すること、及び
    前記ビデオの各フレーム内の画素毎に、再帰的なベイズ推定プロセスを用いて、前記画素の色の第1の平均及び第1の共分散並びに該第1の共分散の第2の平均及び第2の共分散を更新すること
    を含む、シーンをモデル化する方法。
  18. 画素毎に、前記第1の平均、前記第1の共分散、前記第2の平均及び前記第2の共分散を複数の層として表現することであって、各層は複数のガウス分布を含むこと
    をさらに含む、請求項17に記載の方法。
  19. 前記第1の共分散及び前記第2の共分散は、逆ウィシャート分布である、請求項17に記載の方法。
  20. 前記第1の平均、前記第1の共分散、前記第2の平均及び第2の共分散における変化を判定することによって、前記シーン中の移動物体を検出すること
    をさらに含む、請求項17に記載の方法。
  21. 前記再帰的なベイズ推定プロセスは、各ガウス分布の前記平均及び分散の確率分布を経時的に求め、前記平均の前記分散の逆は各層の信頼度である、請求項17に記載の方法。
  22. 信頼度が所定閾値よりも高い層は背景画素を表し、そうでない場合は前景画素を表す、請求項21に記載の方法。
  23. 各層は多数の多変量ガウス分布として表現され、該多変量分布は前記ビデオ中の全カラーチャネルに対して1つずつである、請求項17に記載の方法。
  24. 前記層の最大数は前記シーンの複雑度に依存する、請求項17に記載の方法。
  25. 前記ビデオの前記現フレーム内の各画素の前記観測された色から各層についてマハラノビス距離を測定すること
    をさらに含む、請求項17に記載の方法。
  26. 層平均、自由度、及び層スケール行列を更新する以前の測定値の数をインクリメントすること
    をさらに含む、請求項17に記載の方法。
  27. 計算されたマハラノビス距離が前記層の前記共分散に比例する閾値よりも大きい層の前記信頼度を経時的に低減すること、
    信頼度の低い層を経時的に削除すること、及び
    新たな層を初期化すること
    をさらに含む、請求項25に記載の方法。
  28. 各画素の以前の色値の組を記憶すること、
    前記更新のフレームレートを下げること、
    更新パラメータを前記組中の前記色値の数に等しく調整すること、及び
    前記色値の組及び前記更新パラメータを前記再帰的なベイズ推定プロセスに使用すること
    をさらに含む、請求項17に記載の方法。
JP2006131540A 2005-05-20 2006-05-10 シーンをモデル化する方法 Expired - Fee Related JP4619987B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/133,894 US7466842B2 (en) 2005-05-20 2005-05-20 Modeling low frame rate videos with bayesian estimation

Publications (2)

Publication Number Publication Date
JP2006331416A true JP2006331416A (ja) 2006-12-07
JP4619987B2 JP4619987B2 (ja) 2011-01-26

Family

ID=37448333

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006131540A Expired - Fee Related JP4619987B2 (ja) 2005-05-20 2006-05-10 シーンをモデル化する方法

Country Status (2)

Country Link
US (1) US7466842B2 (ja)
JP (1) JP4619987B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008257693A (ja) * 2007-04-05 2008-10-23 Mitsubishi Electric Research Laboratories Inc シーン中に置き去りにされた物体を検出する方法
JP2008262533A (ja) * 2006-12-12 2008-10-30 Ind Technol Res Inst 火炎検出方法及びその装置
JP2008544334A (ja) * 2005-06-27 2008-12-04 ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド シーンをモデル化する方法
US7868772B2 (en) 2006-12-12 2011-01-11 Industrial Technology Research Institute Flame detecting method and device

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8014590B2 (en) * 2005-12-07 2011-09-06 Drvision Technologies Llc Method of directed pattern enhancement for flexible recognition
US7756296B2 (en) * 2007-03-27 2010-07-13 Mitsubishi Electric Research Laboratories, Inc. Method for tracking objects in videos using forward and backward tracking
AU2007254600B2 (en) * 2007-12-20 2011-04-14 Canon Kabushiki Kaisha Collaborative tracking
JP5264582B2 (ja) * 2008-04-04 2013-08-14 キヤノン株式会社 監視装置、監視方法、プログラム、及び記憶媒体
US20120075296A1 (en) * 2008-10-08 2012-03-29 Strider Labs, Inc. System and Method for Constructing a 3D Scene Model From an Image
FR2944629B1 (fr) * 2009-04-17 2017-01-20 Univ De Tech De Troyes Systeme et procede de localisation de cible par un reseau de cameras
CN102622763A (zh) * 2012-02-21 2012-08-01 芮挺 阴影检测与消除方法
US9471833B1 (en) * 2012-04-03 2016-10-18 Intuit Inc. Character recognition using images at different angles
GB201213604D0 (en) * 2012-07-31 2012-09-12 Bae Systems Plc Detectig moving vehicles
US9098919B2 (en) * 2012-10-04 2015-08-04 Honeywell International Inc. Detecting motion in a high resolution video
CN103150738A (zh) * 2013-02-02 2013-06-12 南京理工大学 分布式多传感器运动目标的检测方法
US10812815B2 (en) * 2014-08-29 2020-10-20 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for compressing video images
CN105740814B (zh) * 2016-01-29 2018-10-26 重庆扬讯软件技术股份有限公司 一种使用视频分析确定固废危废存放状态的方法
US10922551B2 (en) 2017-10-06 2021-02-16 The Nielsen Company (Us), Llc Scene frame matching for automatic content recognition
CN110335288A (zh) * 2018-09-26 2019-10-15 惠州学院 一种视频前景目标提取方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259660A (ja) * 1998-02-12 1999-09-24 Mitsubishi Electric Inf Technol Center America Inc 三次元動作復元システム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5233541A (en) * 1990-08-10 1993-08-03 Kaman Aerospace Corporation Automatic target detection process
US6591146B1 (en) * 1999-09-16 2003-07-08 Hewlett-Packard Development Company L.C. Method for learning switching linear dynamic system models from data
US7006950B1 (en) * 2000-06-12 2006-02-28 Siemens Corporate Research, Inc. Statistical modeling and performance characterization of a real-time dual camera surveillance system
US6954544B2 (en) * 2002-05-23 2005-10-11 Xerox Corporation Visual motion analysis method for detecting arbitrary numbers of moving objects in image sequences

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259660A (ja) * 1998-02-12 1999-09-24 Mitsubishi Electric Inf Technol Center America Inc 三次元動作復元システム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008544334A (ja) * 2005-06-27 2008-12-04 ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド シーンをモデル化する方法
JP4722923B2 (ja) * 2005-06-27 2011-07-13 ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド コンピュータビジョンによりシーンをモデル化する方法
JP2008262533A (ja) * 2006-12-12 2008-10-30 Ind Technol Res Inst 火炎検出方法及びその装置
US7868772B2 (en) 2006-12-12 2011-01-11 Industrial Technology Research Institute Flame detecting method and device
JP4668978B2 (ja) * 2006-12-12 2011-04-13 インダストリアル テクノロジー リサーチ インスティテュート 火炎検出方法及びその装置
JP2008257693A (ja) * 2007-04-05 2008-10-23 Mitsubishi Electric Research Laboratories Inc シーン中に置き去りにされた物体を検出する方法

Also Published As

Publication number Publication date
JP4619987B2 (ja) 2011-01-26
US7466842B2 (en) 2008-12-16
US20060262959A1 (en) 2006-11-23

Similar Documents

Publication Publication Date Title
JP4619987B2 (ja) シーンをモデル化する方法
Wren et al. Pfinder: Real-time tracking of the human body
JP4782123B2 (ja) カメラによりシーンに関して取得された映像中の移動物体を追跡する方法
US7418134B2 (en) Method and apparatus for foreground segmentation of video sequences
Tuzel et al. A bayesian approach to background modeling
US8159536B2 (en) Method for detecting desired objects in a highly dynamic environment by a monitoring system
JP5058010B2 (ja) シーン中に置き去りにされた物体を検出する方法
Jeyakar et al. Robust object tracking with background-weighted local kernels
JP4699564B2 (ja) 視覚背景抽出器
Cucchiara et al. The Sakbot system for moving object detection and tracking
Liu et al. Nonparametric background generation
Wang Real-time moving vehicle detection with cast shadow removal in video based on conditional random field
Al-Najdawi et al. An automated real-time people tracking system based on KLT features detection.
Porikli et al. Object tracking in low-frame-rate video
Pece From cluster tracking to people counting
Pless Spatio-temporal background models for outdoor surveillance
Wan et al. Background subtraction based on adaptive non-parametric model
Wang et al. A dynamic Hidden Markov Random Field Model for foreground and shadow segmentation
Elgammal Figure-ground segmentation—pixel-based
Wang et al. A probabilistic method for foreground and shadow segmentation
Kaur Background subtraction in video surveillance
Strens et al. Tracking in cluttered images
Lindstrom et al. Background and foreground modeling using an online EM algorithm
Guo et al. A robust foreground segmentation method by temporal averaging multiple video frames
Antić et al. Robust detection and tracking of moving objects in traffic video surveillance

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100824

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101001

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101026

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101027

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131105

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4619987

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees