JP2006216046A - ビデオのフレームのシーケンスにおける背景をモデル化するコンピュータが実施する方法 - Google Patents
ビデオのフレームのシーケンスにおける背景をモデル化するコンピュータが実施する方法 Download PDFInfo
- Publication number
- JP2006216046A JP2006216046A JP2006024787A JP2006024787A JP2006216046A JP 2006216046 A JP2006216046 A JP 2006216046A JP 2006024787 A JP2006024787 A JP 2006024787A JP 2006024787 A JP2006024787 A JP 2006024787A JP 2006216046 A JP2006216046 A JP 2006216046A
- Authority
- JP
- Japan
- Prior art keywords
- corner
- motion
- corners
- stationary
- background
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/215—Motion-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
【課題】コンピュータが実施する方法は、ビデオのフレームのシーケンスにおける背景をモデル化する。
【解決手段】各フレームに対し、本方法は、フレームのピクセルのアレイを使用して静止コーナを検出し、各静止コーナに対し、その静止コーナの周囲のピクセルの窓から特徴を抽出する。各静止コーナに対し、対応する特徴から記述子を確定する。各静止コーナ及び対応する記述子をメモリに格納し、記述子に従って各静止コーナを背景又は前景として分類することによりビデオの背景をモデル化する。
【選択図】図1
【解決手段】各フレームに対し、本方法は、フレームのピクセルのアレイを使用して静止コーナを検出し、各静止コーナに対し、その静止コーナの周囲のピクセルの窓から特徴を抽出する。各静止コーナに対し、対応する特徴から記述子を確定する。各静止コーナ及び対応する記述子をメモリに格納し、記述子に従って各静止コーナを背景又は前景として分類することによりビデオの背景をモデル化する。
【選択図】図1
Description
この発明は、包括的にはビデオ処理に関し、特に背景をモデル化しビデオにおけるオブジェクトを検出することに関するものである。
多くのコンピュータビジョン及びビデオサーベイランスアプリケーションでは、動きオブジェクト、例えば種々の環境における歩行者、車両又は関心事象を特定しようとする。通常、まず、著しい動きの検出を実行する。動き検出では、移動している「前景」オブジェクトを他の点では普通は静止している「背景」において識別する。この段階を、「前景検出」又は「背景差分」と呼ぶことが多い。ピクセルレベルでモデルを更新する種々のタイプの背景モデルを使用する複数の技法が知られている。
所定期間にわたって、静止背景における個々のピクセルの強度値は、通常、正規分布に従う。このため、かかる統計的分布を表す妥当なモデルは、単一ガウスモデルである。これについては、C.R. Wren、A. Azarbayejani、T.J. Darrell及びA.P. Pentland著、「Pfinder: Real-time tracking of the human body」、PAMI, 19(7), pp.780-785, July 1997を参照されたい。
照明状態の変化により影が変化する背景等、動的背景におけるピクセル強度値の時間的な変化を正確にモデル化するためには、単一ガウスモデルは不適当であることが多い。ピクセルレベルで動的背景を記述するために複数のモデルを使用することは、背景モデル化における進歩であった。特に、ガウス分布の混合を採用する方法は、近年、多数の関連技法に対する一般的な基礎となった。
3つのガウス成分の混合を使用して、各ピクセルの視覚的特性をモデル化することができる。これについては、N. Friedman及びS. Russell著、「Image segmentation in video sequences: A probabilistic approach」、Thirteenth Conference on Uncertainty in Artificial Intelligence, August 1997を参照されたい。そのモデルはまた、期待値最大化(expectation-maximization)(EM)プロセスを使用して、所定期間にわたってガウス混合モデル(Gaussian Mixture Model)(GMM)を学習する。目標交通監視アプリケーションでは、各ピクセルの強度値を3つの仮定、すなわち、道路、影及び車両に限定する。不都合なことに、その単純な仮定により、個々のピクセルに対し任意分布をモデル化するGMMの能力が大幅に低下する。さらに、その方法は、計算的に費用がかかる。
別の技法は、可変数のガウス成分を含むガウス分布の混合として各ピクセルをモデル化する。これについては、W.E.L. Grimson、C. Stauffer、R. Romano及びL. Lee著、「Using adaptive tracking to classify and monitor activities in a site」、CVPR'98, 1998を参照されたい。それらのモデルを、近似を使用してリアルタイムに更新することができる。そのビデオサーベイランスシステムは、昼夜のサイクルに対し、且つ長期間にわたるシーンの変化に対して頑強であることが分かった。しかしながら、水上のさざなみ、海の波又は動いている草木等、非常に急速な変動を呈する背景の場合、そのモデルにより、分布が、長いビデオシーケンスにわたり大きく分散する可能性がある。このため、前景オブジェクトを検出する感度が大幅に低下する。
かかる困難な状況に対処するために、ノンパラメトリック技法が開発された。それら技法は、カーネル密度を使用して、複数の最近取得されたサンプルに基づき、各ピクセルにおける背景特性を推定する。それら技法は、急速な背景変化に適合することができる。これについては、Elgammal、D. Harwood、L.S. Davis著、「Non-parametric model for background subtraction」、ECCV 2000, June 2000を参照されたい。その方法は、密度推定に対し正規カーネル関数を使用する。このモデルは、長いビデオシーケンスにわたる最近のサンプル値の履歴を表す。
別の類似する技法は、適応的密度推定の目的で可変バンド幅カーネルを強調する。別の特徴として、オプティカルフローを使用することができる。これについては、Anurag Mittal、Nikos Paragios著、「Motion-based background subtraction using adaptive kernel density estimation」、CVPR 2004, Volume 2, pp.302-309, June 2004を参照されたい。
効果的な背景モデル化を扱う他の技法を、予測方法として類別することができる。予測方法は、過去の観測に基づき、時系列としてピクセル強度変化を扱い、時間モデルを使用して次のピクセル値を予測する。予測された値と実際の観測との間のずれを使用して、予測モデルのパラメータを調整することができる。
他の方法は、フィルタを使用する。たとえば、カルマン(Kalman)フィルタは、各ピクセルの動的特性をモデル化することができる。これについては、Dieter Koller、Joseph Weber及びJitendra Malik著、「Robust multiple car tracking with occlusion reasoning」、ECCV'94, May 1994を参照されたい。カルマンフィルタ、たとえばウィーナ(Weiner)フィルタの簡単なバージョンは、ピクセル強度値の最近の履歴に基づいて確率的予測を行うことができる。
自己回帰モデルは、類似するテクスチャのシミュレーションの目的で動的シーンの特性を取り込む。これについては、G. Doretto、A. Chiuso、S. Soatto、Y.N. Wu著、「Dynamic textures」、IJCV 51(2), pp.91-109, 2003を参照されたい。その方法は、動的背景のモデル化を扱うように、且つビデオサーベイランスにおける前景検出を実行するように改良された。これについては、Antoine Monnet、Anurag Mittal、Nikos Paragios、Visvanathan Ramesh著、「Background modeling and subtraction of dynamic scenes」、ICCV'03, p.1305, October 2003並びにJing Zhong及びStan Sclaroff著、「Segmenting foreground objects from a dynamic textured background via a robust Kalman Filter」、ICCV'03, pp.44-50, 2003を参照されたい。困難なサンプルビデオによっては優れた結果が得られたが、かかる自己回帰モデルを使用する計算コストは高い。
一般に、ピクセルレベルの背景モデル化には、2つの主な不都合がある。第1に、それらのモデルの計算複雑性は本質的に高い。各ビデオフレームにおいてすべてのピクセルを処理しなければならない。多くの困難な動的シーンにおいて、複数の異なる周波数成分には、所定期間にわたって単一ピクセルにおける動きの再発するパターンを正確に取り込むために、多くのガウス分布を含むモデルか又は非常に複雑な予測モデルが必要である。検出精度と計算コストとの性能トレードオフは、常に、ピクセルレベルの背景モデルの選択における困難な決断である。
第2に、個々のピクセルにおける強度値は、雑音によって非常に容易に影響を受ける。本質的に、ピクセルレベルのモデルに欠けているものは、何らかのより高レベルの情報であり、それは、より頑強であり且つフレームの領域又はさらにはフレーム全体から導出することができるものである。
1つの方法は、高レベルモジュールからのフィードバックを組み込むことにより、ガウスモデルのピクセルレベル混合を導こうとする。これについては、M. Harville著、「A framework for high-level feedback to adaptive, per-pixel, Mixture-of-Gaussian background models」、ECCV'02, vol.3, pp.543-560, May 2002を参照されたい。しかしながら、その枠組の基礎は、依然としてピクセルレベルの背景モデルである。
したがって、ビデオにおいて高レベル情報を考慮する背景モデル化が必要とされている。
本発明は、コーナベースの背景モデルを提供する。本発明による方法は、水上のさざなみ、風で波打つ木及び照明の変化等、時間で変化する背景から実際の動きオブジェクトを識別し検出する。
原則として、本方法は3つのステップを有する。各ビデオフレームに対し、ハリス(Harris)コーナ検出器(corner-detector)を使用してコーナを検出する。そして、各コーナの周囲の局所窓内で、複数の特徴を抽出する。それら特徴は、コーナを特定し且つ記述する。それら特徴から、動的背景モデルを構築し且つ維持する。
モデルは、各コーナを、背景又は前景のいずれかとして分類する。さらに、空間的及び時間的相間を使用して、不正確に分類される前景コーナの数を低減することができる。
本発明によるコーナベースの背景モデルは、前景オブジェクトの検出において、従来技術によるピクセルベースの背景モデルより高い精度を達成する。さらに、従来のピクセルレベルモデルを使用する方法より高いフレームレートでビデオを処理することができる。
図1に示すように、本発明によるコンピュータが実施する方法100は、ビデオ101におけるフレームのシーケンスの背景をモデル化する方法100を提供する。本モデルを使用して、ビデオにおける動きオブジェクト145を検出することができる。
本方法は、連続的なフレームの対から動き画像111を生成する110。ビデオフレーム及び動き画像においてコーナ121〜122を検出する120。コーナを、ハリスコーナ検出器の拡張であるプロセスによって検出する。これについては、参照により本明細書に援用されるC. Harris及びM. Stephens著、「A combined corner and edge detector」、Fourth Alvey Vision Conference, pp.147-151, 1988を参照されたい。
各静止コーナ121の周囲の近傍ピクセルの局所窓から、特徴131を検出する130。特徴131及び静止コーナ121を使用して、コンピュータシステムのメモリ143に格納されるモデル141を構築し維持する140。モデルは、各静止コーナ121を、背景コーナ又は前景コーナのいずれかとして分類する。分類されたコーナは、本発明による背景モデルを構成する。
さらに、動きコーナ122による時空間フィルタリング150を使用して、不正確に特定される前景コーナの数を低減する。したがって、本方法は、入力ピクセルのすべてに基づくのではなく、代りに少数のコーナに基づいて、高レベル背景モデルを提供する。このように、背景モデル141は、従来技術によるピクセルベースの背景モデルに比べて非常に疎である。
コーナ検出
コーナ検出は、動き追跡、オブジェクト認識及びステレオマッチングを含むさまざまなビジョンアプリケーションにおける重要なタスクである。背景モデル化及び動き検出に対してコーナ検出を適用することができるためには、2つの特定の問題に対処する必要がある。すなわち、静止背景領域に対応する抽出された特徴は、所定の時間にわたって一貫していなければならず、リアルタイムアプリケーションに対する性能要件及び妥当なフレームレート、たとえば30フレーム/秒(fps)を上回るフレームレートを満たすための計算コストを最小限にしなければならない。
コーナ検出は、動き追跡、オブジェクト認識及びステレオマッチングを含むさまざまなビジョンアプリケーションにおける重要なタスクである。背景モデル化及び動き検出に対してコーナ検出を適用することができるためには、2つの特定の問題に対処する必要がある。すなわち、静止背景領域に対応する抽出された特徴は、所定の時間にわたって一貫していなければならず、リアルタイムアプリケーションに対する性能要件及び妥当なフレームレート、たとえば30フレーム/秒(fps)を上回るフレームレートを満たすための計算コストを最小限にしなければならない。
ハリスコーナ検出器の定義
I(x,y)が強度画像である場合、行列
I(x,y)が強度画像である場合、行列
は、ピクセル強度画像における下位窓内の画像勾配から局所自動相関を指定する。局所点における行列Mの2つの固有値が大きい場合、コーナが検出される。2×2行列Mの場合、より時間のかかる固有値計算に取って代るより効率的な計算のために、以下のようにコーナ応答関数を定義することができる。
ここで、detは、行列Mの行列式であり、kはパラメータ、たとえば0.04であり、正方行列のtraceは、対角要素の合計である。コーナは、式(2)の値Rの局所最大値として特定される。サブピクセル精度技法は、コーナの位置を精緻化することができる。
動き情報によるコーナの検出
単一フレームのコーナは、静止情報のみを取り込む。ビデオアプリケーションの場合、動き情報を取り込む自然な方法は、従来の2D画像コーナ検出器を3Dの時空間コーナ検出器に拡張することである。かかる拡張は、可能であるが、各ピクセル位置に対する3×3行列の固有値計算が極めて時間がかかるため、リアルタイムアプリケーションには実際的でない。
単一フレームのコーナは、静止情報のみを取り込む。ビデオアプリケーションの場合、動き情報を取り込む自然な方法は、従来の2D画像コーナ検出器を3Dの時空間コーナ検出器に拡張することである。かかる拡張は、可能であるが、各ピクセル位置に対する3×3行列の固有値計算が極めて時間がかかるため、リアルタイムアプリケーションには実際的でない。
したがって、本発明は、従来のハリスコーナ検出器より大幅に低い計算コストで、静止情報及び動き情報の両方を取り込むコーナを検出する効率的な方法を提供する。
特に、動き画像111を生成する110。各動き画像111は、入力ビデオ101における2つの連続的なフレーム間の差である。そして、各動き画像111に2Dハリスコーナ検出器を適用する120ことにより、動きコーナ122もまた検出する。動き画像111において特定される各動きコーナは、各フレームにおける著しい動きのある位置を示す。従来技術は、静止コーナ121のみを検出する、ということが留意されるべきである。
本方法は、以下の発見的手法を適用することにより、動きコーナ122を検出する。式(2)の閾値Rを、検出される動きコーナ122の数を制限するように調整することができる。シーンによっては、小さい領域内に多数の「強い(strong)」動きコーナが位置する場合がある。隣接する動きコーナの任意の対の間の最短距離を、小さい領域内に非常に多くのコーナを検出しないようにすることができる。原則的に、各動きコーナは、前景オブジェクトである可能性のあるものを暗示し、それはさらに確認する必要がある。この確認を、コーナベースの背景モデルを使用して行う。
各フレームの解像度が352×240である好ましい実施形態では、各フレームに対し約200〜300までの静止コーナ121を保持し、各動き画像に対し約10〜30の動きコーナ122を保持する。最短距離を、任意の2つの静止コーナ間を5ピクセルに制限し、任意の2つの動きコーナ間を15ピクセルに制限する。
自然なシーンのほとんどの画像では、静止コーナは、動いている葉及び建物等、テクスチャ及びエッジが豊富なエリアに現れる。空及び道路等の同種の特徴の場合、静止コーナはほとんど発生しない。コーナを使用して、高レベル背景モデル141を構築し且つ維持し140、それを使用して、現フレームにおいて検出されたすべてのコーナを2つのカテゴリ、すなわち背景又は前景に分類することができる。
ほとんどのビデオサーベイランスアプリケーションの場合、前景における動きオブジェクトの数は通常少ないため、方法100は、最強の動きエリアに対応する少数の動きコーナ122のみを保持する。
ピクセルレベルのモデルに対するコーナベースのモデルの重要な利点は、モデル141を構築し維持するプロセスに対して計算コストが実質的に節約されるということである。352×240解像度ビデオシーケンスに対し、ピクセルレベルの背景モデルを使用する場合、各フレームにおいて約100,000ピクセルを処理する。コーナベースの背景モデルでは、200〜300までのコーナのみを考慮すればよい。
コーナの局所記述子
各コーナの記述子は、正確なコーナ特定及びコーナの分類に役立つ。安定した局所特徴表現は、オブジェクト認識及びパターンマッチング等の多くのコンピュータビジョンアプリケーションの基本的な要素である。理想的には、コーナの記述子が、関心のある1つのコーナを他のコーナから確実に識別すべきである。記述子は、正確であり、且つわずかな変動及び照明変化の影響を受けにくくなければならない。
各コーナの記述子は、正確なコーナ特定及びコーナの分類に役立つ。安定した局所特徴表現は、オブジェクト認識及びパターンマッチング等の多くのコンピュータビジョンアプリケーションの基本的な要素である。理想的には、コーナの記述子が、関心のある1つのコーナを他のコーナから確実に識別すべきである。記述子は、正確であり、且つわずかな変動及び照明変化の影響を受けにくくなければならない。
D.G. Loweが、複数の記述子について述べている。これについては、「Object recognition from local scale invariant features」、ICCV'99, September 1999を参照されたい。スケール不変特徴変換(scale invariant feature transform)(SIFT)は、最高の性能を有し、一般的な画像変形による影響を受けにくい。SIFT記述子は、局所近傍における画像勾配の方向のヒストグラム表現に基づく。
特に、各々8つの方向ビンがある4×4グリッドのヒストグラムが、コーナの周囲の画像パッチの粗い空間構造を有効に符号化する。そして、結果としての128次元ベクトルを単位長に正規化する。
以下は、SIFT記述子の特徴のうちのいくつかである。ガウス重み関数を使用して、各ピクセルに重みを割り当てる。この場合、コーナから遠いピクセルほど重みに対して影響を与えない。ガウス関数は、境界効果を低減する。すなわち、位置が徐々に変化することにより、記述子は急に変化しない。
記述子は、4×4サンプル領域を使用することによりわずかな局所化誤差を許容する。コーナの位置は正確に特定されないため、所定期間にわたり位置がわずかに変動する可能性があることは避けられない。これにより、ビデオシーケンスにおける同じ背景オブジェクトに対応するフレームのシーケンスにおけるコーナに対し不安定な表現がもたらされる可能性がある。4×4サンプル領域にわたってヒストグラムを使用することにより、かかる悪影響が有効に軽減される。
非線形な照明の変化により、傾斜によっては大きさが大きくなる可能性がある。しかしながら、かかる変化は、傾斜の方向を変化させる可能性は低い。したがって、傾斜の大きさを、単位特徴ベクトルにおけるそれらの値を閾値処理することによって制限する。たとえば、各特徴値を0.2まで制限する。
従来技術によるSIFT記述子は、画像マッチングアプリケーションに対して開発された。そこでは、同じオブジェクトに対応する点を、異なるスケール及びビューの下で画像から抽出する。このため、その記述子は、スケーラブルであり且つ回転不変である必要がある。
対照的に、ここでの要件は極めて異なる。動きオブジェクト検出の場合、背景の同じ位置から抽出されるコーナは、所定期間にわたり同じスケール及び回転の下にある。したがって、従来技術によるSIFT記述子を構築する際の高計算コストの主な原因であるマルチスケール実施態様及び方向位置合わせを行う必要がない。
各コーナの周囲に、局所8×8窓を定義する。そして、各窓内の傾斜の方向及び色情報を抽出して、256次元特徴ベクトルを形成する。
ここで、方向は、最初の128ビンから成り、正規化された赤及び緑の色値は各々64ビンから成る。
この記述子は、個々のピクセル値より明らかに優れたコーナの局所近傍に関する関連情報を含む。その結果、各コーナに、約256次元特徴ベクトルの形式で記述子を割り当てる。
コーナベースのモデル化及び分類
次のステップでは、有効な動きオブジェクト検出のために所定期間にわたって背景モデル141を構築し維持する。
次のステップでは、有効な動きオブジェクト検出のために所定期間にわたって背景モデル141を構築し維持する。
モデルの構造
ピクセルベースの背景モデルでは、個々の画像各々を、要素の2次元行列によって表すことができ、各要素は、対応する画素の変化の履歴を記録する。ガウスパラメータ又は予測モデルの特性等、この行列に格納される正確な情報は、使用される特定のモデルによって決まる。
ピクセルベースの背景モデルでは、個々の画像各々を、要素の2次元行列によって表すことができ、各要素は、対応する画素の変化の履歴を記録する。ガウスパラメータ又は予測モデルの特性等、この行列に格納される正確な情報は、使用される特定のモデルによって決まる。
原則として、コーナベースのモデル141は、2つの点でピクセルベースのモデルとは異なる。第1に、コーナベースのモデルの場合、画像行列は概して非常に疎である。大部分のエントリが空である。その位置にコーナが発生する場合にのみエントリが追加される。第2に、特定の位置において所定期間にわたり検出されたコーナを監視するために、各行列エントリに対してより多くの情報が維持される。
図2に示すように、コーナベースのモデル141における各行列エントリ142は、以下のデータを含む。
頻度:フレームの特定の位置においてコーナが検出されると、頻度カウントをインクリメントする。さらに、所定期間にわたりコーナが現れない場合、頻度を低減することにより、先のフレーム、すなわち過去の影響を徐々に低減する。すなわち、フレームにコーナが検出されない場合、頻度をデクリメントする。
平均:所定期間にわたって同じ位置に発生するコーナに対し、256次元記述子の平均ベクトルを生成する。この平均ベクトルは、背景における特定の位置の情報を簡潔に符号化する。この平均ベクトルを使用して前景コーナを特定する。
相関:コーナの対の間で相関を定義する。この相関の平均及び分散もまた所定期間にわたって監視する。低相関は、コーナの対が前景オブジェクト145に関連する可能性が高いことを示す。分散を使用して、コーナ分類における適応的閾値を適用する。
以下の論考において、この2次元行列は、コーナベースの背景モデル(M)141を表す。各モデルエントリM(x,y)は、所定の期間にわたって検出されたコーナの履歴を記録する。エントリ142は、頻度、平均、相関・平均、相関・分散を含む4タプルベクトルNである。
一対の256次元ベクトル間の相関を次のように定義する。
ここで、U及びVは256次元ベクトルの対である。2つのベクトルが同一である場合、値1の最大相関となる。
モデルの構築
図2に示すように、背景モデル化及びコーナ分類に対し、1組の静止コーナ121及び関連する記述子(特徴)131を使用する。
図2に示すように、背景モデル化及びコーナ分類に対し、1組の静止コーナ121及び関連する記述子(特徴)131を使用する。
位置(x,y)における各検出された静止コーナC121に対し、位置(x,y)の周囲の局所5×5窓を定義する210。
この局所窓において、モデルM141に対し、検討中のコーナと最大相関を有する平均記述子を有するエントリ142を探索する220。かかるエントリM(x’,y’)がある場合はステップ240に進み、ない場合はステップ230に進む。
モデル141の新たなエントリ142を生成し230、ステップ260に進む260。
上述したような相関値に基づいてコーナを背景又は前景として分類する240。コーナが背景である場合はステップ250に進み、そうでない場合はステップ260に進む。
現観測、すなわち、検出されたコーナCの局所近傍を使用して、エントリM(x’,y’)のパラメータ(頻度、平均、相関・平均、相関・分散)を更新し250、次のコーナを処理する。
エントリM(x,y)に対し頻度を低減する260。頻度が0である場合、モデルMからエントリを削除し、次のコーナを処理する。
モデルのエントリの位置とコーナの位置との間の直接マップを使用する代りに、プロセスは局所5×5窓を使用して、検討中のコーナに最も一致するエントリを探索する。背景コーナのみを使用してモデルを更新する。この設計により、海の波、照明の変化及び風で波打つ木等の困難な動的シーンに対してモデルを使用することができる。
時空間フィルタリング
本発明によるモデルにより、「現実の」動きオブジェクトに「付着された」前景コーナは、空間的且つ時間的に強く相関する。言い換えれば、ビデオシーケンスにおける動きオブジェクトを、いくつかの局所的な観測の結合、すなわち前景コーナのクラスタとして見なければならない。
本発明によるモデルにより、「現実の」動きオブジェクトに「付着された」前景コーナは、空間的且つ時間的に強く相関する。言い換えれば、ビデオシーケンスにおける動きオブジェクトを、いくつかの局所的な観測の結合、すなわち前景コーナのクラスタとして見なければならない。
前景コーナの分類誤りを最小限にするさらなる方法は、数フレーム内の各ピクセルの周囲の前景コーナの数をカウントし、その後かかる情報を使用して、カウントが所定閾値カウントを下回る場合に間違った前景コーナをさらにフィルタリングして除去する、というものである。
上述したような動きコーナは、ビデオシーケンスにおける動きオブジェクトである可能性のあるものの位置を示す。性能を向上させるために、動きコーナ122が存在する領域のみを考慮する。
したがって、以下の時空間フィルタリング150を実行する。5つの連続的なフレームの各動きコーナの周囲に10×10矩形を配置し、すなわち、3Dブロックフィルタは10×10×5ピクセルである。他の値もまた可能であり得る。フィルタ内の前景画像コーナの数が所定閾値を上回る場合、動きオブジェクト145を検出する。そうでない場合、フィルタの前景コーナのすべてを背景コーナとして分類する。プロセスにおいてカウントが通常非常に小さい動きコーナのみを考慮するため、このフィルタリングステップは非常に効率的である。
発明の効果
動的テクスチャは、時空間領域において繰返しパターンを呈することが多い。したがって、従来の技法は、これらのパターンを「ピクセルプロセス」を用いてモデル化する。すなわち、個々のピクセルの値を所定期間にわたって分析する。しかしながら、個々のピクセルの値は、画像雑音に対してより脆弱である。
動的テクスチャは、時空間領域において繰返しパターンを呈することが多い。したがって、従来の技法は、これらのパターンを「ピクセルプロセス」を用いてモデル化する。すなわち、個々のピクセルの値を所定期間にわたって分析する。しかしながら、個々のピクセルの値は、画像雑音に対してより脆弱である。
本発明によるコーナベースの方法は、以下の点で従来のピクセルベースの技法とは異なる。ピクセルの局所近傍を使用して背景を表す。
時間的な変化の繰返しパターンを利用する代りに、本発明による方法は、空間領域における繰返し変化を使用する。動的シーンの特定の位置に対し、所定期間にわたって検出されたコーナは、空間領域においてわずかに変動することが多い。たとえば、風で波打つ木の葉は、前の/将来のフレームで観測される位置から数ピクセルの偏差で異なる位置に現れる可能性がある。
したがって、本発明は、モデルエントリの位置とモデルを構築するために使用されるコーナ位置との間を直接にマップしない。代りに、局所5×5窓を定義することにより、検討中のコーナに最も一致するモデルエントリを探索する。
コーナベースの背景モデルは、動的シーンをモデル化する際のその有効性に加えて、非常に効率的である。表Aは、Grimson他の多重ガウスモデルと、Mittal他による密度推定と、Zhong他によって説明されるような自己回帰移動平均と、本発明によるコーナベースのモデルとを比較する。
本発明を、好ましい実施形態の例を用いて説明したが、本発明の精神及び範囲内で他のさまざまな適応及び変更を行ってもよい、ということを理解すべきである。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲内にあるかかる変形及び変更をすべて包含することである。
Claims (16)
- ビデオのフレームのシーケンスにおける背景をモデル化するコンピュータが実施する方法であって、各フレームはピクセルのアレイを含み、
各フレームに対し、前記ピクセルのアレイを使用して静止コーナを検出すること、
各静止コーナに対し、前記静止コーナの周囲のピクセルの窓から特徴を抽出すること、
各静止コーナに対し、対応する特徴から記述子を確定すること、
各静止コーナ及び対応する記述子をメモリに格納すること、
及び
前記記述子に従って各静止コーナを背景又は前景として分類して、前記ビデオの背景をモデル化すること
を含む、ビデオのフレームのシーケンスにおける背景をモデル化するコンピュータが実施する方法。 - 連続するフレームの各対を減算して、動き画像を生成すること、
各動き画像に対し動きコーナを検出すること、
及び
前記動きコーナに従って前景コーナを空間的且つ時間的にフィルタリングすることをさらに含む
請求項1記載の方法。 - ハリスコーナ検出器が、前記静止コーナ及び前記動きコーナを検出する
請求項2記載の方法。 - 静止コーナの数は、動きコーナの数のおよそ10倍である
請求項2記載の方法。 - 任意の2つの静止コーナ間の最短距離は約5ピクセルであり、任意の2つの動きコーナ間の最短距離は約15ピクセルである
請求項2記載の方法。 - 各静止コーナの前記特徴は、256次元ベクトルを形成する
請求項1記載の方法。 - 前記ベクトルを単位長に正規化することをさらに含む
請求項6記載の方法。 - 前記特徴は、前記窓における前記ピクセルの勾配の方向及び色を含む
請求項1記載の方法。 - 前記記述子は、前記コーナが連続したフレームの特定の位置で発生する頻度を含む
請求項1記載の方法。 - 前記頻度は、前記コーナが後続するフレームにおいて検出されない場合に所定期間にわたって低減する
請求項9記載の方法。 - 前記記述子は、所定時間にわたる前記記述子の平均を含む
請求項9記載の方法。 - 一対の記述子間の相関を確定することをさらに含む、
前記相関は、平均及び分散を含み、比較的低い相関は、特定の静止コーナが前記前景として分類されることを示す
請求項9記載の方法。 - 前記コーナを分類するために前記分散に従って閾値が適用される
請求項12記載の方法。 - 前記2つの記述子が同一である場合、前記相関は1である
請求項14記載の方法。 - 前記フィルタリングすることは、ピクセルのブロックにおける動きコーナの数をカウントし、前記カウントが所定閾値カウントを下回る場合に前記動きコーナを削除し、そうでない場合に動きオブジェクトを示す
請求項2記載の方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/048,536 US7373012B2 (en) | 2005-02-01 | 2005-02-01 | Detecting moving objects in videos with corner-based background model |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006216046A true JP2006216046A (ja) | 2006-08-17 |
Family
ID=36756604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006024787A Pending JP2006216046A (ja) | 2005-02-01 | 2006-02-01 | ビデオのフレームのシーケンスにおける背景をモデル化するコンピュータが実施する方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7373012B2 (ja) |
JP (1) | JP2006216046A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011053823A (ja) * | 2009-08-31 | 2011-03-17 | Tokyo Institute Of Technology | 特徴量抽出装置及び方法、並びに位置推定装置及び方法 |
JP2013522971A (ja) * | 2010-03-11 | 2013-06-13 | クゥアルコム・インコーポレイテッド | 複数の特徴検出器の適用に基づいた画像特徴検出 |
JP2013545200A (ja) * | 2010-11-23 | 2013-12-19 | クゥアルコム・インコーポレイテッド | グローバル動きに基づく深度の推定 |
US9123115B2 (en) | 2010-11-23 | 2015-09-01 | Qualcomm Incorporated | Depth estimation based on global motion and optical flow |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100869497B1 (ko) * | 2005-07-01 | 2008-11-21 | 주식회사 메디슨 | 계층적 움직임 추정방법 및 이를 적용한 초음파 영상장치 |
CN101366045A (zh) * | 2005-11-23 | 2009-02-11 | 实物视频影像公司 | 视频中的对象密度估算 |
US7697752B2 (en) * | 2005-12-20 | 2010-04-13 | General Instrument Corporation | Method and apparatus for performing object detection |
US8175405B1 (en) | 2006-09-14 | 2012-05-08 | Marvell International Ltd. | Adaptive MPEG noise reducer |
JP4967666B2 (ja) * | 2007-01-10 | 2012-07-04 | オムロン株式会社 | 画像処理装置および方法、並びに、プログラム |
KR101104609B1 (ko) * | 2007-10-26 | 2012-01-12 | 주식회사 만도 | 차량의 목표주차위치 인식 방법 및 그 시스템 |
US8676030B2 (en) * | 2008-04-15 | 2014-03-18 | Shlomo Selim Rakib | Methods and systems for interacting with viewers of video content |
KR20100000671A (ko) * | 2008-06-25 | 2010-01-06 | 삼성전자주식회사 | 영상 처리 방법 |
US11253169B2 (en) | 2009-09-14 | 2022-02-22 | Sotera Wireless, Inc. | Body-worn monitor for measuring respiration rate |
TWI420906B (zh) | 2010-10-13 | 2013-12-21 | Ind Tech Res Inst | 興趣區域之追蹤系統與方法及電腦程式產品 |
AU2010241260B2 (en) * | 2010-10-29 | 2013-12-19 | Canon Kabushiki Kaisha | Foreground background separation in a scene with unstable textures |
KR101620933B1 (ko) * | 2010-12-31 | 2016-05-13 | 노키아 테크놀로지스 오와이 | 제스쳐 인식 메커니즘을 제공하는 방법 및 장치 |
EP2518661A3 (en) | 2011-04-29 | 2015-02-11 | Tata Consultancy Services Limited | System and method for human detection and counting using background modeling, hog and haar features |
US10027952B2 (en) * | 2011-08-04 | 2018-07-17 | Trx Systems, Inc. | Mapping and tracking system with features in three-dimensional space |
AU2011265429B2 (en) * | 2011-12-21 | 2015-08-13 | Canon Kabushiki Kaisha | Method and system for robust scene modelling in an image sequence |
US9746327B2 (en) | 2012-06-12 | 2017-08-29 | Trx Systems, Inc. | Fusion of sensor and map data using constraint based optimization |
KR101904203B1 (ko) | 2012-06-20 | 2018-10-05 | 삼성전자주식회사 | 시프트 알고리즘을 이용하여 대용량 소스 이미지의 특징점 정보를 추출하는 장치 및 방법 |
TW201421423A (zh) * | 2012-11-26 | 2014-06-01 | Pixart Imaging Inc | 影像感測器及其運作方法 |
KR101645517B1 (ko) * | 2015-04-01 | 2016-08-05 | 주식회사 씨케이앤비 | 특징점 추출 장치 및 방법과 이를 이용한 콘텐츠의 온라인 유통 현황 분석을 위한 이미지 매칭 시스템 |
US10445885B1 (en) | 2015-10-01 | 2019-10-15 | Intellivision Technologies Corp | Methods and systems for tracking objects in videos and images using a cost matrix |
CN108960012B (zh) * | 2017-05-22 | 2022-04-15 | 中科创达软件股份有限公司 | 特征点检测方法、装置及电子设备 |
CN107316314A (zh) * | 2017-06-07 | 2017-11-03 | 太仓诚泽网络科技有限公司 | 一种动态背景提取方法 |
US11638569B2 (en) | 2018-06-08 | 2023-05-02 | Rutgers, The State University Of New Jersey | Computer vision systems and methods for real-time needle detection, enhancement and localization in ultrasound |
EP3836843A4 (en) | 2018-08-13 | 2022-02-16 | Rutgers, the State University of New Jersey | ARTIFICIAL VISION SYSTEMS AND METHODS FOR REAL-TIME LOCATION OF NEEDLES IN ULTRASOUND IMAGES |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004180321A (ja) * | 2002-11-27 | 2004-06-24 | Bosch Security Systems Inc | ビデオ追跡システム及び方法 |
-
2005
- 2005-02-01 US US11/048,536 patent/US7373012B2/en not_active Expired - Fee Related
-
2006
- 2006-02-01 JP JP2006024787A patent/JP2006216046A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004180321A (ja) * | 2002-11-27 | 2004-06-24 | Bosch Security Systems Inc | ビデオ追跡システム及び方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011053823A (ja) * | 2009-08-31 | 2011-03-17 | Tokyo Institute Of Technology | 特徴量抽出装置及び方法、並びに位置推定装置及び方法 |
JP2013522971A (ja) * | 2010-03-11 | 2013-06-13 | クゥアルコム・インコーポレイテッド | 複数の特徴検出器の適用に基づいた画像特徴検出 |
US8861864B2 (en) | 2010-03-11 | 2014-10-14 | Qualcomm Incorporated | Image feature detection based on application of multiple feature detectors |
JP2013545200A (ja) * | 2010-11-23 | 2013-12-19 | クゥアルコム・インコーポレイテッド | グローバル動きに基づく深度の推定 |
US9123115B2 (en) | 2010-11-23 | 2015-09-01 | Qualcomm Incorporated | Depth estimation based on global motion and optical flow |
US9171372B2 (en) | 2010-11-23 | 2015-10-27 | Qualcomm Incorporated | Depth estimation based on global motion |
Also Published As
Publication number | Publication date |
---|---|
US20060171594A1 (en) | 2006-08-03 |
US7373012B2 (en) | 2008-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006216046A (ja) | ビデオのフレームのシーケンスにおける背景をモデル化するコンピュータが実施する方法 | |
JP4782123B2 (ja) | カメラによりシーンに関して取得された映像中の移動物体を追跡する方法 | |
Zhou et al. | Real time robust human detection and tracking system | |
Faro et al. | Adaptive background modeling integrated with luminosity sensors and occlusion processing for reliable vehicle detection | |
US9922425B2 (en) | Video segmentation method | |
Pless et al. | Evaluation of local models of dynamic backgrounds | |
Rao et al. | Estimation of crowd density by clustering motion cues | |
Abbas et al. | A comprehensive review of vehicle detection using computer vision | |
Hu et al. | A novel approach for crowd video monitoring of subway platforms | |
Lee et al. | Low-complexity background subtraction based on spatial similarity | |
Tavakkoli et al. | A novelty detection approach for foreground region detection in videos with quasi-stationary backgrounds | |
Kim et al. | Object detection and tracking for intelligent video surveillance | |
Roy et al. | A comprehensive survey on computer vision based approaches for moving object detection | |
Socek et al. | A hybrid color-based foreground object detection method for automated marine surveillance | |
Devi et al. | A survey on different background subtraction method for moving object detection | |
Mangal et al. | Real time moving object detection for video surveillance based on improved GMM | |
Marie et al. | Dynamic background subtraction using moments | |
Tank et al. | A fast moving object detection technique in video surveillance system | |
Nicolas et al. | Video traffic analysis using scene and vehicle models | |
Ding et al. | Robust moving object detection under complex background | |
Ma et al. | Efficient visual tracking using particle filter | |
Savaliya et al. | Abandoned object detection system–a review | |
Pojage et al. | Review on automatic fast moving object detection in video of surveillance system | |
Kumar et al. | Foreground background segmentation using temporal and spatial markov processes | |
Janney et al. | A robust framework for moving-object detection and vehicular traffic density estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090123 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100817 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110201 |