JP2006216046A

JP2006216046A - ビデオのフレームのシーケンスにおける背景をモデル化するコンピュータが実施する方法

Info

Publication number: JP2006216046A
Application number: JP2006024787A
Authority: JP
Inventors: Shmuel Avidan; シュミュエル・アビダン; Qiang Zhu; キアング・ズ
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2005-02-01
Filing date: 2006-02-01
Publication date: 2006-08-17
Also published as: US20060171594A1; US7373012B2

Abstract

【課題】コンピュータが実施する方法は、ビデオのフレームのシーケンスにおける背景をモデル化する。
【解決手段】各フレームに対し、本方法は、フレームのピクセルのアレイを使用して静止コーナを検出し、各静止コーナに対し、その静止コーナの周囲のピクセルの窓から特徴を抽出する。各静止コーナに対し、対応する特徴から記述子を確定する。各静止コーナ及び対応する記述子をメモリに格納し、記述子に従って各静止コーナを背景又は前景として分類することによりビデオの背景をモデル化する。
【選択図】図１

Description

この発明は、包括的にはビデオ処理に関し、特に背景をモデル化しビデオにおけるオブジェクトを検出することに関するものである。

多くのコンピュータビジョン及びビデオサーベイランスアプリケーションでは、動きオブジェクト、例えば種々の環境における歩行者、車両又は関心事象を特定しようとする。通常、まず、著しい動きの検出を実行する。動き検出では、移動している「前景」オブジェクトを他の点では普通は静止している「背景」において識別する。この段階を、「前景検出」又は「背景差分」と呼ぶことが多い。ピクセルレベルでモデルを更新する種々のタイプの背景モデルを使用する複数の技法が知られている。

所定期間にわたって、静止背景における個々のピクセルの強度値は、通常、正規分布に従う。このため、かかる統計的分布を表す妥当なモデルは、単一ガウスモデルである。これについては、C.R. Wren、A. Azarbayejani、T.J. Darrell及びA.P. Pentland著、「Pfinder: Real-time tracking of the human body」、PAMI, 19(7), pp.780-785, July 1997を参照されたい。

照明状態の変化により影が変化する背景等、動的背景におけるピクセル強度値の時間的な変化を正確にモデル化するためには、単一ガウスモデルは不適当であることが多い。ピクセルレベルで動的背景を記述するために複数のモデルを使用することは、背景モデル化における進歩であった。特に、ガウス分布の混合を採用する方法は、近年、多数の関連技法に対する一般的な基礎となった。

３つのガウス成分の混合を使用して、各ピクセルの視覚的特性をモデル化することができる。これについては、N. Friedman及びS. Russell著、「Image segmentation in video sequences: A probabilistic approach」、Thirteenth Conference on Uncertainty in Artificial Intelligence, August 1997を参照されたい。そのモデルはまた、期待値最大化（expectation-maximization）（ＥＭ）プロセスを使用して、所定期間にわたってガウス混合モデル（Gaussian Mixture Model）（ＧＭＭ）を学習する。目標交通監視アプリケーションでは、各ピクセルの強度値を３つの仮定、すなわち、道路、影及び車両に限定する。不都合なことに、その単純な仮定により、個々のピクセルに対し任意分布をモデル化するＧＭＭの能力が大幅に低下する。さらに、その方法は、計算的に費用がかかる。

別の技法は、可変数のガウス成分を含むガウス分布の混合として各ピクセルをモデル化する。これについては、W.E.L. Grimson、C. Stauffer、R. Romano及びL. Lee著、「Using adaptive tracking to classify and monitor activities in a site」、CVPR'98, 1998を参照されたい。それらのモデルを、近似を使用してリアルタイムに更新することができる。そのビデオサーベイランスシステムは、昼夜のサイクルに対し、且つ長期間にわたるシーンの変化に対して頑強であることが分かった。しかしながら、水上のさざなみ、海の波又は動いている草木等、非常に急速な変動を呈する背景の場合、そのモデルにより、分布が、長いビデオシーケンスにわたり大きく分散する可能性がある。このため、前景オブジェクトを検出する感度が大幅に低下する。

かかる困難な状況に対処するために、ノンパラメトリック技法が開発された。それら技法は、カーネル密度を使用して、複数の最近取得されたサンプルに基づき、各ピクセルにおける背景特性を推定する。それら技法は、急速な背景変化に適合することができる。これについては、Elgammal、D. Harwood、L.S. Davis著、「Non-parametric model for background subtraction」、ECCV 2000, June 2000を参照されたい。その方法は、密度推定に対し正規カーネル関数を使用する。このモデルは、長いビデオシーケンスにわたる最近のサンプル値の履歴を表す。

別の類似する技法は、適応的密度推定の目的で可変バンド幅カーネルを強調する。別の特徴として、オプティカルフローを使用することができる。これについては、Anurag Mittal、Nikos Paragios著、「Motion-based background subtraction using adaptive kernel density estimation」、CVPR 2004, Volume 2, pp.302-309, June 2004を参照されたい。

効果的な背景モデル化を扱う他の技法を、予測方法として類別することができる。予測方法は、過去の観測に基づき、時系列としてピクセル強度変化を扱い、時間モデルを使用して次のピクセル値を予測する。予測された値と実際の観測との間のずれを使用して、予測モデルのパラメータを調整することができる。

他の方法は、フィルタを使用する。たとえば、カルマン（Kalman）フィルタは、各ピクセルの動的特性をモデル化することができる。これについては、Dieter Koller、Joseph Weber及びJitendra Malik著、「Robust multiple car tracking with occlusion reasoning」、ECCV'94, May 1994を参照されたい。カルマンフィルタ、たとえばウィーナ（Weiner）フィルタの簡単なバージョンは、ピクセル強度値の最近の履歴に基づいて確率的予測を行うことができる。

自己回帰モデルは、類似するテクスチャのシミュレーションの目的で動的シーンの特性を取り込む。これについては、G. Doretto、A. Chiuso、S. Soatto、Y.N. Wu著、「Dynamic textures」、IJCV 51(2), pp.91-109, 2003を参照されたい。その方法は、動的背景のモデル化を扱うように、且つビデオサーベイランスにおける前景検出を実行するように改良された。これについては、Antoine Monnet、Anurag Mittal、Nikos Paragios、Visvanathan Ramesh著、「Background modeling and subtraction of dynamic scenes」、ICCV'03, p.1305, October 2003並びにJing Zhong及びStan Sclaroff著、「Segmenting foreground objects from a dynamic textured background via a robust Kalman Filter」、ICCV'03, pp.44-50, 2003を参照されたい。困難なサンプルビデオによっては優れた結果が得られたが、かかる自己回帰モデルを使用する計算コストは高い。

一般に、ピクセルレベルの背景モデル化には、２つの主な不都合がある。第１に、それらのモデルの計算複雑性は本質的に高い。各ビデオフレームにおいてすべてのピクセルを処理しなければならない。多くの困難な動的シーンにおいて、複数の異なる周波数成分には、所定期間にわたって単一ピクセルにおける動きの再発するパターンを正確に取り込むために、多くのガウス分布を含むモデルか又は非常に複雑な予測モデルが必要である。検出精度と計算コストとの性能トレードオフは、常に、ピクセルレベルの背景モデルの選択における困難な決断である。

第２に、個々のピクセルにおける強度値は、雑音によって非常に容易に影響を受ける。本質的に、ピクセルレベルのモデルに欠けているものは、何らかのより高レベルの情報であり、それは、より頑強であり且つフレームの領域又はさらにはフレーム全体から導出することができるものである。

１つの方法は、高レベルモジュールからのフィードバックを組み込むことにより、ガウスモデルのピクセルレベル混合を導こうとする。これについては、M. Harville著、「A framework for high-level feedback to adaptive, per-pixel, Mixture-of-Gaussian background models」、ECCV'02, vol.3, pp.543-560, May 2002を参照されたい。しかしながら、その枠組の基礎は、依然としてピクセルレベルの背景モデルである。

したがって、ビデオにおいて高レベル情報を考慮する背景モデル化が必要とされている。

本発明は、コーナベースの背景モデルを提供する。本発明による方法は、水上のさざなみ、風で波打つ木及び照明の変化等、時間で変化する背景から実際の動きオブジェクトを識別し検出する。

原則として、本方法は３つのステップを有する。各ビデオフレームに対し、ハリス（Harris）コーナ検出器（corner-detector）を使用してコーナを検出する。そして、各コーナの周囲の局所窓内で、複数の特徴を抽出する。それら特徴は、コーナを特定し且つ記述する。それら特徴から、動的背景モデルを構築し且つ維持する。

モデルは、各コーナを、背景又は前景のいずれかとして分類する。さらに、空間的及び時間的相間を使用して、不正確に分類される前景コーナの数を低減することができる。

本発明によるコーナベースの背景モデルは、前景オブジェクトの検出において、従来技術によるピクセルベースの背景モデルより高い精度を達成する。さらに、従来のピクセルレベルモデルを使用する方法より高いフレームレートでビデオを処理することができる。

図１に示すように、本発明によるコンピュータが実施する方法１００は、ビデオ１０１におけるフレームのシーケンスの背景をモデル化する方法１００を提供する。本モデルを使用して、ビデオにおける動きオブジェクト１４５を検出することができる。

本方法は、連続的なフレームの対から動き画像１１１を生成する１１０。ビデオフレーム及び動き画像においてコーナ１２１〜１２２を検出する１２０。コーナを、ハリスコーナ検出器の拡張であるプロセスによって検出する。これについては、参照により本明細書に援用されるC. Harris及びM. Stephens著、「A combined corner and edge detector」、Fourth Alvey Vision Conference, pp.147-151, 1988を参照されたい。

各静止コーナ１２１の周囲の近傍ピクセルの局所窓から、特徴１３１を検出する１３０。特徴１３１及び静止コーナ１２１を使用して、コンピュータシステムのメモリ１４３に格納されるモデル１４１を構築し維持する１４０。モデルは、各静止コーナ１２１を、背景コーナ又は前景コーナのいずれかとして分類する。分類されたコーナは、本発明による背景モデルを構成する。

さらに、動きコーナ１２２による時空間フィルタリング１５０を使用して、不正確に特定される前景コーナの数を低減する。したがって、本方法は、入力ピクセルのすべてに基づくのではなく、代りに少数のコーナに基づいて、高レベル背景モデルを提供する。このように、背景モデル１４１は、従来技術によるピクセルベースの背景モデルに比べて非常に疎である。

コーナ検出
コーナ検出は、動き追跡、オブジェクト認識及びステレオマッチングを含むさまざまなビジョンアプリケーションにおける重要なタスクである。背景モデル化及び動き検出に対してコーナ検出を適用することができるためには、２つの特定の問題に対処する必要がある。すなわち、静止背景領域に対応する抽出された特徴は、所定の時間にわたって一貫していなければならず、リアルタイムアプリケーションに対する性能要件及び妥当なフレームレート、たとえば３０フレーム／秒（ｆｐｓ）を上回るフレームレートを満たすための計算コストを最小限にしなければならない。

ハリスコーナ検出器の定義
Ｉ（ｘ，ｙ）が強度画像である場合、行列

は、ピクセル強度画像における下位窓内の画像勾配から局所自動相関を指定する。局所点における行列Ｍの２つの固有値が大きい場合、コーナが検出される。２×２行列Ｍの場合、より時間のかかる固有値計算に取って代るより効率的な計算のために、以下のようにコーナ応答関数を定義することができる。

ここで、ｄｅｔは、行列Ｍの行列式であり、ｋはパラメータ、たとえば０．０４であり、正方行列のｔｒａｃｅは、対角要素の合計である。コーナは、式（２）の値Ｒの局所最大値として特定される。サブピクセル精度技法は、コーナの位置を精緻化することができる。

動き情報によるコーナの検出
単一フレームのコーナは、静止情報のみを取り込む。ビデオアプリケーションの場合、動き情報を取り込む自然な方法は、従来の２Ｄ画像コーナ検出器を３Ｄの時空間コーナ検出器に拡張することである。かかる拡張は、可能であるが、各ピクセル位置に対する３×３行列の固有値計算が極めて時間がかかるため、リアルタイムアプリケーションには実際的でない。

したがって、本発明は、従来のハリスコーナ検出器より大幅に低い計算コストで、静止情報及び動き情報の両方を取り込むコーナを検出する効率的な方法を提供する。

特に、動き画像１１１を生成する１１０。各動き画像１１１は、入力ビデオ１０１における２つの連続的なフレーム間の差である。そして、各動き画像１１１に２Ｄハリスコーナ検出器を適用する１２０ことにより、動きコーナ１２２もまた検出する。動き画像１１１において特定される各動きコーナは、各フレームにおける著しい動きのある位置を示す。従来技術は、静止コーナ１２１のみを検出する、ということが留意されるべきである。

本方法は、以下の発見的手法を適用することにより、動きコーナ１２２を検出する。式（２）の閾値Ｒを、検出される動きコーナ１２２の数を制限するように調整することができる。シーンによっては、小さい領域内に多数の「強い（strong）」動きコーナが位置する場合がある。隣接する動きコーナの任意の対の間の最短距離を、小さい領域内に非常に多くのコーナを検出しないようにすることができる。原則的に、各動きコーナは、前景オブジェクトである可能性のあるものを暗示し、それはさらに確認する必要がある。この確認を、コーナベースの背景モデルを使用して行う。

各フレームの解像度が３５２×２４０である好ましい実施形態では、各フレームに対し約２００〜３００までの静止コーナ１２１を保持し、各動き画像に対し約１０〜３０の動きコーナ１２２を保持する。最短距離を、任意の２つの静止コーナ間を５ピクセルに制限し、任意の２つの動きコーナ間を１５ピクセルに制限する。

自然なシーンのほとんどの画像では、静止コーナは、動いている葉及び建物等、テクスチャ及びエッジが豊富なエリアに現れる。空及び道路等の同種の特徴の場合、静止コーナはほとんど発生しない。コーナを使用して、高レベル背景モデル１４１を構築し且つ維持し１４０、それを使用して、現フレームにおいて検出されたすべてのコーナを２つのカテゴリ、すなわち背景又は前景に分類することができる。

ほとんどのビデオサーベイランスアプリケーションの場合、前景における動きオブジェクトの数は通常少ないため、方法１００は、最強の動きエリアに対応する少数の動きコーナ１２２のみを保持する。

ピクセルレベルのモデルに対するコーナベースのモデルの重要な利点は、モデル１４１を構築し維持するプロセスに対して計算コストが実質的に節約されるということである。３５２×２４０解像度ビデオシーケンスに対し、ピクセルレベルの背景モデルを使用する場合、各フレームにおいて約１００，０００ピクセルを処理する。コーナベースの背景モデルでは、２００〜３００までのコーナのみを考慮すればよい。

コーナの局所記述子
各コーナの記述子は、正確なコーナ特定及びコーナの分類に役立つ。安定した局所特徴表現は、オブジェクト認識及びパターンマッチング等の多くのコンピュータビジョンアプリケーションの基本的な要素である。理想的には、コーナの記述子が、関心のある１つのコーナを他のコーナから確実に識別すべきである。記述子は、正確であり、且つわずかな変動及び照明変化の影響を受けにくくなければならない。

D.G. Loweが、複数の記述子について述べている。これについては、「Object recognition from local scale invariant features」、ICCV'99, September 1999を参照されたい。スケール不変特徴変換（scale invariant feature transform）（ＳＩＦＴ）は、最高の性能を有し、一般的な画像変形による影響を受けにくい。ＳＩＦＴ記述子は、局所近傍における画像勾配の方向のヒストグラム表現に基づく。

特に、各々８つの方向ビンがある４×４グリッドのヒストグラムが、コーナの周囲の画像パッチの粗い空間構造を有効に符号化する。そして、結果としての１２８次元ベクトルを単位長に正規化する。

以下は、ＳＩＦＴ記述子の特徴のうちのいくつかである。ガウス重み関数を使用して、各ピクセルに重みを割り当てる。この場合、コーナから遠いピクセルほど重みに対して影響を与えない。ガウス関数は、境界効果を低減する。すなわち、位置が徐々に変化することにより、記述子は急に変化しない。

記述子は、４×４サンプル領域を使用することによりわずかな局所化誤差を許容する。コーナの位置は正確に特定されないため、所定期間にわたり位置がわずかに変動する可能性があることは避けられない。これにより、ビデオシーケンスにおける同じ背景オブジェクトに対応するフレームのシーケンスにおけるコーナに対し不安定な表現がもたらされる可能性がある。４×４サンプル領域にわたってヒストグラムを使用することにより、かかる悪影響が有効に軽減される。

非線形な照明の変化により、傾斜によっては大きさが大きくなる可能性がある。しかしながら、かかる変化は、傾斜の方向を変化させる可能性は低い。したがって、傾斜の大きさを、単位特徴ベクトルにおけるそれらの値を閾値処理することによって制限する。たとえば、各特徴値を０．２まで制限する。

従来技術によるＳＩＦＴ記述子は、画像マッチングアプリケーションに対して開発された。そこでは、同じオブジェクトに対応する点を、異なるスケール及びビューの下で画像から抽出する。このため、その記述子は、スケーラブルであり且つ回転不変である必要がある。

対照的に、ここでの要件は極めて異なる。動きオブジェクト検出の場合、背景の同じ位置から抽出されるコーナは、所定期間にわたり同じスケール及び回転の下にある。したがって、従来技術によるＳＩＦＴ記述子を構築する際の高計算コストの主な原因であるマルチスケール実施態様及び方向位置合わせを行う必要がない。

各コーナの周囲に、局所８×８窓を定義する。そして、各窓内の傾斜の方向及び色情報を抽出して、２５６次元特徴ベクトルを形成する。

ここで、方向は、最初の１２８ビンから成り、正規化された赤及び緑の色値は各々６４ビンから成る。

この記述子は、個々のピクセル値より明らかに優れたコーナの局所近傍に関する関連情報を含む。その結果、各コーナに、約２５６次元特徴ベクトルの形式で記述子を割り当てる。

コーナベースのモデル化及び分類
次のステップでは、有効な動きオブジェクト検出のために所定期間にわたって背景モデル１４１を構築し維持する。

モデルの構造
ピクセルベースの背景モデルでは、個々の画像各々を、要素の２次元行列によって表すことができ、各要素は、対応する画素の変化の履歴を記録する。ガウスパラメータ又は予測モデルの特性等、この行列に格納される正確な情報は、使用される特定のモデルによって決まる。

原則として、コーナベースのモデル１４１は、２つの点でピクセルベースのモデルとは異なる。第１に、コーナベースのモデルの場合、画像行列は概して非常に疎である。大部分のエントリが空である。その位置にコーナが発生する場合にのみエントリが追加される。第２に、特定の位置において所定期間にわたり検出されたコーナを監視するために、各行列エントリに対してより多くの情報が維持される。

図２に示すように、コーナベースのモデル１４１における各行列エントリ１４２は、以下のデータを含む。

頻度：フレームの特定の位置においてコーナが検出されると、頻度カウントをインクリメントする。さらに、所定期間にわたりコーナが現れない場合、頻度を低減することにより、先のフレーム、すなわち過去の影響を徐々に低減する。すなわち、フレームにコーナが検出されない場合、頻度をデクリメントする。

平均：所定期間にわたって同じ位置に発生するコーナに対し、２５６次元記述子の平均ベクトルを生成する。この平均ベクトルは、背景における特定の位置の情報を簡潔に符号化する。この平均ベクトルを使用して前景コーナを特定する。

相関：コーナの対の間で相関を定義する。この相関の平均及び分散もまた所定期間にわたって監視する。低相関は、コーナの対が前景オブジェクト１４５に関連する可能性が高いことを示す。分散を使用して、コーナ分類における適応的閾値を適用する。

以下の論考において、この２次元行列は、コーナベースの背景モデル（Ｍ）１４１を表す。各モデルエントリＭ（ｘ，ｙ）は、所定の期間にわたって検出されたコーナの履歴を記録する。エントリ１４２は、頻度、平均、相関・平均、相関・分散を含む４タプルベクトルＮである。

一対の２５６次元ベクトル間の相関を次のように定義する。

ここで、Ｕ及びＶは２５６次元ベクトルの対である。２つのベクトルが同一である場合、値１の最大相関となる。

モデルの構築
図２に示すように、背景モデル化及びコーナ分類に対し、１組の静止コーナ１２１及び関連する記述子（特徴）１３１を使用する。

位置（ｘ，ｙ）における各検出された静止コーナＣ１２１に対し、位置（ｘ，ｙ）の周囲の局所５×５窓を定義する２１０。

この局所窓において、モデルＭ１４１に対し、検討中のコーナと最大相関を有する平均記述子を有するエントリ１４２を探索する２２０。かかるエントリＭ（ｘ’，ｙ’）がある場合はステップ２４０に進み、ない場合はステップ２３０に進む。

モデル１４１の新たなエントリ１４２を生成し２３０、ステップ２６０に進む２６０。

上述したような相関値に基づいてコーナを背景又は前景として分類する２４０。コーナが背景である場合はステップ２５０に進み、そうでない場合はステップ２６０に進む。

現観測、すなわち、検出されたコーナＣの局所近傍を使用して、エントリＭ（ｘ’，ｙ’）のパラメータ（頻度、平均、相関・平均、相関・分散）を更新し２５０、次のコーナを処理する。

エントリＭ（ｘ，ｙ）に対し頻度を低減する２６０。頻度が０である場合、モデルＭからエントリを削除し、次のコーナを処理する。

モデルのエントリの位置とコーナの位置との間の直接マップを使用する代りに、プロセスは局所５×５窓を使用して、検討中のコーナに最も一致するエントリを探索する。背景コーナのみを使用してモデルを更新する。この設計により、海の波、照明の変化及び風で波打つ木等の困難な動的シーンに対してモデルを使用することができる。

時空間フィルタリング
本発明によるモデルにより、「現実の」動きオブジェクトに「付着された」前景コーナは、空間的且つ時間的に強く相関する。言い換えれば、ビデオシーケンスにおける動きオブジェクトを、いくつかの局所的な観測の結合、すなわち前景コーナのクラスタとして見なければならない。

前景コーナの分類誤りを最小限にするさらなる方法は、数フレーム内の各ピクセルの周囲の前景コーナの数をカウントし、その後かかる情報を使用して、カウントが所定閾値カウントを下回る場合に間違った前景コーナをさらにフィルタリングして除去する、というものである。

上述したような動きコーナは、ビデオシーケンスにおける動きオブジェクトである可能性のあるものの位置を示す。性能を向上させるために、動きコーナ１２２が存在する領域のみを考慮する。

したがって、以下の時空間フィルタリング１５０を実行する。５つの連続的なフレームの各動きコーナの周囲に１０×１０矩形を配置し、すなわち、３Ｄブロックフィルタは１０×１０×５ピクセルである。他の値もまた可能であり得る。フィルタ内の前景画像コーナの数が所定閾値を上回る場合、動きオブジェクト１４５を検出する。そうでない場合、フィルタの前景コーナのすべてを背景コーナとして分類する。プロセスにおいてカウントが通常非常に小さい動きコーナのみを考慮するため、このフィルタリングステップは非常に効率的である。

発明の効果
動的テクスチャは、時空間領域において繰返しパターンを呈することが多い。したがって、従来の技法は、これらのパターンを「ピクセルプロセス」を用いてモデル化する。すなわち、個々のピクセルの値を所定期間にわたって分析する。しかしながら、個々のピクセルの値は、画像雑音に対してより脆弱である。

本発明によるコーナベースの方法は、以下の点で従来のピクセルベースの技法とは異なる。ピクセルの局所近傍を使用して背景を表す。

時間的な変化の繰返しパターンを利用する代りに、本発明による方法は、空間領域における繰返し変化を使用する。動的シーンの特定の位置に対し、所定期間にわたって検出されたコーナは、空間領域においてわずかに変動することが多い。たとえば、風で波打つ木の葉は、前の／将来のフレームで観測される位置から数ピクセルの偏差で異なる位置に現れる可能性がある。

したがって、本発明は、モデルエントリの位置とモデルを構築するために使用されるコーナ位置との間を直接にマップしない。代りに、局所５×５窓を定義することにより、検討中のコーナに最も一致するモデルエントリを探索する。

コーナベースの背景モデルは、動的シーンをモデル化する際のその有効性に加えて、非常に効率的である。表Ａは、Grimson他の多重ガウスモデルと、Mittal他による密度推定と、Zhong他によって説明されるような自己回帰移動平均と、本発明によるコーナベースのモデルとを比較する。

本発明を、好ましい実施形態の例を用いて説明したが、本発明の精神及び範囲内で他のさまざまな適応及び変更を行ってもよい、ということを理解すべきである。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲内にあるかかる変形及び変更をすべて包含することである。

本発明によるコーナベースの背景モデルを生成する方法のフローチャートである。モデルを構築し且つそのモデルを維持するプロセスのフローチャートである。

Claims

ビデオのフレームのシーケンスにおける背景をモデル化するコンピュータが実施する方法であって、各フレームはピクセルのアレイを含み、
各フレームに対し、前記ピクセルのアレイを使用して静止コーナを検出すること、
各静止コーナに対し、前記静止コーナの周囲のピクセルの窓から特徴を抽出すること、
各静止コーナに対し、対応する特徴から記述子を確定すること、
各静止コーナ及び対応する記述子をメモリに格納すること、
及び
前記記述子に従って各静止コーナを背景又は前景として分類して、前記ビデオの背景をモデル化すること
を含む、ビデオのフレームのシーケンスにおける背景をモデル化するコンピュータが実施する方法。
連続するフレームの各対を減算して、動き画像を生成すること、
各動き画像に対し動きコーナを検出すること、
及び
前記動きコーナに従って前景コーナを空間的且つ時間的にフィルタリングすることをさらに含む
請求項１記載の方法。
ハリスコーナ検出器が、前記静止コーナ及び前記動きコーナを検出する
請求項２記載の方法。
静止コーナの数は、動きコーナの数のおよそ１０倍である
請求項２記載の方法。
任意の２つの静止コーナ間の最短距離は約５ピクセルであり、任意の２つの動きコーナ間の最短距離は約１５ピクセルである
請求項２記載の方法。
各静止コーナの前記特徴は、２５６次元ベクトルを形成する
請求項１記載の方法。
前記ベクトルを単位長に正規化することをさらに含む
請求項６記載の方法。
前記特徴は、前記窓における前記ピクセルの勾配の方向及び色を含む
請求項１記載の方法。
前記記述子は、前記コーナが連続したフレームの特定の位置で発生する頻度を含む
請求項１記載の方法。
前記頻度は、前記コーナが後続するフレームにおいて検出されない場合に所定期間にわたって低減する
請求項９記載の方法。
前記記述子は、所定時間にわたる前記記述子の平均を含む
請求項９記載の方法。
一対の記述子間の相関を確定することをさらに含む、
前記相関は、平均及び分散を含み、比較的低い相関は、特定の静止コーナが前記前景として分類されることを示す
請求項９記載の方法。
前記コーナを分類するために前記分散に従って閾値が適用される
請求項１２記載の方法。
前記相関は、

であり、Ｕ及びＶは前記一対の記述子である
請求項１２記載の方法。
前記２つの記述子が同一である場合、前記相関は１である
請求項１４記載の方法。
前記フィルタリングすることは、ピクセルのブロックにおける動きコーナの数をカウントし、前記カウントが所定閾値カウントを下回る場合に前記動きコーナを削除し、そうでない場合に動きオブジェクトを示す
請求項２記載の方法。