JP2009545223A

JP2009545223A - イベント検出方法及び上記方法を用いたビデオ監視システム

Info

Publication number: JP2009545223A
Application number: JP2009521364A
Authority: JP
Inventors: ジャンバティスタ・ジェンナーリ; ジョルジョ・ラッカネリ; ルッジェーロ・フレッツァ; アンジェロ・チェネデーセ; エンリコ・カンパーナ
Original assignee: Videotec SpA
Current assignee: Videotec SpA
Priority date: 2006-07-27
Filing date: 2007-07-20
Publication date: 2009-12-17
Also published as: EP1908016B1; CA2658020A1; CN101501729A; ATE472142T1; BRPI0714646A2; WO2008012631A1; DE602007007267D1; RU2009106852A; US20090310855A1; EP1908016A1; ITTO20060556A1

Abstract

ビデオ監視システムのためのイベント検出方法と、関連したビデオ監視システムを開示する。本方法は、検出可能なイベントが存在しない複数の異なる時点において監督されるエリアに係る複数の学習画像を取得する学習フェーズと、上記エリアの現在の画像を取得する動作検出フェーズとを含む。本方法は、各学習画像を近似するか又は各学習画像に一致する複数の基準画像にてなる線形結合に対応する画像に対して、現在の画像を比較することにより、イベントの検出を行う。

Description

本発明は、請求項１の前段に記載のイベント検出方法に関し、また上記方法を用いたビデオ監視システムに関する。

本願において、用語「ビデオ監視システム」とは、少なくとも１つの画像取得装置を用い、かつある監督されるエリアから複数の画像にてなるシーケンスを取得できる監視システムを示す。

一般に、既知のビデオ監視システムは、異常なイベント（事象）が発生したときにアラームを発生することができるイベント検出システムを含む。

既知のシステムの一部では、ビデオ信号中の２つのフレームや、あるカメラにより異なる時点で撮影された２つの画像のような、２つの連続した画像の画素における輝度の変動（ユーザによって定義された所定のしきい値を超えるもの）が検出されるにすぎない。

このようなシステムに存在する欠点は、例えば移動する雲もしくは水面の反射に起因する突然の光の変動や、又は監督されるエリア内における自然な運動（例えば、風によって動く木の枝や、又は許可を受けて通りを通過する自動車）がいくつもの偽アラームを発生させうるということにある。

これらの欠点を克服するために、学習フェーズを備えたビデオ監視システムが知られている。この学習フェーズでは、システムは、監督されるエリアのモデルを、正常な状況において、すなわちアラームが発生させられるはずのない状況において構築する。動作フェーズ中において、撮影された画像の画素は、モデルの画素と比較される。画素の差分が、オペレータによって定義された所定のしきい値を超えたとき、アラームが発生される。

監督されるエリアの正常な状況に関するモデルを作成したとしても、アラームを発生させるには単一の画素がモデルから相違しているだけで十分なので、取得された画像とモデルとを画素毎に比較することの有効性はしばしば損なわれる。

これにより、多数の偽アラームが発生することになる。

偽アラームが発生する問題は、いくつかの既知の方法（特許文献１）によって取り組まれ、これらは事実上、学習フェーズ中に（例えば監視下の場面における自然な運動に起因して）強度の変動を示す画素を検出から減ずる。

このようなあまり有効ではない方法は、（特許文献１におけるように）ワークステーションにおけるプレゼンス検出のような、選ばれた状況下でのみ使用可能である。

特許文献２によって開示されるもののような、より高度な他の方法では、まず、（関連した平均及び分散を有する）各画素の静的なモデルの作成を準備し、続いてイベント検出フェーズ中に、検出された物体／人物の画像を外挿して、それを、許可された物体のモデルにてなる集合に対して比較する。

しかしながら、この方法には、場面のモデル及び許可された複数の物体のモデルを格納するために使用可能な大量のメモリを必要とし、また、検出された物体を許可された物体に対して比較することで画像全体を実時間で解析するために大きな計算パワーを必要とするという欠点がある。

米国特許第５，８９２，８５６号明細書。米国特許出願公開第２００４／０２４６３３６号明細書。

既知のすべての方法に共通する問題点は、２つの連続したフレームにおける画素の輝度又は色差がオペレータにより定義された所定のしきい値を超えたときにアラームが発生されるという事実に起因する。この結果として、システムの効率はオペレータの技能に依存することになり、このことは、オペレータが熟練者でないときに問題となる。

本発明の主な目的は、従来技術の欠点を克服し、特に、偽アラームの回数を低減しかつ好ましくは使用可能なメモリ及び計算パワーに関して高性能を必要とすることなく、より効率的なイベント検出を行うことができるビデオ監視システム及びイベント検出方法を提供することにある。

本発明のさらなる目的は、高度に自動化されたシステムであって、ある画素の正常な変動をアラーム条件から区別しなければならないときの基準となる誤差しきい値を自動的に計算できるシステムを提供することにある。

本発明の目的はまた、メモリ使用を最適化することができ、学習フェーズ中に監督されるエリアに存在する動的変化に依存して計算複雑度を変化させることができるビデオ監視システム及びイベント検出方法を提供することにある。

本発明の上記目的及び他の目的は、本明細書と一体と考えられる添付の請求の範囲に記載のビデオ監視システム及び方法によって達成される。

本発明は、現在の画像の各画素を１つずつ、基準画像の各画素又は画素モデルに対して比較するという従来のアプローチをやめるという着想に基づいている。

特に、本発明は、画像の複数の領域、すなわち複数の画素にてなる複数のグループを考慮し、これによりイベントを検出するときに画素間の相関も考慮することを目的とし、この結果、偽アラームの回数を低減することができる。

本発明に係るビデオ監視システムは、監督されるエリアの画像を取得し、当該画像の領域を１つずつ、正常な状況を表す各「モデル」に対して比較する。当該モデルは、学習フェーズ中に取得される複数の画像であって、監視下の場面の正常な状況に関する複数の画像にてなる空間の形式で構築される。

画像又は領域は画像ベクトルのように取り扱われ、正常な状況からのその差分は、正常な状況において監督されるエリアの「モデル」を表す複数の画像にてなる空間への画像ベクトルの投影誤差として測定される。

「モデル」は、学習フェーズ中に正常な状況下にあるエリアを撮影することで取得された複数の画像にてなる集合に基づいて構築される。

学習フェーズは、モデル検証フェーズを含んでもよく、これは実質的に、動作検出フェーズのシミュレーションに存する。検証フェーズでは、学習フェーズ中に取得された正常な状況下の場面の複数の画像を用い、構築されたばかりのモデルの良否をチェックする。

イベントを検出するために、本発明に係る方法は、特に、主成分分析（ＰＣＡ）の特性を利用する。

有利なことには、本方法はまた、取得される画像の情報内容の適切な削減を行い、これにより、場面内で発生する小さな現象を無視して偽アラームの回数を低減する。

本発明のさらなる目的及び利点は、以下の詳細な説明及び添付の図面から明らかになるであろう。

本発明の実施形態に係るビデオ監視システムを示す図である。本発明に係るビデオ監視システムによって取得された画像に対して行われる処理のブロック図である。本発明に係るビデオ監視システムによって取得された画像に対して行われる処理のブロック図である。取得されて複数の領域に分割された画像を示す図である。イベント検出の例を示す図である。投影誤差を評価することによるイベント検出の概念を示す図である。

図１はビデオ監視システム１を示す。モニタ３を通じて、オペレータ２は、画像取得装置５によって取得された画像６を監視する。

図１において、画像取得装置は、出力ビデオ、すなわち複数の画像にてなる連続シーケンスを提供することができるビデオカメラである。ただし、本発明の目的のためには、ビデオカメラは、他の任意の等価な手段、例えば定期的な時間間隔で画像を取得するようにプログラミングされたディジタルカメラで置き換え可能であるということが理解されよう。

従って、ある画像は、ビデオカメラによって取得されたビデオ信号の１つもしくは半分のフレーム、ディジタルカメラによって取得された静止画像、ＣＣＤセンサの出力、又はより一般的には上記のものの一部に対応するものであってもよい。

よく知られたように、ディジタル画像又はアナログ画像は、画素、すなわち画像の基本構成要素に分解することができる。

従って、各画像には、アナログビデオ信号の電圧値又は画素の輝度もしくは色値を要素とする１つ又は複数の行列を関連付けることが可能である。

カラービデオカメラが使用されるとき、取得される画像は３次元行列に対応し、ここで、行列の各要素（すなわち各画素）は、ＲＧＢ信号の値に対応する３つ組の値に対応する。

グレースケール画像では、行列の各要素は、対応する画素のグレー値に対応する値に関連付けられる。

本明細書の説明では、画像行列の関連づけは明示的にはしないが、以下、例えば画像の行及び列を参照する。

再び図１を参照すると、ビデオカメラ５は、あるエリアの撮影、この特定の場合では廊下の撮影を行ってビデオ信号を送り、ビデオ信号はモニタ３上に表示されることができる。

本発明によれば、監視システム１は、ビデオカメラ５によって取得された画像に基づいてイベントを検出することができる画像処理装置４を含む。

図１において、画像処理装置４は、ビデオカメラによって送られたビデオ信号を受信して処理し、画像をモニタに表示するために、ビデオカメラ５及びモニタ３に接続された電子計算機として表されている。

好ましい実施形態では、画像処理装置４はビデオサーバであり、すなわち、画像取得装置からビデオ信号を受信し、本発明の方法に従ってそれを処理し、接続された１つ又は複数の端末にビデオ信号を転送する数値計算機である。端末は、特に、オペレータのワークステーションである。

当然ながら、他の多くの方法が同様に可能であり、例えば、画像処理装置４はビデオカメラ５に組み込まれていてもよく（このような場合、これは画像取得装置及び画像処理装置を含む）、これはモニタ３に、直接接続又はビデオスイッチを介した接続のいずれかで接続される。

画像処理装置４は、以下に説明するイベント検出方法を実施することができるコード部分を含むソフトウェアを備える。

上記方法によれば、学習フェーズが設置時に少なくとも１回実行され、ここで、システムは、監視下の場面の、正常な状況における「モデル」を構築する。

ただし、上記方法によれば、学習フェーズは、異なる環境条件下（光、交通など）で数回繰り返されることの利益を受けてもよい。これにより、１つ又は複数のモデルを構築することが可能になる。

例えば、例えば、いくつかのモデルが、１日のうちの異なる時刻に構築されてもよい。この場合、所定の時刻に取得された画像は、その時刻の有効なモデルに対して比較される。

正常な状況において、すなわち検出可能ないかなるイベントも存在しない場合において、オペレータ２はソフトウェア学習フェーズを開始し、ここで、監督されるエリアの複数の画像が取得され、これらを以下では「学習画像」と呼ぶ。

以下に説明する好ましい実施形態では、取得される画像は、ビデオカメラ５によって生成されるビデオ信号のフレームに対応する。

このフェーズ中において、取得される複数の画像が互いに相違するように、例えば木の葉、又は場面の背景で通りを移動する乗り物のような、移動する物体を撮影することができる。

従って、モデルは、監視下の場面を、動的に変化する状況において、いかなるイベントの検出もなしに表すことができる。

図２ａに示すように、イベント検出方法の学習フェーズにおける最初のステップは、ビデオカメラによって取得されたビデオ信号２０１に基づくＮ個のフレームＦ_１，…，Ｆ_Ｎにてなる集合を選択することである（２０２）。好ましくは、これらのフレームに対しては所定の画像処理演算が実行され、例えば、取り扱われるデータのサイズを削減するためにグレースケール変換（２０３）が実行され、可能であれば追加的又は代替的に、検出されるべきではないすべての高周波変動を除去又は平滑化するためにガウス核を用いた低域通過フィルタ処理（２０４）が実行され、これにより、取り扱われる画像の情報内容を削減し、画像の情報内容のうちの関心部分に集中して検出を行うことができる。

このように修正されたフレームは、次いで、学習バッファに挿入される（２０５）。

代替として、図２ｂに示すように、上述の画像処理ステップは、取得されたフレームの各々に対して周期的に繰り返されてもよい。この場合、最初にパラメータｎが１に設定され、画像が取得され（２０２ｂ）、これは次いで、グレースケール変換され（２０３ｂ）、低域通過フィルタによってフィルタ処理され（２０４ｃ）、バッファに格納される（２０５ｃ）。続いて、ｎの値がインクリメントされ、これらのステップは、Ｎ個の画像がバッファに格納されるまで繰り返される。

学習バッファの内容は、いったん生成されると、２つの部分に細分される。その第１のグループに含まれるフレームは「トレーニングフレーム」と呼ばれ、これらに対して主成分分析（ＰＣＡ）が実行される。その第２のグループに含まれるフレームは「検証フレーム」と呼ばれ、これらは、ＰＣＡで得られた結果を検証するために使用される。

従って、学習フェーズは、対応して、トレーニングフェーズ及び検証フェーズを含む。

好ましい実施形態によれば、トレーニングフェーズ中において、トレーニングフレームＦ_ｎの各々（本実施例において、その個数はＳである）と、好ましくは学習バッファに格納されたフレームの各々とは、予め定義されたグリッドによって、最大でＭ×Ｍ＝ｍ個の画素を有する複数の領域（すなわち好ましくは正方形又は矩形形状を有する小さな画像）Ｒ_ｉ，ｊに細分される。

その結果は、図３に示すように、各フレームから得られる複数の画像部分になる。

グリッドのサイズは、監視下の場面において発見されるべき目標物の典型的な寸法に依存する。

ここで、上記グリッドは、撮影時の視野及びオペレータの必要性に依存して設置時に設置者により設定されてもよく、さもなければ工場で予め定義されてもよい。

フレームＦ_ｎの各領域Ｒ_ｉ，ｊについて、対応する列ベクトルＩＲ_ｉ，ｊ（Ｆ_ｎ）が得られる。

ベクトルＩＲ_ｉ，ｊ（Ｆ_ｎ）は、実質的には、行列Ｒ_ｉ，ｊの要素（すなわち領域の画素の値）を漸進的に入力することによって得られ、これらは、列を左上からスクロールするときにともに生じる。従って、要素ＩＲ_ｉ，ｊ（Ｆ_ｎ）（２）は、画像Ｒ_ｉ，ｊの第２行第１列に位置する画素に対応する。

同じ領域Ｒ_ｉ，ｊの列ベクトルを並置することにより、対応する正常性行列Ｙ_ｉ，ｊ＝（ＩＲ_ｉ，ｊ（Ｆ_１），ＩＲ_ｉ，ｊ（Ｆ_２），…，ＩＲ_ｉ，ｊ（Ｆ_Ｓ））が生成される。

正常性行列の列成分は、画像のベクトル空間を生成する。

列成分は、異なる複数のインスタンス及び正常な状況における、監視下の場面のある領域に関する情報を含む。それに対して、各共分散行列の自己ベクトル（autovector）は、その主成分、言い換えるとＹ_ｉ，ｊすなわち収集された画像の列成分の分散が大きくなる方向である。

いったん行列Ｙ_ｉ，ｊが得られると、特異値分解（ＳＶＤ）が行われて、次式を満たす３つの行列Ｕ_ｉ，ｊ，Ｖ_ｉ，ｊ，Σ_ｉ，ｊが得られる。

Ｙ_ｉ，ｊ＝Ｕ_ｉ，ｊ・Σ_ｉ，ｊ・Ｖ_ｉ，ｊ ^Ｔ
ただし、
Ｕ_ｉ，ｊ＝［ｕ_１，…，ｕ_Ｓ］
Σ_ｉ，ｊ＝ｄｉａｇ（σ_１，…，σ_Ｓ）
Ｖ_ｉ，ｊ＝［ｖ_１，…，ｖ_Ｓ］

ここで、ｕ_ｉ（これは実数上のｍ次元空間に属するベクトルである）は、Ｙ_ｉ，ｊの共分散行列の自己ベクトルであり、σ_１，…，σ_Ｓは、Ｙ_ｉ，ｊの特異値である。

知られているように、ＳＶＤ分解を用いるとき、対角行列Σ_ｉ，ｊの要素は以下の関係式によって拘束される。

σ_１≧…≧σ_ｒ≧σ_ｒ＋１≧…σ_Ｓ≧０

本発明によれば、イベントの検出を最適化し、画像における関連した情報内容に集中するために、行列Ｙ_ｉ，ｊを次式の行列により近似する。

Ｙ_ｉ，ｊ ^ｒ＝Ｕ_ｉ，ｊ ^ｒ・Σ_ｉ，ｊ ^ｒ・（Ｖ_ｉ，ｊ ^ｒ）^Ｔ
ただし、
Ｕ_ｉ，ｊ ^ｒ＝［ｕ_１，…，ｕ_ｒ］
Σ_ｉ，ｊ ^ｒ＝ｄｉａｇ（σ_１，…，σ_ｒ）
Ｖ_ｉ，ｊ ^ｒ＝［ｖ_１，…，ｖ_ｒ］

ここで、Ｙ_ｉ，ｊ ^ｒを構築するために考慮される特異値の個数ｒは、所定のしきい値未満のすべての特異値を無視することによって得られる。

行列Ｙ_ｉ，ｊ ^ｒは、行列Ｙ_ｉ，ｊと同じ次元を有するが、行列Ｙ_ｉ，ｊの最初のｒ個の主成分に関する情報のみを含む。

行列Ｕ_ｉ，ｊ ^ｒの列ｕ_１，…，ｕ_ｒは、行列Ｙ_ｉ，ｊの主成分である。

しきい値を決定するために、いくつかのテストが行われているが、このようなテストに関しては、Ｙ_ｉ，ｊ（すなわち行列を構築するために使用される画像部分Ｒ_ｉ，ｊ）のエネルギーの２０％〜３０％、好ましくは２５％を無視することでＹ_ｉ，ｊの情報内容を近似したときに、良好なイベント検出を達成可能であることが示されている。

特異値に関する既知の特性に起因して、（Ｓ個の特異値を有する）行列Ｙ_ｉ，ｊの最初のｒ個の主成分に拘束されたエネルギーの割合（パーセンテージ）％Ｅ（ｒ）は、次式で与えられる。

これらの考慮事項に基づき、領域Ｒ_ｉ，ｊの各々について、ｒの各値が決定されてＹ_ｉ，ｊ ^ｒが構築されるが、これは、学習フェーズ中に何が学習されたかということに関する本質を表す。

この時点において、正常な状況における監視下の場面を複数のトレーニングフレームにてなる学習集合が十分に表しているかということを確認する目的で、検証フェーズが実行される。

上記確認では、動作検出フェーズのシミュレーションを行い、ここでは、監督されるエリアの現在の画像は、少なくとも１つの検証フレームＦ^ＶＡＬによって、すなわち学習集合には属さず従って正常性行列Ｙ_ｉ，ｊの構築には使用されない学習画像によって置き換えられる。

実際には、検証は少なくとも１つの検証フレームＦ^ＶＡＬを用いて実行され、上記検証フレームＦ^ＶＡＬは、トレーニングフレームを細分する際にすでに用いたものと同じグリッドを用いて複数の領域Ｒ_ｉ，ｊ（Ｆ^ＶＡＬ）に細分される。

領域Ｒ_ｉ，ｊ（Ｆ^ＶＡＬ）の各々について、対応するベクトルＩＲ_ｉ，ｊ（Ｆ^ＶＡＬ）が、トレーニングフレームについてすでに実行したときと同様に生成される。

続いて、ベクトルＩＲ_ｉ，ｊ（Ｆ^ＶＡＬ）は、複数の学習画像にてなる空間に投影され、検証画像と、行列Ｙ_ｉ，ｊ ^ｒにおいて合成された正常な状況との「距離」が決定される。

知られているように、ｍ次元の実数ベクトルを要素とする行列Ｙ_ｉ，ｊ ^ｒ＝（ｙ_１ ^ｒ，ｙ_２ ^ｒ，…，ｙ_Ｓ ^ｒ）が与えられたとき、行ｙ_１ ^ｒ，ｙ_２ ^ｒ，…，ｙ_Ｓ ^ｒにてなるすべての線形結合からなり、実数上のｍ次元空間の部分空間である空間Ｒａｎｇｅ（Ｙ_ｉ，ｊ ^ｒ）を定義することができる。既知の線形代数の定理によれば、部分空間Ｒａｎｇｅ（Ｙ_ｉ，ｊ ^ｒ）は、Ｕ_ｉ，ｊ ^ｒの列、すなわちＹ_ｉ，ｊの最初のｒ個の主成分にてなるすべての線形結合からなる部分空間Ｒａｎｇｅ（Ｕ_ｉ，ｊ ^ｒ）と一致する。

従って、フレームＦ^ＶＡＬの画像部分Ｒ_ｉ，ｊ、すなわちｍ次元の実数ベクトルであるベクトルＩＲ_ｉ，ｊの、Ｙ_ｉ，ｊの主成分に対する投影は、次式に定義される投影演算子を用いて得られる。

いったん上記演算子が計算されると、画像部分Ｒ_ｉ，ｊの各々について、投影Ｐｒｏｊ（ＩＲ_ｉ，ｊ）及び投影誤差ｅｒｒ＿Ｐｒｏｊ（ＩＲ_ｉ，ｊ）が次式により計算される。

Ｐｒｏｊ（ＩＲ_ｉ，ｊ）＝Ｕ_ｉ，ｊ ^ｒ・（Ｕ_ｉ，ｊ ^ｒ）^Ｔ・ＩＲ_ｉ，ｊ
ｅｒｒ＿Ｐｒｏｊ（ＩＲ_ｉ，ｊ）＝‖Ｐｒｏｊ（ＩＲ_ｉ，ｊ）―ＩＲ_ｉ，ｊ‖_２

投影誤差が各しきい値よりも大きくなったとき、すなわち次式の関係が満たされたとき、監視下の場面に関して異常状態の信号が発生される（すなわちイベントが検出される）。

ｅｒｒ＿Ｐｒｏｊ（ＩＲ_ｉ，ｊ）≧Ｔｈｒ_ｉ，ｊ

好ましい実施形態によれば、しきい値Ｔｈｒ_ｉ，ｊは自動的に決定されて、行列Ｙ_ｉ，ｊのｒ＋１番目の特異値σ_ｒ＋１、すなわち次式の関係を満たす特異値のうちで添字が最も大きいものに設定される。

有利なことには、画像中に存在するすべての背景ノイズを考慮するように、ｋ＞１を用いて、しきい値はｋσ_ｒ＋１に設定することができる。

検証フレームＦ^ＶＡＬは正常な状況における場面を表すはずであるので、最悪の条件下であってもイベントが検出されることはないであろう。さもなければ、取得された複数のトレーニングフレームにてなる集合は、正常な状況における場面を表すものではなく、本方法によれば、この場合には、異なる学習集合を選択して行列Ｙ_ｉ，ｊ ^ｒを再構築することが必要になるであろう。

（トレーニングフレームがではなく）検証フレームが実際に正常な状況を表していないことを原因として良好なトレーニングフレームにてなる集合を廃棄してしまうことを防止する目的で、好ましい有利な実施形態では、本方法は、複数の検証フレームに対してイベント検出のシミュレーションを行う。

本方法のこの実施形態によれば、合計測定回数に対して計算される予め設定された割合、例えば２５％よりも多い所定回数のイベントが検出されたときに、複数のトレーニングフレームにてなる集合は変更される。例えば、検証フェーズにおいて１００個の検証フレームを確認して２５個のイベントを検出したとき、本方法は、学習集合の再構築を要求する。

さらに有利な実施形態によれば、複数の検証画像に係る平均投影誤差

がしきい値Ｔｈｒ_ｉ，ｊ以上であるとき、正常性行列Ｙ_ｉ，ｊは、新たな学習集合に基づいて再生成される。

平均投影誤差は次式により計算される。

ここで、「ｍｅｄｉａ」とは、検証画像の投影誤差ｅｒｒ＿Ｐｒｏｊ１，ｅｒｒ＿Ｐｒｏｊ２，ｅｒｒ＿Ｐｒｏｊ３，…を受信してそれらの平均値を出力する関数である。

他の実施形態では、複数の検証画像に係る投影誤差のうちで最大の投影誤差

を計算することができる。この誤差が予め設定されたしきい値を超えているとき、新たな学習集合を再構築することでトレーニングフェーズが繰り返される。

好ましい実施形態では、追加されるフレームの個数は、平均投影誤差

としきい値との差に依存する。

代替として、バッファ中の使用可能なメモリに依存する予め決められた個数のフレームが追加されてもよい。

好ましくは、学習集合に追加されるフレームのすべてが連続したものではない。

学習集合の最大サイズは、使用可能なメモリ及び計算パワーの関数として（設置時又は製造時において）定義されてもよい。

学習フェーズ中に、本方法は、イベントを検出するために有用な複数の情報の格納を行う。特に、以下の情報が格納される。
・行列Ｕ_ｉ，ｊ ^ｒ＝［ｕ_１，…，ｕ_ｒ］
・しきい値Ｔｈｒ_ｉ，ｊ
・行列Ｙ_ｉ，ｊを最適化する各領域Ｒ_ｉ，ｊの主成分の個数ｒ

いったん学習フェーズが終了すると、ビデオ監視システムは、任意のイベントを検出するために、監督されるエリアの現在の画像を取得することにより実際の動作フェーズを開始することができる。ビデオカメラ５を通じて、監督されるエリアの現在の画像が取得され、特にビデオカメラによって生成されたビデオ信号のフレームＦ＊が取得される。

フレームＦ＊は、学習フェーズ中にすでに使用されたものと同じグリッドにより、複数の領域Ｒ_ｉ，ｊ（Ｆ＊）に細分される。

領域Ｒ_ｉ，ｊ（Ｆ＊）の各々について、対応するベクトルＩＲ_ｉ，ｊ（Ｆ＊）が生成され、次にこれは、Ｙ_ｉ，ｊの主成分に対して、すなわち複数の学習画像にてなる空間に対して投影され、これにより、検証フェーズで説明したように次式の投影誤差を評価する。

ｅｒｒ＿Ｐｒｏｊ（ＩＲ_ｉ，ｊ）＝‖Ｐｒｏｊ（ＩＲ_ｉ，ｊ）―ＩＲ_ｉ，ｊ‖_２

各領域Ｒ_ｉ，ｊ内において、システムにより同じ領域Ｒ_ｉ，ｊについて選択されたしきい値よりも投影誤差が大きいとき、イベントの検出が行われる。

これらのステップは、学習フェーズ中に格納された情報を用いる。

図４は、イベント検出の一例を示す。分析されるフレームＦ＊は、図１及び図３に示したものと同じ廊下を示し、ここでは２人の人物が存在し、彼らの輪郭がフレームの一部を占有している。図４の例では、人物の輪郭は７個の領域Ｒ_ｉ，ｊを占有している。

人物によって占有されたこれらの領域Ｒ_ｉ，ｊ（白い輪郭線で強調した）のみが、許容されるしきい値よりも大きな誤差を有し、従ってアラームを発生させる。

上述のアルゴリズムは画像をベクトルとして取り扱うが、明らかに、このような操作の物理的意味を見逃すべきではなく、このような操作は、異なる方法及び異なるステップによっても達成可能である。

画像のベクトル空間Ｒａｎｇｅ（Ｙ_ｉ，ｊ ^ｒ）における画像ベクトルの投影誤差を評価することによりイベントを検出することは、各学習画像を近似するか又は各学習画像に一致する複数の基準画像にてなる線形結合に対応する画像に対して、現在の画像Ｒ_ｉ，ｊ（Ｆ＊）を比較することに対応する。

この概念は、図５を参照すると明らかになるであろう。

空間Ｒａｎｇｅ（Ｙ_ｉ，ｊ ^ｒ）は平面Γによって表され、この平面Γにおいて、基準画像ｙ_ｒ ^１，…，ｙ_Ｓ ^ｒと、このような基準画像にてなるすべての線形結合Ｃ_１，Ｃ_２，Ｃ_３，…とが存在している。

現在の画像Ｒ_ｉ，ｊ（Ｆ＊）を平面Γ上に投影することは、上記画像を、Ｌ２ノルムの意味で画像Ｒ_ｉ，ｊ（Ｆ＊）に近接する基準画像にてなる線形結合に対して比較することを含意する。

これは、画素毎の比較ではなく、画像毎の比較である。このことは、画像の画素値が考慮されることに加えて、主成分分析を通じてその相関も考慮されることを意味する。

この比較は、本発明の好ましい有利な実施形態によれば、画像の空間Ｒａｎｇｅ（Ｙ_ｉ，ｊ ^ｒ）において現在の画像に対応するベクトルを投影するステップによって合成される。ただし当然ながら、この比較は、代替として、最初に単一の画素の値を比較し、次いで、現在の画像の画素と、学習フェーズ中に構築された画像であって、正常な状況で取得された画像の近似又は一致画像にてなる線形結合に対応する画像の画素との間の関係を比較することによって達成されてもよい。

本発明の利点は、以上の説明から明らかであろう。

提案するアプローチ、すなわち現在の画像の部分（すなわち画素のグループ）と学習フェーズ中に構築された各モデルとの比較に基づくアプローチは、画素間の空間的相関も考慮することができるので、各画素の比較に基づく既知の方法よりも高い信頼性を有することがわかる。

さらに、ある画素の正常な状況を表すために統計的モデルを用いる既知の方法とは異なり、本発明に係るモデルは、学習フェーズで得られた画像中の１つの領域にそれぞれ関連する複数のベクトル空間にてなる集合に基づいている。

従って、結果的に、本発明に係るモデルは、平均及び分散のような統計的パラメータではなく画像を用いるので、従来技術の方法よりもずっと正確に正常性を表すことができる。

また、ＰＣＡは、元のデータを再構築できる（これは、既存の方法で用いられる統計的方法では不可能である）情報圧縮方法であり、よって、正常性を記述する際に用いる品質を損なうことなく、また高い信頼性で検出を行うことができる。

提案するアプローチではまた、システムのプログラミング及び設定の際に任意の選択を必要とする従来のアプローチとは異なり、高度の自動化を提供する。

特に、検出のしきい値は、学習データに基づいて自動的に計算される。

さらに、提案するアプローチでは、学習フェーズ中に監視下の場面に存在する動的変化に依存して、学習バッファの長さを自律的に選択する。特に、本アルゴリズムは、使用可能なメモリと場面の動的変化との間における折衷的な解決方法を選択する。

さらに、ベクトル空間を表すために使用される主成分の最小個数もまた、場面の動的変化の関数として変化するものであり、これもまた、本アルゴリズムによって計算される。

以上の説明では、好ましい実施形態に係るビデオ監視システム及びイベント検出方法を開示しているが、これはシステムの実現及び方法の実装に係る限定的ではない例示を表しているということは明らかであろう。

特に、行列Ｙ_ｉ，ｊの情報内容の削減を可能にする、最適な要素数ｒ_ｉ，ｊの選択は、いくつかの異なる方法で実行可能である。

例えば、行列Ｙ_ｉ，ｊの最大の特異値（σ_１）の所定割合（好ましくは１〜４％の範囲であり、より好ましくは２％）よりも大きな特異値に関連付けられたものを選ぶことにより、ｒ_ｉ，ｊ個の主成分を選択してもよい。

例えば、行列Ｙ_ｉ，ｊが特異値σ_１＝１００，σ_２＝２０，σ_３＝１０，σ_４＝１，σ_５＝０．５，σ_６＝０．３，…を有するとき、σ_１の２％よりも大きな特異値を受理することにより、最初の３個の主成分ｕ_１，ｕ_２，ｕ_３のみが考慮されることになる。

さらに、好ましい実施形態ではｅｒｒ＿Ｐｒｏｊ（ＩＲ_ｉ，ｊ）＝‖Ｐｒｏｊ（ＩＲ_ｉ，ｊ）―ＩＲ_ｉ，ｊ‖_２により計算された投影誤差は、区別なく、次式のような任意のＬｐノルムで計算されてもよい。

ｅｒｒ＿Ｐｒｏｊ（ＩＲ_ｉ，ｊ）＝‖Ｐｒｏｊ（ＩＲ_ｉ，ｊ）―ＩＲ_ｉ，ｊ‖_Ｌｐ

Claims

ビデオ監視システムのためのイベント検出方法であって、上記方法は、
検出可能なイベントが存在しない複数の異なる時点において監督されるエリアに係る複数の学習画像を取得する学習フェーズと、
上記エリアの現在の画像を取得する動作検出フェーズとを含み、
各学習画像を近似するか又は各学習画像に一致する複数の基準画像にてなる線形結合に対応する画像に対して、現在の画像を比較することにより、イベントの検出を行うことを特徴とする方法。
上記基準画像は、複数の学習画像にてなる学習集合に対して主成分分析方法を用いて取得されることを特徴とする請求項１記載の方法。
上記学習集合は、上記学習画像の画素を列成分に含む正常性行列に構成され、
上記基準画像は、上記正常性行列（Ｙ_ｉ，ｊ）を近似する行列（Ｙ_ｉ，ｊ ^ｒ）の列成分である請求項２記載の方法。
上記主成分分析方法は、上記正常性行列を特異値に分解するステップを含み、上記分解は以下の３つの行列
Ｕ_ｉ，ｊ＝［ｕ_１，…，ｕ_Ｓ］
Σ_ｉ，ｊ＝ｄｉａｇ（σ_１，…，σ_Ｓ）
Ｖ_ｉ，ｊ＝［ｖ_１，…，ｖ_Ｓ］
を生成し、上記正常性行列Ｙ_ｉ，ｊは次式：
Ｙ_ｉ，ｊ＝Ｕ_ｉ，ｊ・Σ_ｉ，ｊ・Ｖ_ｉ，ｊ ^Ｔ
によって得られることを特徴とする請求項３記載の方法。
上記正常性行列を近似する行列は、
Ｙ_ｉ，ｊ ^ｒ＝Ｕ_ｉ，ｊ ^ｒ・Σ_ｉ，ｊ ^ｒ・（Ｖ_ｉ，ｊ ^ｒ）^Ｔ
であり、ここで、
Ｕ_ｉ，ｊ ^ｒ＝［ｕ_１，…，ｕ_ｒ］
Σ_ｉ，ｊ ^ｒ＝ｄｉａｇ（σ_１，…，σ_ｒ）
Ｖ_ｉ，ｊ ^ｒ＝［ｖ_１，…，ｖ_ｒ］
であり、行列Ｕ_ｉ，ｊ ^ｒ，Σ_ｉ，ｊ ^ｒ，Ｖ_ｉ，ｊ ^ｒの列の個数ｒは、行列Ｕ_ｉ，ｊ，Σ_ｉ，ｊ，Ｖ_ｉ，ｊの列の個数Ｓよりも小さい請求項４記載の方法。
上記正常性行列を近似する行列は、その特異値の総和が、上記正常性行列の特異値の総和に対して予め設定された割合、好ましくは７５％未満になるようにされる請求項３〜５のいずれか１つに記載の方法。
上記正常性行列を近似する行列の特異値は、上記正常性行列の最大の特異値に対して予め設定された割合、好ましくは２％〜４％より大きい請求項３〜５のいずれか１つに記載の方法。
上記比較は、上記基準画像にてなる線形結合のすべてによって全体として定義されるベクトル空間において、上記現在の画像に対応する画像ベクトルを投影するステップを含むことを特徴とする請求項１〜７のいずれか１つに記載の方法。
Ｔｈｒが所定のしきい値であり、ｅｒｒ＿Ｐｒｏｊ（ＩＲ）が、ベクトルＩＲとＰｒｏｊ（ＩＲ）との差の基準として計算された投影誤差であり、ＩＲが画像ベクトルであり、Ｐｒｏｊ（ＩＲ）が上記ベクトル空間におけるＩＲの投影に対応するベクトルであるとき、次式の関係：
ｅｒｒ＿Ｐｒｏｊ（ＩＲ）≧Ｔｈｒ
が満たされるとき、イベントが検出されることを特徴とする請求項８記載の方法。
上記正常性行列及び上記近似する行列は共通した複数の特異値を有し、
選択される上記しきい値は、共有されない最大の特異値に等しいことを特徴とする、請求項８が請求項２〜７のいずれか１つに従属したときの請求項９記載の方法。
上記正常性行列及び上記近似する行列は共通した複数の特異値を有し、
選択される上記しきい値は、予め設定された１より大きな実数で乗算された、共有されない最大の特異値に等しいことを特徴とする、請求項８が請求項２〜７のいずれか１つに従属したときの請求項９記載の方法。
上記選択されたしきい値は、上記正常性行列の最大の特異値に対して、２％〜４％の間の予め設定された割合に等しいことを特徴とする請求項１０記載の方法。
上記学習フェーズはトレーニングフェーズ及び検証フェーズを含み、
上記トレーニングフェーズでは、上記各学習画像にてなる学習集合を選択し、
上記検証フェーズでは、上記学習集合が、検出可能なイベントが存在しないときの上記エリアを表すモデルであることを確認することを特徴とする請求項１〜１２のいずれか１つに記載の方法。
上記検証フェーズは、上記動作フェーズのシミュレーションを行うための少なくとも１つのシミュレーションステップを含み、上記シミュレーションは、上記基準画像にてなる線形結合に対して検証画像を比較することによって実行され、上記検証画像は、上記学習集合に属さない学習画像であることを特徴とする請求項１３記載の方法。
上記トレーニングフェーズは、上記検証フェーズでイベントを検出したとき、上記学習集合を変更して繰り返されることを特徴とする請求項１３又は１４記載の方法。
上記検証フェーズは、
上記基準画像にてなる線形結合のすべてによって全体として定義されるベクトル空間において、複数の検証画像に対応する複数の画像ベクトルを投影するステップ
投影する毎に、１つの画像ベクトルと、上記ベクトル空間における当該画像ベクトルの投影に対応するベクトルとの間の差の基準として定義される投影誤差を検出するステップとを含む請求項１３又は１４記載の方法。
上記方法は、
平均投影誤差を次式

により計算することを含み、ここで、「ｍｅｄｉａ」は、上記検証画像の投影誤差ｅｒｒ＿Ｐｒｏｊ１，ｅｒｒ＿Ｐｒｏｊ２，ｅｒｒ＿Ｐｒｏｊ３，…を受信してそれらの平均値を返す関数であり、
複数の検証画像に係る上記平均投影誤差

が所定のしきい値以上であるとき、上記学習集合を変更してトレーニングフェーズを繰り返すことを含むことを特徴とする請求項１６記載の方法。
上記方法は、
上記複数の画像ベクトルのすべての投影に係る最大の投影誤差

を決定することと、
上記最大の投影誤差

が所定のしきい値以上であるとき、上記学習集合を変更してトレーニングフェーズを繰り返すことを含むことを特徴とする請求項１６記載の方法。
上記トレーニングフェーズは、上記検証フェーズにおいて、予め設定されたしきい値よりも大きな割合のイベントを検出したとき、上記学習集合を変更してトレーニングフェーズを繰り返すことを含むことを特徴とする請求項１３又は１４記載の方法。
上記学習フェーズ及びイベント検出フェーズの実行中の両方に、画像処理ステップを実行することを特徴とする請求項１〜１９のいずれか１つに記載の方法。
上記画像処理ステップは、上記画像をグレースケールに削減するステップを含む請求項２０記載の方法。
上記画像処理ステップは、好ましくはガウス核を用いた、低域通過フィルタ処理を含む請求項２０又は２１記載の方法。
上記学習画像及び上記現在の画像は、ビデオ信号のフレーム又は半分のフレームを予め定義されたグリッドによって細分することによって得られる複数の画素にてなるグループである請求項１〜２２のいずれか１つに記載の方法。
電子計算機のメモリ領域にロードされることが可能であり、上記計算機によって実行されたときに請求項１〜２３のいずれか１つに記載の方法を実施するコード部分を含む情報技術製品。
画像処理装置に接続された少なくとも１つの画像取得装置を備えたビデオ監視システムであって、上記画像処理装置は、請求項１〜２３のいずれか１つに記載の方法の少なくとも一部、特にそのすべてを実施するビデオ監視システム。
好ましい有利な実施形態を示す本願明細書及び添付の図面の新規な教示内容に係る方法。
好ましい有利な実施形態を示す本願明細書及び添付の図面の新規な教示内容に係るシステム。