JP2019169145A

JP2019169145A - 画像処理装置および方法、並びに、命令を格納する記憶媒体

Info

Publication number: JP2019169145A
Application number: JP2019046349A
Authority: JP
Inventors: シャオシューユー; Xu Yu Xiao
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-03-22
Filing date: 2019-03-13
Publication date: 2019-10-03
Anticipated expiration: 2039-03-13
Also published as: JP6752318B2; CN110298223A

Abstract

【課題】環境照明の変動に起因する偽前景を好適に除去する。【解決手段】画像処理装置２００は、入力ビデオに基づいて現在のビデオフレーム及びシーンモデルを取得するための取得ユニット２１０と、現在のビデオフレーム内の視覚要素に基づいて現在のビデオフレーム内の視覚要素と一致するシーンモデル内の視覚要素モデルを更新するための第１の更新ユニット２２０と、現在のビデオフレーム内及び現在のビデオフレームに先行するビデオフレーム内の視覚要素に基づいて、現在のビデオフレーム内の視覚要素と一致しないシーンモデル内の視覚要素モデルを更新するための第２の更新ユニット２３０と、を有する。【選択図】図２

Description

本発明は、画像処理装置および画像処理方法に関するものである。

画像処理において、ある態様では、画像（例えば、ビデオ内の１つのビデオフレーム）は、一般に、複数の視覚要素から構成され、視覚要素は画像の表現に寄与する可視の要素である。例えば、１つの視覚要素は、１つの画素、画素グループを示すＤＣＴ（離散コサイン変換）ブロック、または類似の属性（たとえば、類似のテクスチャ、類似の色、類似の照明など）を有する画素グループを示すウルトラピクセルであり得る。一方、特にビデオ監視では、１つのビデオフレーム内の視覚要素が前景であるか背景であるかを検出するために、ビデオ内のある１つのビデオフレームを当該ビデオにおいて当該ある１つのビデオフレームに先行するある１つの持続時間内の複数のビデオフレームに基づいて得られるシーンモデルと比較する既存の背景減算技術が通常用いられる。前景とは、ビデオにおいて撮影されたシーン内に出現した一時的オブジェクトを指す。このような一時的オブジェクトは、例えば動いている人または物体を含み得る。シーン内の残りの部分は背景と見なされる。実際の用途では、実際には背景である何らかの視覚要素は、環境照明の変動のために誤って前景（すなわち偽前景）として検出され、前景検出の精度に影響を与える。

環境照明の変動によって引き起こされる影響を低減するために、特許文献１は、環境照明の変動によって引き起こされる偽前景を除去するための方法を例示的に開示している。この方法では、環境照明が変動する場合、シーン全体が大きく変動するように見えるが、ビデオのフレームレートが十分に高い場合、実際には、隣接する２つのビデオフレーム間の差／変動は小さい。そこで、あるビデオフレーム内の前景を検出する際に、従来の背景差分法で検出された前景に偽前景が存在するかどうかを、当該あるビデオフレームと先行するビデオフレームとの差を比較することによって決定する。ここで、従来の背景減算法によって前景として分類された視覚要素のいずれについても、当該視覚要素と先行するビデオフレーム内の対応する視覚要素との間の差がある閾値より大きい場合、又は、先行するビデオフレーム内の対応する視覚要素も前景として分類される場合に限り、視覚要素は最終的に前景として決定され、そうでなければ、視覚要素は偽前景と見なされ、背景として新たに分類される。したがって、この方法によれば、検出結果をさらに確認することにより、環境照明の変動に起因する一定数の偽前景を除去することができ、すなわち、環境照明の変動による前景検出への影響をある程度低減することが可能である。

米国特許第８，６３９，０２６号

しかしながら、いくつかの状況下では、環境照明が変動するとき、環境照明の変動によって引き起こされる影響は、上述の例示的な方法では十分に低減することができない。例えば、実際にビデオフレーム内の背景である特定のある視覚要素について、当該視覚要素が前景のオブジェクト（たとえば、人、物、空から投影される影など）によって遮られた後に再び現れる場合、一態様では、この視覚要素と当該視覚要素に対応するシーンモデル内の背景視覚要素モデルとの間に大きな差があるため、当該視覚要素は誤って前景として検出される可能性がある。一方、この視覚要素の状態は、遮られてから遮られなくなるため、この視覚要素と以前のあるビデオフレーム（すなわち、この視覚要素が新たに現れるビデオフレームに先行するビデオフレーム）内の対応する視覚要素との間に大きな差があると見なされる。したがって、この視覚要素は、最終的に上述の例示的な方法に従って前景として確認されることになる。したがって、このような状況下で発生する環境照明の変動に起因する偽前景を上述の例示的な方法では好適に除去することは出来ない。言い換えれば、上述の例示的な方法では、遮蔽環境での環境照明の変動による前景検出への影響を好適に低減することは出来ない。

本発明は、上記の関連技術の記録に鑑み、上記の問題の少なくとも１つを解決することを目的としている。

本発明の一態様によれば、画像処理装置は、入力ビデオに基づいて現在のビデオフレーム及びシーンモデルを取得するための取得手段であって、前記シーンモデルは前記現在のビデオフレーム及び該現在のビデオフレームに先行するビデオフレームにおける外観特徴を少なくとも表す視覚要素モデルを含む、前記取得手段と、前記現在のビデオフレーム内の視覚要素に基づいて、該現在のビデオフレーム内の視覚要素と一致する前記シーンモデル内の視覚要素モデルを更新するための第１の更新手段と、前記現在のビデオフレーム内及び該現在のビデオフレームに先行するビデオフレーム内の視覚要素に基づいて、該現在のビデオフレーム内の視覚要素と一致しない前記シーンモデル内の視覚要素モデルを更新するための第２の更新手段と、を有する。

本発明の別の態様によれば、画像処理方法は、入力ビデオに基づいて現在のビデオフレーム及びシーンモデルを取得するための取得ステップであって、前記シーンモデルは前記現在のビデオフレーム及び該現在のビデオフレームに先行するビデオフレームにおける外観特徴を少なくとも表す視覚要素モデルを含む、前記取得ステップと、前記現在のビデオフレーム内の視覚要素に基づいて、該現在のビデオフレーム内の視覚要素と一致する前記シーンモデル内の視覚要素モデルを更新するための第１の更新ステップと、前記現在のビデオフレーム内及び該現在のビデオフレームに先行するビデオフレーム内の視覚要素に基づいて、該現在のビデオフレーム内の視覚要素と一致しない前記シーンモデル内の視覚要素モデルを更新するための第２の更新ステップトと、を含む。

本発明の別の態様によれば、プログラムは、プロセッサにより実行されたとき、上述の画像処理方法を前記プロセッサに実行させる。

ここで、視覚要素のビデオフレーム内の外観特徴は、色特徴、テクスチャ特徴および照明特徴の何れかを含む。

本発明によって、現在のビデオフレーム内の視覚要素と一致するシーンモデル内の視覚要素モデルが環境照明の変動の直後に更新され得るだけでなく、現在のビデオフレーム内の視覚要素と一致しないシーンモデル内の視覚要素モデルも環境照明の変動の直後に更新され得る。したがって、環境照明の変動に続いてシーンモデル全体を直ちに変動させることが可能となる。

本発明のさらなる特徴および利点は、添付の図面を参照した以下の例示的な実施形態の説明から明らかになるであろう。

本明細書に組み込まれその一部を構成する添付の図面は、本発明の実施形態を例示し、当該実施形態の説明と共に本発明の原理を説明するのに役立つ。

本発明の実施形態に係る技術を実現することが可能なハードウェア構成を概略的に示すブロック図である。本発明の実施形態に係る画像処理装置の構成を示すブロック図である。本発明の実施形態に係る画像処理のフローチャートを概略的に示す図である。本発明の実施形態に係る図３に示されるステップＳ３４０のフローチャートを概略的に示す図である。例示的な「一致視覚要素モデル」およびその更新モデルを概略的に示す図である。本発明の実施形態に係る図３に示されるステップＳ３５０のフローチャートを概略的に示す図である。例示的な「不一致視覚要素モデル」およびその更新モデルを概略的に示す図である。本発明の実施形態に係る図３に示されるステップＳ３５０の他のフローチャートを概略的に示す図である。現在のビデオフレーム、シーンモデル、不一致視覚要素モデルのサンプル、対応する不一致視覚要素モデルのレコードを概略的に示す図である。本発明を用いた例示的な適用シーンを概略的に示す図である。本発明の実施形態に係る前景検出のための画像処理装置の構成を示すブロック図である。

以下、添付図面を参照して、本発明の好ましい実施の形態を詳細に説明する。以下の説明は、本質的に例示的かつ典型的なものであり、決して本発明、その実施、または用途を限定することを意図するものではないことに留意されたい。これらの実施形態に記載されている構成要素およびステップの相対位置、数値表現、および数値は、特に記載がない限り、本発明の範囲を限定するものではない。また、当業者に既知の技術、方法、装置は詳細には論じられていないかもしれないが、これらは適切な状況下で本明細書の一部となる。

なお、以下の図において類似の参照符号および文字は同様のアイテムを指しており、したがって、ある図においてアイテムが一旦定義されるとそれは以降の図については論じられない可能性があることに留意されたい。

本願発明者は、一態様では、ビデオ内で環境照明が変動すると、前景オブジェクト（例えば、人、物、空から投影される影など）によって遮られた視覚要素は対応するビデオフレームにおいて現れないと考え、したがって、シーンモデル内の視覚要素に対応する視覚要素モデルは、環境照明の変動に続いて直ちに変動することは出来ない。そのため、この視覚要素が新たに現れたとき、新たに現れた視覚要素の検出結果を従来技術で例示した方法でさらに確認しても、新たに現れた視覚要素とシーンモデル内の視覚要素に対応する視覚要素モデルとの間には大きな差があるため、新たに現れた視覚要素が誤って検出されることになる。

一方、ビデオ内で環境照明がどのように変動するか及びビデオ内のいくつかの視覚要素が前景オブジェクトによって遮られるかどうかにかかわらず、環境照明の変動の直後に変動し得るいくつかの視覚要素が連続ビデオフレームのセグメント内に常に存在する。すなわち、環境照明がどのように変動するかにかかわらず、環境照明の変動の直後に変動し得るいくつかの視覚要素が連続ビデオフレームのセグメント内に常に存在し、これにより、シーンモデル内のこれらの視覚要素に対応する視覚要素モデルも、環境照明の変化に続いて常に変動する可能性があります。言い換えれば、これらの視覚要素モデルは、環境照明の変動に続いて直ちに更新され得る。ただし、シーンモデル内の視覚要素モデルでは、環境照明の変動（たとえば、ビデオ内の視覚要素モデルに対応する視覚要素が前景オブジェクトによって遮られる）の直後には変動せず、もし環境照明の変動の直後に変動することが出来ないこれらの視覚要素モデルを環境照明の変動に従って直ちに変動することが出来る上述の視覚要素モデルから関連する視覚要素モデル（以下、「参照視覚要素モデル」と呼ぶ）を見つけることによって更新出来れば、環境照明の変動の直後に変動することが出来ないこれらの視覚要素モデルも対応する更新操作によって環境照明の変動の直後に変動することが可能になる。したがって、例えば、ビデオ内の遮られた視覚要素が新たに現れたとき、新たに現れた視覚要素とシーンモデル内の視覚要素に対応する視覚要素モデルとを一致させることにより、誤って検出されることがなくなる。

したがって、本発明に従って更新されたシーンモデルを使用することによって、遮られた環境での環境照明の変動に起因する前景検出への影響を効果的に回避することが出来、それによって前景検出の処理精度を改善することが可能となる。

以下、添付図面を参照して本発明の好ましい実施形態を詳細に説明する。

（ハードウェア構成）
まず、図１を参照して、以下に説明する技術を実現可能なハードウェア構成について説明する。

ハードウェア構成１００は、例えば、中央処理装置（ＣＰＵ）１１０、ランダムアクセスメモリ（ＲＡＭ）１２０、リードオンリーメモリ（ＲＯＭ）１３０、ハードディスク１４０、入力デバイス１５０、出力デバイス１３０を含む。さらに、一実施形態では、ハードウェア構成１００は、タブレットコンピュータ、ノートブックコンピュータ、デスクトップコンピュータ、または他の適切な電子デバイスなどのコンピュータによって実施することができる。別の実施形態では、ハードウェア構成１００は、デジタルカメラ、ビデオカメラ、ネットワークカメラ、または他の適切な電子デバイスなどの監視装置（モニタ）によって実施することができる。ここで、ハードウェア構成１００がモニタによって実施される場合、ハードウェア構成１００は、例えば光学系１９０を更に含む。

一実施形態では、本発明による画像処理は、ハードウェアまたはファームウェアによって構成され、ハードウェア構成１００のモジュールまたは構成要素として機能する。例えば、図２を参照して以下で詳細に説明される画像処理装置２００および図１１を参照して以下で詳細に説明される画像処理装置１１００は、ハードウェア構成１００のモジュールまたは構成要素としての役割を果たす。別の実装形態では、本発明による画像処理は、ＲＯＭ１３０またはハードディスク１４０に記憶されるソフトウェアによって構成される。例えば、図３を参照して以下で詳細に説明される手順３００は、ＲＯＭ１３０またはハードディスク１４０に格納されたプログラムとしての役割を果たす。

ＣＰＵ１１０は、任意の適切なプログラマブル制御装置（例えば、プロセッサ）であり、ＲＯＭ１３０またはハードディスク１４０（例えば、メモリ）に記憶された様々な種類のアプリケーションプログラムを実行することによって、後述する様々な種類の機能を実行することができる。ＲＡＭ１２０は、ＲＯＭ１３０またはハードディスク１４０からロードされたプログラムまたはデータを一時的に格納するために使用されるとともに、ＣＰＵ１１０が各種の手順（たとえば、図３〜図９を参照して以下に詳述する技術を実現する）および他の利用可能な機能を実行するための空間としても使用される。ハードディスク１４０は、オペレーティングシステム（ＯＳ）、各種アプリケーション、制御プログラム、ビデオ、シーンモデル、ビデオの各ビデオフレームに対する処理結果、および／または所定のデータ（例えば、しきい値（ＴＨ））などの各種の情報を記憶する。

一実施形態では、入力デバイス１５０は、ユーザがハードウェア構成１００と対話することを可能にするために使用される。ある例では、ユーザは入力装置１５０を介して画像／ビデオ／データを入力することができる。別の例では、ユーザは入力デバイス１５０を介して本発明の対応する処理を起動することができる。また、入力デバイス１５０としては、ボタン、キーボード、タッチスクリーンなど、複数の方法が適用可能である。他の実施形態では、入力デバイス１５０は、デジタルカメラ、ビデオカメラ、および／またはネットワークカメラなどの特別な電子デバイスから画像／ビデオ出力を受け取るために使用される。さらに、ハードウェア構成１００がモニタによって実施される場合、ハードウェア構成１００内の光学系１９０は、監視位置における画像／ビデオを直接取り込むことになる。

一実施形態では、出力デバイス１６０は、処理結果（例えば前景）をユーザに表示するために使用される。また、出力デバイス１６０としては、陰極線管（ＣＲＴ）、液晶ディスプレイ等、種々の方式を適用することができる。

ネットワークインタフェース１７０は、ハードウェア構成１００をネットワークに接続するためのインタフェースを提供する。例えば、ハードウェア構成１００は、ネットワークインタフェース１７０を介してネットワークに接続された他の電子デバイスとデータ通信を実行することができる。あるいは、ハードウェア構成１００は、無線データ通信を実行する無線インタフェースを備えてもよい。システムバス１８０は、ＣＰＵ１１０、ＲＡＭ１２０、ＲＯＭ１３０、ハードディスク１４０、入力デバイス１５０、出力デバイス１６０、ネットワークインタフェース１７０および光学系１９０の間で相互にデータを伝送するためのデータ伝送路を提供することができる。システムバス１８０はバスと呼ばれるが、いかなる特定のデータ伝送技術にも限定されない。

上記のハードウェア構成１００は例示的なものにすぎず、本発明、その実施、または用途を限定することを意図するものでは決してない。また、簡略化のため、図１には１つのハードウェア構成のみを示している。ただし、必要に応じて複数のハードウェア構成を用いることができる。

（画像処理）
次に、図２〜図１１を参照して本発明に係る画像処理について説明する。

図２は、本発明の第１実施形態に係る画像処理装置２００の構成を示すブロック図である。ここで、図２に示されるモジュールの一部または全部は、特別なハードウェアによって実施され得る。図２に示すように、画像処理装置２００は、取得ユニット２１０、第１の更新ユニット２２０、及び、第２の更新ユニット２３０を含む。

また、図２に示す格納デバイス２４０は、例えば、ビデオから取得したビデオフレームと、各ビデオフレームに対する処理結果（例えば、更新されたシーンモデル、前景検出結果）とを格納する。例えば、ビデオは、ユーザによって入力されるか、または特別な電子デバイス（例えば、カメラ）から出力されるか、または図１に示される光学系１９０によって取り込まれる。あるいは、取得されたビデオフレームおよび処理結果は、別の格納デバイスに格納され得る。ある実施形態では、格納デバイス２４０は、図１に示すＲＯＭ１３０またはハードディスク１４０である。他の実施形態では、格納デバイス２４０は、ネットワーク（不図示）を介して画像処理装置２００に接続されたサーバまたは外部記憶装置である。

まず、一実施形態では、例えば、図１に示すハードウェア構成１００がコンピュータによって実施される場合、入力デバイス１５０は、特別な電子デバイス（例えばカメラ）からビデオ出力を受信するか、またはユーザにより入力される。次に、入力デバイス１５０は、受信したビデオをシステムバス１８０を介して画像処理装置２００に転送する。他の実施形態では、例えば、ハードウェア構成１００がモニタにより実施される場合、画像処理装置２００は光学系１９０によって取り込まれたビデオを直接受信する。

次に、図２に示すように、一態様では、取得ユニット２１０は、受信したビデオ（すなわち入力されたビデオ）から現在のビデオフレームを取得し、それを格納デバイス２４０に格納する。例えば、現在のビデオフレームはｔ番目のビデオフレームであり、ここで、ｔは自然数であり２以上である（すなわち、ｔ≧２）。上述のように、各ビデオフレームは複数の視覚要素によって構成される。一方、取得ユニット２１０は、格納デバイス２４０からシーンモデルを取得する。ここで、シーンモデルは、視覚要素の、現在のビデオフレームおよび現在のビデオフレームの前のビデオフレームにおける外観特徴を少なくとも表す視覚要素モデルを含む。言い換えれば、シーンモデルは、現在のビデオフレームと現在のビデオフレームの前のビデオフレームとに基づいて取得される。ここで、現在のビデオフレームの前のビデオフレームに基づいて取得されたシーンモデル内の視覚要素モデルは、第１の更新ユニット２２０および第２の更新ユニット２３０によって更新される可能性がある。視覚要素の、ビデオフレーム内の外観特徴は、色特徴、テクスチャ特徴、および照明特徴の何れかを含む。１つの視覚要素に対して、この視覚要素に対応する複数の視覚要素モデルがシーンモデルに含まれる。例えば、現在のビデオフレームがｔ番目のビデオフレームであると仮定すると、ビデオフレーム内のある視覚要素に対して、シーンモデル内の視覚要素に対応する１〜ｔ個の視覚要素モデルが存在し、ここで、ある視覚要素モデルは、視覚要素の、１〜ｔ個のビデオフレームのうちのあるビデオフレーム内の同じ位置にある外観特徴を少なくとも表す。しかしながら、明らかなように、本発明はこれに限定されない。ｔ番目のビデオフレーム内のある視覚要素について、ｔ未満の個数である視覚要素に対応する視覚的要素モデルもシーンモデルに含めることができる。

現在のビデオフレームとシーンモデルが取得された後、第１の更新ユニット２２０は、現在のビデオフレーム内の視覚要素に基づいて、現在のビデオフレーム内の視覚要素と一致するシーンモデル内の視覚要素モデルを更新する。第２の更新ユニット２３０は、現在のビデオフレーム内の視覚要素とその前のビデオフレーム内の視覚要素とに基づいて、現在のビデオフレーム内の視覚要素と一致しないシーンモデル内の視覚要素モデルを更新する。以下、現在のビデオフレーム内の視覚要素と一致するシーンモデル内の視覚要素モデルを、例えば「一致視覚要素モデル」と呼び、現在のビデオフレーム内の視覚要素と一致しないシーンモデル内の視覚要素モデルを、例えば「不一致視覚要素モデル」と呼ぶ。

一実施形態では、第１の更新ユニット２２０および第２の更新ユニット２３０が対応する更新動作を実行する前に、第１の更新ユニット２２０および第２の更新ユニット２３０はそれぞれ、現在のビデオフレームの視覚要素に基づくシーンモデルから「一致視覚要素モデル」および「不一致視覚要素モデル」を決定する。別の実施形態では、「一致視覚要素モデル」と「不一致視覚要素モデル」は特別なユニットで決定され得る。このため、図２に示す画像処理装置２００は、例えば取得ユニット２１０と第１の更新ユニット２２０との間に配置され得る決定ユニット（不図示）を更に有してもよい。具体的には、決定ユニットは、現在のビデオフレーム内の視覚要素に基づいて、シーンモデル内の視覚要素モデルを「一致視覚要素モデル」および「不一致視覚要素モデル」として決定する。さらに、判定結果に基づいて、シーンモデル内の視覚要素モデルは、視覚要素の現在のビデオフレームおよびその前のビデオフレーム内の追加の特徴をさらに表すことができ、追加の特徴は、例えば、各ビデオフレームに基づいてシーンモデル内の視覚要素モデルが「一致視覚要素モデル」および「不一致視覚要素モデル」として決定されたかの履歴レコードを含む。

最後に、シーンモデル内の視覚要素モデルが更新された後、第１の更新ユニット２２０および第２の更新ユニット２３０は、更新された視覚要素モデルを格納デバイス２４０に送信し、格納ユニット２４０に格納されたシーンモデルは、後続のシーンモデルの更新および／または後続の処理（例えば、後続のビデオフレームにおける前景検出）において使用されるように更新され得る。

さらに、現在のビデオフレームが入力ビデオの最初のビデオフレームである場合、シーンモデルは一般に更新されない。

図３に示されたフローチャート３００は、図２に示された画像処理装置２００に対応する手順である。ここで、フローチャート３００において、上述の決定ユニットは、「一致視覚要素モデル」及び「不一致視覚要素モデル」を決定するために使用されると仮定される。

図３に示すように、ステップＳ３１０において、取得ユニット２１０は、受信されたビデオ（すなわち、入力されたビデオ）からｔ番目のビデオフレームを取得し、ｔ番目のビデオフレームを格納デバイス２４０に格納する（ｔ≧２）。

ステップＳ３２０において、取得ユニット２１０は、格納デバイス２４０からシーンモデルを取得する。

ステップＳ３３０において、決定ユニットは、ｔ番目のビデオフレーム内の視覚要素に基づいて、シーンモデル内の視覚要素モデルを一致視覚要素モデルおよび不一致視覚要素モデルとして決定する。一実施態様では、シーンモデル内の何れの視覚要素モデルに対しても、決定ユニットは、視覚要素モデルの外観特徴と視覚要素モデルに対応するｔ番目のビデオフレーム内の視覚要素の外観特徴との間の差分に基づいて、視覚要素モデルが「一致視覚要素モデル」であるか「不一致視覚要素モデル」であるかを決定する。ここで、視覚要素モデルと、視覚要素モデルに対応するｔ番目のビデオフレーム内の視覚要素とは、ビデオ内で同じ位置である。具体的には、決定ユニットは、まず、視覚要素モデルの外観特徴と、視覚要素モデルに対応する視覚要素の外観特徴との差分を決定する。その差分は、例えば、視覚要素モデルのテクスチャ特徴／色特徴／照明特徴と、視覚要素モデルに対応する視覚要素のテクスチャ特徴／色特徴／照明特徴との間の類似性である。ここで、例えば、上述の類似性は既存のマッチング方法によって得られる。そして、決定ユニットは、決定した類似性と所定の閾値（例えばＴＨ１）とを比較し、決定した類似性が例えばＴＨ１以上である場合、視覚要素モデルは視覚要素モデルに対応する視覚要素と一致するとみなされ、視覚要素モデルは「一致視覚要素モデル」として決定される。逆に、例えば、決定された類似性がＴＨ１未満である場合、視覚要素モデルは視覚要素モデルに対応する視覚要素と一致しないと見なされ、視覚要素モデルは「不一致視覚要素モデル」と決定される。

ステップＳ３４０において、第１の更新ユニット２２０は、ステップＳ３３０で決定した「一致視覚要素モデル」に対して対応する処理を行う。一実施形態では、第１の更新ユニット２２０による「一致視覚要素モデル」の処理について図４を参照して説明する。図４に示すように、ステップＳ３４０１において、第１の更新ユニット２２０は、ｔ番目のビデオフレーム内の視覚要素に基づいて「一致視覚要素モデル」を更新し、更新された視覚要素モデルを格納デバイス２４０に格納する。一実装形態では、何れの「一致視覚要素モデル」に対しても、第１の更新ユニット２２０は、例えば、「一致視覚要素モデル」の外観特徴を、「一致視覚要素モデル」に対応するｔ番目のビデオフレームにおける視覚要素の外観特徴に直接置き換える。図５を参照して一例としてある「一致視覚要素モデル」をとると、５０１はある「一致視覚要素モデル」を表し、５０２は５０１に対応するｔ番目のビデオフレーム内の視覚要素を表し、５０３は第１の更新ユニット２２０によって更新された「一致視覚要素モデル」５０１を表す。５０１が少なくとも、以下のレコードを含むと仮定する：最新の一致時刻（例えばｔ番目のビデオフレーム）および外観特徴（例えば（Ｙ，Ｃｂ，Ｃｒ））、５０２の外観特徴は（Ｙ０，Ｃｂ０，Ｃｒ０）であると仮定すると、第１の更新ユニット２２０が５０１を更新した後、例えば５０３のレコード（すなわち更新された５０１）は最新の一致時刻（例えばｔ番目のビデオフレーム）および外観特徴（例えば（Ｙ０，Ｃｂ０，Ｃｒ０））である。

図４に戻り、ステップＳ３４０２において、第１の更新ユニット２２０は、「一致視覚要素モデル」を「前景視覚要素モデル」および「背景視覚要素モデル」としてさらに決定してもよい。この状況下では、シーンモデル内の視覚要素モデルは、視覚要素の、現在のビデオフレーム（たとえば、ｔ番目のビデオフレーム）およびその前のビデオフレーム内の時間的特徴をさらに表すことができる。シーンモデル内の何れの視覚要素モデルに対しても、この視覚要素モデルの時間的特徴は、例えば、この視覚要素モデルに対応するビデオ内の視覚要素が最初の時間的要素に対して現れるときに時間的なものとなる。一実施態様では、何れの「一致視覚要素モデル」に対しても、第１の更新ユニット２２０は、この「一致視覚要素モデル」に対応するｔ番目のビデオフレーム内の視覚要素の時間的特徴に基づいて、この「一致視覚要素モデル」を前景視覚要素モデルまたは背景視覚要素モデルとして決定する。例えば、時間的特徴量が所定の閾値（例えばＴＨ２）以上である場合、この「一致視覚要素モデル」は「背景視覚要素モデル」として決定される。逆に、時間的特徴量がＴＨ２未満である場合、この「一致視覚要素モデル」は「前景視覚要素モデル」として決定される。上述のように、シーンモデル内の視覚要素モデルは、視覚要素の現在のビデオフレームおよびその前のビデオフレーム内の追加の特徴を表すことができ、したがって、第１の更新ユニット２２０は、「一致視覚要素モデル」の判定結果（すなわち「前景視覚要素モデル」、「背景視覚要素モデル」）を格納デバイス２４０に格納してもよく、シーンモデル内の視覚要素モデルの追加の特徴内の「一致視覚要素モデル」の履歴レコードは、「前景視覚要素モデル」および「背景視覚要素モデル」のレコードを更に含み得る。また、図４に示すステップＳ３４０１とステップＳ３４０２の順序は単なる例示であり、限定的なものではないことを当業者は理解するであろう。例えば、ステップＳ３４０１とステップＳ３４０２は同時に実行することができる。例えば、最初にステップＳ３４０２を実行し、次にステップＳ３４０１を実行することができる。

図３に戻って、ステップＳ３５０では、第２の更新ユニット２３０は、ステップＳ３３０で決定された「不一致視覚要素モデル」に対して対応する処理を実行する。対応する処理は、第２の更新ユニット２３０が、ｔ番目のビデオフレームおよびその前のビデオフレーム内の視覚要素に基づいて「不一致視覚要素モデル」を更新し、更新された視覚要素モデルを格納デバイス２４０に記憶することである。具体的には、何れの「不一致視覚要素モデル」に対しても、第２の更新ユニット２３０は、この視覚要素モデルに関連する参照視覚要素モデルのｔ番目のビデオフレーム内の外観特徴とｔ番目のビデオフレームの前のビデオフレーム内の外観特徴との差分に基づいて、この「不一致視覚要素モデル」を更新する。

一実施形態では、第２の更新ユニット２３０は、「不一致視覚要素モデル」のそれぞれについて更新を実行する。各ビデオフレームがＮ個（Ｎは自然数）の視覚要素によって構成されていると仮定すると、上述のように、ｔ番目のビデオフレーム内のｎ番目の視覚要素に対して、ｔ個以下のこの視覚要素に対応する視覚要素モデルはシーンモデルに含まれる。ここで、ｔ個以下の視覚要素モデルのうち、合計Ｍ個の視覚要素モデルを「不一致視覚要素モデル」とする（ここで、Ｍは自然数であり、１≦Ｍ≦ｔを満たす）と、Ｍ個の「不一致視覚要素モデル」のそれぞれについて、第２更新部２３０による「不一致視覚要素モデル」の更新処理について、ｍ番目の「不一致視覚要素モデル」を例に挙げて説明する。

図６に示すように、ステップＳ３５０１において、第２の更新ユニット２３０は、シーンモデルからｍ番目の「不一致視覚要素モデル」に対応付けられた参照視覚要素モデルを決定する。一実施態様では、第２の更新ユニット２３０は、以下の方法で参照視覚要素モデルを決定する。

まず、第２の更新ユニット２３０は、ｔ番目のビデオフレームだけでなくｔ番目のビデオフレームの前のビデオフレーム（例えば、（ｔ−１）番目のビデオフレーム、ｔ番目のビデオフレームの前の複数のフレーム）にも基づいて、背景視覚要素モデルとして決定された視覚要素モデルを、ｍ番目の「不一致視覚要素モデル」の周辺の視覚要素モデルから検索する。明らかなように、検索された視覚要素モデルは、環境照明の変動の直後に変動する可能性がある「一致視覚要素モデル」である。上述のように、シーンモデル内の視覚要素モデルは、視覚要素の現在のビデオフレームおよびその前のビデオフレーム内の追加の特徴を表すことができる。したがって、第２の更新ユニット２３０は、例えば、ｍ番目の「不一致視覚要素モデル」周辺の視覚要素モデルの追加の特徴に基づいて、条件を満たす視覚要素モデルを検索することができる。

次に、検索された各視覚要素モデルについて、第２の更新ユニット２３０は、この視覚要素モデルの外観特徴（例えば、テクスチャ特徴、色特徴、照明特徴）とｍ番目の「不一致視覚要素モデル」の外観特徴との類似性を決定する。

そして、第２の更新ユニット２３０は、検索された視覚要素モデルから、所定の条件及び決定された類似性に基づいて、ｍ番目の「不一致視覚要素モデル」に関連する参照視覚要素モデルを決定する。一実施態様では、第２の更新ユニット２３０は、検索された視覚要素モデルの中から、ｍ番目の「一致視覚要素モデル」に関連する参照視覚要素モデルとして最も高い類似性を有する１つの視覚要素モデルを選択する。別の実施態様では、第２の更新ユニット２３０は、ｍ番目の「不一致視覚要素モデル」に関連する参照視覚要素モデルとして、所定の閾値（例えばＴＨ３）以上の類似性を有する検索された視覚要素モデルの任意のものを選択する。

図６に戻って、ｍ番目の「不一致視覚要素モデル」に関連する参照視覚要素モデルが決定された後、ステップＳ３５０２において、第２の更新ユニット２３０は、決定された参照視覚要素モデルのｔ番目のビデオフレーム内の外観特徴と決定された参照視覚要素モデルのｔ番目のビデオフレームの前のビデオフレーム内の外観特徴との間の差分に基づいて、ｍ番目の「不一致視覚要素モデル」を更新する。一実施形態では、第２の更新ユニット２３０は、以下の方法でｍ番目の「不一致視覚要素モデル」を更新する。

まず、第２の更新ユニット２３０は、この参照視覚要素モデルのｔ番目のビデオフレーム内のテクスチャ特徴／色特徴／照明特徴と、この参照視覚要素モデルが配置されているフレームのビデオフレーム内のテクスチャ特徴／色特徴／照明特徴との間の特徴差分を計算する。そして、第２の更新ユニット２３０は、この「不一致視覚要素モデル」も環境照明の変動の直後に変動する可能性があるようにこの「不一致視覚要素モデル」を更新する目的を達成するため、算出した特徴差分を、ｍ番目の「不一致視覚要素モデル」のテクスチャ特徴／色特徴／照明特徴に、直接の重ね合わせまたは重み付け重ね合わせの方式により更新する。図７を参照して、一例として１つの「不一致視覚要素モデル」をとると、７０１はｍ番目の「不一致視覚要素モデル」を表し、７０２は７０１に関連する参照視覚要素モデルを表し、７０３は第２の更新ユニット２３０によって更新された「不一致視覚要素モデル」７０１を表す。７０１は、少なくとも次のレコードを含むと仮定する：最新の一致時刻（例えば、（ｔ−１）番目のビデオフレーム）および外観特徴（例えば、（Ｙ'，Ｃｂ'，Ｃｒ'））、７０２の外観特徴が（Ｙ''，Ｃｂ''，Ｃｒ''）であると仮定すると、第２の更新ユニット２３０が７０１を更新した後、７０３のレコード（すなわち、更新された７０１）は、例えば、最新の一致時刻（例えば（ｔ−１）番目のビデオフレーム）および外観特徴（例えば（Ｙ'''，Ｃｂ'''，Ｃｒ'''））である。

ビデオ内の背景視覚要素は、ビデオ内の環境照明の変動をより具体化することができるので、いくつかの背景視覚要素モデルが遮られることに起因して誤って検出されるのを防ぐべく、シーンモデル内の背景視覚要素モデルが環境照明の変動に続いてすぐに変動できるようにするため、他の実施形態では、第２の更新ユニット２３０は「不一致視覚要素モデル」の一部のみを更新する。ｔ番目のビデオフレーム内のｎ番目の視覚要素について、第２の更新ユニット２３０によるｎ番目の視覚要素に対応する上述のＭ個の「不一致視覚要素モデル」の更新処理について図８を参照して説明する。

図８に示すように、ステップＳ３５１１において、第２の更新ユニット２３０は、Ｍ個の「不一致視覚要素モデル」からＪ個の「不一致視覚要素モデル」を選択する（Ｊは自然数であり、１≦Ｊ≦Ｍである）。これらのＪ個の「不一致視覚要素モデル」は、以下の条件を満たす：ｔ番目のビデオフレームの前のビデオフレーム内の対応する視覚要素に基づいてマッチングを実行する際に「一致する」と判定され、また「背景視覚要素モデル」と判定される。上述のように、シーンモデル内の視覚要素モデルは、視覚要素の現在のビデオフレームおよびその前のビデオフレーム内の追加の特徴を表すことができる。したがって、例えば、第２の更新ユニット２３０は、Ｍ個の「不一致視覚要素モデル」の追加の特徴に基づいて、Ｊ個の「不一致視覚要素モデル」を選択してもよい。好ましくは、Ｍ個の「不一致視覚要素モデル」の何れについても、ｔ番目のビデオフレームにより近い前のビデオフレームにおいて上述の条件を満たす場合、「不一致視覚要素モデル」が、おそらく最近遮られた「背景視覚要素モデル」であり環境照明の変動に続いてすぐに変動する必要があることを意味する。

したがって、一実施形態では、第２の更新ユニット２３０は、これらＭ個の「不一致視覚要素モデル」から１つの「不一致視覚要素モデル」のみを選択する。ここで、選択された「不一致視覚要素モデル」は、ｔ番目のビデオフレームに最も近い１つ前のビデオフレーム（例えば、（ｔ−１）番目のビデオフレーム）において上述の条件を満たす。一例として、図９を参照して、ｔ番目のビデオフレーム内のｎ番目の視覚要素（図９に示す視覚要素９１０）を取り上げる。図９に示すように、９２０は視覚要素９１０に対応するシーンモデル内の視覚要素モデルを表し、９３０は視覚要素９１０に対応するＭ個の「不一致視覚要素モデル」を表し、Ｍ＝３と仮定する。ここで、９３１はモデル−１の例示的なレコードを示し、これはモデル−１が（ｔ−１）番目のビデオフレーム内の対応する視覚要素に基づいてマッチングを実行する際に「一致する」と決定されることを意味する。「背景視覚要素モデル」としての対応する外観特徴は（Ｙ１，Ｃｂ１，Ｃｒ１）である。ここで、９３２はモデル−２の例示的レコードを表し、９３３はモデル−３の例示的レコードを表す。上述したように、モデル−１は、ｔ番目のビデオフレームに最も近い（ｔ−１）番目のビデオフレームにおいて上述の条件を満たすので、第２の更新ユニット２３０によってモデル−１が選択されることになる。

他の実施形態では、第２の更新ユニット２３０は、これらＭ個の「不一致視覚要素モデル」から、２（１より大きい数）以上の「不一致視覚要素モデル」を選択する。ここで、これらの選択された「不一致視覚要素モデル」は、ｔ番目のビデオフレームの前の所定の時間期間内の前のビデオフレームにおいて上述の条件を満たす（例えば（ｔ−１）番目のビデオフレームから（ｔ−１０）番目のビデオフレーム）。

図８に戻り、選択されたＪ個の「不一致視覚要素モデル」のそれぞれについて、ステップＳ３５１２において、第２の更新ユニット２３０は、シーンモデルからこの「不一致視覚要素モデル」に対応付けられている参照視覚要素モデルを決定する。ステップＳ３５１２の対応する処理は、図６のステップＳ３５０１の処理と同じであるため、ここでの詳細な説明は繰り返さない。

選択されたＪ個の「不一致視覚要素モデル」のそれぞれについて、ステップＳ３５１３において、第２の更新ユニット２３０は、決定された参照視覚要素モデルのｔ番目のビデオフレーム内の外観特徴と決定された参照視覚要素モデルのｔ番目のビデオフレームの前のビデオフレーム内の外観特徴との間の差分に基づいて、この「不一致視覚要素モデル」を更新する。ステップＳ３５１３の対応する処理は、図６のステップＳ３５０２の処理と同じであるため、ここでの詳細な説明は繰り返さない。

図８に示す実施形態では、ステップＳ３５１１の選択処理は、第２の更新ユニット２３０によって実現されている。あるいは、ステップＳ３５１１の選択処理は、特別な手段によって実現されてもよい。この場合、例えば図２に示す画像処理装置２００は、第１の更新ユニット２２０と第２の更新ユニット２３０との間に配置され得る選択ユニット（不図示）を更に含み得る。

図３に戻って、シーンモデル内の視覚要素モデルがｔ番目のビデオフレームに基づいて更新された後、ステップＳ３６０において、第２の更新ユニット２３０は、取得ユニット２１０が新しいビデオフレームを取得することができるか否かを判断する。新たなビデオフレームを取得できない場合、フローチャート３００の手順は終了する。新たなビデオフレームを取得できる場合、ステップＳ３７０において、ｔ＝ｔ＋１とされ、ステップＳ３１０からステップＳ３６０の対応する処理が繰り返し実行される。

上述したように、本発明によれば、現在のビデオフレーム内の視覚要素と一致するシーンモデル内の視覚要素モデルを環境照明の変動の直後に更新し得るだけでなく、現在のビデオフレーム内の視覚要素と一致しないシーンモデル内の視覚要素モデルも環境照明の変動の直後に更新し得る。したがって、環境モデル全体が環境照明の変動に続いてすぐに変動し得る。

以下、図１０を参照して、道路を歩く人物を例に挙げて説明する。図１０に示すように、ビデオフレーム１０３１は人物１０１０が領域１０２０に向かって移動していることを表し、ビデオフレーム１０４１は人物１０１０が領域１０２０に到達したことを表し、ビデオフレーム１０５１は人物１０１０が領域１０２０から離れたことを表している。例えば、領域１０２０内およびその周辺の視覚要素に関しては、１０３２および１０４２および１０５２はシーンモデル内の対応する視覚要素モデルを表している。ここで、視覚要素モデル１０６１および１０６２は、例えば領域１０２０に対応する視覚要素モデルである。

ビデオフレーム１０３１が前のビデオフレームであると仮定し、前のビデオフレーム内で、視覚要素モデルが背景視覚要素モデル（すなわち、１０３２で「ＢＧ_０」〜「ＢＧ_８」）として決定される。このように、視覚要素モデル１０６１は、一致視覚要素モデルとして決定され、また背景視覚要素モデルとしても決定されることが分かる。

ビデオフレーム１０４１が現在のビデオフレームであると仮定し、領域１０２０に対応する２つの視覚要素モデル（すなわち１０６１および１０６２）があると仮定する。ここで、現在のビデオフレームにおいて、視覚要素モデル１０６２が一致視覚要素モデルとして決定され、前景視覚要素モデルとして分類されます。視覚要素モデル１０６１は、不一致視覚要素モデルとして決定される。視覚要素モデル１０６１に関しては、ビデオフレーム１０４１に最も近いビデオフレーム１０３１内の一致視覚要素モデルおよび背景視覚要素モデルとして決定されるので、本発明によれば、視覚要素モデル１０６１は第２の更新ユニット２３０によって選択され更新されることになる。視覚要素モデル１０６３が視覚要素モデル１０６１に関連する参照視覚要素モデルであると仮定すると、視覚要素モデル１０６１は視覚要素モデル１０６３を介して更新することができる。

ビデオフレーム１０５１では、視覚要素モデル１０６１が本発明に従って更新されているので、人物１０１０が領域１０２０から離れた後、視覚要素モデル１０６１は誤って前景視覚要素モデルとして決定されることなく背景視覚要素モデルとして決定される。本発明を適用する代わりに関連技術をこの状況に適用する場合、人物１０１０が領域１０２０から離れた後、視覚要素モデル１０６１は誤って前景視覚要素モデルとして決定されることになる。

前述したように、本発明によって更新されたシーンモデルは、前景検出にも適用することができ、本発明の例示的な用途として、図１１は、本発明の一実施形態による前景検出のための画像処理装置１１００の構成を示すブロック図である。なお、図１１に示したモジュールの一部または全部は、特殊なハードウェアにより構成され得る。図１１に示すように、画像処理装置１１００は、取得ユニット２１０、第１の更新ユニット２２０、第２の更新ユニット２３０、前景検出ユニット１１１０を備える。

一態様では、図１１に示す取得ユニット２１０、第１の更新ユニット２２０、第２の更新ユニット２３０、および格納デバイス２４０は、図２に示す対応する部分と同じであるので、その詳細な説明は省略し、ここでは繰り返さない。

一方、図１１に示すように、取得ユニット２１０によって取得された現在のビデオフレーム（例えば、ｔ番目のビデオフレーム）及び取得ユニット２１０によって取得されたシーンモデルについて、取得されたシーンモデルは、本発明による現在のビデオフレームの前のビデオフレーム（例えば、１〜（ｔ−１）個のビデオフレーム）に基づいて更新されたシーンモデルであり、前景検出ユニット１１１０は、例えば既存の背景減算法を使用することにより、現在のビデオフレームから、取得されたシーンモデル（すなわち更新されたシーンモデル）に基づき前景を検出する。

上述したように、本発明によって更新されたシーンモデルは、環境照明の変動の直後に変動することができるので、本発明に従って更新されたシーンモデルを使用することによって、遮られた状況下での環境照明の変動による前景検出への影響を効果的に回避することができ、それにより前景検出の処理精度を改善することが可能である。

上述のすべてのユニットは、本開示における処理を達成するための例示的および／または好ましいモジュールである。これらのユニットはハードウェアユニット（フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、デジタルシグナルプロセッサ、特定用途向け集積回路など）、および／または、ソフトウェアモジュール（コンピュータ可読プログラムなど）であり得る。各ステップを達成するためのユニットは網羅的に記載されていない。しかしながら、特定の手順を実行するためのステップが存在する場合、同じ手順を達成するための対応する機能モジュールまたはユニットが存在してもよい（ハードウェアおよび／またはソフトウェアによって実施される）。記載されたステップおよびこれらのステップに対応するユニットによるすべての組み合わせの技術的ソリューションは、それらにより構成される技術的ソリューションが完成され適用可能である場合、本出願により開示される内容に含まれる。

本発明の方法および装置は様々な形態で実施することができる。例えば、本発明の方法および装置は、ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の他の組み合わせによって実施することができる。本方法のステップの上述の順序は例示的なものにすぎず、本発明の方法のステップは、特に説明がない限り、上述の順序に限定されない。さらに、いくつかの実施形態では、本発明は、本発明による方法を達成するためのマシン可読命令を含む、記録媒体に記録されたプログラムとして実施することもできる。したがって、本発明は、本発明に係る方法を実現するためのプログラムを記録した記録媒体も包含する。

本発明のいくつかの特定の実施の形態を実施例によって詳細に説明したが、上述の実施例は例示にすぎず、本発明の範囲を限定するものではないことは当業者には理解されるべきである。さらに、当業者には当然のことながら、本発明の範囲および趣旨から逸脱することなく上述の実施形態を修正することができる。本発明の範囲は添付の特許請求の範囲によって制限される。

Claims

入力ビデオに基づいて現在のビデオフレーム及びシーンモデルを取得するための取得手段であって、前記シーンモデルは前記現在のビデオフレーム及び該現在のビデオフレームに先行するビデオフレームにおける外観特徴を少なくとも表す視覚要素モデルを含む、前記取得手段と、
前記現在のビデオフレーム内の視覚要素に基づいて、該現在のビデオフレーム内の視覚要素と一致する前記シーンモデル内の視覚要素モデルを更新するための第１の更新手段と、
前記現在のビデオフレーム内及び該現在のビデオフレームに先行するビデオフレーム内の視覚要素に基づいて、該現在のビデオフレーム内の視覚要素と一致しない前記シーンモデル内の視覚要素モデルを更新するための第２の更新手段と、
を有する画像処理装置。
前記シーンモデル内の前記視覚要素モデルは、前記現在のビデオフレーム及び該現在のビデオフレームに先行するビデオフレームにおける時間的特徴を更に表し、
前記現在のビデオフレーム内の視覚要素と一致する前記シーンモデル内の何れの視覚要素モデルに対しても、前記第１の更新手段は、前記視覚要素モデルと一致する前記現在のビデオフレーム内の視覚要素の時間的特徴に基づいて、前記視覚要素モデルを前景視覚要素モデルまたは背景視覚要素モデルとして決定する
請求項１に記載の画像処理装置。
前記シーンモデル内の何れの視覚要素モデルに対しても、前記視覚要素モデルは、前記視覚要素モデルの外観特徴と前記現在のビデオフレーム内の視覚要素モデルに対応する視覚要素の外観特徴との差分に基づいて、前記視覚要素と一致する視覚要素モデルまたは前記視覚要素と一致しない視覚要素モデルとして決定される
請求項１又は２に記載の画像処理装置。
前記現在のビデオフレーム内の視覚要素と一致しない前記シーンモデル内の何れの視覚要素モデルに対しても、前記第２の更新手段は、前記視覚要素モデルに関連付けられた参照視覚要素モデルにおける前記現在のビデオフレーム内の外観特徴と前記先行するビデオフレーム内の外観特徴との差分に基づいて、前記視覚要素モデルを更新する
請求項２に記載の画像処理装置。
前記現在のビデオフレーム内の視覚要素と一致しない前記シーンモデル内の何れの視覚要素モデルに対しても、前記視覚要素モデルに関連付けられた前記参照視覚要素モデルは、前記現在のビデオフレームと前記先行するビデオフレームとのそれぞれに基づいて前記背景視覚要素モデルとして決定され、かつ、前記先行するビデオフレーム内の外観特徴と前記視覚要素モデルとの間の類似性が所定の条件を満たす、ような前記シーンモデル内の視覚要素モデルである
請求項４に記載の画像処理装置。
前記第２の更新手段は、前記現在のビデオフレーム内の視覚要素と一致しない前記シーンモデル内の視覚要素モデルのうち、前記先行するビデオフレーム内の視覚要素と一致しかつ前記背景視覚要素モデルとして決定される視覚要素モデルを更新する
請求項２、４又は５に記載の画像処理装置。
前記外観特徴は、テクスチャ特徴、色特徴および照明特徴の何れかを含む
請求項１に記載の画像処理装置。
前記第１の更新手段及び前記第２の更新手段により更新されたシーンモデルに基づいて前記現在のビデオフレームに後続するビデオフレームから前景を検出するための前景検出手段を更に有する
請求項１に記載の画像処理装置。
入力ビデオに基づいて現在のビデオフレーム及びシーンモデルを取得するための取得ステップであって、前記シーンモデルは前記現在のビデオフレーム及び該現在のビデオフレームに先行するビデオフレームにおける外観特徴を少なくとも表す視覚要素モデルを含む、前記取得ステップと、
前記現在のビデオフレーム内の視覚要素に基づいて、該現在のビデオフレーム内の視覚要素と一致する前記シーンモデル内の視覚要素モデルを更新するための第１の更新ステップと、
前記現在のビデオフレーム内及び該現在のビデオフレームに先行するビデオフレーム内の視覚要素に基づいて、該現在のビデオフレーム内の視覚要素と一致しない前記シーンモデル内の視覚要素モデルを更新するための第２の更新ステップと、
を含む画像処理方法。
前記シーンモデル内の前記視覚要素モデルは、前記現在のビデオフレーム及び該現在のビデオフレームに先行するビデオフレームにおける時間的特徴を更に表し、
前記現在のビデオフレーム内の視覚要素と一致する前記シーンモデル内の何れの視覚要素モデルに対しても、前記第１の更新ステップにおいて、前記視覚要素モデルは、前記視覚要素モデルと一致する前記現在のビデオフレーム内の視覚要素の時間的特徴に基づいて、前景視覚要素モデルまたは背景視覚要素モデルとして更に決定される
請求項９に記載の画像処理方法。
前記現在のビデオフレーム内の視覚要素と一致しない前記シーンモデル内の何れの視覚要素モデルに対しても、前記第２の更新ステップにおいて、前記視覚要素モデルは、前記視覚要素モデルに関連付けられた参照視覚要素モデルにおける前記現在のビデオフレーム内の外観特徴と前記先行するビデオフレーム内の外観特徴との差分に基づいて、更新される
請求項１０に記載の画像処理方法。
前記現在のビデオフレーム内の視覚要素と一致しない前記シーンモデル内の何れの視覚要素モデルに対しても、前記視覚要素モデルに関連付けられた前記参照視覚要素モデルは、前記現在のビデオフレームと前記先行するビデオフレームとのそれぞれに基づいて前記背景視覚要素モデルとして決定され、かつ、前記先行するビデオフレーム内の外観特徴と前記視覚要素モデルとの間の類似性が所定の条件を満たす、ような前記シーンモデル内の視覚要素モデルである
請求項１１に記載の画像処理方法。
前記第２の更新ステップにおいて、前記現在のビデオフレーム内の視覚要素と一致しない前記シーンモデル内の視覚要素モデルのうち、前記先行するビデオフレーム内の視覚要素と一致しかつ前記背景視覚要素モデルとして決定される視覚要素モデルが更新される
請求項１０乃至１２の何れか１項に記載の画像処理方法。
プロセッサにより実行されたとき、請求項９乃至１３の何れか１項に記載の画像処理方法を前記プロセッサに実行させるためのプログラム。