JP2019169144A

JP2019169144A - 画像処理装置及び方法、並びに命令を格納する記憶媒体

Info

Publication number: JP2019169144A
Application number: JP2019046324A
Authority: JP
Inventors: シャオシューユー; Xu Yu Xiao; ワンクァオ; Qiao Wang
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-03-22
Filing date: 2019-03-13
Publication date: 2019-10-03
Anticipated expiration: 2039-03-13
Also published as: CN110300253B; JP6752317B2; CN110300253A

Abstract

【課題】前景検出のため視覚要素モデルの補正を行う画像処理装置及び方法並びに命令を格納する記憶媒体を提供する。【解決手段】画像処理装置は、現在の映像フレームと、入力映像に基づくシーンモデルと、を取得する手段と、現在の映像フレームの視覚要素に基づいて、シーンモデルの視覚要素モデルが、補正される必要がある視覚要素モデルであるか、補正される必要のない視覚要素モデルであるか、判定する手段と、参照視覚要素モデルに基づいて、補正される必要がある視覚要素モデルを補正する手段と、を含む。参照視覚要素モデルは、現在の映像フレーム及びその前の映像フレームのそれぞれに基づいて、補正される必要のない視覚要素モデルであると判定された、シーンモデルの視覚要素モデルであり、前の映像フレームにおける、参照視覚要素モデルと補正される必要がある視覚要素モデルとの間の外観特徴の類似度が、所定の条件を満たす。【選択図】図２

Description

本発明は、画像処理装置及び画像処理方法に関する。

画像処理において、一方では、画像（例えば映像中の１つの映像フレーム）は典型的にはいくつかの、画像表現に寄与する視認可能な要素である視覚要素で構成される。本明細書において、１つの視覚要素は、例えば、１つの画素、画素群を表す離散コサイン変換（ＤＣＴ）ブロック、又は類似した属性（例えば類似したテクスチャ、類似した色、類似した照明）を有する画素群を表すスーパーピクセルであってもよい。他方で、特に映像監視において、既存の背景差分技術が、映像中の映像フレームの前の所定期間内にある映像フレームに基づいて得られたシーンモデルと映像フレームとを比較することによって、映像中の特定の映像フレームにおける視覚要素が前景又は背景であると検出するために、典型的には用いられている。本明細書において、前景は、映像上で撮像されているシーンに現れる一時的なオブジェクトのことを指す。このような一時的なオブジェクトは、例えば、移動する人又はオブジェクトを含んでもよい。シーンにおける残りの部分が背景と考えられる。実際の応用においては、環境照明の変化により、実際には背景であるいくつかの視覚要素が誤って前景として検出され、これは前景検出の精度に影響を与えるだろう。

環境照明の変化の影響を低減するために、米国特許第８８１８１０８Ｂ２号明細書は、視覚要素を補正する方法を例示的に開示している。この方法は主に：映像中の特定の映像フレームにおける１つの着目視覚要素について、最初に、映像フレームから着目視覚要素を含む処理される１つのパターンを検出し、ここで処理されるパターンはさらに着目視覚要素に最も関連する他の視覚要素を含み；第２に、この映像フレームの前の映像フレームから、処理されるパターンに類似する１つの参照パターンを判定し、ここで参照パターンは、前の映像フレームにおける、着目視覚要素に対応する視覚要素とこの視覚要素に最も関連する他の視覚要素と、を含み；そして、着目視覚要素の画素値を補正するために、処理されるパターンと参照パターンの画素値を加算することと、を含む。このように、例えば、前景検出において、補正された視覚要素に従って、前景検出に対する環境照明の変化の影響が低減されるかもしれない。

しかしながら、いくつかの状況においては、環境照明が変化する際に、上記の例示的な方法によっても環境照明の変化によって引き起こされる影響をよく低減できない。例えば、映像フレームにおいて実際に背景である特定の視覚要素について、前景オブジェクト（例えば人、オブジェクト、又は空から映された影などでもよう）によって隠され、そして再び出現した際に、この視覚要素は誤って前景として検出されるだろう。他方で、視覚要素が再び出現する映像フレームに隣接する映像フレームにおいて、視覚要素を補正するために用いることができる、類似の参照パターンを発見することは困難である。他方で、特定の前の映像フレームにおいて類似の参照パターンを発見可能であったとしても、このような前の映像フレームと視覚要素が再び現れる映像フレームとの間の長い時間間隔のために、この参照パターンは視覚要素を補正する役割を良好に果たすことはできない。

米国特許第８８１８１０８号明細書

背景技術の上記説明に照らして、本発明は上記の課題の少なくとも１つを解決することに向けられる。
本発明の第１の態様によれば、現在の映像フレームと、入力映像に基づく、前記現在の映像フレーム及びその前の映像フレームの視覚要素の外観特徴を少なくとも表す視覚要素モデルを含むシーンモデルと、を取得する取得手段と；前記現在の映像フレームの前記視覚要素に基づいて、前記シーンモデルの前記視覚要素モデルが、補正される必要がある視覚要素モデルであるか、補正される必要のない視覚要素モデルであるか、判定する判定手段と；参照視覚要素モデルに基づいて、前記補正される必要がある視覚要素モデルを補正する補正手段と、を備え、前記参照視覚要素モデルは、前記現在の映像フレーム及びその前の映像フレームのそれぞれに基づいて、前記補正される必要のない視覚要素モデルであると判定された、前記シーンモデルの視覚要素モデルであり、前記前の映像フレームにおける、前記参照視覚要素モデルと前記補正される必要がある視覚要素モデルとの間の前記外観特徴の類似度が、所定の条件を満たす、画像処理装置が提供される。

本発明の別の態様によれば、現在の映像フレームと、入力映像に基づく、前記現在の映像フレーム及びその前の映像フレームの視覚要素の外観特徴を少なくとも表す視覚要素モデルを含むシーンモデルと、を取得する取得工程と；前記現在の映像フレームの前記視覚要素に基づいて、前記シーンモデルの前記視覚要素モデルが、補正される必要がある視覚要素モデルであるか、補正される必要のない視覚要素モデルであるか、判定する判定工程と；参照視覚要素モデルに基づいて、前記補正される必要がある視覚要素モデルを補正する補正工程と、を有し、前記参照視覚要素モデルは、前記現在の映像フレーム及びその前の映像フレームのそれぞれに基づいて、前記補正される必要のない視覚要素モデルであると判定された、前記シーンモデルの視覚要素モデルであり、前記前の映像フレームにおける、前記参照視覚要素モデルと前記補正される必要がある視覚要素モデルとの間の前記外観特徴の類似度が、所定の条件を満たす、画像処理方法が提供される。

本発明のさらに別の態様によれば、プロセッサによって実行された際に、上記の画像処理方法が実行されることを可能とする命令を格納した記憶媒体が提供される。

ここで、映像フレームの視覚要素の外観特徴は、色特徴、テクスチャ特徴、及び照明特徴のうちの任意の１つを含む。

本発明により、シーンモデルの不正確な又は信頼できない視覚要素モデルを補正することができる。

本発明の他の特徴及び利点は、添付の図面を参照する、続く典型的な実施形態の説明から明らかとなるだろう。

本明細書に組み込まれ、本明細書の一部を構成する添付の図面は、本発明の実施形態を表し、実施形態の説明とともに、本発明の原理を説明する役に立つ。

本発明の実施形態に従う技術を実現してもよいハードウェア構成を概略的に表すブロック図である。

本発明の実施形態に従う画像処理装置の構成を表すブロック図である。

本発明の実施形態に従う画像処理のフローチャートを概略的に表す。

現在の映像フレーム、シーンモデル、及びシーンモデルに含まれる視覚要素モデルのサンプルを概略的に表す。

本発明の実施形態に従う、図３に示されるステップＳ３４０のフローチャートを概略的に表す。

本発明を用いる例示的な適用シーンを概略的に表す。

本発明の実施形態に従う前景検出のための画像処理装置の構成を表すブロック図である。

本発明に従う例示的な応用システムの構成を表す。

本発明の例示的な実施形態が添付の図面を参照して以下で詳細に説明される。以下の説明は本質的に単なる説明及び例示のためのものであり、本発明及びその適用又は使用を制限する意図は全くないことに留意すべきである。本実施形態で述べられる構成要素の相対配置、工程、数値表現、及び数値は、別に明記されない限り、本発明の範囲を制限しない。さらに、当業者に知られている技術、方法、及び機器は詳細には議論されないかもしれないが、適切に本明細書の一部となるべきである。

図面において、類似する参照番号及び文字は類似する項目を表し、したがって１つの図において項目が定義されたら、続く図においてその項目について議論することは必要ではない。

本発明者は、映像において、どんなに環境照明が変化しても、そして映像においていくつかの視覚要素が前景オブジェクト（例えば人、オブジェクト、又は空から映る影などでもよい）によって隠されたか否かにかかわらず、連続する映像フレームのセグメントにおいて、環境照明の変化に密接に従って変化することができるいくつかの視覚要素が常に存在すると信じる。すなわち、連続する映像フレームのセグメントにおいて、そこでどんなに環境照明が変化しても、環境照明の変化に密接に従って変化することができるいくつかの視覚要素が常に存在し、シーンモデルにおけるこれらの視覚要素に対応する視覚要素モデルもまた常に環境照明の変化に密接に従って変化することができ、このような視覚要素モデルは正しい又は信頼できる視覚要素モデルと考えることができる。しかしながら、環境照明の変化に密接に従って変化することができないシーンモデル中の視覚要素モデル（例えば、映像中の対応する視覚要素が前景オブジェクトによって隠されている）について、このような視覚要素モデルは、環境の変化のために不正確に又は信頼できなくなる視覚要素モデルと考えることができる。もし、これらの不正確な又は信頼できない視覚要素モデルを補正するために、上記のような視覚要素モデルから、環境照明の変化に密接に従って変化することができる関連する視覚要素モデル（以下では「参照視覚要素モデル」と呼ばれる）を発見することができるならば、後続する動作（例えば前景検出）における環境照明の変化の影響を効果的に低減し、これにより後続する動作（例えば前景検出）の処理精度を向上させることが可能であるかもしれない。

本発明の例示的な実施形態が添付の図面を参照して以下で詳細に説明される。

（ハードウェア構成）

まず、後述する技術を実装してもよいハードウェア構成が、図１を参照して説明される。

ハードウェア構成１００は、例えば、中央処理装置（ＣＰＵ）１１０、ランダムアクセスメモリ（ＲＡＭ）１２０、読み出し専用メモリ（ＲＯＭ）１３０、ハードディスク１４０、入力機器１５０、出力機器１６０、ネットワークインタフェース１７０、及びシステムバス１８０を含む。さらに、一実装例において、ハードウェア構成１００は、タブレット、ラップトップ、デスクトップ、クライアントサーバ、又は他の適切な電子機器のような、コンピュータによって実現されてもよい。他の実装例において、ハードウェア構成１００は、デジタルカメラ、ビデオカメラ、ネットワークカメラ、又は他の適切な電子機器のような、監視機器によって実現されてもよい。ここで、ハードウェア構成１００が監視機器によって実現される場合、ハードウェア構成１００は例えば光学系１９０も含む。

一実装例において、本発明に従う画像処理装置はハードウェア又はファームウェアによって構成され、ハードウェア構成１００のモジュール又は構成要素として用いられる。例えば、図２を参照して詳しく後述される画像処理装置２００、及び図６を参照して詳しく後述される画像処理装置６００は、ハードウェア構成１００のモジュール又は構成要素として用いられる。他の実装例において、本発明に従う画像処理装置は、ＲＯＭ１３０又はハードディスク１４０に格納され、ＣＰＵ１１０によって実行される、ソフトウェアによって構成される。例えば、図３を参照して詳しく後述される手順３００は、ＲＯＭ１３０又はハードディスク１４０に格納されたプログラムとして用いられる。

ＣＰＵ１１０は、プロセッサのような任意の適切なプログラム可能な制御装置であり、ＲＯＭ１３０又はハードディスク１４０（例えばメモリ）に格納された様々なアプリケーションプログラムを実行することによって、後述する様々な機能を実行してもよい。ＲＡＭ１２０は、ＲＯＭ１３０又はハードディスク１４０からロードされたプログラム又はデータを一時的に格納するために用いられ、様々な処理（例えば、図３〜５を参照して詳しく後述される技術の実現）及びそこで他に利用可能な機能を実行するＣＰＵ１１０のための領域としても用いられる。ハードディスク１４０は、オペレーティングシステム（ＯＳ）、様々なアプリケーション、制御プログラム、映像、シーンモデル、処理結果、及び／又は、映像のそれぞれの映像フレームの予め定義されたデータ（例えば閾値（ＴＨ））のような様々な情報を格納する。

一実装例において、入力機器１５０は、ユーザがハードウェア構成１００と相互作用（インタラクト）することを可能とするために用いられる。一実施例において、ユーザは入力機器１５０を介して画像／映像／データを入力してもよい。他の実施例において、ユーザは入力機器１５０を介して本発明の対応する処理を起動してもよい。さらに、入力機器１５０は、ボタン、キーボード、又はタッチスクリーンのような、様々な形態をとってもよい。他の実装例において、入力機器１５０は、デジタルカメラ、ビデオカメラ、及び／又はネットワークカメラのような専用電子機器からの画像／映像出力を受け取るために用いられてもよい。さらに、ハードウェア構成１００が監視機器によって実現される場合、ハードウェア構成１００の光学系１９０は監視されている場所の画像／映像を直接撮像するだろう。

一実装例において、出力機器１６０はユーザに対して処理結果（例えば前景）を表示するために用いられる。さらに、出力機器１６０は、ブラウン管（ＣＲＴ）又は液晶ディスプレイのような様々な形態をとることができる。

ネットワークインタフェース１７０は、ハードウェア構成１００をネットワークに接続するためのインタフェースを提供する。例えば、ハードウェア構成１００は、ネットワークインタフェース１７０を介してネットワークを介して接続された他の電子機器とのデータ通信を行ってもよい。代わりに、無線データ通信を行うためにハードウェア構成１００に無線インタフェースが設けられてもよい。システムバス１８０は、ＣＰＵ１１０、ＲＡＭ１２０、ＲＯＭ１３０、ハードディスク１４０、入力機器１５０、出力機器１６０、ネットワークインタフェース１７０、及び光学系１９０などの間での互いのデータ送信のためのデータ送信経路を提供してもよい。バスと呼ばれてはいるものの、システムバス１８０は何らかの特定のデータ送信技術には限定されない。

上記のハードウェア構成１００は単なる説明のためのものであり、本発明及びその適用又は使用を制限する意図は全くない。さらに、簡略化のために、図１には１つのハードウェア構成のみが示されている。しかしながら、必要に応じて複数のハードウェア構成が用いられてもよい。

（画像処理）

次に、本発明に従う画像処理について、図２〜６を参照して説明する。

図２は、本発明の実施形態に従う画像処理装置２００の構成を表すブロック図である。ここで、図２に示されるモジュールのうちいくつか又は全ては、専用のハードウェアによって実現されてもよい。図２に示されるように、画像処理装置２００は取得部２１０、判定部２２０、及び補正部２３０を含む。

さらに、図２に示される格納装置２４０は、例えば、映像から得られた映像フレーム、及びそれぞれの映像フレームについての処理結果（例えば補正されたシーンモデル、前景検出結果）を格納する。例えば、映像はユーザによって入力され、又は専用の電子機器（例えばカメラ）から出力され、又は図１に示される光学系１９０によって撮像される。代わりに、取得された映像フレーム及び処理結果は異なる格納装置に格納されてもよい。一実装例において、格納装置２４０は図１に示されるＲＯＭ１３０又はハードディスク１４０である。他の実装例において、格納装置２４０は、ネットワーク（不図示）を介して画像処理装置２００に接続されたサーバ又は外部記憶装置である。

まず、一実装例において、例えば、図１に示されるハードウェア構成１００がコンピュータにより実現される場合、入力機器１５０は、専用の電子機器（例えばネットワークカメラ）から出力され又はユーザによって入力された映像を受け取る。次に、入力機器１５０はシステムバス１８０を介して画像処理装置２００へと受け取った映像を送信する。他の実装例において、例えば、ハードウェア構成１００が監視機器によって実現される場合、画像処理装置２００は光学系１９０によって撮像された映像を直接受け取る。

すると、図２に示されるように、一方では、取得部２１０は受け取った映像（すなわち入力映像）から現在の映像フレームを取得し、これを格納装置２４０に格納する。例えば、現在の映像フレームはｔ番目の映像フレームであり、ここでｔは自然数であってｔ≧２である。ここで、上記のとおり、それぞれの映像フレームは複数の視覚要素で構成される。一方で、取得部２１０は格納装置２４０からシーンモデルを取得する。ここで、シーンモデルは、現在の映像フレーム及び現在の映像フレームの前の映像フレームにおける視覚要素の外観特徴を少なくとも表す視覚要素モデルを含む。言い換えると、シーンモデルは、現在の映像フレーム及び現在の映像フレームの前の映像フレームに基づいて得られる。ここで、シーンモデルの現在の映像フレームの前の映像フレームに基づいて得られた視覚要素モデルは、補正部２３０によって補正されうる。ここで、映像フレームの視覚要素の外観特徴は、色特徴、テクスチャ特徴、及び照明特徴のうちの任意の１つを含む。ここで、１つの視覚要素について、この視覚要素に対応する複数の視覚要素モデルがシーンモデルには含まれる。例えば、現在の映像フレームがｔ番目の映像フレームであると仮定すると、視覚要素のうちの１つについて、この視覚要素に対応する１〜ｔ番目の視覚要素モデルがシーンモデルに含まれてもよく、ここで１つの視覚要素モデルは、１〜ｔ番目の映像フレームのうちの１つの同じ位置にある視覚要素の外観特徴を少なくとも表す。しかしながら、明らかにこれに限定される必要はない。ｔ番目の映像フレームに含まれる１つの視覚要素について、この視覚要素に対応する、ｔよりも少ない数の視覚要素モデルが、シーンモデルに含まれてもよい。

現在の映像フレーム及びシーンモデルが得られた後で、判定部２２０は、現在の映像フレームの視覚要素に基づいて、シーンモデルの視覚要素モデルが、補正される必要がある視覚要素モデルであるか、補正される必要のない視覚要素モデルであるか、判定する。このように、判定部２２０の判定結果に基づいて、シーンモデルの視覚要素モデルは、現在の映像フレーム及びその前の映像フレームの視覚要素についての追加の特徴をさらに表してもよく、ここで追加の特徴は、例えば、シーンモデルの視覚要素モデルが、それぞれの映像フレームに基づいて、補正される必要がある視覚要素モデルであるか、及び補正される必要のない視覚要素モデルであるか、判定されたという履歴であってもよい。

そして、補正部２３０は、参照視覚要素モデルに基づいて、補正される必要がある視覚要素モデルを補正する。ここで、参照視覚要素モデルは、現在の映像フレーム及びその前の映像フレームのそれぞれに基づいて、補正される必要のない視覚要素モデルであると判定された、シーンモデルの視覚要素モデルであり、ここで、参照視覚要素モデルと、現在の映像フレームの前の映像フレームにおいて補正される必要があった視覚要素モデルとの間の、外観特徴の類似性が所定の条件を満たす。

最後に、シーンモデルの補正される必要がある視覚要素モデルが補正された後で、格納装置２４０に格納されたシーンモデルが後続するシーンモデルの補正において更新されてもよいように、及び／又は後続する処理（例えば現在の映像フレームの前景検出）のために、補正部２３０は補正されたシーンモデルを格納装置２４０に送信する。

さらに、現在の映像フレームが入力映像の最初の映像フレームである場合、シーンモデルは一般には補正されない。

図３に示すフローチャート３００は、図２に示す画像処理装置２００の対応する手順である。

図3に示されるように、ステップＳ３１０において、取得部２１０は受け取った映像（すなわち入力映像）からｔ番目の映像フレームを取得し、ｔ番目の映像フレームを格納装置２４０に格納する。ここで、ｔ≧２である。

ステップＳ３２０において、取得部２１０は格納装置２４０からシーンモデルを取得する。

ステップＳ３３０において、判定部２２０は、ｔ番目の映像フレームの視覚要素に基づいて、シーンモデルの視覚要素モデルが、補正される必要がある視覚要素モデルであるか、補正される必要のない視覚要素モデルであるか、判定する。それぞれの映像フレームはＮ個の視覚要素によって構成されると仮定され、ここでＮは自然数であり、すると上記のとおり、ｔ番目の映像フレームのｎ番目の視覚要素について、この視覚要素に対応する１〜ｔ番目の視覚要素モデルがシーンモデルには含まれる。図４を参照して、ｔ番目の映像フレームのｎ番目の視覚要素（図４に示される視覚要素４１０）を例にして、判定部２２０が、シーンモデルの対応する１〜ｔ番目の視覚要素モデル（図４に示される４２０であり、４２０は４２１に示される１〜ｔ番目の視覚要素モデルを含む）が、補正される必要がある視覚要素モデルであるか、補正される必要のない視覚要素モデルであるか、判定する実装例が以下に説明される。

まず、４２１に示される視覚要素モデルのそれぞれについて、視覚要素モデル２を例にとると、判定部２２０は視覚要素モデル２の外観特徴と視覚要素４１０の外観特徴との間の違いを判定する。一実装例において、この違いは、例えば、視覚要素モデル２のテクスチャ特徴／色特徴／照明特徴と、視覚要素４１０のテクスチャ特徴／色特徴／照明特徴との間の類似度である。ここで、上記の類似度は、例えば既知のマッチング法により得られる。

すると、１〜ｔ番目の視覚要素モデルのそれぞれについて、視覚要素モデル２を例にとると、判定部２２０は、判定された違い（例えば判定された類似度）に基づいて、視覚要素モデル２が補正される必要がある視覚要素モデルであるか、又は補正される必要のない視覚要素モデルであるか、を判定する。一実装例において、判定された類似度は予め定義された閾値（例えばＴＨ１）と比較され、判定された類似度が例えばＴＨ１以上である場合、視覚要素モデル２は視覚要素４１０と類似していると考えられ、こうして視覚要素モデル２は補正される必要のない視覚要素モデルと判定される。言い換えると、視覚要素４１０に関して、視覚要素モデル２は正しい又は信頼できる視覚要素モデルに属する。すなわち、視覚要素モデル２は、環境の変化に密接に従って変化することができる視覚要素モデルに属する。反対に、判定された類似度が例えばＴＨ１未満である場合、視覚要素モデル２は視覚要素４１０とは類似していないと考えられ、こうして視覚要素モデル２は補正される必要がある視覚要素モデルと判定される。言い換えると、視覚要素４１０に関して、視覚要素モデル２は環境の変化によって不正確に又は信頼できなくなる視覚要素モデルに属する。

図３に戻って、判定部２２０によって判定された、補正される必要がある視覚要素モデルについて、ステップＳ３４０で補正部２３０はこれらの補正される必要がある視覚要素モデルを参照視覚要素モデルに基づいて補正する。上記のとおり、ｔ番目の映像フレームのｎ番目の視覚要素について、シーンモデルの対応する１〜ｔ番目の視覚要素モデルの中で合計Ｍ個の視覚要素モデルが補正される必要がある視覚要素モデルであると判定されたと仮定する。ここでＭは自然数であって１≦Ｍ≦ｔである。このとき、補正される必要があるＭ個の視覚要素モデルのそれぞれについて、補正される必要があるｍ番目の視覚要素モデルを例にとると、図５を参照して、一実装例において補正部２３０は補正される必要がある視覚要素モデルを補正する。

図５に示されるように、ステップＳ３４１において、補正部２３０は、シーンモデルから、補正される必要があるｍ番目の視覚要素モデルに関連する参照視覚要素モデルを判定する。一実装例において、補正部２３０は以下の方式によって参照視覚要素モデルを判定する。

まず、補正部２３０は、補正される必要のあるｍ番目の視覚要素モデルの周りの視覚要素モデルから、ｔ番目の映像フレームのみに基づいてではなく、ｔ番目の映像フレームの前の映像フレーム（例えば、ｔ−１番目の映像フレーム、又はｔ番目の映像フレームの何フレームか前）にも基づいて、補正される必要のない視覚要素モデルであると判定された視覚要素モデルを探す。言い換えると、見つけられた視覚要素モデルは、実際に、環境の変化に密接に従って変化することができる（すなわち正確又は信頼できる）視覚要素モデルである。上記のとおり、シーンモデルの視覚要素モデルは、現在の映像フレーム及びその前の映像フレームの視覚要素についての追加の特徴を表してもよい。それゆえ、補正部２３０は、例えば、補正される必要があるｍ番目の視覚要素モデルの周りの視覚要素モデルについての追加の特徴に基づいて、要件を満たす視覚要素モデルを探してもよい。

次に、見つかった視覚要素モデルのそれぞれについて、補正部２３０は、視覚要素モデルの外観特徴（例えば、テクスチャ特徴、色特徴、照明特徴）と、補正される必要があるｍ番目の視覚要素モデルの外観特徴と、の間の類似度を判定する。

そして、補正部２３０は、見つかった視覚要素モデルから、予め定められた条件及び判定された類似度に基づいて、補正される必要があるｍ番目の視覚要素モデルと関連するであろう参照視覚要素モデルを判定する。一実装例において、補正部２３０は、見つかった視覚要素モデルのうち最も高い類似度を有する１つの視覚要素モデルを、補正される必要があるｍ番目の視覚要素モデルに関連する参照視覚要素モデルとして選択する。他の実装例において、補正部２３０は、例えば、予め定義された閾値（例えばＴＨ２）以上の類似度を有する見つかった視覚要素モデルのうち任意の１つを、補正される必要があるｍ番目の視覚要素モデルに関連する参照視覚要素モデルとして選択する。

図５に戻って、補正される必要があるｍ番目の視覚要素モデルに関連する参照視覚要素モデルが判定された後で、ステップＳ３４２において、補正部２３０は、ｔ番目の映像フレームとｔ番目の映像フレームの前の映像フレームとの間での判定された参照視覚要素モデルの外観特徴の違いにもとづいて、補正される必要があるｍ番目の視覚要素モデルを補正する。一実装例において、補正部２３０は以下の方式によって補正される必要があるｍ番目の視覚要素モデルを補正する。

まず、補正部２３０は、ｔ番目の映像フレームの参照視覚要素モデルのテクスチャ特徴／色特徴／照明特徴と、参照視覚要素モデルが位置する映像フレームの参照視覚要素モデルのテクスチャ特徴／色特徴／照明特徴との間の特徴差分を算出する。すると、補正部２３０は、視覚要素モデルを補正する目的が達成されるように、直接的な重ね(superposition)方式で、又は重み付け重ね方式で、補正される必要があるｍ番目の視覚要素モデルのテクスチャ特徴／色特徴／照明特徴に対して、算出された特徴差分を重ねる(superimpose)。

図３に戻って、シーンモデルの補正される必要がある視覚要素モデルがｔ番目の映像フレームに基づいて補正された後で、一方では補正部２３０は、後のシーンモデルの補正及びｔ番目の映像フレームの前景検出のような後続する処理のために、補正されたシーンモデルを格納装置２４０に格納する。他方で、ステップＳ３５０において補正部２３０は、取得部２１０によって新しい映像フレームが取得されることができるかどうかを判定する。新しい映像フレームが取得されることができない場合、フローチャート３００の手順は終了する。新しい映像フレームが取得されることができる場合、ステップＳ３６０においてｔ＝ｔ＋１の設定が行われ、そしてステップＳ３１０からステップＳ３５０までの対応する動作が繰り返し行われる。

上記のとおり、本発明によれば、環境の変化に密接に従って変化することができる（すなわち正確又は信頼できる）視覚要素モデルを見つけることができ、こうして環境の変化により不正確に又は信頼できなくなるシーンモデルの視覚要素モデルが補正されることができる。

以下では、図６を参照して、道を通って歩いている人を例にとると、図６に示されるように、映像フレーム６３１は区域６２０に向かって移動している人６１０を示し、映像フレーム６４１は人６１０が区域６２０に到達したことを示し、映像フレーム６５１は人６１０が区域６２０から移動して去ったことを示す。区域６２０内及びこの周辺の視覚要素について、例えば、６３２、６４２、及び６５２は、シーンモデルの対応する視覚要素モデルを表し、ここで例えば、視覚要素モデル６６１及び６６３は、区域６２０に対応する視覚要素モデルである。

映像フレーム６３１が前の映像フレームであり、前の映像フレームにおいて、視覚要素モデルは背景視覚要素モデルであると判定されている（すなわち、６３２における「ＢＧ_０」から「ＢＧ_８」）と仮定する。

映像フレーム６４１が現在の映像フレームであり、区域６２０に対応する２つの視覚要素モデル（すなわち６６１及び６６３）が存在すると仮定する。ここで、現在の映像フレームにおいて、視覚要素モデル６６１は補正される必要がある視覚要素モデルと判定され、視覚要素モデル６６３は補正される必要のない視覚要素モデルと判定される。視覚要素モデル６６２は、現在の映像フレーム及び前の映像フレームの双方において、補正される必要のない視覚要素と判定されていると仮定する。視覚要素モデル６６１について、視覚要素モデル６６２は視覚要素モデル６６１に関連する参照視覚要素モデルであると仮定すると、こうして、本発明に従って、視覚要素モデル６６１は視覚要素モデル６６２によって補正されることができる。

映像フレーム６５１においては、本発明に従って視覚要素モデル６６１が補正されているため、人６１０が区域６２０から去って移動した後で、視覚要素モデル６６１は、誤って前景視覚要素モデルと判定される代わりに、背景視覚要素モデルと判定されるだろう。ここで、この状況に本発明の代わりに背景技術が適用された場合、人６１０が区域６２０から去って移動した後で、視覚要素モデル６６１は誤って前景視覚要素モデルと判定されるだろう。

上記の通り、本発明に従って補正されたシーンモデルは前景検出のために用いられてもよく、したがって図７は、本発明の例示的な応用例として、本発明の実施形態に従う前景検出のための画像処理装置７００の構成を表すブロック図である。ここで、図７に示されるモジュールのうちいくつか又は全ては、専用のハードウェアによって実現されてもよい。図７に示されるように、画像処理装置７００は取得部２１０、判定部２２０、補正部２３０、及び前景検出部７１０を含む。

一方において、図７に示される取得部２１０、判定部２２０、補正部２３０、及び格納装置２４０は、図２に示される対応する部分と同じであり、これらの部分の詳細な説明はここでは繰り返されない。

他方で、図７に示されるように、補正部２３０が取得部２１０によって取得されたｔ番目の映像フレームに基づいてシーンモデルを補正した後で、前景検出部７１０は、例えば既存の背景差分技術を用いることにより、補正されたシーンモデルに基づいてｔ番目の映像フレームから前景を検出する。

さらに、前景検出の処理精度をさらに向上させるために、シーンモデルの補正される必要がある視覚要素モデルが補正されてもよいことに加えて、シーンモデルの補正される必要のない視覚要素モデルがさらに更新されてもよい。したがって、図７に示される画像処理装置７００はさらに更新部７２０を含んでいてもよい。更新部７２０は、ｔ番目の映像フレームに基づいて、補正されたシーンモデルの補正される必要のない視覚要素モデルを更新する。例えば、補正される必要のない視覚要素モデルの外観特徴が、補正される必要のない視覚要素モデルに対応するｔ番目の映像フレームの視覚要素の外観特徴で、直接置換される。

更新部７２０によって補正されたシーンモデルが更新された後で、一方において、前景検出部７１０は更新されたシーンモデルに基づいてｔ番目の映像フレームから前景を検出する。他方で、更新部７２０は、例えば後続するシーンモデルの補正のような後続する処理のために、格納装置２４０に更新されたシーンモデルを格納する。

上記のとおり、本発明によれば、環境の変化によって不正確に又は信頼できなくなったシーンモデルの視覚要素モデルが補正されてもよく、こうして前景検出に対する環境の変化もまた効果的に低減されてもよく、こうして前景検出の処理精度が向上してもよい。

さらに、本発明はコンピュータ（例えばクライアントサーバ）によって実装されることができ、又は監視機器（例えばネットワークカメラ）によって実装されることができる。応用として、図７に示される画像処理装置７００について、例えばクライアントサーバによって実装されたと仮定すると、図８は画像処理装置７００の例示的な応用システム８００の構成を表す。図８に示されるように、システム８００は少なくとも１つのカメラ（例えばネットワークカメラ）８１０及び画像処理装置７００を備え、ここで少なくとも１つのカメラ８１０及び画像処理装置７００はネットワーク８２０を介して互いに接続されている。

図８に示されるように、まず、カメラ８１０は着目場所の映像を継続的に撮像し、撮像映像をネットワーク８２０を介して画像処理装置７００に転送する。

すると画像処理装置７００は、図２〜図７に関連して、シーンモデルを補正し、撮像映像の映像フレームから前景を検出する。

上記の各部の全ては、本開示において記載されたプロセスを実現するための例示的な及び／又は好適なモジュールである。これらの各部は、例えばフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、デジタル信号処理回路、特殊用途集積回路などのようなハードウェアユニットであってもよく、及び／又はコンピュータ読み取り可能なプログラムのようなソフトウェアモジュールであってもよい。各工程を実現するための各部はここまでに余すところなく記載されたわけではない。しかしながら、特定の手順を実行するステップが存在する場合、同じ手順を実現するための対応する機能モジュール又は機能部（ハードウェア及び／又はソフトウェアによって実現される）が存在するだろう。記載された全ての工程の全ての組み合わせ及びこれらの工程に対応する各部の技術的解決法は、これらによって構成される技術的解決法が完全であって適用可能である限り、本願の開示の内容に含まれる。

本発明の方法及び装置は複数の方式で実現されてもよい。例えば、本発明の方法及び装置は、ソフトウェア、ハードウェア、ファームウェア、又はこれらの任意の組み合わせによって実現されてもよい。上記の、本方法の工程の順序は単に説明のためのものであることが意図されており、本発明の方法の工程は、別に明記されない限り、具体的に上記された順序には限定されない。さらに、いくつかの実施形態において、本発明は、本発明に従う方法を実現するための機械読み取り可能な命令を含む記録媒体に記録されたプログラムとして実現されてもよい。したがって本発明は、本発明に従う方法を実現するためのプログラムを格納する記録媒体も包含する。

本発明のいくつかの特定の実施形態が例として詳細に示されたが、上記の実施例は単に説明のためのものであることが意図されており、本発明の範囲を制限するものではないことが、当業者には理解されるだろう。上記の実施形態が、本発明の範囲及び精神から逸脱することなしに修正されてもよいことを、当業者は理解するだろう。本発明の範囲は添付の特許請求の範囲によって定義される。

Claims

現在の映像フレームと、入力映像に基づく、前記現在の映像フレーム及びその前の映像フレームの視覚要素の外観特徴を少なくとも表す視覚要素モデルを含むシーンモデルと、を取得する取得手段と、
前記現在の映像フレームの前記視覚要素に基づいて、前記シーンモデルの前記視覚要素モデルが、補正される必要がある視覚要素モデルであるか、補正される必要のない視覚要素モデルであるか、判定する判定手段と、
参照視覚要素モデルに基づいて、前記補正される必要がある視覚要素モデルを補正する補正手段と、を備え、
前記参照視覚要素モデルは、前記現在の映像フレーム及びその前の映像フレームのそれぞれに基づいて、前記補正される必要のない視覚要素モデルであると判定された、前記シーンモデルの視覚要素モデルであり、
前記前の映像フレームにおける、前記参照視覚要素モデルと前記補正される必要がある視覚要素モデルとの間の前記外観特徴の類似度が、所定の条件を満たす
ことを特徴とする、画像処理装置。
前記現在の映像フレームの前記視覚要素の任意の１つについて、前記判定手段は、前記シーンモデルの前記視覚要素に対応する視覚要素モデルを、前記視覚要素の外観特徴と前記視覚要素に対応する前記視覚要素モデルの外観特徴との間の違いに基づいて、前記補正される必要がある視覚要素モデル又は前記補正される必要のない視覚要素モデルと判定することを特徴とする、請求項１に記載の画像処理装置。
前記補正される必要がある視覚要素モデルの任意の１つについて、前記補正手段は、前記補正される必要がある視覚要素モデルの外観特徴を、前記現在の映像フレーム及び前記前の映像フレームの間での、前記補正される必要がある視覚要素モデルに関連する参照視覚要素モデルの前記外観特徴の違いに基づいて補正することを特徴とする、請求項１又は２に記載の画像処理装置。
前記視覚要素が、テクスチャ特徴、色特徴、及び照明特徴のうちの任意の１つを含むことを特徴とする、請求項１から３のいずれか１項に記載の画像処理装置。
補正されたシーンモデルに基づいて前記現在の映像フレームから前景を検出する前景検出手段をさらに備えることを特徴とする、請求項１から４のいずれか１項に記載の画像処理装置。
前記現在の映像フレームに基づいて、前記補正されたシーンモデルの前記補正される必要のない視覚要素モデルを更新する更新手段をさらに備え、
前記前景検出手段は、更新されたシーンモデルに基づいて前記現在の映像フレームから前記前景を検出することを特徴とする、請求項５に記載の画像処理装置。
現在の映像フレームと、入力映像に基づく、前記現在の映像フレーム及びその前の映像フレームの視覚要素の外観特徴を少なくとも表す視覚要素モデルを含むシーンモデルと、を取得する取得工程と、
前記現在の映像フレームの前記視覚要素に基づいて、前記シーンモデルの前記視覚要素モデルが、補正される必要がある視覚要素モデルであるか、補正される必要のない視覚要素モデルであるか、判定する判定工程と、
参照視覚要素モデルに基づいて、前記補正される必要がある視覚要素モデルを補正する補正工程と、を有し、
前記参照視覚要素モデルは、前記現在の映像フレーム及びその前の映像フレームのそれぞれに基づいて、前記補正される必要のない視覚要素モデルであると判定された、前記シーンモデルの視覚要素モデルであり、
前記前の映像フレームにおける、前記参照視覚要素モデルと前記補正される必要がある視覚要素モデルとの間の前記外観特徴の類似度が、所定の条件を満たす
ことを特徴とする、画像処理方法。
前記判定工程において、前記現在の映像フレームの前記視覚要素の任意の１つについて、前記シーンモデルの前記視覚要素に対応する視覚要素モデルが、前記視覚要素の外観特徴と前記視覚要素に対応する前記視覚要素モデルの外観特徴との間の違いに基づいて、前記補正される必要がある視覚要素モデル又は前記補正される必要のない視覚要素モデルと判定されることを特徴とする、請求項７に記載の画像処理方法。
前記補正工程において、前記補正される必要がある視覚要素モデルの任意の１つについて、前記補正される必要がある視覚要素モデルの外観特徴が、前記現在の映像フレーム及び前記前の映像フレーム間での、前記補正される必要がある視覚要素モデルに関連する参照視覚要素モデルの前記外観特徴の違いに基づいて補正されることを特徴とする、請求項７又は８に記載の画像処理方法。
プロセッサによって実行された際に、請求項７から９のいずれか１項に記載の画像処理方法が実行されることを可能とする命令を格納した記憶媒体。