JP5713790B2

JP5713790B2 - 画像処理装置、画像処理方法、及びプログラム

Info

Publication number: JP5713790B2
Application number: JP2011104517A
Authority: JP
Inventors: 東條　洋; 洋東條; 矢野　光太郎; 光太郎矢野
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2011-05-09
Filing date: 2011-05-09
Publication date: 2015-05-07
Anticipated expiration: 2031-05-09
Also published as: US20120288153A1; US9092868B2; JP2012234494A

Description

本発明は、画像処理装置、画像処理方法、及びプログラムに関する。

近年、カメラで撮影された画像から物体を検出する次のような技術が開示されている。まず、背景差分法（背景差分）によって移動物体を検出する方法がある。背景差分では、固定したカメラにおいて、被写体がいない背景が予め撮影され、その画像の特徴量が基準モデルとして記憶される。その後、カメラから入力された画像中の特徴量と基準モデル中の特徴量との差分が求められ、異なる領域が前景（移動物体）として検出される。
また、画像から顔、人などの特定の被写体を検出する方法もある。例えば、人体を検出する技術が開示されている（特許文献１参照。）。この技術では、所定の大きさの検出ウィンドウが入力画像上で走査され、検出ウィンドウ内の画像が切り出されたパターン画像に対して、被写体であるか否かの判別（２クラス判別）が行われる。

この判別では、アダブーストを使って多くの弱判別器を有効に組み合わせて判別器を構成し、判別の精度を向上させる。また、この判別器を直列に繋ぎ、カスケード型の検出器を構成するようにしている。弱判別器は、ＨｏＧ（Histogram of oriented gradients）特徴量で構成されている。そして、カスケード型の検出器は、まず前段の単純な判別器を使って明らかに被写体でないパターンの候補をその場で除去する。それ以外の候補に対してのみ、より高い識別性能を持つ後段の複雑な判別器を使って被写体かどうかの判別が行われる。
ここで、背景差分によって求められた移動物体の領域についてのみ、被写体（人物）であるかどうかの認識を行う技術が開示されている（特許文献２参照。）。一般的に、被写体の検出は、検出ウィンドウを画像中で走査し、毎回、複数の判別器を適用するために処理コストが非常に高くなる。したがって、特許文献１に開示された技術のように、背景差分で検知された移動物体の領域に対してのみ、被写体の検出を行うことで、画像内の全領域に対して行うよりも、全体の処理コストを削減することができる。

米国特許出願公開第２００７／０２３７３８７号明細書特開２００２−７４３７１号公報

しかしながら、被写体（人物）が存在する状態で背景差分が開始されると、初期化時に人物が存在する領域が背景モデルとして記憶されてしまう。したがって、その後、人物が移動し、隠れていた真の背景が表れると、背景モデルとの差分が生じるので、前景の領域であると判定されることになる。
特許文献１に開示された技術のように、背景差分によって被写体の検出の探索範囲の絞り込みを行うとしても、このような場合には前景の領域が広くなってしまう。つまり、被写体の検出の探索範囲の絞り込みが適切に行えず、例えば結果として高速な被写体の検知ができなくなってしまう。

本発明はこのような問題点に鑑みなされたもので、より適切に被写体を検出することを目的とする。

そこで、本発明に係る画像処理装置は、入力映像の画素または部分領域ごとに特徴量を抽出する特徴量抽出手段と、前記特徴量と時間情報とを組みとした複数の状態を背景モデルとして記憶する背景モデル記憶手段と、前記入力映像の特徴量と前記背景モデルとを比較して前記入力映像に類似する前記背景モデル中の状態を判定し、類似すると判定した状態の時間情報を更新する入力状態判定手段と、前記入力状態判定手段で類似すると判定された状態の時間情報に基づいて前景領域を判定する前景背景判定手段と、前記前景領域に対して所定の被写体の検出を行う被写体検出手段と、前記被写体検出手段の結果に基づいて前記背景モデル中の状態の時間情報を補正する背景モデル更新手段と、を有することを特徴とする。

本発明によれば、より適切に被写体を検出することができる。

画像処理装置のハードウェア構成の一例を示す図である。画像処理装置の機能構成の一例を示す図である。画像処理に係るフローチャートの一例を示す図である。差分算出処理に係るフローチャートの一例を示す図である。背景モデルの一例を示す図である。最小差分値情報の一例を示す図である。入力状態判定処理に係るフローチャートの一例を示す図である。入力状態情報の一例を示す図である。前景背景判定処理に係るフローチャートの一例を示す図である。前景フラグ情報の一例を示す図である。前景領域情報の一例を示す図である。被写体検出処理に係るフローチャートの一例を示す図である。物体領域情報の一例を示す図である。更新処理に係るフローチャートの一例を示す図である。論理積領域の一例を示す図である。画像処理装置の機能構成の一例を示す図である。被写体確信度分布を説明する図である。被写体確信度分布を説明する図である。算出処理に係るフローチャートの一例を示す図である。被写体確信度情報の一例を示す図である。累積スコア情報の一例を示す図である。画像処理装置のハードウェア構成の一例を示す図である。

以下、本発明の実施形態について図面に基づいて説明する。なお、実施形態は、本発明を限定するものではなく、また、実施形態で説明されている全ての構成が本発明の課題を解決するための手段に必須であるとは限らない。

＜第１の実施形態＞
本実施形態では、動画像から、人物、動物、車両、物体などの特定の被写体又は被写体の一部を検出する画像処理装置（ネットワークカメラなどのデジタル画像機器）、画像処理ソフトウェア、画像処理方法などに適用可能な技術に関して説明する。
図１は、本実施形態に係る画像処理装置のハードウェア構成の一例を示す図である。ＣＰＵ１０１は、ＲＯＭ１０２、ＲＡＭ１０３等に格納されたプログラムに従って命令を実行する。ＲＯＭ１０２は、不揮発性メモリであり、後述のフローチャートに係るプログラム、その他の制御に必要なプログラム、データなどを格納する。ＲＡＭ１０３は、揮発性メモリであり、フレーム画像データ（フレーム画像）、パターン判別の結果などの一時的なデータを記憶する。

２次記憶装置１０４は、ハードディスクドライブ、フラッシュメモリなどの書き換え可能な２次記憶装置であり、画像情報、画像処理プログラム、各種の設定情報などを記憶する。これらの情報は、ＲＡＭ１０３に転送され、ＣＰＵ１０１によるプログラムの実行などに利用される。
画像入力装置１０５は、デジタルビデオカメラ、ネットワークカメラ、赤外線カメラなどであり、画像を入力するものである。入力装置１０６は、キーボード、マウスなどであり、ユーザからの入力を可能とするものである。表示装置１０７は、ブラウン管ＣＲＴ、液晶ディスプレイなどであり、ユーザに対して処理結果などを表示するものである。
ネットワークＩ／Ｆ１０８は、インターネット、イントラネットなどのネットワークと接続を行うモデム、ＬＡＮなどである。バス１０９は、これらのデバイス（１０１〜１０８）を接続して相互にデータの入出力を行う。なお、本画像処理装置では、ＣＰＵ１０１によりプログラムが実行されることにより実装されるオペレーティングシステムの上で動作するアプリケーションにより、画像処理装置の機能、後述するフローチャートに係る処理の全部または一部が実現される。

図２は、画像処理装置の機能構成の一例を示す図である。映像入力部２０１は、画像入力装置１０５等により実現され、映像を入力するものである。特徴量抽出部２０２は、入力された映像（入力映像）より特徴量を抽出するものである。
差分算出部２０３は、背景モデル記憶部２０４より読み出した背景モデルと入力映像との差分を求めるものである。背景モデル記憶部２０４は、ＲＡＭ１０３、２次記憶装置１０４等により実現され、入力映像内の各位置の状態を画像特徴量で代表させた背景モデルとして記憶するものである。なお、背景モデルの詳細については後述する。入力状態判定部２０５は、差分算出部２０３の結果に基づいて、入力映像に近い背景モデル中の状態を判定するものである。
前景背景判定部２０６は、入力状態判定部２０５の結果に基づいて、入力映像中の各位置が前景であるか背景であるかを判定するものである。被写体検出部２０７は、映像入力部２０１からの入力映像の中で、前景背景判定部２０６にて前景であると判定された領域から、特定の被写体（本実施例では人体とする。）の領域を検出するものである。
背景モデル更新部２０８は、入力状態判定部２０５と被写体検出部２０７との結果に基づいて、背景モデル記憶部２０４に記憶されている背景モデルの更新を行うものである。

次に、本画像処理装置における主な画像処理の流れについて図３を用いて説明する。図３は、画像処理に係るフローチャートの一例を示す図である。
まず、映像入力部２０１は、撮像などが行われることにより映像が入力されると、所定の時間ごとにフレーム画像を取得する（Ｓ３０１）。次に、特徴量抽出部２０２は、取得されたフレーム画像から特徴量を抽出し、差分算出部２０３は、背景モデル記憶部２０４より背景モデル中の特徴量を読み出し、フレーム画像中の特徴量との差分を算出する（Ｓ３０２）。
次に、入力状態判定部２０５は、差分算出部２０３の結果に基づいて、フレーム画像に近い背景モデル中の状態を求める（Ｓ３０３）。次に、前景背景判定部２０６は、映像中の領域を部分領域毎（前景領域と背景領域と）に分ける（Ｓ３０４）。

次に、被写体検出部２０７は、前景背景判定部２０６によって求められた前景領域に対して被写体の検出を行う（Ｓ３０５）。次に、制御部（図示せず）は、被写体検出部２０７で検出された物体の情報（後述の物体領域情報など）を表示装置１０７などに出力する（Ｓ３０６）。物体の情報は、入力された映像に矩形として重ね描きされる表示などの用途に使用される。
次に、背景モデル更新部２０８は、入力状態判定部２０５の結果と被写体検出部２０７の結果とを背景モデルに反映し、背景モデルの更新を行う（Ｓ３０７）。次に、制御部は、電源ＯＦＦなどによるユーザからの終了指示の判定を行う（Ｓ３０８）。このとき、制御部は、終了指示を受け付けたと判断した場合、処理を終了する。他方、制御部が終了指示を受け付けていないと判断した場合、Ｓ３０１の処理が行われる。即ち、終了指示が行われるまで、Ｓ３０1からＳ３０７までの処理が繰り返えされる。

次に、Ｓ３０２の処理（差分算出処理）の詳細について図４を用いて説明する。図４は、差分算出処理に係るフローチャートの一例を示す図である。
まず、特徴量抽出部２０２は、映像入力部２０１で取得されたフレーム画像より各位置の状態を表す値として画像特徴量を抽出する（Ｓ４０１）。画像特徴量の例としては、輝度、色、エッジなどが挙げられるが、特にこれらに限定されるものではない。また、画素ごとの特徴量であっても、部分領域ごとの特徴量であってもよい。部分領域ごとの特徴量の例としては、８×８画素ブロック内の画素の平均輝度、ＤＣＴ係数などが挙げられる。ＤＣＴ係数とは、離散コサイン変換（Discrete Cosine Transform）した結果である。

また、フレーム画像がＪＰＥＧ形式で圧縮符号化されている場合は、既に画像圧縮時に特徴量が抽出されているのと同じことになる。したがって、この場合は、ＪＰＥＧ形式のフレーム画像よりＤＣＴ係数を直接取り出し、これを特徴量として使用するようにしてもよい。
本実施形態では、画素ごとの輝度を採用した場合を例に挙げて説明する。なお、フレーム画像の左上の画素を開始点とし、以降、左より右へ、行ごとに下へ（以下ではラスタスキャン順と適宜称する。）処理の対象が移動し、以降の処理が行われるものとする。

次に、差分算出部２０３は、背景モデル記憶部２０４に記憶されている背景モデルより、注目位置（処理の対象の画素の位置）の位置毎背景モデル情報を読み出し、ＲＡＭ１０３に一時記憶する（Ｓ４０２）。
ここで、背景モデル記憶部２０４に記憶されている背景モデルについて図５を用いて説明する。図５は、背景モデルの一例を示す図である。背景モデルは、フレーム画像中の各位置の状態を画像特徴量で現したものである。背景モデルは、背景モデル管理情報と位置毎背景モデル情報との２種類の情報から構成されている。
背景モデル管理情報は、位置情報と各位置における位置毎背景モデル情報へのポインタとから構成される。位置情報は、フレーム画像の画素の位置をＸＹ座標で示した値であってもいいし、８×８画素などのブロックの位置を、ラスタスキャン順に振った番号であってもよい。なお、本実施形態では、フレーム画像の画素の位置をＸＹ座標で示した値であるものとして説明する。

位置毎背景モデル情報は、各位置に対応する状態を複数保持する。位置毎背景モデル情報の複数の状態によれば、新たな静止物体（花瓶など）の出現などにより時間と共に変化する背景に対応することができる。各状態には、状態の番号（状態番号）と、状態を代表する特徴量（画像特徴量）、作成時刻、出現時間が保持されている。
状態番号とは、各状態を識別するための番号であり、１番から順に発番されるものである。作成時刻とは、その状態が始めて背景モデル内に作成された時刻であり、時間、フレーム番号で表現される。本実施形態では、フレーム番号で表現するものとする。出現時間は、その状態が作成されてから現在までに入力映像中に類似した状態が出現した時間、フレーム数などである。本実施形態では、フレーム数で表現するものとする。

そして、フレーム画像内で同じ位置における複数の状態は、背景モデル管理情報のポインタで参照された先に連続して格納される。図５の例では、座標（０，０）の位置については、１２００番地に状態番号「１」の状態が格納され、続いて１２０１番地に状態番号「２」の状態が格納されている。
例えば、注目位置に対応する全ての状態の読み出しは、差分算出部２０３が、背景モデル管理情報から注目位置とその次の位置とのポインタを参照し、注目位置のアドレスから次の位置の１つ手前のアドレスまでを読み出すことで実現される。

Ｓ４０２の説明に戻る。Ｓ４０２では、差分算出部２０３は、背景モデル管理情報より注目位置の位置毎背景モデル情報へのポインタを参照し、当該注目位置の全ての状態の位置毎背景モデル情報を読み出す。
図５の例で、初めの位置である場合、差分算出部２０３は、次の２つの状態の位置毎背景モデル情報を読み出す。１つ目の状態の位置毎背景モデル情報として、１２００番地より、状態番号「１」、特徴量「１００」、作成時刻「０」、出現時間「３００」が読み出される。また、２つ目の状態の位置毎背景モデル情報として、１２０１番地より、状態番号「２」、特徴量「２３０」、作成時刻「１０１」、出現時間「３５」が読み出される。

次に、差分算出部２０３は、Ｓ４０２で読み出した注目位置の位置毎背景モデル情報中より１つの状態の特徴量を読み出す（Ｓ４０３）。そして、差分算出部２０３は、フレーム画像中の同じ位置の特徴量との差分を算出する（Ｓ４０４）。差分の算出方法として、ここでは２つの特徴量の差の絶対値を用いるが、特にこれに限定されるものではなく、例えば、差を２乗した値であってもよい。そして、差分算出部２０３は、差分値をＲＡＭ１０３にフレーム画像内の位置、及び差分を算出した状態番号と関連付けて一時記憶する。
次に、差分算出部２０３は、注目位置で差分を算出していない状態が存在するかどうかを判定する（Ｓ４０５）。このとき、差分算出部２０３は、存在すると判断した場合、Ｓ４０６の処理を行い、他方、存在しないと判断した場合、Ｓ４０７の処理を行う。Ｓ４０６では、差分算出部２０３は、処理の対象を次の状態に進め、続いてＳ４０３の処理を行う。

Ｓ４０７では、差分算出部２０３は、注目位置について、フレーム画像の特徴量との全ての状態との差分値の中から、最小の値（最小差分値）を求める。次に、差分算出部２０３は、このときの最小差分値を、対応する状態の状態番号、作成時刻、出現時間、フレーム画像の特徴量、及びフレーム画像内の座標と関連付けて最小差分値情報（図６に一例を示す。）としてＲＡＭ１０３に一時記憶する（Ｓ４０８）。
次に、差分算出部２０３は、フレーム画像中の全ての画素（座標）について処理を行ったかどうかを判定する（Ｓ４０９）。このとき、行ったと判断した場合、Ｓ４１１の処理が行われ、他方、行っていないと判断された場合、Ｓ４１０の処理が行われる。Ｓ４１０では、差分算出部２０３は、ラスタスキャン順に次の画素へ処理の対象を進め、続いてＳ４０１の処理の処理を行う。

Ｓ４１１では、差分算出部２０３は、一時記憶した全画素分の最小差分値情報を入力状態判定部２０５に対して出力する。
なお、本画像処理装置の開始時（起動時）は、背景モデルが記憶されていないので、差分の算出の際の値として、差分値として取り得る最大値などを設定しておく。これらは、後述するように新規の状態であると判定され、背景モデルとして記憶される。このように、起動時のフレーム画像によって背景モデルの初期化が行われる。
以上が、Ｓ３０２の処理（差分算出処理）の詳細である。

次に、Ｓ３０３の処理（入力状態判定処理）の詳細について図７を用いて説明する。図７は、入力状態判定処理に係るフローチャートの一例を示す図である。
まず、入力状態判定部２０５は、Ｓ３０２の差分算出処理の結果である最小差分値を取得する（Ｓ７０１）。より具体的には、入力状態判定部２０５は、フレーム画像の左上の画素を開始点とし、以降、ラスタスキャン順に移動しながら１つずつ最小差分値情報（図６）の座標を参照し、最小差分値を取得する。
次に、入力状態判定部２０５は、注目位置における最小差分値と閾値Ａとを比較する（Ｓ７０２）。このとき、入力状態判定部２０５は、最小差分値のほうが小さい場合、背景モデルに記憶されている状態に類似していると判断し、続いてＳ７０３の処理を行う。他方、入力状態判定部２０５は、最小差分値のほうが大きい場合、背景モデルに記憶されているどの状態とも異なり、新しい状態であると判定し、続いてＳ７０４の処理を行う。

Ｓ７０３では、入力状態判定部２０５は、最小差分値情報（図６）中の出現時間をインクリメントする。出現時間は、フレーム数で表現され、類似する状態であるときは、映像中に同じ特徴を持つ状態が出現したとみなすことができるから、出現時間が例えば「１」加算される。
Ｓ７０４では、入力状態判定部２０５は、新しい状態を意味する特殊な番号（例：０）を状態番号として設定する。なお、状態番号「０」は、背景モデル更新部２０８により背景モデル更新時に改めて発番される。次に、入力状態判定部２０５は、現在時刻を本状態が初めて作成された時刻として作成時刻に設定する（Ｓ７０５）。なお、本実施形態では、現在のフレーム番号を用いるが、何時何分何秒といった通常の時刻を用いてもよい。次に、入力状態判定部２０５は、新しく出現した状態であるので、出現時間を（フレーム数）１とする（Ｓ７０６）。

次に、入力状態判定部２０５は、状態番号、フレーム画像の特徴量、作成時刻、出現時間をフレーム画像内の座標に関連付けて入力状態情報（図８に一例を示す。）としてＲＡＭ１０３に一時記憶する（Ｓ７０７）。
次に、入力状態判定部２０５は、フレーム画像中の全ての画素（座標）について、処理を行ったかどうかを判定する（Ｓ７０８）。このとき、入力状態判定部２０５は、行ったと判断した場合、Ｓ７１０の処理を行い、他方、行っていないと判断した場合、Ｓ７０９の処理を行う。Ｓ７０９では、入力状態判定部２０５は、ラスタスキャン順に次の画素へ処理の対象を進め、続いてＳ７０１の処理を行う。

なお、上述のように、本画像処理装置の開始時のフレーム画像については、差分値が最大値に設定されているので、Ｓ７０２において全て新規の状態と判定される。
Ｓ７１０では、入力状態判定部２０５は、全画素分の入力状態情報を前景背景判定部２０６と背景モデル更新部２０８とに対して出力する。
以上が、Ｓ３０３の処理（入力状態判定処理）の詳細である。

次に、Ｓ３０４の処理（前景背景判定処理）の詳細について図９を用いて説明する。図９は、前景背景判定処理に係るフローチャートの一例を示す図である。
まず、前景背景判定部２０６は、Ｓ３０３の入力状態判定処理の出力である入力状態情報（図８）を取得する（Ｓ９０１）。より具体的には、前景背景判定部２０６は、フレーム画像の左上の画素を開始点として、ラスタスキャン順に１つずつ参照し、入力状態情報を取得する。
次に、前景背景判定部２０６は、前景であるかどうかを時間の情報を用いて判断する（Ｓ９０２）。時間の情報としては、出現時間、存在時間（ある状態（特徴）が映像に出現した時刻から現在まで、つまり現在時刻と作成時刻との差分の時間）などが考えられる。即ち、特定の状態に関する時間情報を適宜採用できる。

本実施形態では、出現時間を用いるものとし、前景背景判定部２０６は、閾値Ｃと比較する。このとき、前景背景判定部２０６は、出現時間が閾値Ｃ以上である場合、十分に長い時間存在した状態であり、背景とみなすことができるので、続いてＳ９０３の処理を行う。他方、前景背景判定部２０６は、出現時間が閾値Ｃ未満である場合、背景とみなせるほど長い時間存在した状態ではなく、背景であるとみなすことができないので、続いてＳ９０４の処理を行う。
Ｓ９０３では、前景背景判定部２０６は、処理の対象の画素（現在の画素）が背景であると判定する。例えば、前景背景判定部２０６は、前景フラグを、背景を意味する「０」にする。Ｓ９０４では、前景背景判定部２０６は、処理の対象の画素が前景であると判定する。例えば、前景背景判定部２０６は、前景フラグを、前景を意味する「１」にする。

次に、前景背景判定部２０６は、前景フラグをフレーム画像中の現在の画素の座標と関連付けて前景フラグ情報（図１０に一例を示す。）として一時記憶する（Ｓ９０５）。
次に、前景背景判定部２０６は、フレーム画像中の全ての画素（位置）について、処理を行ったかどうかを判定する（Ｓ９０６）。このとき、前景背景判定部２０６は、行っていると判断した場合、Ｓ９０８の処理を行い、他方、行っていないと判断した場合、Ｓ９０７の処理を行う。Ｓ９０７では、前景背景判定部２０６は、次の画素へ処理の対象を進め、続いてＳ９０１の処理を行う。なお、次に説明するＳ９０８からＳ９１９までの処理では、前景背景判定部２０６は、連続する前景の画素を統合して前景領域を求める。

Ｓ９０８では、前景背景判定部２０６は、探索済みフラグ情報を初期化する。より詳細に説明すると、本実施形態では、前景領域として前景の画素を統合するために、前景フラグ＝１の画素を探索したかどうかを示す探索フラグ情報を用意する。これは、前景フラグ情報と同様にフレーム画像中の座標に探索フラグを関連付けたものである。前景背景判定部２０６は、探索フラグ＝１を探索済みであると解釈するので、全ての座標に対応する探索フラグを「０」にする初期化を行う。
次に、前景背景判定部２０６は、フレーム画像の左上の画素を開始点として、ＲＡＭ１０３中の前景フラグ情報（図１０）の座標を参照し、前景フラグを取得する（Ｓ９０９）。

次に、前景背景判定部２０６は、現在の座標の前景フラグが「１」であるかどうかをチェックする（Ｓ９１０）。このとき、「０」であると判断した場合、処理の対象の画素が背景であるのでＳ９１１の処理を行い、他方、「１」であると判断した場合、処理の対象の画素が前景であるのでＳ９１２の処理を行う。
Ｓ９１１では、前景背景判定部２０６は、現在の画素から、ラスタスキャン順で次の画素に処理の対象を進め、続いてＳ９０９の処理を行う。
Ｓ９１２では、処理の対象の画素が前景であるので、現在の座標の探索済みフラグが「０」であるかどうか、つまり未探索であるかどうかをチェックする（Ｓ９１２）。このとき、前景背景判定部２０６は、「１」であると判断した場合、探索済みであるのでＳ９１１の処理を行い、他方、「０」であると判断した場合、未探索であるのでＳ９１３の処理を行う。

Ｓ９１３では、前景背景判定部２０６は、現在の座標を一時記憶する。そして、前景背景判定部２０６は、探索を行ったので、探索済みフラグを１にする（Ｓ９１４）。次に、前景背景判定部２０６は、連続する前景の画素を探索するために近傍の前景フラグを取得する（Ｓ９１５）。
次に、前景背景判定部２０６は、近傍の前景フラグが「１」であるかをチェックする（Ｓ９１６）。このとき、前景背景判定部２０６は、「１」である場合、連続する画素であると判断し、Ｓ９１７の処理を行い、他方、「０」である場合、Ｓ９１８の処理を行う。Ｓ９１７では、前景背景判定部２０６は、探索済みフラグが「０」であるかを判定する。このとき、前景背景判定部２０６は、「０」である場合、未探索であると判断し、更に近傍を探索するため、Ｓ９１３の処理を行う。他方、前景背景判定部２０６は、「１」である場合、Ｓ９１８の処理を行う。

そして、Ｓ９１７で近傍が全て探索済みか（探索済みフラグ＝１）、Ｓ９１６で近傍が全て背景（前景フラグ＝０）となるまで、前景背景判定部２０６は、Ｓ９１３からＳ９１７までの処理を繰り返す。
Ｓ９１８では、即ち、Ｓ９１３からＳ９１７までの処理で連続する前景の画素が探索された場合、前景背景判定部２０６は、一時的に記憶されているこれらの画素の座標から外接矩形を求め、右下の座標と左上の座標とをＲＡＭ１０３に一時記憶する（Ｓ９１８）。
次に、前景背景判定部２０６は、フレーム画像中の全画素について、Ｓ９０９からＳ９１８までの処理を行ったかどうかを判定する（Ｓ９１９）。このとき、前景背景判定部２０６は、行っていないと判断した場合、Ｓ９１１の処理を行い、他方、行ったと判断した場合、Ｓ９２０の処理を行う。

Ｓ９２０では、前景背景判定部２０６は、前景領域情報を出力する。より具体的には、前景背景判定部２０６は、全画素について、Ｓ９０９からＳ９１８までの処理を行っていると判断した場合、一時保存された前景領域の右下の座標と左上の座標との数をカウントする。そして、前景背景判定部２０６は、前景領域数とともに、前景領域の右下の座標及び左上の座標、並びに平均出現時間を、前景領域情報（図１１に一例を示す。）として被写体検出部２０７に対して出力する。
図１１は、前景領域情報の一例であり、前景領域座標データ先頭ポインタは、各前景領域（矩形領域）の左上の座標及び右下の座標にアクセスするためのポインタである。図１１の例では、前景領域は２つ存在し、前景領域座標データ先頭ポインタの指し示す１４００番地より１４０１番地まで順に、２つ分の矩形領域の左上の座標及び右下の座標を読み出すことができる。
以上が、Ｓ３０４の処理（前景背景判定処理）の詳細である。

次に、Ｓ３０５の処理（前景領域からの被写体検出処理）の詳細について図１２を用いて説明する。図１２は、被写体検出処理に係るフローチャートの一例を示す図である。
まず、被写体検出部２０７は、映像入力部２０１よりフレーム画像を取得する（Ｓ１２０１）。次に、Ｓ３０４の前景背景判定処理の結果である前景領域情報（図１１）から１つの前景領域の外接矩形の座標を取得する（Ｓ１２０２）。次に、被写体検出部２０７は、特許文献１などの方法により、取得した前景領域に対してのみ検出ウィンドウを走査し、被写体の検出を行う（Ｓ１２０３）。
次に、被写体検出部２０７は、被写体が検出されたかどうかを判定する（Ｓ１２０４）。このとき、被写体検出部２０７は、検出したと判断した場合、Ｓ１２０５の処理を行い、他方、検出していないと判断した場合、Ｓ１２０６の処理を行う。Ｓ１２０５では、被写体検出部２０７は、被写体フラグ＝１とし、続いてＳ１２０７の処理を行う。Ｓ１２０６では、被写体検出部２０７は、被写体フラグ＝０とし、続いてＳ１２０７の処理を行う。

Ｓ１２０７では、被写体検出部２０７は、前景領域情報（図１１）に含まれる全ての前景領域について、処理を行ったかを判定する。このとき、被写体検出部２０７は、行ったと判断した場合、Ｓ１２０９の処理を行い、他方、行っていないと判断した場合、Ｓ１２０８の処理を行う。Ｓ１２０８では、被写体検出部２０７は、次の前景領域へ処理の対象を進め、続いてＳ１２０２の処理を行う。
Ｓ１２０９では、即ち、全ての前景領域についてＳ１２０２からＳ１２０６までの処理を行っている場合、被写体検出部２０７は、前景領域情報に被写体フラグを付与したものを物体領域情報（図１３に一例を示す。）として、本物体検出部の外部（例えば制御部）と背景モデル更新部２０８とに対して出力する。

図１３は、物体領域情報の一例を示す図であり、物体領域座標データ先頭ポインタは、各物体領域（矩形領域）の左上の座標及び右下の座標にアクセスするためのポインタである。図１３の例では、物体領域は２つ存在し、物体領域座標データ先頭ポインタの指し示す１６００番地より１６０１番地まで順に、２つ分の矩形領域の左上の座標及び右下の座標、平均出現時間、並びに被写体フラグを読み出すことができる。
以上が、Ｓ３０５の処理（前景領域からの被写体検出処理）の詳細である。
なお、物体領域情報は、次のように利用される。例えば、ユーザが指定した画面内の領域への被写体の侵入を検出する装置は、物体領域情報より被写体フラグ＝１の物体領域のみを取得する。そして、当該装置は、物体領域の右下の座標及び左上の座標から、ユーザ指定の範囲に被写体が侵入しているかどうかを判定する。

次に、Ｓ３０７の処理（背景モデルの更新処理）の詳細について図１４を用いて説明する。図１４は、更新処理に係るフローチャートの一例を示す図である。
まず、背景モデル更新部２０８は、入力状態判定部２０５の出力である入力状態情報（図８）から、フレーム画像の左上の画素を開始点として、順に一画素分の入力状態情報を、座標を参照して取得する（Ｓ１４０１）。
次に、背景モデル更新部２０８は、現在の画素の状態が新規であるかどうかをチェックする（Ｓ１４０２）。背景モデル更新部２０８は、入力状態情報中の状態番号を参照し、「０」である場合、新規であると判断し、「０」以外である場合、背景モデルに存在する既存の状態であると判断する。このとき、背景モデル更新部２０８は、新規であると判断した場合、Ｓ１４０８の処理を行い、他方、新規でないと判断した場合、Ｓ１４０３の処理を行う。

Ｓ１４０３では、背景モデル更新部２０８は、背景モデル（図５）中の対応する位置毎背景モデル情報を更新する。より具体的には、背景モデル更新部２０８は、現在の画素の座標から背景モデル中の背景モデル管理情報を参照し、一致する座標の状態へのポインタを取得する。そして、背景モデル更新部２０８は、読み出しながら前記ポインタを順に進め、入力状態情報から読み出した状態番号と一致する位置毎背景モデル情報を参照する。
次に、背景モデル更新部２０８は、背景モデル中の特徴量を、入力状態情報中の特徴量で更新する（Ｓ１４０４）。これは、照明変化などによる変化に対応するためである。更新の方法としては、例えば、式（１）を用いる。
μ_t＝（１−α）・μ_t-1＋α・Ｉ_t ・・・（１）
式（１）において、現在のフレームをｔとし、１つ前のフレームをｔ−１とする。μ_t-1は更新前の特徴量の値、μ_tは更新後の特徴量の値である。Ｉ_tは、フレーム画像の特徴量の値である。αは、０から１までの値を持つ重みであり、大きな値であるほど、更新後の値は、入力の値に近くなる。

次に、背景モデル更新部２０８は、被写体の検出の結果である物体領域情報（図１３）を参照し、注目する画素が被写体領域に含まれるかどうかをチェックする（Ｓ１４０５）。このとき、背景モデル更新部２０８は、被写体領域であると判断した場合、Ｓ１４０７の処理を行い、他方、被写体領域でないと判断した場合（注目画素が物体領域であり、かつ、被写体フラグ＝０のとき）、Ｓ１４０６の処理を行う。
ここで、被写体領域でないと判断された場合、前景背景判定部２０６の判定では前景であったものの、実際には背景であった可能性が高いことを示す。

したがって、Ｓ１４０６では、背景モデル更新部２０８は、入力状態情報中の出現時間に固定量を加算するなどして延長し、次回の前景背景判定処理のＳ９０２で背景であると判定されるようにする。ここで、延長する量としては、閾値Ｃまで一度に延長する方法もあるが、被写体検出部２０７の判定が常に正しいとは限らないので、所定の固定量Ｂ分としてもよい。真に背景であった場合、連続して被写体は検出されず、その度に出現時間はＢずつ延長され、やがて閾値Ｃに達してＳ９０２で背景であると判定されるようになる。
なお、Ｓ９０２における判定で、存在時間（現在時刻−作成時刻）を用いる場合は、例えば、作成時刻から固定量を引いて、背景モデルに記憶されている以前の時刻にすることで、存在時間を延長する。

次に、背景モデル更新部２０８は、背景モデル中の出現時間を入力状態情報中の出現時間で上書きすることによって更新する（Ｓ１４０７）。
なお、本実施形態では、時間情報として出現時間、存在時間を用いているが、例えば、背景化するまでの時間の閾値Ｃを、状態を初めて背景モデルに追加したときに時間情報として保持するようにしてもよい。この場合は、Ｓ７０２において、背景モデルに類似する状態が存在すると判定されたときは、Ｓ７０３において、前記時間情報をデクリメントする。したがって、このような場合は、Ｓ１４０５で被写体が検出されていないと判断されたとき、Ｓ１４０６で時間情報を短縮するように時間情報を補正する。

ここでは、被写体検出部２０７で被写体が検出されなかった前景領域のみを対象とし、背景である可能性が高いものとして背景モデルへ反映した。しかしながら、例えば、被写体検出部２０７が人体を検出する場合、人体に共通した特徴は主に人体の輪郭となるので、人体の周りの背景に相当する画素も含めた領域が検出結果となる。即ち、被写体検出部２０７で検出された領域に含まれる背景に相当する画素についても、背景モデルへ反映することができれば、背景モデルの精度を更に高めることができる。
そこで、上記を実現する方法として、まず、前景背景判定処理の結果の領域と被写体検出処理の結果の領域との重なりを利用する方法がある。即ち、前景領域と被写体領域との重なり以外は背景であるものとして、背景モデル更新部２０８において対応する画素の出現時間（存在時間）を延長する。

以下では、重なり領域を求める方法の詳細について説明する。
まず、前景背景判定部２０６は、図９のＳ９０１からＳ９０５までの処理の終了時に生成される前景フラグ情報（図１０）を背景モデル更新部２０８に対して出力する。背景モデル更新部２０８では、前景フラグ情報から得られる前景領域と被写体検出部２０７の出力である物体領域との内、被写体フラグが「１」である被写体領域の論理積領域（図１５に一例を示す。）を求める。

図１５は、論理積領域の一例を示す図である。多角形で示された領域１５０１は、前景背景判定部２０６により前景であると判定された前景領域である。矩形で示した領域１５０２は、被写体検出部２０７により検出された被写体領域である。縦線で塗りつぶされた領域１５０３は、重なり領域（論理積領域）となる。
Ｓ１４０５の判定では、注目画素が物体領域であり、かつ、被写体フラグ＝０であるとき（被写体領域でなかった場合）、出現時間を延長する対象としていた。これを、注目画素が物体領域であり、かつ、被写体フラグ＝１であり、かつ、重なり領域でない場合についても、出現時間を延長する対象とする。これにより、被写体領域に含まれている背景に相当する画素についても背景モデルを補正することができる。

また、前景領域と被写体領域との重なり領域を利用する方法では、前景領域が正しく被写体の輪郭を検出できていることが前提となる。したがって、前景領域に被写体の影など、本来背景である領域が含まれてしまうと精度が落ちてしまう。
そこで、他の方法として、被写体検出部２０７の結果から、画像の位置毎に被写体の一部であると確信できる度合いを示す被写体確信度を求め、これを基に背景モデルを更新する方法を説明する。即ち、被写体確信度の低いところを背景とみなす方法である。そこで、図１６に示したように、画像処理装置は、図２の構成に加えて被写体確信度算出部１６０１を更に有する。

次に、被写体確信度の算出処理の詳細について説明する。
被写体確信度の算出方法として、本実施形態では、次の２つの方法を例として説明するが、これらの方法に限定されるものではなく、各画素の被写体確信度を得られる他の方法を採用してもよい。
（１）学習用画像から生成した被写体確信度分布を使用する方法
被写体検出部２０７を構成する弱判別器を生成するためには、正解画像と非正解画像からなるアダブースト学習（特許文献１参照）のような機械学習が必要である。正解画像としては、人体に共通の特徴（輪郭など）を学習できるように、頭の位置や足の位置を所定のサイズの画像内で揃えた複数の画像が使用される。このことを利用して、検出された領域内でどの位置が最も人体らしいといえるかを、正解画像から推定する方法を説明する。

図１７の被写体確信度分布を説明する図を用いて詳細を説明する。領域１７０１は、正解画像の領域全体を示している。境界線１７０２は、全ての正解画像の濃度勾配を求めた画像を平均した結果に対し、所定の閾値以上の濃度強度を持つ領域の境界を示している。即ち、境界線１７０２の内部に位置する画素ほど、人体である可能性が高い。そこで、例えば、補助線１７０３に対応する被写体確信度の分布が、図１８のように正規分布を使って与えられるものと仮定する。
図１８の横軸は、図１７の補助線１７０３上の位置を示し、縦軸は、被写体確信度を示している。１８０１は、正規分布に従った曲線（被写体確信度分布）であり、１８０２は平均、１８０３、１８０４は平均から標準偏差分離れた位置を示している。１８０２の被写体確信度が最大の「１００」であるものとする。１８０２を、１７０１の中心位置、１８０３及び１８０４を補助線１７０３と境界線１７０２が接する点に合わせ、被写体確信度分布（１８０１）を決定する。
このように、被写体（人体）を含む画像から統計的な方法で、領域１７０１内の全ての位置での画素値として被写体確信度が規定された被写体確信度分布画像を求めることができる。これを予めＲＯＭ１０２、２次記憶装置１０４等に格納しておき、本画像処理装置の起動時にＲＡＭ１０３に読み込こまれ、被写体確信度算出部１６０１で参照可能な状態にしておく。

次に、被写体確信度の算出処理の詳細について図１９を用いて説明する。図１９は、算出処理に係るフローチャートの一例を示す図である。
まず、被写体確信度算出部１６０１は、被写体確信度情報（図２０に一例を示す。）を初期化する（Ｓ１９０１）。被写体確信度情報とは、フレーム画像の全領域の各座標について被写体確信度が格納されたものである。即ち、被写体確信度算出部１６０１は、全ての座標に対しての被写体確信度を０にすることで初期化する。
次に、被写体確信度算出部１６０１は、物体領域情報（図１３）より被写体フラグ＝１である領域（被写体領域）を１つ取得する（Ｓ１９０２）。

ここで、上述の被写体確信度分布画像は、学習時に使用した画像を基に決定されるので、学習に使用された画像のサイズとなる。したがって、検出された被写体のサイズに合わせた拡大縮小処理が必要である。そこで、被写体確信度算出部１６０１は、被写体確信度分布画像を被写体領域と同じサイズになるように通常の画像の拡大縮小と同様に最近傍法、線形補完などにより拡大または縮小を行う（Ｓ１９０３）。
次に、被写体確信度算出部１６０１は、被写体確信度情報上の被写体領域に相当する領域の被写体確信度を、サイズが変更された被写体確信度分布画像中の画素値である被写体確信度で更新する（Ｓ１９０４）。より具体的には、被写体確信度算出部１６０１は、対応する座標において、被写体確信度情報中の被写体確信度と被写体確信度分布画像中の被写体確信度との和をとり、新たな被写体確信度の値とする。

次に、被写体確信度算出部１６０１は、Ｓ１９０４で更新された被写体確信度の値が、値の範囲（０から１００）を超えているかどうかをチェックする（Ｓ１９０５）。このとき、被写体確信度算出部１６０１は、超えていると判断した場合、Ｓ１９０６の処理を行い、他方、超えていないと判断した場合、Ｓ１９０７の処理を行う。
Ｓ１９０６では、被写体確信度算出部１６０１は、被写体確信度の値を被写体確信度の範囲内に補正する。Ｓ１９０７では、被写体確信度算出部１６０１は、全ての被写体領域について処理を行ったかどうかを判定する。このとき、被写体確信度算出部１６０１は、行ったと判断した場合、Ｓ１９０９の処理を行い、他方、行っていないと判断した場合、Ｓ１９０８の処理を行う。Ｓ１９０８では、被写体確信度算出部１６０１は、次の被写体領域へ処理の対象を進め、続いてＳ１９０２の処理を行う。
Ｓ１９０９では、被写体確信度算出部１６０１は、最終的な被写体確信度情報を背景モデル更新部２０８に出力する。

（２）被写体検出内の弱判別器の累積スコアから推定する方法
被写体検出部２０７は、各弱判別器の信頼度をａ_t、弱判別器をｈ_t（ｘ）（当該弱判別器において被写体であると判別したら＋１、非被写体であると判別したら−１の２値を取る関数）としたときに、その累積スコアを式（２）により算出する。
Ｆ（ｘ）＝Σ_tａ_tｈ_t（ｘ）・・・（２）
そして、被写体検出部２０７は、累積スコアＦ（ｘ）に対する閾値によって、最終的に被写体であるかどうかを判定する。なお、ｔ＝１からＴ個の弱判別器が存在するものとする。また、累積スコアＦ（ｘ）は、弱判別器がどの程度信頼できるかを示した値ａ_tを累積したものであるので、被写体が出力結果に含まれる確率を直接示した値ではない。そこで、累積スコアをsigmoid関数にて変換することによって、被写体が出力結果に含まれる確率Ｐ（ｙ＝＋１｜ｘ）に変換できると仮定する。
Ｐ（ｙ＝＋１｜ｘ）＝１／（１＋ｅｘｐ（−ｗ１Ｆ（ｘ）−ｗ０））・・・（３）

sigmoid関数の重みｗ１、ｗ０は、複数の正解（被写体の位置）がわかっているサンプル画像に対して実際に検出を行い、累積スコアと被写体の検出結果との関係から、最小二乗法などにより求めることができる。
被写体検出部２０７より被写体を決定する前の各検出ウィンドウの累積スコアを全て、検出ウィンドウの中心位置と関連付けて累積スコア情報（図２１に一例を示す。）として出力するようにする。図２１は、累積スコア情報の一例を示す図である。座標は、検出ウィンドウの中心位置のフレーム画像内での座標である。なお、背景モデル更新部２０８は、被写体確信度算出部１６０１において式（３）で変換された確率を被写体確信度として使用する。また、全ての画素について変換することにより被写体確信度情報を得ることができる。

以上のように算出された被写体確信度を背景モデル更新部２０８は、例えば次のように使用する。
背景モデル更新部２０８は、Ｓ１４０５の判定で注目する画素が被写体領域に含まるかどうかを判定する代わりに、被写体確信度が所定値Ｆ未満であるかどうかを判定する。そして、背景モデル更新部２０８は、所定値Ｆ未満であれると判断した場合、被写体でない可能性が高いと考えられるので、Ｓ１４０６に処理を進め、出現時間を延長する。

図１４の説明に戻る。Ｓ１４０２において、背景モデル更新部２０８は、新規の状態であると判断した場合、Ｓ１４０８からＳ１４１１までの処理を行い、背景モデルへの追加を行う。なお、本画像処理装置の開始時は、フレーム画像の全ての座標に対して新規の状態となっているので、全て背景モデルに追加されることになる。このようにして背景モデルは初期化される。
まず、背景モデル更新部２０８は、現在の画素の座標から背景モデル中の背景モデル管理情報を参照し、一致する座標の状態へのポインタを取得する。そして、背景モデル更新部２０８は、次の画素の座標の状態へのポインタまでポインタを進めて、現在の座標の状態の最後の状態番号を取得する（Ｓ１４０８）。

次に、背景モデル更新部２０８は、新規の状態の状態番号を発番する（Ｓ１４０９）。より具体的には、最後の状態番号の次の値を使用する。なお、背景モデル更新部２０８は、本画像処理装置の起動時のように、初めて背景モデルへ状態を追加するときは１番を割り当てる。
次に、背景モデル更新部２０８は、現在の画素の最後の状態の次に追加を行うので、次の画素の座標から背景モデル中の背景モデル管理情報を参照し、一致する座標の状態へのポインタを取得する（Ｓ１４１０）。次に、背景モデル更新部２０８は、ここに新規の状態として、入力状態情報中の現在の座標の特徴量、作成時刻、出現時間と共に、発番された状態番号を挿入する（Ｓ１４１１）。
次に、背景モデル更新部２０８は、フレーム画像中の全ての画素（座標）について処理を行ったかどうかを判定する（Ｓ１４１２）。このとき、行ったと判断した場合、処理を終了し、行っていないと判断した場合、Ｓ１４１３の処理を行う。Ｓ１４１３では、背景モデル更新部２０８は、ラスタスキャン順に次の画素へ処理の対象を進め、続いてＳ１４０１の処理を行う。
以上が、Ｓ３０７の処理（背景モデルの更新処理）の詳細である。

本背景モデルの更新処理によって、被写体検出部２０７の結果から背景である可能性が高い画素について、背景モデル中の各状態に付与されている時間情報が補正される。これにより、背景モデルの精度が向上するので、前景背景判定部２０６による判定が適切に行えるようになる。
また、上述の構成によれば、例えば、初期化時に存在していた人物（被写体）が動いた跡の誤検知を補正することが可能となる。また、例えば、被写体検出の探索範囲が無意味な領域にまで及ぶことがなくなるため、高速な被写体の検出が可能となる。

＜第２の実施形態＞
図２２は、第２の実施形態に係る画像処理装置のハードウェア構成の一例を示す図である。第１の実施形態と同じ構成については同じ符号を用いてその説明を省略する。
本実施形態は、本実施形態に係るプログラムを記録したＤＶＤ、ＣＤ等の光ディスク２２１１（記録媒体の一例）を読書き可能な外部記憶入出力装置２２１０を画像処理装置が有する点が第１の実施形態とは異なる。
光ディスク２２１１を外部記憶入出力装置２２１０に挿入すると、ＣＰＵ１０１は、記録媒体からプログラムを読み取って、ＲＡＭ１０３に展開することで、第１の実施形態と同様の処理を実現することができる。
プログラムを供給するための記憶媒体としては、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ、ＤＶＤ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。

また、情報処理装置（コンピュータ）が、読出したプログラムを実行することにより、上述の画像処理装置の機能を実現してもよい。また、そのプログラムの指示に基づき、コンピュータ上で稼働しているオペレーティングシステムなどが実際の処理の一部または全部を行って、画像処理装置の機能を実現してもよい。
また、記憶媒体から読出されたプログラムが、コンピュータに挿入された機能拡張ボード、コンピュータに接続された機能拡張ユニットに備わるメモリなどに書込まれた後に実行されてもよい。このとき、機能拡張ボードや機能拡張ユニットに備わる１つまたは複数のプロセッシングエレメント、ＣＰＵ等が実際の処理の一部または全部を行って、上述の画像処理装置の機能を実現してもよい。

また、画像処理装置の各装置は、バス１０９によって接続されているが、一部の装置をネットワークＩ／Ｆ１０８により接続して構成してもよい。例えば、画像入力装置１０５をネットワークＩ／Ｆ１０８により接続して画像を入力するように構成してもよい。
また、特徴量抽出部２０２から背景モデル更新部２０８までの全てを集積回路チップに納め、画像入力装置１０５と一体化させてもよい。或いは、被写体検出部２０７のみをＰＣ上に構成し、フレーム画像、前景領域情報（図１１）等を、ＬＡＮケーブルなどを介して受信し、物体領域情報を送信するようにしてもよい。

＜その他の実施形態＞
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（又はＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

上述した実施形態の構成によれば、より適切に被写体を検出することができる。

以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１０１ＣＰＵ、１０２ＲＯＭ、１０３ＲＡＭ、１０４２次記憶装置、１０５画像入力装置、１０６入力装置、１０７表示装置、１０８ネットワークＩ／Ｆ、１０９バス

Claims

入力映像の画素または部分領域ごとに特徴量を抽出する特徴量抽出手段と、
前記特徴量と時間情報とを組みとした複数の状態を背景モデルとして記憶する背景モデル記憶手段と、
前記入力映像の特徴量と前記背景モデルとを比較して前記入力映像に類似する前記背景モデル中の状態を判定し、類似すると判定した状態の時間情報を更新する入力状態判定手段と、
前記入力状態判定手段で類似すると判定された状態の時間情報に基づいて前景領域を判定する前景背景判定手段と、
前記前景領域に対して所定の被写体の検出を行う被写体検出手段と、
前記被写体検出手段の結果に基づいて前記背景モデル中の状態の時間情報を補正する背景モデル更新手段と、
を有することを特徴とする画像処理装置。
前記背景モデル更新手段は、前記被写体検出手段において、前記被写体が検出されなかった領域について、前記背景モデル中の状態の時間情報を補正することを特徴とする請求項１記載の画像処理装置。
前記背景モデル更新手段は、前記前景背景判定手段において、前記前景領域と前記被写体の被写体領域との論理積領域について、前記背景モデル中の状態の時間情報を補正することを特徴とする請求項１記載の画像処理装置。
前記被写体検出手段の結果に基づいて、前記入力映像の画素または部分領域ごとに被写体確信度を算出する被写体確信度算出手段を更に備え、
前記背景モデル更新手段は、前記被写体確信度に基づいて前記背景モデルの更新を行うことを特徴とする請求項１記載の画像処理装置。
前記被写体確信度算出手段は、前記被写体を含む画像から統計的に求めた被写体確信度の分布に基づいて被写体確信度を算出することを特徴とする請求項４記載の画像処理装置。
入力映像の画素または部分領域ごとに特徴量を抽出する特徴量抽出工程と、
前記特徴量と時間情報とを組みとした複数の状態を背景モデルとして記憶する背景モデル記憶工程と、
前記入力映像の特徴量と前記背景モデルとを比較して前記入力映像に類似する前記背景モデル中の状態を判定し、類似すると判定した状態の時間情報を更新する入力状態判定工程と、
前記入力状態判定工程で類似すると判定された状態の時間情報に基づいて前景領域を判定する前景背景判定工程と、
前記前景領域に対して所定の被写体の検出を行う被写体検出工程と、
前記被写体検出工程の結果に基づいて前記背景モデル中の状態の時間情報を補正する背景モデル更新工程と、
を有することを特徴とする画像処理方法。
請求項６記載の画像処理方法の各工程をコンピュータに実行させるプログラム。