JP2009031939A

JP2009031939A - 画像処理装置、画像処理方法及び画像処理プログラム

Info

Publication number: JP2009031939A
Application number: JP2007193784A
Authority: JP
Inventors: Hansung Kim; ハンソンキム; Riyuuki Sakamoto; 竜基坂本; Itaru Kitahara; 格北原; Tomoji Toriyama; 朋二鳥山; Kiyoshi Kogure; 潔小暮
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2007-07-25
Filing date: 2007-07-25
Publication date: 2009-02-12

Abstract

【課題】背景及び前景を含む動画像から前景領域を高精度に且つ高速に抽出することができるロバストな画像処理装置を提供する。
【解決手段】画像取得部１３は、動画像を取得し、背景モデル作成部１２は、取得された動画像の各画素の分布の尖度に応じて、一般化ガウス分布に属する分布を有する複数種類の背景モデルのうち一の背景モデルを画素毎に決定し、決定した背景モデルを基に、前景を含まず、背景を含む背景モデル画像を作成し、背景差分部１４は、処理対象画像から背景モデル画像の輝度背景画像を差分して差分画像を作成し、領域区分部１５、影除去部１６、ラベリング部１７、輪郭抽出部１８、領域成長部１９及び前景領域抽出部２０は、差分画像を基に処理対象画像から前景領域を抽出する。
【選択図】図１

Description

本発明は、背景及び前景を含む動画像から前景を構成する対象物の領域である前景領域を抽出する画像処理装置、画像処理方法及び画像処理プログラムに関するものである。

動画像から所望する対象物を抽出することは、監視カメラ、遠隔会議、画像編集、人とコンピュータとのインタフェース等の応用を含む画像処理分野の一つの重要な課題である。従来の対象物抽出アルゴリズムは、主要な区分基準に基づいて、以下の二つのアプローチに大別することができる。

第１のアプローチは、基準として、空間的均一性を用いるものであり、形態的フィルタが画像を単純化するために使用され、Ｗａｔｅｒｓｈｅｄアルゴリズムが領域境界決定に適用される。このアルゴリズムによる抽出結果は、Ｗａｔｅｒｓｈｅｄアルゴリズムを用いているため、対象物の境界を他の方法より正確に追跡することができる。

第２のアプローチは、動画像における変化の検出を利用するものである。このアプローチに基づくいくつかのアルゴリズムでは、フレーム差分が使用され、ある期間の複数の画像から先行して取得された静的な背景画像を現在の画像から減算する背景差分が、最も一般的に使用される。このアルゴリズムは非常に高速に動作し、静的な背景から意味のある対象物の領域を抽出することができるので、多くの視覚システムに使用されている。

例えば、非特許文献１には、オリジナルな背景の領域、影のある背景及び影の領域、ハイライトされた背景の領域、前景の動いている対象物の領域の４つの領域に画像を区分して対象物を抽出する頑強な背景差分及び影抽出方法が開示されている。
（例えば、非特許文献１参照）。
ティホープラサート（ＴＨｏｒｐｒａｓｅｒｔ）他２名、「頑強な背景差分及び影抽出」（ＡＲｏｂｕｓｔＢａｃｋｇｒｏｕｎｄＳｕｂｔｒａｃｔｉｏｎａｎｄＳｈａｄｏｗＤｅｔｅｃｔｉｏｎ）、Ｐｒｏｃ．ＡＣＣＶ、２０００年

しかしながら、上記の従来の背景差分及び影抽出方法では、予め固定された４つの領域に画像を区分しているため、背景領域における対象物の陰及び照明のハイライトにより間違った領域を前景領域として抽出する場合があり、前景領域を正確に抽出することができない。

また、処理対象画像となる動画像は、室内で撮影されたものや室外で撮影されたものがあり、これらは撮影条件が大きく異なるため、前景領域を安定的に抽出することができない。

本発明の目的は、背景及び前景を含む動画像から前景領域を高精度に且つ高速に抽出することができるロバストな画像処理装置、画像処理方法及び画像処理プログラムを提供することである。

本発明に係る画像処理装置は、背景及び前景を含む動画像から前景を構成する対象物の領域である前景領域を抽出する画像処理装置であって、動画像を取得する取得手段と、前記取得手段により取得された動画像の各画素の分布の尖度に応じて、一般化ガウス分布に属する分布を有する複数種類の背景モデルのうち一の背景モデルを画素毎に決定し、決定した背景モデルを基に、前景を含まず、背景を含む背景モデル画像を作成する背景モデル作成手段と、前記取得手段により取得された動画像を処理対象画像とし、前記背景モデル作成手段により作成された背景モデル画像からなる背景画像を前記処理対象画像から差分して差分画像を作成する背景差分手段と、前記差分画像を基に前記処理対象画像から前記前景領域を抽出する抽出手段とを備えるものである。

本発明に係る画像処理装置においては、取得された動画像の各画素の分布の尖度に応じて、一般化ガウス分布に属する分布を有する複数種類の背景モデルのうち一の背景モデルが画素毎に決定され、決定された背景モデルを基に、前景を含まず、背景を含む背景モデル画像が作成されるので、動画像の特性、例えば、室内で撮影されたものや室外で撮影されたものの特性に応じた背景モデルを画素毎に決定することができ、動画像の特性に適した背景モデル画像を作成することができる。その後、新たに取得された動画像を処理対象画像とし、この処理対象画像から、上記の動画像の特性に適した背景モデル画像からなる背景画像（例えば、背景モデル画像の輝度成分からなる輝度背景画像）を差分して差分画像が作成され、この差分画像を基に処理対象画像から前景領域が抽出されるので、背景及び前景を含む動画像から前景領域を高精度に且つ高速に抽出することができるロバストな画像処理装置を実現することができる。

前記背景モデル作成手段は、前記取得手段により取得された動画像の各画素の分布の尖度に応じて、ガウス分布を用いてモデル化されたガウスモデル及びラプラス分布を用いてモデル化されたラプラスモデルのうちの一方を前記背景モデルとして決定することが好ましい。

この場合、長時間の静的なシーンにおける画素の変動を、ガウス分布を用いてモデル化することができるとともに、室内の安定なシーンのように室外より変化が小さい画素の変動を、ラプラス分布を用いてモデル化することができるので、画像の特性に適した背景モデルを容易に決定することができる。

前記背景モデル作成手段は、前記背景モデルの分布を表す平均及び分散を、その移動平均を用いて更新し、更新した平均及び分散を用いて前記背景モデル画像を更新することが好ましい。

この場合、照明条件による緩やかな変化に応じて、背景モデルの分布を表す平均及び分散を更新し、更新した平均及び分散を用いて背景モデル画像を更新することができるので、照明条件による緩やかな変化を反映した背景モデル画像を作成することができる。

前記背景モデル作成手段は、所定時間の間、変化のない画素の背景モデルを破棄して新たに背景モデルを作成し、作成した背景モデルを用いて前記背景モデル画像を更新することが好ましい。

この場合、背景の幾何的位置の移動による急激な変化に応じて、古い背景モデルを破棄して新たに背景モデルを作成し、作成した背景モデルを用いて背景モデル画像を更新することができるので、背景の幾何的位置の移動による急激な変化を反映した背景モデルを作成することができる。

前記抽出手段は、前記差分画像の輝度成分を基に、前記処理対象画像を、当該領域が前景でなく背景である信頼性が高い第１の領域と、当該領域が前景でなく背景である信頼性が前記第１の領域より低い第２の領域と、当該領域が背景でなく前景である信頼性が低い第３の領域と、当該領域が背景でなく前景である信頼性が前記第３の領域より高い第４の領域とに区分する領域区分手段と、前記第３領域の色成分と前記背景モデル画像の色成分との差分に基づいて、前記第３領域から対象物の陰の領域を抽出し、抽出した陰の領域を前記第２の領域に変更することにより、影の領域を除去する影除去手段と、前記影除去手段により影の領域が除去された第１乃至４の領域を基に、前記処理対象画像から前記前景領域を抽出する前景抽出手段とを含むことが好ましい。

この場合、差分画像の輝度成分を基に、当該領域が前景でなく背景である信頼性が高い第１の領域と、当該領域が前景でなく背景である信頼性が前記第１の領域より低い第２の領域と、当該領域が背景でなく前景である信頼性が低い第３の領域と、当該領域が背景でなく前景である信頼性が前記第３の領域より高い第４の領域とに区分され、区分された第３領域の色成分と背景モデル画像の色成分との差に基づいて、第３領域から対象物の陰の領域が抽出され、抽出された陰の領域が第２の領域に変更されて影の領域が除去される。ここで、色成分は、輝度成分と異なり、対象物の陰及び照明のハイライトの影響を受けにくいため、対象物の陰の領域を正確に検出し、当該領域を第２の領域に変更して前景領域から確実に排除することができる。このように、影の領域が前景領域から確実に除去された第１乃至４の領域を基に、処理対象画像から前景領域を抽出しているので、背景及び前景を含む動画像から前景領域を高精度に抽出することができるとともに、処理が高速な差分処理を基本にして上記の各処理を構成しているので、動画像から前景領域を高速に抽出することができる。

前記前景抽出手段は、前記影除去手段により変更されていない第３の領域と、前記第４の領域とに対して、各領域により表される対象物を特定するためのラベリングを行うラベリング手段と、前記ラベリング手段によりラベリングされた各領域の輪郭を抽出する輪郭抽出手段と、前記輪郭抽出手段により輪郭が抽出された領域において、前記第１の領域、前記第２の領域、前記第３の領域、前記第４の領域の順に領域成長法を適用して、各領域を成長させる領域成長手段と、前記領域成長手段により成長された各領域のうち前記第３及び第４の領域を前記前景領域として抽出する前景領域抽出手段とを含むことが好ましい。

この場合、変更されていない第３の領域と第４の領域とに対して、各領域により表される対象物を特定するためのラベリングが行われ、ラベリングされた各領域の輪郭が抽出され、輪郭が抽出された領域において、第１の領域、第２の領域、第３の領域、第４の領域の順に領域成長法を適用して各領域が成長されるので、前景領域である第３及び第４の領域の内部に本来あるべきホール、例えば、二人の人間が手を繋ぐことにより形成されるホールを背景領域として確実に復元することができる。このように、本来あるべきホールが確実に復元された後の第３及び第４の領域を前景領域として抽出しているので、前景に位置する対象物の形態を高精度に抽出することができる。

前記背景モデル作成手段は、前記ラベリング手段によりラベリングされた各領域において、所定時間の間、変化のない画素を含む領域全体の背景モデルを破棄して当該領域の新たな背景モデルを作成し、作成した背景モデルを用いて前記背景モデル画像を更新することが好ましい。

この場合、ラベリングされた領域内の一部の幾何的位置の移動による画素の急激な変化に応じて、当該領域全体の背景モデルを破棄して新たな背景モデルを作成し、作成した背景モデルを用いて背景モデル画像を更新することができるので、背景の幾何的位置の移動による画素の急激な変化を確実に反映した背景モデル画像を作成することができる。

本発明に係る画像処理装置は、背景及び前景を含む動画像から前景を構成する対象物の領域である前景領域を抽出する画像処理装置であって、動画像を取得する取得手段と、背景モデルを画素毎に決定し、決定した背景モデルを基に、前景を含まず、背景を含む背景モデル画像を作成する背景モデル作成手段と、前記取得手段により取得された動画像を処理対象画像とし、前記背景モデル作成手段により作成された背景モデル画像からなる背景画像を前記処理対象画像から差分して差分画像を作成する背景差分手段と、前記差分画像を基に前記処理対象画像から前記前景領域を抽出する抽出手段とを備え、前記背景モデル作成手段は、前記背景モデルの分布を表す平均及び分散を、その移動平均を用いて更新し、更新した平均及び分散を用いて前記背景モデル画像を更新するものである。

本発明に係る画像処理装置においては、背景モデルが画素毎に決定され、決定された背景モデルを基に、前景を含まず、背景を含む背景モデル画像が作成され、取得された動画像を処理対象画像とし、この処理対象画像から、作成された背景モデル画像からなる背景画像を差分して差分画像が作成され、この差分画像を基に処理対象画像から前景領域が抽出される。このとき、背景モデルの分布を表す平均及び分散を、その移動平均を用いて更新し、更新した平均及び分散を用いて背景モデル画像を更新しているので、照明条件による緩やかな変化を反映した背景モデル画像を作成することができ、背景及び前景を含む動画像から前景領域を高精度に且つ高速に抽出することができるロバストな画像処理装置を実現することができる。

本発明に係る画像処理方法は、取得手段と、背景モデル作成手段と、背景差分手段と、抽出手段とを備える画像処理装置を用いて、背景及び前景を含む動画像から前景を構成する対象物の領域である前景領域を抽出する画像処理方法であって、前記取得手段が、動画像を取得する第１のステップと、前記背景モデル作成手段が、前記取得手段により取得された動画像の各画素の分布の尖度に応じて、一般化ガウス分布に属する分布を有する複数種類の背景モデルのうち一の背景モデルを画素毎に決定し、決定した背景モデルを基に、前景を含まず、背景を含む背景モデル画像を作成する第２のステップと、前記背景差分手段が、前記取得手段により取得された動画像を処理対象画像とし、前記背景モデル作成手段により作成された背景モデル画像からなる背景画像を前記処理対象画像から差分して差分画像を作成する第３のステップと、前記抽出手段が、前記差分画像を基に前記処理対象画像から前記前景領域を抽出する第４のステップとを含むものである。

本発明に係る画像処理プログラムは、背景及び前景を含む動画像から前景を構成する対象物の領域である前景領域を抽出するための画像処理プログラムであって、動画像を取得する取得手段と、前記取得手段により取得された動画像の各画素の分布の尖度に応じて、一般化ガウス分布に属する分布を有する複数種類の背景モデルのうち一の背景モデルを画素毎に決定し、決定した背景モデルを基に、前景を含まず、背景を含む背景モデル画像を作成する背景モデル作成手段と、前記取得手段により取得された動画像を処理対象画像とし、前記背景モデル作成手段により作成された背景モデル画像からなる背景画像を前記処理対象画像から差分して差分画像を作成する背景差分手段と、前記差分画像を基に前記処理対象画像から前記前景領域を抽出する抽出手段としてコンピュータを機能させるものである。

本発明によれば、動画像の各画素の分布の尖度に応じて、一般化ガウス分布に属する分布を有する複数種類の背景モデルのうち一の背景モデルが画素毎に決定され、決定された背景モデルを基に、前景を含まず、背景を含む背景モデル画像が作成され、この背景モデル画像からなる背景画像を差分して差分画像が作成され、この差分画像を基に処理対象画像から前景領域が抽出されるので、動画像の特性に適した背景モデル画像を作成することができ、この背景モデル画像を用いて、背景及び前景を含む動画像から前景領域を高精度に且つ高速に抽出することができるロバストな画像処理を実現することができる。

以下、本発明の一実施の形態による画像処理装置について図面を参照しながら説明する。図１は、本発明の一実施の形態による画像処理装置の構成を示すブロック図である。

図１に示す画像処理装置は、複数のビデオカメラ１１〜１ｎ（ｎは任意の整数）、背景モデル作成部１２、画像取得部１３、背景差分部１４、領域区分部１５、影除去部１６、ラベリング部１７、輪郭抽出部１８、領域成長部１９、及び前景領域抽出部２０を備える。

ｎ台（ｎは１以上の整数）のビデオカメラ１１〜１ｎは、撮影空間の所定箇所に固定され、前景となる対象物、例えば、人物をその背後に位置する背景、例えば、室内の壁、調度品等を含めて撮影し、撮影したカラー動画像を処理対象画像としてフレーム単位で画像取得部１３へ出力する。また、ビデオカメラ１１〜１ｎは、撮影空間の所定箇所に固定され、前景となる対象物を含まず、背景となる室内の壁、調度品等を撮影したカラー動画像を背景用画像としてフレーム単位で画像取得部１３へ出力する。例えば、ビデオカメラ１１〜１ｎとして、７台のビデオカメラを用い、１０２４×７６８画素のＲＧＢストリームが３０フレーム／秒で撮影される。

なお、使用する映像は、上記の例に特に限定されず、７２０×４８０画素のインタレースデジタル映像等を用いてもよい。また、ビデオカメラの台数も、上記の例に特に限定されず、１台のみを用いてもよく、以下では、説明を容易にするために、１台のビデオカメラ１１から得られた処理対象画像を処理する場合について主に説明するが、複数台の場合には同様の処理が台数分並列に実行される。

背景モデル作成部１２、画像取得部１３、背景差分部１４、領域区分部１５、影除去部１６、ラベリング部１７、輪郭抽出部１８、領域成長部１９、及び前景領域抽出部２０は、入力装置、表示装置、ＲＯＭ（リードオンリメモリ）、ＣＰＵ（中央演算処理装置）、ＲＡＭ（ランダムアクセスメモリ）、画像Ｉ／Ｆ（インターフェース）部及び外部記憶装置等を備えるコンピュータを用いて、ＲＯＭ又は外部記憶装置に予め記憶されている、後述する各処理を行うための画像処理プログラムをＣＰＵ等で実行することにより実現される。なお、背景モデル作成部１２、画像取得部１３、背景差分部１４、領域区分部１５、影除去部１６、ラベリング部１７、輪郭抽出部１８、領域成長部１９、及び前景領域抽出部２０の構成例は、本例に特に限定されず、各ブロックを専用のハードウエアから構成したり、一部のブロック又はブロック内の一部の処理のみを専用のハードウエアで構成したりする等の種々の変更が可能である。

画像取得部１３は、前景を含まず、背景を含む背景用画像をビデオカメラ１１から所定フレームだけ取得して背景モデル作成部１２へ出力する。背景モデル作成部１２は、背景用画像の各画素の分布の尖度に応じて、ガウス分布を用いてモデル化されたガウスモデル及びラプラス分布を用いてモデル化されたラプラスモデルのうちの一方を背景モデルとして画素毎に決定し、決定した背景モデルを用いて背景用画像の各画素の分布の平均、分散及び標準偏差を算出し、これらの値から背景モデル画像及び領域区分及び陰除去の基準となる複数の閾値を算出して記憶する。

本実施の形態では、背景モデルとして、ラプラスモデルとガウスモデルとを用い、このガウス分布及びラプラス分布は、一般化ガウス分布（Generalized Gaussian Family distribution）に属する分布である。なお、本発明に適用可能な分布モデルは、この例に特に限定されず、一般化ガウス分布に属する他の分布モデルを用いたり、３種類以上の分布モデルから一の分布モデルを選択したりする等の種々の変更が可能である。また、モデルのパラメータの最適化は、観察されたデータの尤度を最大化することによって評価することができる。

ここで、背景の画像の特徴について説明する。例えば、長時間の画像ノイズは、零平均ガウス分布（０，σ）によってモデル化することができるので、長時間の静的なシーンにおける画素の変動を、ガウス分布（μ，σ）を用いてモデル化することができる。しかしながら、最近のデジタルカメラは、ノイズリダクションによるクリーンで安定な画像を供給することができる。さらに、室内のような安定なシーンの場合、光のばらつき及び照明の変化が少なく、自然に頻繁に発生する傾向にある小さな動きが少ないため、室外より画素の変化は小さくなる。

短時間間隔で撮影した室内の映像及び室外の映像の各画素の平均から偏差の分布を抽出し、これらの分布をガウス分布及びラプラス分布と比較し、３σ（ここで、σは標準偏差を表す）の範囲内で各モデルとの差の平均を求めた。その結果、室外の映像では、ガウス分布との差が０．４１６５、ラプラス分布との差が０．４９２３であったが、室内の映像では、ガウス分布との差が０．０４５２、ラプラス分布との差が０．０１６１となり、明らかに、室内の映像は、ガウス分布よりラプラス分布に非常に近似していることがわかった。

また、短時間間隔で撮影した映像の各画素の分布が映像毎に異なる形状を示すことがわかった。図２は、ある映像のいくつかの画素の強度ヒストグラム及び修正尖度を示す図である。この修正尖度は、正規分布に対してピークを持つか又はフラットであるかを示す指標であり、下記の式（１）により計算される値である。なお、本発明に使用可能な尖度は、この例に特に限定されず、分布の尖り度合いを表す他の尖度を用いてもよい。

ここで、ｎはサンプル数であり、ｘ_ｉは画素の値（輝度成分及び色成分）であり、μは画素の値の平均であり、式（１）の修正尖度は、ガウス分布では０になり、ラプラス分布では３になる。図２から、画素毎に修正尖度が大きく異なり、背景をガウス分布だけでモデル化することは困難であることがわかる。このため、本実施の形態では、一般化ガウス分布を用いて背景をモデル化しており、一般化ガウス分布は、以下のように定義される。

ここで、Γ（）はガンマ関数、σは分布の標準偏差であり、ρ＝２がガウス分布を表し、ρ＝１がラプラス分布を表わす。

ここで、背景モデル画像は、２つの識別可能な部分、輝度モデル画像と色モデル画像とにモデル化され、輝度背景画像データが輝度モデル画像となり、色背景画像データが色モデル画像となる。

ビデオカメラ１１〜１ｎから入力されるビデオストリームは、ＲＧＢ成分の３チャンネルを有しているが、それらはノイズ及び照明条件に対して敏感であるため、本実施の形態では、初期的な対象物すなわち前景の区分にカラー画像の輝度成分を使用している。背景モデル画像の輝度すなわち輝度背景画像データは、下記式で計算される。
Ｙ＝０．２９９×Ｒ＋０．５８７×Ｇ＋０．１１４×Ｂ …（３）
しかしながら、輝度成分は、背景領域の影及び前景領域の照明の反射により急激に変化する。本実施の形態では、間違った前景の区分を防止するために、画像の色成分を用いた色背景画像データを用いる。背景モデル画像の色成分Ｈすなわち色背景画像データは、下記のようにしてＨＳＩモデルを基に算出される。なお、本発明に使用可能なモデルは、この例に特に限定されず、ＨＳＶモデル等を用いても差し支えない。

本実施の形態では、背景モデル作成部１２は、式（３）及び（４）を用いて、最初のＮフレーム、例えば、１５０フレーム分の背景用画像の各画素のＲＧＢ成分を輝度成分及び色成分に変換する。次に、背景モデル作成部１２は、Ｎフレーム分の輝度成分から式（１）の修正尖度を画素毎に計算し、例えば、修正尖度が１．５以下の場合にガウスモデルを用いることを決定し、ρ＝２にした式（２）のガウスモデルを用いて輝度成分の分布の平均、分散及び標準偏差を算出し、一方、修正尖度が１．５より大きい場合にラプラスモデルを用いることを決定し、ρ＝１にした式（２）のラプラスモデルを用いて輝度成分の分布の平均、分散及び標準偏差を算出する。

同様に、背景モデル作成部１２は、Ｎフレーム分の色成分から式（１）の修正尖度を画素毎に計算し、例えば、修正尖度が１．５以下の場合にガウスモデルを用いることを決定し、ρ＝２にした式（２）のガウスモデルを用いて色成分の分布の平均、分散及び標準偏差を算出し、一方、修正尖度が１．５より大きい場合にラプラスモデルを用いることを決定し、ρ＝１にした式（２）のラプラスモデルを用いて色成分の分布の平均、分散及び標準偏差を算出する。

次に、背景モデル作成部１２は、各画素の輝度成分の平均から、前景を含まず、背景を含む背景モデル画像の輝度成分からなる輝度背景画像データを、各画素の色成分の平均から、前景を含まず、背景を含む背景モデル画像の色成分からなる色背景画像データをそれぞれ計算して記憶する。

また、背景モデル作成部１２は、各画素の輝度成分すなわち輝度背景画像データの標準偏差に予め記憶している所定の重み係数を乗算した３つの閾値を算出するとともに、各画素の色成分すなわち色背景画像データの標準偏差に予め記憶している所定の重み係数を乗算した１つの閾値を算出し、これらの閾値を記憶する。

上記の輝度背景画像データ及び色背景画像データが作成された後、画像取得部１３は、ビデオカメラ１１から処理対象画像となる動画像を取得してフレーム単位で背景モデル作成部１２及び背景差分部１４へ出力する。背景差分部１４は、背景モデル作成部１２から輝度背景画像データを読み出し、処理対象画像データから輝度背景画像データを差分して差分画像データを作成して領域区分部１５へ出力する。

領域区分部１５は、輝度背景画像データの標準偏差に所定の重み係数を乗算した３つの閾値を背景モデル作成部１２から読み出し、差分画像データの輝度成分と３つの閾値とを比較する。領域区分部１５は、比較結果に応じて、処理対象画像を、当該領域が前景でなく背景である信頼性が高い第１の領域と、当該領域が前景でなく背景である信頼性が第１の領域より低い第２の領域と、当該領域が背景でなく前景である信頼性が低い第３の領域と、当該領域が背景でなく前景である信頼性が前記第３の領域より高い第４の領域とに区分し、影除去部１６へ出力する。

影除去部１６は、背景モデル作成部１２から色背景画像データ及び色背景画像データの標準偏差に所定の重み係数を乗算した１つの閾値を読み出し、第３領域の色成分と背景モデル画像の色成分すなわち色背景画像データとの差分と閾値とを比較する。影除去部１６は、比較結果に応じて、第３領域から対象物の陰の領域を抽出し、抽出した陰の領域を第２の領域に変更することにより、影の領域を除去してラベリング部１７へ出力する。

ラベリング部１７は、影除去部１６により第２の領域に変更されていない第３の領域と、第４の領域とに対して、各領域により表される対象物を特定するためのラベリングを行い、輪郭抽出部１８へ出力する。

輪郭抽出部１８は、ラベリングされた各領域の輪郭を抽出して領域成長部１９へ出力する。領域成長部１９は、輪郭が抽出された領域において、第１の領域、第２の領域、第３の領域、第４の領域の順に領域成長法を適用して各領域を成長させ、対象物の輪郭の内側に実際に存在するホールを復元し、前景領域抽出部２０へ出力する。

前景領域抽出部２０は、実際に存在するホールが復元された第３及び第４の領域を前景領域として抽出し、その他の領域をマスクする前景マスクを生成して動画像をマスクすることにより、動画像から前景領域すなわち対象物を抽出して表示する。

また、上記の前景領域抽出処理において、背景モデル作成部１２は、各画素の輝度背景画像データ及び色背景画像データの平均及び分散を、その移動平均を用いてフレーム単位で更新し、更新した平均及び分散を用いて背景モデル画像を更新する。また、背景モデル作成部１２は、ラベリング部１７によりラベリングされた各領域において、所定時間の間、変化のない画素の背景モデルを破棄して新たに背景モデルを上記と同様に決定することにより、背景モデルを更新し、更新した背景モデルから輝度背景画像データ及び色背景画像データ、分散及び標準偏差を画素毎に計算することにより、背景モデル画像を更新する。

なお、新たな背景モデルの決定は、上記の式（１）及び（２）に従って決定されるが、背景モデル作成部１２が処理対象画像を常にＮフレームだけ記憶しておき、背景モデルを破棄すると決定したときに、記憶しているＮフレームの画像から新たに背景モデルを決定してもよいし、又は、背景モデルを破棄すると決定した後にＮフレームの画像を新たに取得して背景モデルを決定するようにしてもよい。また、背景モデル画像の更新は、輝度背景画像データ及び色背景画像データのうち一方のみを行うようにしてもよい。

ここで、上記の更新処理についてさらに詳細に説明する。背景モデルは、背景の統計的な変化に従って更新されるべきであり、背景には異なる特性を有する２種類の変化、すなわち、照明条件による緩やかな変化と、背景の幾何的位置の移動による急激な変化とがある。背景モデル作成部１２は、緩やかな変化を取り扱うために、式（５）の移動平均を用いて各画素の背景モデルの分布の平均μ及び分散σ^２を更新する。

ここで、式（５）において、ｘ_ｔは、時刻ｔにおける画素の値（輝度成分及び色成分）を示し、係数αは、ｘ_ｔで示される画素が第３の領域及び第４の領域（ｂａｃｋｇｒｏｕｎｄ）に含まれない場合に０に設定され、第３の領域及び第４の領域（ｂａｃｋｇｒｏｕｎｄ）に含まれる場合に０．０５に設定され、背景モデルの分布の平均μ及び分散σ^２が更新される。また、更新された平均μから輝度背景画像データ及び色背景画像データが算出され、更新された分散σ^２から標準偏差σが算出され、標準偏差σを用いた閾値が更新される。

しかしながら、上記の更新処理だけでは、背景における急激な変化及び恒久的な変化を取り扱うことができない。例えば、背景にある物体が移動され、長時間新たな位置に固定されている場合、前景の対象物として、新たな位置及び古い位置の両方を検出する可能性がある。このため、静的な画素の観察を用いて背景モデルを更新する。具体的には、背景モデル作成部１２は、処理対象画像中のいずれかの領域が前景領域として決定され、ラベリング部１７により同じラベルを割り当てられた領域において、連続するフレーム間の画素の差を観察し、画素が過去の所定数のフレームＴＨ_ｂｇ間の期間だけ（例えば、３０〜６０秒）静止している場合、その領域全体の画素の古い背景モデルを破棄して新しい背景モデルを作成することにより背景モデルを更新し、更新した背景モデルから輝度背景画像データ、色背景画像データ及び閾値を画素毎に計算して更新することにより、背景モデル画像を更新する。

また、背景モデル作成部１２は、最小領域サイズＴＨ_ＲＧ（例えば、画像サイズの０．１パーセント）より大きく且つ静止していないエリアがあれば、同じラベルの領域におけるすべての観察処理をリセットし、前景における局所的な静止している画素の部分的な消失を避け、同じラベルを有する領域単位で背景モデルを更新する。

上記の構成により、本実施の形態では、背景モデル画像の各画素の分布の修正尖度に応じて、ガウス分布を用いてモデル化されたガウスモデル及びラプラス分布を用いてモデル化されたラプラスモデルのうちの一方が背景モデルとして画素毎に決定され、決定された背景モデルを基に背景モデル画像が作成されるので、動画像の特性、例えば、室内で撮影されたものや室外で撮影されたものの特性に応じた背景モデルを画素毎に決定することができ、動画像の特性に適した背景モデル画像を高精度に作成することができる。

また、複数閾値を用いた背景差分により、処理対象画像がそれらの信頼性に基づいて４つの領域に区分され、対象物の影の領域が色成分を用いて除去される。また、各対象物が自身の識別番号でラベリングされ、シルエット抽出技術により前景領域の境界がスムージング処理されて前景領域内の不要なホールが除去され、領域成長技術により前景領域内に実際に存在するホールが復元される。このように、不要なホール及び影が除去されるとともに、実際に存在するホールが復元された前景領域を用いて前景マスクが生成され、動画像から対象物が確実に且つ正確に、さらに高速に抽出される。

本実施の形態では、画像取得部１３が取得手段の一例に相当し、背景モデル作成部１２が背景モデル作成手段の一例に相当し、背景差分部１４が背景差分手段の一例に相当し、領域区分部１５、影除去部１６、ラベリング部１７、輪郭抽出部１８、領域成長部１９及び前景領域抽出部２０が抽出手段の一例に相当する。また、領域区分部１５が領域区分手段の一例に相当し、影除去部１６が影除去手段の一例に相当し、ラベリング部１７、輪郭抽出部１８、領域成長部１９及び前景領域抽出部２０が前景抽出手段の一例に相当する。また、ラベリング部１７がラベリング手段の一例に相当し、輪郭抽出部１８が輪郭抽出手段の一例に相当し、領域成長部１９が領域成長手段の一例に相当し、前景領域抽出部２０が前景領域抽出手段の一例に相当する。

次に、上記のように構成された画像処理装置により、背景及び前景を含む動画像から前景を構成する対象物の領域である前景領域を抽出する画像処理である前景領域抽出処理について説明する。図３は、図１に示す画像処理装置による前景領域抽出処理を説明するためのフローチャートである。なお、以下の処理は、各画像に対して画素単位で実行される。

まず、ステップＳ１１において、ビデオカメラ１１は、前景となる人物を含まず、人物が前景となった場合にその背後に位置する背景を含む背景用画像を撮影し、画像取得部１３は、撮影された背景用画像を所定フレームだけ取得して背景モデル作成部１２へ出力する。

次に、ステップＳ１２において、背景モデル作成部１２は、以下の処理を実行することにより、背景モデルを決定して背景モデル画像等を作成する。まず、背景モデル作成部１２は、式（３）及び（４）を用いて、所定フレーム分の背景用画像の各画素のＲＧＢ成分を輝度成分及び色成分に変換し、輝度成分から式（１）の修正尖度を画素毎に計算し、修正尖度が１．５以下の場合にガウスモデルを用いることを決定し、ρ＝２にした式（２）のガウスモデルを用いて輝度成分の分布の平均、分散及び標準偏差を算出し、修正尖度が１．５より大きい場合にラプラスモデルを用いることを決定し、ρ＝１にした式（２）のラプラスモデルを用いて輝度成分の分布の平均、分散及び標準偏差を算出する。

また、背景モデル作成部１２は、色成分から式（１）の修正尖度を画素毎に計算し、修正尖度が１．５以下の場合にガウスモデルを用いることを決定し、ρ＝２にした式（２）のガウスモデルを用いて色成分の分布の平均、分散及び標準偏差を算出し、修正尖度が１．５より大きい場合にラプラスモデルを用いることを決定し、ρ＝１にした式（２）のラプラスモデルを用いて色成分の分布の平均、分散及び標準偏差を算出する。

その後、背景モデル作成部１２は、各画素の輝度成分の平均から輝度背景画像データを、各画素の色成分の平均から色背景画像データを計算して記憶し、また、各画素の輝度背景画像データの標準偏差に所定の重み係数を乗算した３つの閾値を算出するとともに、各画素の色背景画像データの標準偏差に所定の重み係数を乗算した１つの閾値を算出し、これらの閾値を記憶する。

次に、ステップＳ１３において、ビデオカメラ１１は、前景となる人物をその背後に位置する背景を含めて撮影し、画像取得部１３は、撮影された動画像を処理対象画像として取得する。

次に、ステップＳ１４において、背景差分部１４は、背景モデル作成部１２から輝度背景画像データを読み出し、画像取得部１３から出力される処理対象画像データから輝度背景画像データを差分して差分画像データを作成して領域区分部１５へ出力する。

次に、ステップＳ１５において、下記の式（６）に従い、領域区分部１５は、輝度背景画像データの標準偏差に所定の重み係数を乗算した３つの閾値を背景モデル作成部１２から読み出し、差分画像データの輝度成分と３つの閾値とを比較して、処理対象画像を、（ａ）当該領域が前景でなく背景である信頼性が高い第１の領域（信頼できる背景）と、（ｂ）当該領域が前景でなく背景である信頼性が第１の領域より低い第２の領域（疑わしい背景）と、（ｃ）当該領域が背景でなく前景である信頼性が低い第３の領域（疑わしい前景）と、（ｄ）当該領域が背景でなく前景である信頼性が前記第３の領域より高い第４の領域（信頼できる前景）とに区分し、影除去部１６へ出力する。なお、下式において、Ｌ_Ｉ及びＬ_Ｂは、現在のフレーム及び背景モデル画像の輝度成分を示し、σは、背景モデル画像の輝度成分の標準偏差を示し、Ｋ_１〜Ｋ_３は、重み係数を示す。

上記の式（６）に用いる重み係数Ｋ_１〜Ｋ_３は、訓練データによって決定される。異なる環境から得られたグランド・トルース前景マスクを用いた約１００画像を使用し、重み係数Ｋ_１〜Ｋ_３の決定には、以下の条件を用いた。また、前景抽出において、通常、間違った肯定的なエラーが間違った否定的なエラーより重大であるため、βを３に設定した。

ここで、上記の背景差分処理及び領域区分処理について詳細に説明する。図４は、７台のビデオカメラのうちの２台のカメラを用いて生成した背景モデル画像の輝度成分の一例を示す図であり、図５は、図４に示す背景モデル画像の色成分の一例を示す図であり、図６は、本実施の形態に使用した処理対象画像の一例を示す図であり、図７は、図６に示す処理対象画像の差分後の輝度成分を示す図である。なお、図５において、０〜３６０°範囲で記述される色成分は、０〜２５５のグレースケール値にマッピングされている。

上記の各画像を用いて、現在のフレームの輝度成分から背景モデル画像を減算することにより、初期の背景差分が実行される。このとき、背景と同様の明るさを有する影及び前景領域のような多くの曖昧な領域を、固定されたシンプルな閾値を用いて区分するために、上記の式（６）に示すように、それらの信頼性に基づく複数の閾値を用いて、処理対象領域が４つのカテゴリーに分類される。

図８は、図６及び図７に示す画像を用いた分類結果を示す図である。図８に示す例では、式（６）に用いられる重み係数Ｋ_１〜Ｋ_３として、５、１２、６０を用いている。図８に示す黒、濃い灰色、薄い灰色、白の各領域が、第１の領域（信頼できる背景）、第２の領域（疑わしい背景）、第３の領域（疑わしい前景）、第４の領域（信頼できる前景）を示している。

次に、ステップＳ１６において、下記の式（７）に従い、影除去部１６は、背景モデル作成部１２から色背景画像データ及び色背景画像データの標準偏差に所定の重み係数を乗算した１つの閾値を読み出し、第３領域の色成分と色背景画像データとの差分と閾値とを比較して第３領域から対象物の陰の領域を抽出し、抽出した陰の領域を第２の領域に変更することにより、影の領域を除去してラベリング部１７へ出力する。なお、下式において、Ｈ_Ｉ及びＨ_Ｂは、現在のフレーム及び背景モデル画像の色成分を示し、σ_Ｈは、背景モデル画像の色成分の標準偏差を示す。

ここで、上記の影除去処理について詳細に説明する。図８に示す結果から、対象物の影が背景の明るさを変化させ、フロア上の背景の多くの部分が、第３の領域（疑わしい前景）に組み込まれていることがわかる。このため、本実施の形態では、影が背景の色特性を変化させることなく、輝度のみを変化させることに着目し、式（８）に示すように、色成分を用いて、第３の領域（疑わしい前景）の影を第２の領域（疑わしい背景）にマージし、第３の領域から影を除去する。図９は、影除去処理後の結果の一例を示す図である。

次に、ステップＳ１７において、ラベリング部１７は、影除去部１６による影除去処理後の第３の領域と、第４の領域とに対して、各領域により表される対象物を特定するためのラベリングを行い、輪郭抽出部１８へ出力する。

ここで、上記のラベリング処理について詳細に説明する。このラベリング処理においては、式（６）におけるすべての前景領域である第３の領域と第４の領域とが、自身の識別番号でラベリングされる。このとき、４近傍規則を用いて連結されたすべての前景画素が、領域成長技術を用いて同じラベルを割り付けられる。しかしながら、初期対象物領域である第３の領域と第４の領域とには、小さなノイズ領域が存在する場合がある。

このため、従来のノイズ領域除去方法では、形態的操作を用いて小さいノイズ領域をフィルタリングしていたが、本実施の形態では、閉鎖及び開口処理による初期マスクを改良している。すなわち、ラベリング部１７は、各領域の大きさに基づく降順ですべてのラベリングされた領域をソート及び再ラベリングし、再ラベリング処理において、所定の閾値ＴＨ_ＲＧより小さい領域を除去している。図１０は、ラベリング処理の結果の一例を示す図である。図１０に示すように、右側の画像では、二人の人間がシーン内に存在しているが、手を繋いでいるので、一つの対象物としてラベリングされている。

次に、ステップＳ１８において、輪郭抽出部１８は、ラベリングされた各前景領域の輪郭を抽出して領域成長部１９へ出力する。ここで、図１０に示す状態では、背景として間違って区分されたり、対象物の内部に間違ってラベリングされた多くの間違った領域が存在する。このため、本実施の形態では、前景領域の境界をスムージングし、領域内のホールを除去するために、カーマープロファイル抽出技術を改良したシルエット抽出技術を用いて、各領域の輪郭を抽出している。

図１１は、初期対象物に適用される輪郭抽出処理を説明するための模式図である。図１１の（ａ）〜（ｄ）に示すように、輪郭抽出部１８は、重み付けされた一画素の厚いドレープＤ１〜Ｄ４を初期対象物ＲＡに対して順次一方側から反対側へ移動させ、４つのドレープＤ１〜Ｄ４によって包まれた領域ＳＩが最終的に前景領域を示すこととなる。なお、ドレープＤ１〜Ｄ４の隣接画素は、その幅が所定の閾値Ｍより小さい浸潤ギャップのない対象物を覆う弾性バネによって連結されている。

次に、ステップＳ１９において、領域成長部１９は、輪郭が抽出された領域において、第１の領域、第２の領域、第３の領域、第４の領域の順に領域成長法を適用して、各領域を成長させ、対象物の輪郭の内側に実際に存在するホールを復元して前景領域抽出部２０へ出力する。

ここで、上記のシルエット抽出技術では、複数の対象物が撮影シーン中に存在するときに、対象物の内部に実際に存在するホールをも覆う可能性があり、対象物間の領域に重大なエラーを引き起こすという欠点を有している。このため、本実施の形態では、第１の問題を避けるために、各ラベリングされた領域に対してシルエット抽出技術を独立に適用し、第２の問題に対して、閾値ＴＨ_ＲＧより大きい領域に対して、シルエット内の信頼性が高い背景領域から領域成長技術を順次実行している。

図１２は、輪郭抽出処理の結果の一例を示す図であり、図１３は、内部ホール復元処理の結果の一例を示す図である。図１２の（ａ）及び図１３の（ａ）に示すように、一人の人間が前景に位置する場合、輪郭抽出処理の結果と内部ホール復元処理の結果とで大きな差はないが、図１２の（ｂ）及び図１３の（ｂ）に示すように、二人の人間が手を繋いだ状態で前景に位置する場合、図１２の（ｂ）において喪失していた、二人の人間によって作られたホールが、図１３の（ｂ）では、領域成長処理によって第４の領域（信頼できる前景）から復元されていることがわかる。

次に、ステップＳ２０において、前景領域抽出部２０は、実際に存在するホールが復元された第３及び第４の領域を前景領域として抽出し、その他の領域をマスクする前景マスクを生成して動画像をマスクすることにより、動画像から対象物を抽出して表示する。

次に、ステップＳ２１において、背景モデル作成部１２は、以下の更新処理を実行して背景モデルを更新して背景モデル画像を更新する。まず、背景モデル作成部１２は、式（５）の移動平均を用いて各画素の輝度成分及び色成分の背景モデルの分布の平均μ及び分散σ^２を画素毎に更新し、更新された輝度成分及び色成分の平均μから輝度背景画像データ及び色背景画像データを算出し、更新された輝度成分及び色成分の分散σ^２から輝度成分及び色成分の標準偏差σを算出し、輝度成分及び色成分の標準偏差σから各閾値を算出し、更新した背景モデル画像及び閾値を記憶する。

次に、背景モデル作成部１２は、ラベリング部１７により同じラベルを割り当てられた領域内の各画素について、連続するフレーム間の画素の差（輝度成分の差及び色成分の差）を所定フレームＴＨ_ｂｇ間の期間だけ積算した値が所定値以下になった場合、当該画素が静止していると判断し、当該画素を含むラベリングされた領域内のすべての画素の背景モデル（輝度背景画像データ及びその標準偏差、色背景画像データ及びその標準偏差）を破棄する。その後、背景モデル作成部１２は、ビデオカメラ１１により撮影された処理対象画像を所定フレーム分だけ画像取得部１３から受け取って蓄積し、ステップＳ１２と同様の処理により新たな背景モデルを決定して新たな背景モデル画像等を作成し、ラベリングされた領域内のすべての画素に対する背景モデル画像等を更新する。一方、積算した値が所定値以下になっていない場合は、背景モデル作成部１２は、背景モデル画像等を更新することなく、ステップＳ１２の処理を終了する。

その後、ステップＳ１３に戻って、更新された背景モデル画像及び閾値を用いて、次の処理対象画像に対して上記の処理が繰り返される。この結果、照明条件による緩やかな変化と、背景の幾何的位置の移動による急激な変化（背景における急激な変化及び恒久的な変化）とに対応して背景モデル画像等を更新することができ、背景及び前景を含む動画像から前景領域を高精度に且つ高速に抽出することができるロバストな処理を実現することができる。

次に、上記の前景領域抽出処理を実際に実行した結果について詳細に説明する。ビデオカメラ１１〜１ｎとしてＩＥＥＥ−１３９４カメラ又は通常のカムコーダーを用い、撮影した室内／室外のシーンを含む種々の映像に対して、通常のパーソナルコンピュータを用いて上記の前景領域抽出処理を実行した。ＩＥＥＥ−１３９４カメラは、１０２４×７６８画素のＲＧＢ映像を取得し、通常のカムコーダーは、７２０×４８０画素のインタレースデジタル映像を取得した。ここで、使用したパラメータは、実験的に選択され、背景モデルの更新処理の静止対象物に対してＴＨ_ｂｇ＝１００、シルエット抽出処理の最大ギャップ幅に対してＭ＝１２を用いた。なお、背景モデルの更新処理の効果を短時間で示すために、ＴＨ_ｂｇを非常に短くしたが、実際の応用ではもっと長くするべきである。

図１４は、本実施の形態による種々の撮影シーンの前景抽出結果を示す図であり、左側の画像は、撮影された映像を示し、右側の画像は、抽出された前景を示す。図１５は、本実施の形態の前景抽出結果として区分エラーの一例を示す図である。図１５では、７つの異なるシーン（全部で９８画像）から１４フレームを選択し、手動区分によるグランド・トルース区分マスクを作成し、単一の閾値を用いたガウス分布に基づくアルゴリズム及びＫＤＥ（カーネル密度推定）に基づくアルゴリズムの区分エラーと本実施の形態の区分エラーとを比較している。この区分エラーは、式（９）から計算される。

図１５において、ＦＰエラーは間違った肯定的なエラーを意味し、このエラーでは前景領域が間違って背景領域に分類され、一方、ＦＮエラーは間違った否定的なエラーを意味し、このエラーでは背景が前景に間違って区分される。図１５から、本実施の形態による平均エラーレートは、ほとんどのシーンにおいて、従来の方法である単一の閾値を用いたガウス分布に基づくアルゴリズム及びＫＤＥに基づくアルゴリズムより低く、高精度に前景領域を抽出することができることがわかった。

また、全ての結果において、対象物の早い動きによるボケ及び対象物の境界の周りのエラーのために、ＦＮエラーがＦＰエラーよりずっと大きな値となった。一般に、ＦＰエラーは、ＦＮエラーより人間の目にとって不快であり、多くの視覚システムにとって受け入れがたいが、本実施の形態では、ＦＰエラーがＦＮエラーよりずっと小さいため、良好な抽出結果を実現することができた。

また、上記の前景領域抽出処理のランタイム分析を行った結果、背景差分処理（ステップＳ１３〜Ｓ１５）は１５ｍｓｅｃ、影除去処理（ステップＳ１６）は４６ｍｓｅｃ、ラベリング処理（ステップＳ１７）は１６ｍｓｅｃ、輪郭抽出処理（ステップＳ１８〜Ｓ２０）は２５０ｍｓｅｃ、背景モデル更新処理（ステップＳ２１）は１５ｍｓｅｃであり、合計は３４２ｍｓｅｃであり、これらの時間は、一人の人間が撮影シーン内に位置しているときの平均処理時間である。また、画像の解像度は、１０２４×７６８であり、画像の解像度を考慮すると、処理速度は十分に速い。

図１６は、本実施の形態の背景モデルの更新処理による効果の一例を示す図であり、上側の画像は、撮影された映像を示し、下側の画像は、抽出された前景を示す。図１６に示す例では、背景モデルの更新による効果を評価するために、照明条件が短時間で変化する人工的な環境を作成し、人間が背景の剛体物を異なる位置に移動した。この場合、人間に付随する剛体物は、前景の対象物となるが、人間から分離されると背景として区分することができた。

図１７は、図１６に示す撮影シーンにおけるエラーレートの時間的な変化を示す図である。図１７に示す例では、１２００フレーム内の３フレーム毎にグランド・トルース前景マスクを手動で作成し、各動作におけるエラーレートをプロットしている。なお、実際の対象物が撮影シーン内にないときには背景の変化によってエラーレートが異なるため、図１６の前景のサイズではなく、画像全体のサイズに対するエラーレートを示している。

図１７から、背景モデルの更新処理により、物体が人間から離れると、エラーレートが一時的に増加するが、再びすぐに低下し、また、部屋の輝度の変化も、ほとんどエラーレートに影響せず、良好な抽出結果を得られたことがわかる。

なお、上記の説明では、抽出される対象物として、人間を例に説明したが、他の動物、他の物体等にも同様に適用することができ、同様の効果を得ることができる。

本発明の一実施の形態による画像処理装置の構成を示すブロック図である。ある映像のいくつかの画素の強度ヒストグラム及び修正尖度を示す図である。図１に示す画像処理装置による前景領域抽出処理を説明するためのフローチャートである。７台のビデオカメラのうちの２台のカメラを用いて生成した背景モデル画像の輝度成分の一例を示す図である。図４に示す背景モデル画像の色成分の一例を示す図である。本実施の形態に使用した処理対象画像の一例を示す図である。図６に示す処理対象画像の差分後の輝度成分を示す図である。図６及び図７に示す画像を用いた分類結果を示す図である。影除去処理後の結果の一例を示す図である。ラベリング処理の結果の一例を示す図である。初期対象物に適用される輪郭抽出処理を説明するための模式図である。輪郭抽出処理の結果の一例を示す図である。内部ホール復元処理の結果の一例を示す図である。本実施の形態による種々の撮影シーンの前景抽出結果を示す図である。本実施の形態の前景抽出結果として区分エラーの一例を示す図である。本実施の形態の背景モデルの更新処理による効果の一例を示す図である。図１６に示す撮影シーンにおけるエラーレートの時間的な変化を示す図である。

符号の説明

１１〜１ｎビデオカメラ
１２背景モデル作成部
１３画像取得部
１４背景差分部
１５領域区分部
１６影除去部
１７ラベリング部
１８輪郭抽出部
１９領域成長部
２０前景領域抽出部

Claims

背景及び前景を含む動画像から前景を構成する対象物の領域である前景領域を抽出する画像処理装置であって、
動画像を取得する取得手段と、
前記取得手段により取得された動画像の各画素の分布の尖度に応じて、一般化ガウス分布に属する分布を有する複数種類の背景モデルのうち一の背景モデルを画素毎に決定し、決定した背景モデルを基に、前景を含まず、背景を含む背景モデル画像を作成する背景モデル作成手段と、
前記取得手段により取得された動画像を処理対象画像とし、前記背景モデル作成手段により作成された背景モデル画像からなる背景画像を前記処理対象画像から差分して差分画像を作成する背景差分手段と、
前記差分画像を基に前記処理対象画像から前記前景領域を抽出する抽出手段とを備えることを特徴とする画像処理装置。
前記背景モデル作成手段は、前記取得手段により取得された動画像の各画素の分布の尖度に応じて、ガウス分布を用いてモデル化されたガウスモデル及びラプラス分布を用いてモデル化されたラプラスモデルのうちの一方を前記背景モデルとして決定することを特徴とする請求項１記載の画像処理装置。
前記背景モデル作成手段は、前記背景モデルの分布を表す平均及び分散を、その移動平均を用いて更新し、更新した平均及び分散を用いて前記背景モデル画像を更新することを特徴とする請求項１又は２記載の画像処理装置。
前記背景モデル作成手段は、所定時間の間、変化のない画素の背景モデルを破棄して新たに背景モデルを作成し、作成した背景モデルを用いて前記背景モデル画像を更新することを特徴とする請求項１〜３のいずれかに記載の画像処理装置。
前記抽出手段は、
前記差分画像の輝度成分を基に、前記処理対象画像を、当該領域が前景でなく背景である信頼性が高い第１の領域と、当該領域が前景でなく背景である信頼性が前記第１の領域より低い第２の領域と、当該領域が背景でなく前景である信頼性が低い第３の領域と、当該領域が背景でなく前景である信頼性が前記第３の領域より高い第４の領域とに区分する領域区分手段と、
前記第３領域の色成分と前記背景モデル画像の色成分との差分に基づいて、前記第３領域から対象物の陰の領域を抽出し、抽出した陰の領域を前記第２の領域に変更することにより、影の領域を除去する影除去手段と、
前記影除去手段により影の領域が除去された第１乃至４の領域を基に、前記処理対象画像から前記前景領域を抽出する前景抽出手段とを含むことを特徴とする請求項１〜４のいずれかに記載の画像処理装置。
前記前景抽出手段は、
前記影除去手段により変更されていない第３の領域と、前記第４の領域とに対して、各領域により表される対象物を特定するためのラベリングを行うラベリング手段と、
前記ラベリング手段によりラベリングされた各領域の輪郭を抽出する輪郭抽出手段と、
前記輪郭抽出手段により輪郭が抽出された領域において、前記第１の領域、前記第２の領域、前記第３の領域、前記第４の領域の順に領域成長法を適用して、各領域を成長させる領域成長手段と、
前記領域成長手段により成長された各領域のうち前記第３及び第４の領域を前記前景領域として抽出する前景領域抽出手段とを含むことを特徴とする請求項５記載の画像処理装置。
前記背景モデル作成手段は、前記ラベリング手段によりラベリングされた各領域において、所定時間の間、変化のない画素を含む領域全体の背景モデルを破棄して当該領域の新たな背景モデルを作成し、作成した背景モデルを用いて前記背景モデル画像を更新することを特徴とする請求項６記載の画像処理装置。
背景及び前景を含む動画像から前景を構成する対象物の領域である前景領域を抽出する画像処理装置であって、
動画像を取得する取得手段と、
背景モデルを画素毎に決定し、決定した背景モデルを基に、前景を含まず、背景を含む背景モデル画像を作成する背景モデル作成手段と、
前記取得手段により取得された動画像を処理対象画像とし、前記背景モデル作成手段により作成された背景モデル画像からなる背景画像を前記処理対象画像から差分して差分画像を作成する背景差分手段と、
前記差分画像を基に前記処理対象画像から前記前景領域を抽出する抽出手段とを備え、
前記背景モデル作成手段は、前記背景モデルの分布を表す平均及び分散を、その移動平均を用いて更新し、更新した平均及び分散を用いて前記背景モデル画像を更新することを特徴とする画像処理装置。
取得手段と、背景モデル作成手段と、背景差分手段と、抽出手段とを備える画像処理装置を用いて、背景及び前景を含む動画像から前景を構成する対象物の領域である前景領域を抽出する画像処理方法であって、
前記取得手段が、動画像を取得する第１のステップと、
前記背景モデル作成手段が、前記取得手段により取得された動画像の各画素の分布の尖度に応じて、一般化ガウス分布に属する分布を有する複数種類の背景モデルのうち一の背景モデルを画素毎に決定し、決定した背景モデルを基に、前景を含まず、背景を含む背景モデル画像を作成する第２のステップと、
前記背景差分手段が、前記取得手段により取得された動画像を処理対象画像とし、前記背景モデル作成手段により作成された背景モデル画像からなる背景画像を前記処理対象画像から差分して差分画像を作成する第３のステップと、
前記抽出手段が、前記差分画像を基に前記処理対象画像から前記前景領域を抽出する第４のステップとを含むことを特徴とする画像処理方法。
背景及び前景を含む動画像から前景を構成する対象物の領域である前景領域を抽出するための画像処理プログラムであって、
動画像を取得する取得手段と、
前記取得手段により取得された動画像の各画素の分布の尖度に応じて、一般化ガウス分布に属する分布を有する複数種類の背景モデルのうち一の背景モデルを画素毎に決定し、決定した背景モデルを基に、前景を含まず、背景を含む背景モデル画像を作成する背景モデル作成手段と、
前記取得手段により取得された動画像を処理対象画像とし、前記背景モデル作成手段により作成された背景モデル画像からなる背景画像を前記処理対象画像から差分して差分画像を作成する背景差分手段と、
前記差分画像を基に前記処理対象画像から前記前景領域を抽出する抽出手段としてコンピュータを機能させることを特徴とする画像処理プログラム。