JP4780564B2

JP4780564B2 - 画像処理装置、画像処理方法及び画像処理プログラム

Info

Publication number: JP4780564B2
Application number: JP2006314485A
Authority: JP
Inventors: ハンソンキム; 竜基坂本; 格北原; 朋二鳥山; 潔小暮
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2006-11-21
Filing date: 2006-11-21
Publication date: 2011-09-28
Anticipated expiration: 2026-11-21
Also published as: JP2008129864A

Description

本発明は、背景及び前景を含む動画像から前景を構成する対象物の領域である前景領域を抽出する画像処理装置、画像処理方法及び画像処理プログラムに関するものである。

動画像から所望する対象物を抽出することは、監視カメラ、遠隔会議、画像編集、人とコンピュータとのインタフェース等の応用を含む画像処理分野の一つの重要な課題である。従来の対象物抽出アルゴリズムは、主要な区分基準に基づいて、以下の二つのアプローチに大別することができる。

第１のアプローチは、基準として、空間的均一性を用いるものであり、形態的フィルタが画像を単純化するために使用され、Ｗａｔｅｒｓｈｅｄアルゴリズムが領域境界決定に適用される。このアルゴリズムによる抽出結果は、Ｗａｔｅｒｓｈｅｄアルゴリズムを用いているため、対象物の境界を他の方法より正確に追跡することができる。

第２のアプローチは、動画像における変化の検出を利用するものである。このアプローチに基づくいくつかのアルゴリズムでは、フレーム差分が使用され、ある期間の複数の画像から先行して取得された静的な背景画像を現在の画像から減算する背景差分が、最も一般的に使用される。このアルゴリズムは非常に高速に動作し、静的な背景から意味のある対象物の領域を抽出することができるので、多くの視覚システムに使用されている。

例えば、非特許文献１には、オリジナルな背景の領域、影のある背景及び影の領域、ハイライトされた背景の領域、前景の動いている対象物の領域の４つの領域に画像を区分して対象物を抽出する頑強な背景差分及び影抽出方法が開示されている。
（例えば、非特許文献１参照）。
ティホープラサート（ＴＨｏｒｐｒａｓｅｒｔ）他２名、「頑強な背景差分及び影抽出」（ＡＲｏｂｕｓｔＢａｃｋｇｒｏｕｎｄＳｕｂｔｒａｃｔｉｏｎａｎｄＳｈａｄｏｗＤｅｔｅｃｔｉｏｎ）、Ｐｒｏｃ．ＡＣＣＶ、２０００年

しかしながら、上記の従来の背景差分及び影抽出方法では、予め固定された４つの領域に画像を区分しているため、背景領域における対象物の陰及び照明のハイライトにより間違った領域を前景領域として抽出する場合があり、前景領域を正確に抽出することができない。

本発明の目的は、背景及び前景を含む動画像から前景領域を高精度に且つ高速に抽出することができる画像処理装置、画像処理方法及び画像処理プログラムを提供することである。

本発明に係る画像処理装置は、背景及び前景を含む動画像から前景を構成する対象物の領域である前景領域を抽出する画像処理装置であって、処理対象画像となる動画像を取得する取得手段と、前記取得手段により取得された処理対象画像から、前景を含まず、背景を含む背景モデル画像の輝度成分からなる輝度背景画像を差分して差分画像を作成する背景差分手段と、前記差分画像の輝度成分を基に、前記処理対象画像を、当該領域が前景でなく背景である信頼性が高い第１の領域と、当該領域が前景でなく背景である信頼性が前記第１の領域より低い第２の領域と、当該領域が背景でなく前景である信頼性が低い第３の領域と、当該領域が背景でなく前景である信頼性が前記第３の領域より高い第４の領域とに区分する領域区分手段と、前記第３領域の色成分と前記背景モデル画像の色成分との差分に基づいて、前記第３領域から対象物の陰の領域を抽出し、抽出した陰の領域を前記第２の領域に変更することにより、影の領域を除去する影除去手段と、前記影除去手段により影の領域が除去された第１乃至４の領域を基に、前記処理対象画像から前記前景領域を抽出する抽出手段とを備えるものである。

本発明に係る画像処理装置において、処理対象画像となる動画像が取得され、取得された処理対象画像から背景モデル画像の輝度成分が差分されて差分画像が作成され、この差分画像の輝度成分を基に、当該領域が前景でなく背景である信頼性が高い第１の領域と、当該領域が前景でなく背景である信頼性が前記第１の領域より低い第２の領域と、当該領域が背景でなく前景である信頼性が低い第３の領域と、当該領域が背景でなく前景である信頼性が前記第３の領域より高い第４の領域とに区分され、区分された第３領域の色成分と背景モデル画像の色成分との差に基づいて、第３領域から対象物の陰の領域が抽出され、抽出された陰の領域が第２の領域に変更されて影の領域が除去される。ここで、色成分は、輝度成分と異なり、対象物の陰及び照明のハイライトの影響を受けにくいため、対象物の陰の領域をに正確に検出し、当該領域を第２の領域に変更して前景領域から確実に排除することができる。このように、影の領域が前景領域から確実に除去された第１乃至４の領域を基に、処理対象画像から前景領域を抽出しているので、背景及び前景を含む動画像から前景領域を高精度に抽出することができるとともに、処理が高速な差分処理を基本にして上記の各処理を構成しているので、動画像から前景領域を高速に抽出することができる。

前記抽出手段は、前記影除去手段により変更されていない第３の領域と、前記４の領域とに対して、各領域により表される対象物を特定するためのラベリングを行うラベリング手段と、前記ラベリング手段によりラベリングされた各領域の輪郭を抽出する輪郭抽出手段と、前記輪郭抽出手段により輪郭が抽出された領域において、前記１の領域、前記第２の領域、前記第３の領域、前記第４の領域の順に領域成長法を適用して、各領域を成長させる領域成長手段と、前記領域成長手段により成長された各領域のうち前記第３及び第４の領域を前記前景領域として抽出する前景抽出手段とを含むことが好ましい。

この場合、変更されていない第３の領域と４の領域とに対して、各領域により表される対象物を特定するためのラベリングが行われ、ラベリングされた各領域の輪郭が抽出され、輪郭が抽出された領域において、１の領域、第２の領域、第３の領域、第４の領域の順に領域成長法を適用して各領域が成長されるので、前景領域である第３及び４の領域の内部に本来あるべきホール、例えば、二人の人間が手を繋ぐことにより形成されるホールを背景領域として確実に復元することができる。このように、本来あるべきホールが確実に復元された後の第３及び第４の領域を前景領域として抽出しているので、前景に位置する対象物の形態を高精度に抽出することができる。

前記ラベリング手段は、前記影除去手段により変更されていない第３の領域と、前記４の領域との中から所定の大きさより小さい領域を除去し、残りの領域に対してラベリングを行うことが好ましい。

この場合、変更されていない第３の領域と４の領域との中から所定の大きさより小さい領域を除去し、残りの領域に対してラベリングを行っているので、前景領域から小さなノイズ領域を確実に排除することができる。

前記領域区分手段は、前記背景モデル画像の輝度成分の標準偏差を基に、前記１乃至前記第４の領域を区分することが好ましい。

ここで、背景差分の分布は、ガウス分布ではなく、ゼロで非常にシャープなピークを有する零平均ラプラシアン分布であるため、背景モデル画像の輝度成分の標準偏差を基準に１乃至前記第４の領域を区分することにより、各領域を高精度に区分することができる。

前記影除去手段は、前記背景モデル画像の色成分の標準偏差を基に、前記第３領域から対象物の陰の領域を抽出することが好ましい。

ここで、背景差分の分布は、ガウス分布ではなく、ゼロで非常にシャープなピークを有する零平均ラプラシアン分布であるため、背景モデル画像の色成分の標準偏差を基準に第３領域から対象物の陰の領域を抽出することにより、対象物の陰を前景から確実に除去することができる。

本発明に係る画像処理方法は、取得手段と、背景差分手段と、領域区分手段と、影除去手段と、抽出手段とを備える画像処理装置を用いて、背景及び前景を含む動画像から前景を構成する対象物の領域である前景領域を抽出する画像処理方法であって、前記取得手段が、処理対象画像となる動画像を取得する第１のステップと、前記背景差分手段が、前記第１のステップにおいて取得された処理対象画像から、前景を含まず、背景を含む背景モデル画像の輝度成分からなる輝度背景画像を差分して差分画像を作成する第２のステップと、前記領域区分手段が、前記差分画像の輝度成分を基に、前記処理対象画像を、当該領域が前景でなく背景である信頼性が高い第１の領域と、当該領域が前景でなく背景である信頼性が前記第１の領域より低い第２の領域と、当該領域が背景でなく前景である信頼性が低い第３の領域と、当該領域が背景でなく前景である信頼性が前記第３の領域より高い第４の領域とに区分する第３のステップと、前記影除去手段が、前記第３領域の色成分と、前記背景モデル画像の色成分との差分に基づいて、前記第３領域から対象物の陰の領域を抽出し、抽出した陰の領域を前記第２の領域に変更することにより、影の領域を除去する第４のステップと、前記抽出手段が、前記第４のステップにおいて影の領域が除去された第１乃至４の領域を基に、前記処理対象画像から前記前景領域を抽出する第５のステップとを含むものである。

本発明に係る画像処理プログラムは、背景及び前景を含む動画像から前景を構成する対象物の領域である前景領域を抽出するための画像処理プログラムであって、処理対象画像となる動画像を取得する取得手段と、前記取得手段により取得された処理対象画像から、前景を含まず、背景を含む背景モデル画像の輝度成分からなる輝度背景画像を差分して差分画像を作成する背景差分手段と、前記差分画像の輝度成分を基に、前記処理対象画像を、当該領域が前景でなく背景である信頼性が高い第１の領域と、当該領域が前景でなく背景である信頼性が前記第１の領域より低い第２の領域と、当該領域が背景でなく前景である信頼性が低い第３の領域と、当該領域が背景でなく前景である信頼性が前記第３の領域より高い第４の領域とに区分する領域区分手段と、前記第３領域の色成分と前記背景モデル画像の色成分との差分に基づいて、前記第３領域から対象物の陰の領域を抽出し、抽出した陰の領域を前記第２の領域に変更することにより、影の領域を除去する影除去手段と、前記影除去手段により影の領域が除去された第１乃至４の領域を基に、前記処理対象画像から前記前景領域を抽出する抽出手段としてコンピュータを機能させるものである。

本発明によれば、差分画像の輝度成分を基に処理対象画像を信頼性に応じた２種類の背景領域（第１及び第２の領域）及び２種類の前景領域（第３及び第４の領域）に正確に区分し、この第３領域の色成分と背景モデル画像の色成分との差に基づいて、第３領域から対象物の陰の領域が抽出されて除去され、影の領域が確実に除去された第１乃至４の領域を基に処理対象画像から前景領域を抽出しているので、背景及び前景を含む動画像から前景領域を高精度且つ高速に抽出することができる。

以下、本発明の一実施の形態による画像処理装置について図面を参照しながら説明する。図１は、本発明の一実施の形態による画像処理装置の構成を示すブロック図である。

図１に示す画像処理装置は、複数のビデオカメラ１１〜１ｎ（ｎは任意の整数）、背景モデル記憶部１２、画像取得部１３、背景差分部１４、領域区分部１５、影除去部１６、ラベリング部１７、輪郭抽出部１８、領域成長部１９、及び前景領域抽出部２０を備える。

ｎ台（ｎは１以上の整数）のビデオカメラ１１〜１ｎは、撮影空間の所定箇所に固定され、前景となる対象物、例えば、人物をその背後に位置する背景、例えば、室内の壁、調度品等を含めて撮影し、撮影したカラー動画像を処理対象画像として画像取得部１３へ出力する。例えば、ビデオカメラ１１〜１ｎとして、７台のビデオカメラを用い、１０２４×７６８画素のＲＧＢストリームが３０フレーム／秒で撮影される。

背景モデル記憶部１２、画像取得部１３、背景差分部１４、領域区分部１５、影除去部１６、ラベリング部１７、輪郭抽出部１８、領域成長部１９、及び前景領域抽出部２０は、入力装置、表示装置、ＲＯＭ（リードオンリメモリ）、ＣＰＵ（中央演算処理装置）、ＲＡＭ（ランダムアクセスメモリ）、画像Ｉ／Ｆ（インターフェース）部及び外部記憶装置等を備えるコンピュータを用いて、ＲＯＭ又は外部記憶装置に予め記憶されている、後述する各処理を行うための画像処理プログラムをＣＰＵ等で実行することにより実現される。なお、背景モデル記憶部１２、画像取得部１３、背景差分部１４、領域区分部１５、影除去部１６、ラベリング部１７、輪郭抽出部１８、領域成長部１９、及び前景領域抽出部２０の構成例は、本例に特に限定されず、各ブロックを専用のハードウエアから構成したり、一部のブロック又はブロック内の一部の処理のみを専用のハードウエアで構成したりする等の種々の変更が可能である。

背景モデル記憶部１２は、前景を含まず、背景を含む背景モデル画像の、輝度成分からなる輝度背景画像データ及び色成分からなる色背景画像データと、領域区分及び陰除去の基準となる複数の閾値とを予め記憶している。すなわち、背景モデル画像は、２つの識別可能な部分、輝度モデル画像と色モデル画像とにモデル化され、輝度背景画像データが輝度モデル画像となり、色背景画像データが色モデル画像となる。

ビデオカメラ１１〜１ｎから入力されるビデオストリームは、ＲＧＢ成分の３チャンネルを有しているが、それらはノイズ及び照明条件に対して敏感であるため、本実施の形態では、初期的な対象物すなわち前景の区分にカラー画像の輝度成分を使用している。背景モデル画像の輝度すなわち輝度背景画像データは、下記式で計算される。
Ｙ＝０．２９９×Ｒ＋０．５８７×Ｇ＋０．１１４×Ｂ …（１）

しかしながら、輝度成分は、背景領域の影及び前景領域の照明の反射により急激に変化する。本実施の形態では、間違った前景の区分を防止するために、画像の色成分を用いた色背景画像データを用いる。背景モデル画像の色成分Ｈすなわち色背景画像データは、下記のようにしてＨＳＩモデルを基に算出される。なお、本発明に使用可能なモデルは、この例に特に限定されず、ＨＳＶモデルを用いても差し支えない。

ここで、ノイズ、背景の素材の特性及び照明条件の変化等により、静的なシーンにおいてさえ、フレーム間の変化が発生する。図２は、連続した１５０フレームから計算された各画素の平均からの偏差の分布（ノイズ分布）を示す図であり、（ａ）は輝度成分を示し、（ｂ）は色成分を示している。

ビデオカメラ１１〜１ｎが所定期間同一シーンを観測し続けている場合、ノイズは、キャンセル又は抑圧され、零平均ラプラシアン分布として表現することができる。したがって、本実施の形態では、ビデオカメラ１１〜１ｎにより連続的に、例えば、１５０フレーム間撮影された背景モデル画像の平均及び標準偏差を算出し、算出した各画素のＲＧＢ成分の平均値から、式（１）及び式（２）を用いて、輝度背景画像データ及び色背景画像データを予め計算し、これらの輝度背景画像データ及び色背景画像データと、輝度背景画像データの標準偏差に所定の重み係数を乗算した３つの閾値及び色背景画像データの標準偏差に所定の重み係数を乗算した１つの閾値とが背景モデル記憶部１２に予め記憶されている。

画像取得部１３は、ビデオカメラ１１〜１ｎから処理対象画像となる動画像を取得して背景差分部１４へ出力する。背景差分部１４は、背景モデル記憶部１２から輝度背景画像データを読み出し、処理対象画像データから輝度背景画像データを差分して差分画像データを作成して領域区分部１５へ出力する。

領域区分部１５は、輝度背景画像データの標準偏差に所定の重み係数を乗算した３つの閾値を背景モデル記憶部１２から読み出し、差分画像データの輝度成分と３つの閾値とを比較する。領域区分部１５は、比較結果に応じて、処理対象画像を、当該領域が前景でなく背景である信頼性が高い第１の領域と、当該領域が前景でなく背景である信頼性が第１の領域より低い第２の領域と、当該領域が背景でなく前景である信頼性が低い第３の領域と、当該領域が背景でなく前景である信頼性が前記第３の領域より高い第４の領域とに区分し、影除去部１６へ出力する。

影除去部１６は、背景モデル記憶部１２から色背景画像データ及び色背景画像データの標準偏差に所定の重み係数を乗算した１つの閾値を読み出し、第３領域の色成分と背景モデル画像の色成分すなわち色背景画像データとの差分と閾値とを比較する。影除去部１６は、比較結果に応じて、第３領域から対象物の陰の領域を抽出し、抽出した陰の領域を第２の領域に変更することにより、影の領域を除去してラベリング部１７へ出力する。

ラベリング部１７は、影除去部１６により第２の領域に変更されていない第３の領域と、４の領域とに対して、各領域により表される対象物を特定するためのラベリングを行い、輪郭抽出部１８へ出力する。

輪郭抽出部１８は、ラベリングされた各領域の輪郭を抽出して領域成長部１９へ出力する。領域成長部１９は、輪郭が抽出された領域において、１の領域、第２の領域、第３の領域、第４の領域の順に領域成長法を適用して各領域を成長させ、対象物の輪郭の内側に実際に存在するホールを復元し、前景領域抽出部２０へ出力する。

前景領域抽出部２０は、実際に存在するホールが復元された第３及び第４の領域を前景領域として抽出し、その他の領域をマスクする前景マスクを生成して動画像をマスクすることにより、動画像から前景領域すなわち対象物を抽出して表示する。

上記の構成により、本実施の形態では、複数閾値を用いた背景差分により、処理対象画像がそれらの信頼性に基づいて４つの領域に区分され、対象物の影の領域が色成分を用いて除去される。また、各対象物が自身の識別番号でラベリングされ、シルエット抽出技術により前景領域の境界がスムージング処理されて前景領域内の不要なホールが除去され、、領域成長技術により前景領域内に実際に存在するホールが復元される。このように、不要なホール及び影が除去されるとともに、実際に存在するホールが復元された前景領域を用いて前景マスクが生成され、動画像から対象物が確実に且つ正確に、さらに高速に抽出される。

本実施の形態では、画像取得部１３が取得手段の一例に相当し、背景差分部１４が背景差分手段の一例に相当し、領域区分部１５が領域区分手段の一例に相当し、影除去部１６が影除去手段の一例に相当し、ラベリング部１７、輪郭抽出部１８、領域成長部１９及び前景領域抽出部２０が抽出手段の一例に相当する。また、ラベリング部１７がラベリング手段の一例に相当し、輪郭抽出部１８が輪郭抽出手段の一例に相当し、領域成長部１９が領域成長手段の一例に相当し、前景領域抽出部２０が前景抽出手段の一例に相当する。

次に、上記のように構成された画像処理装置により、背景及び前景を含む動画像から前景を構成する対象物の領域である前景領域を抽出する画像処理である前景領域抽出処理について説明する。図３は、図１に示す画像処理装置による前景領域抽出処理を説明するためのフローチャートである。

まず、ステップＳ１１において、ビデオカメラ１１〜１ｎは、前景となる人物をその背後に位置する背景を含めて撮影し、画像取得部１３は、撮影された動画像を処理対象画像として取得する。

次に、ステップＳ１２において、背景差分部１４は、背景モデル記憶部１２から輝度背景画像データを読み出し、画像取得部１３から出力される処理対象画像データから輝度背景画像データを差分して差分画像データを作成して領域区分部１５へ出力する。

次に、ステップＳ１３において、下記の式（３）に従い、領域区分部１５は、輝度背景画像データの標準偏差に所定の重み係数を乗算した３つの閾値を背景モデル記憶部１２から読み出し、差分画像データの輝度成分と３つの閾値とを比較して、処理対象画像を、（ａ）当該領域が前景でなく背景である信頼性が高い第１の領域（信頼できる背景）と、（ｂ）当該領域が前景でなく背景である信頼性が第１の領域より低い第２の領域（疑わしい背景）と、（ｃ）当該領域が背景でなく前景である信頼性が低い第３の領域（疑わしい前景）と、（ｄ）当該領域が背景でなく前景である信頼性が前記第３の領域より高い第４の領域（信頼できる前景）とに区分し、影除去部１６へ出力する。なお、下式において、Ｌ_Ｉ及びＬ_Ｂは、現在のフレーム及び背景モデル画像の輝度成分を示し、σは、背景モデル画像の輝度成分の標準偏差を示し、Ｋ_１〜Ｋ_３は、重み係数を示す。

ここで、上記の背景差分処理及び領域区分処理について詳細に説明する。図４は、７台のビデオカメラのうちの２台のカメラを用いて生成した背景モデル画像の輝度成分の一例を示す図であり、図５は、図４に示す背景モデル画像の色成分の一例を示す図であり、図６は、本実施の形態に使用した処理対象画像の一例を示す図であり、図７は、図６に示す処理対象画像の差分後の輝度成分を示す図である。なお、図５において、０〜３６０°範囲で記述される色成分は、０〜２５５のグレースケール値にマッピングされている。

上記の各画像を用いて、現在のフレームの輝度成分から背景モデル画像を減算することにより、初期の背景差分が実行される。このとき、背景と同様の明るさを有する影及び前景領域のような多くの曖昧な領域を、固定されたシンプルな閾値を用いて区分するために、上記の式（３）に示すように、それらの信頼性に基づく複数の閾値を用いて、処理対象領域が４つのカテゴリーに分類される。

背景差分の分布がガウス分布であると仮定すると、所望の検出比を達成するように、背景差分の標準偏差によって閾値を決定することができるが、図２に示したように、背景差分の分布は、ガウス分布ではなく、ゼロで非常にシャープなピークを有する零平均ラプラシアン分布である。このため、本実施の形態では、背景モデル画像の標準偏差を用いて閾値を決定する。画像の各画素の偏差は、背景を構成する素材の特性及び照明条件に基づいて異なるため、背景を長時間撮影することにより、各画素の標準偏差を閾値として使用することができる。

図８は、図６及び図７に示す画像を用いた分類結果を示す図である。図８に示す例では、式（３）に用いられる重み係数Ｋ_１〜Ｋ_３として、５、１２、６０を用いている。図８に示す黒、濃い灰色、薄い灰色、白の各領域が、第１の領域（信頼できる背景）、第２の領域（疑わしい背景）、第３の領域（疑わしい前景）、第４の領域（信頼できる前景）を示している。

次に、ステップＳ１４において、下記の式（４）に従い、影除去部１６は、背景モデル記憶部１２から色背景画像データ及び色背景画像データの標準偏差に所定の重み係数を乗算した１つの閾値を読み出し、第３領域の色成分と色背景画像データとの差分と閾値とを比較して第３領域から対象物の陰の領域を抽出し、抽出した陰の領域を第２の領域に変更することにより、影の領域を除去してラベリング部１７へ出力する。なお、下式において、Ｈ_Ｉ及びＨ_Ｂは、現在のフレーム及び背景モデル画像の色成分を示し、σ_Ｈは、背景モデル画像の色成分の標準偏差を示す。

ここで、上記の影除去処理について詳細に説明する。図８に示す結果から、対象物の影が背景の明るさを変化させ、フロア上の背景の多くの部分が、第３の領域（疑わしい前景）に組み込まれていることがわかる。このため、本実施の形態では、影が背景の色特性を変化させることなく、輝度のみを変化させることに着目し、式（４）に示すように、色成分を用いて、第３の領域（疑わしい前景）の影を第２の領域（疑わしい背景）にマージし、第３の領域から影を除去する。図９は、影除去処理後の結果の一例を示す図である。

次に、ステップＳ１５において、ラベリング部１７は、影除去部１６による影除去処理後の第３の領域と、４の領域とに対して、各領域により表される対象物を特定するためのラベリングを行い、輪郭抽出部１８へ出力する。

ここで、上記のラベリング処理について詳細に説明する。このラベリング処理においては、式（３）におけるすべての前景領域である第３の領域と４の領域が、自身の識別番号でラベリングされる。このとき、４近傍規則を用いて連結されたすべての前景画素が、領域成長技術を用いて同じラベルを割り付けられる。しかしながら、初期対象物領域である第３の領域と４の領域には、小さなノイズ領域が存在する場合がある。

このため、従来のノイズ領域除去方法では、形態的操作を用いて小さいノイズ領域をフィルタリングしていたが、本実施の形態では、閉鎖及び開口処理による初期マスクを改良している。すなわち、ラベリング部１７は、各領域の大きさに基づく降順ですべてのラベリングされた領域をソート及び再ラベリングし、再ラベリング処理において、所定の閾値ＴＨ_ＲＧより小さい領域を除去している。図１０は、ラベリング処理の結果の一例を示す図である。図１０に示すように、右側の画像では、二人の人間がシーン内に存在しているが、手を繋いでいるので、一つの対象物としてラベリングされている。

次に、ステップＳ１６において、輪郭抽出部１８は、ラベリングされた各前景領域の輪郭を抽出して領域成長部１９へ出力する。ここで、図１０に示す状態では、背景として間違って区分されたり、対象物の内部に間違ってラベリングされた多くの間違った領域が存在する。このため、本実施の形態では、前景領域の境界をスムージングし、領域内のホールを除去するために、カーマープロファイル抽出技術を改良したシルエット抽出技術を用いて、各領域の輪郭を抽出している。

図１１は、初期対象物に適用される輪郭抽出処理を説明するための模式図である。図１１の（ａ）〜（ｄ）に示すように、輪郭抽出部１８は、重み付けされた一画素の厚いドレープＤ１〜Ｄ４を初期対象物ＲＡに対して順次一方側から反対側へ移動させ、４つのドレープＤ１〜Ｄ４によって包まれた領域ＳＩが最終的に前景領域を示すこととなる。なお、ドレープＤ１〜Ｄ４の隣接画素は、その幅が所定の閾値Ｍより小さい浸潤ギャップのない対象物を覆う弾性バネによって連結されている。

次に、ステップＳ１７において、領域成長部１９は、輪郭が抽出された領域において、１の領域、第２の領域、第３の領域、第４の領域の順に領域成長法を適用して、各領域を成長させ、対象物の輪郭の内側に実際に存在するホールを復元して前景領域抽出部２０へ出力する。

ここで、上記のシルエット抽出技術では、複数の対象物が撮影シーン中に存在するときに、対象物の内部に実際に存在するホールをも覆う可能性があり、対象物間の領域に重大なエラーを引き起こすという欠点を有している。このため、本実施の形態では、第１の問題を避けるために、各ラベリングされた領域に対してシルエット抽出技術を独立に適用し、第２の問題に対して、閾値ＴＨ_ＲＧより大きい領域に対して、シルエット内の信頼性が高い背景領域から領域成長技術を順次実行している。

図１２は、輪郭抽出処理の結果の一例を示す図であり、図１３は、内部ホール復元処理の結果の一例を示す図である。図１２の（ａ）及び図１３の（ａ）に示すように、一人の人間が前景に位置する場合、輪郭抽出処理の結果と内部ホール復元処理の結果とで大きな差はないが、図１２の（ｂ）及び図１３の（ｂ）に示すように、二人の人間が手を繋いだ状態で前景に位置する場合、図１２の（ｂ）において喪失していた、二人の人間によって作られたホールが、図１３の（ｂ）では、領域成長処理によって第４の領域（信頼できる前景）から復元されていることがわかる。

最後に、ステップＳ１８において、前景領域抽出部２０は、実際に存在するホールが復元された第３及び第４の領域を前景領域として抽出し、その他の領域をマスクする前景マスクを生成して動画像をマスクすることにより、動画像から対象物を抽出して表示する。その後、ステップＳ１１に戻って、次の処理対象画像に対して上記の処理が繰り返される。

次に、上記の前景領域抽出処理を実際に実行した結果について詳細に説明する。ビデオカメラ１１〜１ｎは、７台の同期型ＩＥＥＥ−１３９４カメラ（カメラ１〜７）から構成され、撮影空間の中心方向に向けられ、ほぼ同一シーンを撮影した。各カメラは、１０２４×７６８画素のＲＧＢストリームを３０フレーム／秒で撮影し、通常のパーソナルコンピュータを用いて上記の前景領域抽出処理を実行した。このとき、背景モデル画像のフレーム数として、Ｎ＝１５０、領域区分に使用した標準偏差σの各重み係数として、Ｋ_１＝５、Ｋ_２＝１２、Ｋ_３＝６０、最小有効領域サイズ（画素）として、ＴＨ_ＲＧ＝３００、輪郭抽出処理に用いる最大ギャップとして、Ｍ＝１２を用いた。

図１４は、各カメラにより撮影された処理対象画像に対する前景領域抽出処理の抽出結果を示す図であり、図１５〜図２１は、カメラ１〜７の撮影画像及び区分された前景を示す図である。

本例では、照明器具及び背景の操作のような特別な条件なしに、典型的な室内環境において、映像が撮影され、図１５〜図２１の（ａ）及び（ｃ）の各画像は、７台のカメラ１〜７により撮影された同一フレームの画像を示しており、図１５〜図２１の（ｂ）及び（ｄ）の画像の外側は、詳細な境界を示すためにカットされている。

図１５〜図２１から、本例では、対象物である人物が素早く動いたにもかかわらず、また、すべてのカメラが異なる方向に向いて異なる背景を撮影しているにもかかわらず、前景を非常に高精度に区分することができ、本画像処理装置が種々の条件下で十分に機能することがわかった。

また、図１４に示す評価結果は、手動区分によって生成されたグランド・トルース区分マスクによる区分結果と、本実施の形態による区分結果とを比較し、各マスクにおけるエラー画素の割合を計算したものであり、ＦＢは、背景領域として間違って分類された前景領域を意味し、ＦＦは、前景領域として間違って分類された背景領域を意味する。

一般に、ＦＦのエラーは、ＦＢのエラーより人間の目にとって不快であり、多くの視覚システムにとって受け入れがたい。しかしながら、図１４に示す結果では、素早い動き及び対象物の境界からのボケのために、ＦＦのエラーがＦＢのエラーより大きくなっているが、前景の対象物の速度及び大きさに確実に依存するため、すべてのシーンにおいる平均エラーレートは、１．２５％より低かった。

さらに、上記の前景領域抽出処理のランタイム分析を行った結果、背景差分処理（ステップＳ１１〜Ｓ１３）は１５ｍｓｅｃ、影除去処理（ステップＳ１４）は４７ｍｓｅｃ、ラベリング処理（ステップＳ１５）は１２５ｍｓｅｃ、輪郭抽出処理（ステップＳ１６）は２３５ｍｓｅｃ、ホール復元処理（ステップＳ１７、Ｓ１８）は１２５ｍｓｅｃであり、合計は５４７ｍｓｅｃであった。これらの時間は、一人の人間が撮影空間を動いたときの平均処理時間であり、本例の画像解像度では、リアルタイムに処理することはできなかったが、処理の複雑さは画像サイズの自乗に比例するため、ＶＧＡ又はＱＶＧＡのような低解像度で撮影した画像の場合、リアルタイムに動作させることができることがわかった。また、ＧＰＵのようなハードウエアアクセラレータを用いたり、さらに処理を最適化することによって、ＸＧＡ動画に対してもリアルタイムに動作させることができることがわかった。

上記のように、本実施の形態では、差分画像の輝度成分を背景モデル画像の輝度成分の標準偏差に基づく複数の閾値と比較して処理対象画像を信頼性に応じた２種類の背景領域（第１及び第２の領域）及び２種類の前景領域（第３及び第４の領域）に正確に区分し、この第３領域の色成分と背景モデル画像の色成分との差を背景モデル画像の色成分の標準偏差に基づく閾値と比較して第３領域から対象物の陰の領域を抽出して除去し、影の領域が確実に除去された第３及び第４の領域を前景領域として抽出しているので、背景及び前景を含むカラー動画像から前景領域を高精度且つ高速に抽出することができる。

なお、上記の説明では、抽出される対象物として、人間を例に説明したが、他の動物、他の物体等にも同様に適用することができ、同様の効果を得ることができる。

本発明の一実施の形態による画像処理装置の構成を示すブロック図である。連続した１５０フレームから計算された各画素の平均からの偏差の分布を示す図である。図１に示す画像処理装置による前景領域抽出処理を説明するためのフローチャートである。７台のビデオカメラのうちの２台のカメラを用いて生成した背景モデル画像の輝度成分の一例を示す図である。図４に示す背景モデル画像の色成分の一例を示す図である。本実施の形態に使用した処理対象画像の一例を示す図である。図６に示す処理対象画像の差分後の輝度成分を示す図である。図６及び図７に示す画像を用いた分類結果を示す図である。影除去処理後の結果の一例を示す図である。ラベリング処理の結果の一例を示す図である。初期対象物に適用される輪郭抽出処理を説明するための模式図である。輪郭抽出処理の結果の一例を示す図である。内部ホール復元処理の結果の一例を示す図である。各カメラにより撮影された処理対象画像に対する前景領域抽出処理の抽出結果を示す図である。カメラ１の撮影画像及び区分された前景を示す図である。カメラ２の撮影画像及び区分された前景を示す図である。カメラ３の撮影画像及び区分された前景を示す図である。カメラ４の撮影画像及び区分された前景を示す図である。カメラ５の撮影画像及び区分された前景を示す図である。カメラ６の撮影画像及び区分された前景を示す図である。カメラ７の撮影画像及び区分された前景を示す図である。

符号の説明

１１〜１ｎビデオカメラ
１２背景モデル記憶部
１３画像取得部
１４背景差分部
１５領域区分部
１６影除去部
１７ラベリング部
１８輪郭抽出部
１９領域成長部
２０前景領域抽出部

Claims

背景及び前景を含む動画像から前景を構成する対象物の領域である前景領域を抽出する画像処理装置であって、
処理対象画像となる動画像を取得する取得手段と、
前記取得手段により取得された処理対象画像から、前景を含まず、背景を含む背景モデル画像の輝度成分からなる輝度背景画像を差分して差分画像を作成する背景差分手段と、
前記差分画像の輝度成分を基に、前記処理対象画像を、当該領域が前景でなく背景である信頼性が高い第１の領域と、当該領域が前景でなく背景である信頼性が前記第１の領域より低い第２の領域と、当該領域が背景でなく前景である信頼性が低い第３の領域と、当該領域が背景でなく前景である信頼性が前記第３の領域より高い第４の領域とに区分する領域区分手段と、
前記第３領域の色成分と前記背景モデル画像の色成分との差分に基づいて、前記第３領域から対象物の陰の領域を抽出し、抽出した陰の領域を前記第２の領域に変更することにより、影の領域を除去する影除去手段と、
前記影除去手段により影の領域が除去された第１乃至４の領域を基に、前記処理対象画像から前記前景領域を抽出する抽出手段とを備えることを特徴とする画像処理装置。
前記抽出手段は、
前記影除去手段により変更されていない第３の領域と、前記４の領域とに対して、各領域により表される対象物を特定するためのラベリングを行うラベリング手段と、
前記ラベリング手段によりラベリングされた各領域の輪郭を抽出する輪郭抽出手段と、
前記輪郭抽出手段により輪郭が抽出された領域において、前記１の領域、前記第２の領域、前記第３の領域、前記第４の領域の順に領域成長法を適用して、各領域を成長させる領域成長手段と、
前記領域成長手段により成長された各領域のうち前記第３及び第４の領域を前記前景領域として抽出する前景抽出手段とを含むことを特徴とする請求項１記載の画像処理装置。
前記ラベリング手段は、前記影除去手段により変更されていない第３の領域と、前記４の領域との中から所定の大きさより小さい領域を除去し、残りの領域に対してラベリングを行うことを特徴とする請求項２記載の画像処理装置。
前記領域区分手段は、前記背景モデル画像の輝度成分の標準偏差を基に、前記１乃至前記第４の領域を区分することを特徴とする請求項１〜３のいずれかに記載の画像処理装置。
前記影除去手段は、前記背景モデル画像の色成分の標準偏差を基に、前記第３領域から対象物の陰の領域を抽出することを特徴とする請求項１〜４のいずれかに記載の画像処理装置。
取得手段と、背景差分手段と、領域区分手段と、影除去手段と、抽出手段とを備える画像処理装置を用いて、背景及び前景を含む動画像から前景を構成する対象物の領域である前景領域を抽出する画像処理方法であって、
前記取得手段が、処理対象画像となる動画像を取得する第１のステップと、
前記背景差分手段が、前記第１のステップにおいて取得された処理対象画像から、前景を含まず、背景を含む背景モデル画像の輝度成分からなる輝度背景画像を差分して差分画像を作成する第２のステップと、
前記領域区分手段が、前記差分画像の輝度成分を基に、前記処理対象画像を、当該領域が前景でなく背景である信頼性が高い第１の領域と、当該領域が前景でなく背景である信頼性が前記第１の領域より低い第２の領域と、当該領域が背景でなく前景である信頼性が低い第３の領域と、当該領域が背景でなく前景である信頼性が前記第３の領域より高い第４の領域とに区分する第３のステップと、
前記影除去手段が、前記第３領域の色成分と、前記背景モデル画像の色成分との差分に基づいて、前記第３領域から対象物の陰の領域を抽出し、抽出した陰の領域を前記第２の領域に変更することにより、影の領域を除去する第４のステップと、
前記抽出手段が、前記第４のステップにおいて影の領域が除去された第１乃至４の領域を基に、前記処理対象画像から前記前景領域を抽出する第５のステップとを含むことを特徴とする画像処理方法。
背景及び前景を含む動画像から前景を構成する対象物の領域である前景領域を抽出するための画像処理プログラムであって、
処理対象画像となる動画像を取得する取得手段と、
前記取得手段により取得された処理対象画像から、前景を含まず、背景を含む背景モデル画像の輝度成分からなる輝度背景画像を差分して差分画像を作成する背景差分手段と、
前記差分画像の輝度成分を基に、前記処理対象画像を、当該領域が前景でなく背景である信頼性が高い第１の領域と、当該領域が前景でなく背景である信頼性が前記第１の領域より低い第２の領域と、当該領域が背景でなく前景である信頼性が低い第３の領域と、当該領域が背景でなく前景である信頼性が前記第３の領域より高い第４の領域とに区分する領域区分手段と、
前記第３領域の色成分と前記背景モデル画像の色成分との差分に基づいて、前記第３領域から対象物の陰の領域を抽出し、抽出した陰の領域を前記第２の領域に変更することにより、影の領域を除去する影除去手段と、
前記影除去手段により影の領域が除去された第１乃至４の領域を基に、前記処理対象画像から前記前景領域を抽出する抽出手段としてコンピュータを機能させることを特徴とする画像処理プログラム。