JP2012085233A

JP2012085233A - 映像処理装置、映像処理方法、及びプログラム

Info

Publication number: JP2012085233A
Application number: JP2010231928A
Authority: JP
Inventors: Kenji Tsukuba; 健史筑波; Masahiro Shioi; 正宏塩井
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2010-10-14
Filing date: 2010-10-14
Publication date: 2012-04-26
Anticipated expiration: 2030-10-14
Also published as: JP5036084B2; WO2012050185A1

Abstract

【課題】対象物の画像を確実に抽出できること。
【解決手段】前景領域補正部１５６は、映像情報が示す映像から前景の画像を示す前景領域情報を抽出する映像処理装置であって、第１の時間における前景領域情報が示す前景画像を、第２の時間における前景領域情報及び映像情報を用いて補正する。
【選択図】図４

Description

本発明は、映像処理装置、映像処理方法、及びプログラムに関する。

近年、デジタルビデオカメラ、デジタルスチルカメラ、携帯電話など撮像機能付き端末が急速に普及している。また、これらのカメラによって撮影された映像に対して、加工や処理を施し、新たな映像を生成する装置がある。例えば、映像中の特定の画像領域を抽出し、抽出した画像領域を部品として映像の加工に利用することや、映像を個々の画像領域毎に抽出し、抽出した映像を元の映像の管理や検索に利用することが知られている。
具体的には、映像中から所望の画像領域を抽出する手法として次の（１）、（２）の手法が知られている。

（１）色情報に基づく前景画像領域の抽出手法
色情報に基づく前景画像領域の抽出手法として、例えば、クロマキー処理、非特許文献１、２、３記載の技術が知られている。
クロマキー処理とは、一定色（例えば、青色）を背景として対象物を撮影し、撮影した映像から一定色の背景部分を除くことによって、所望の対象物（前景領域）を抽出する処理である。この処理により、映像を前景画像領域の映像と背景画像領域の映像に分離する。
非特許文献１には、グレー画像を対象に、所望の画像領域（前景画像領域）に前景領域を表すマーカー、及びそれ以外の領域（背景画像領域）に背景領域を表すマーカーを、予めユーザが付け、その前景画像領域と背景画像領域に付与されたマーカーを基に、グラフカット（ＧｒａｐｈＣｕｔｓ）により前景画像領域を抽出する技術が記載されている。特許文献２には、カラー画像に対して、グラフカット（ＧｒａｐｈＣｕｔｓ）を応用し、前景画像領域を抽出する技術が記載されている。
非特許文献３には、前景画像領域、背景画像領域、及び未知画像領域（前景画像領域、背景画像領域のどちらかに属するか未決定の画像領域）の３つのマーカーを用いてマップ（トライマップと呼ばれる）を予め作成し、未知領域における前景画像領域の画素、背景画像領域の画素の混合率α（マット）を推定することで、前景画像領域を抽出する技術が記載されている。

（２）色情報と奥行情報とに基づく前景画像領域の抽出手法
色情報と奥行情報に基づく前景画像領域の抽出手法として、例えば、特許文献１、２記載の技術が知られている。
特許文献１には、カメラから被写体までの奥行情報の画像（距離画像）に基づいてトライマップを作成し、色情報を利用して未知領域における前景画像領域の画素、背景画像領域の画素の混合率αを推定し、前景画像領域を抽出する技術が記載されている。
特許文献２には、カメラから被写体までの奥行情報から前景画像領域を粗く抽出し、その後、色情報を基に領域分割統合法を再帰的に繰り返し、前景画像領域を抽出する技術が記載されている。

特開２０１０−１６５４６号公報特開２００９−２７６２９４号公報

Y. Boykov, M. Jolly, "Interactive graph cuts for optimal boundary and region segmentation of objects in N-D images", ICCV, 2001 C. Rother, V. Kolmogorov, A. Blake, "Grabcut - interactive foreground extraction using iterated graph cuts", SIGGRAPH, 2004 C. Rhemann, C. Rother, A. Rav-Acha, T. Sharp, "High Resolution Matting via Interactive Trimap Segmentation", CVPR, 2008

しかしながら、従来技術であるクロマキー処理では、対象物（前景領域）が背景の一定色又は類似色を含む場合に、その領域が背景画像領域であると判定される、つまり、確実に対象物を抽出できないという欠点があった。また、クロマキー処理では、一定色の背景でない場合に、背景画像領域の一定色でない部分が対象物として抽出される、つまり、対象物を確実に抽出できないという欠点があった。
非特許文献１−３、特許文献１、２記載の従来技術では、対象物と背景領域の色分布が類似である場合や、対象物と背景領域とが類似した模様（テクスチャ）を有する場合に、領域の境界を特定できずに対象物に欠損部分が生じる。また、この場合には、背景領域を対象物として誤抽出することもある。つまり、従来技術では、対象物を確実に抽出できないという欠点があった。なお、対象物に欠損部分や背景画像領域の誤抽出部分があるとき、動画の映像の場合には、対象物の抽出形状が時間方向に不連続となることによって、対象物の画像にフリッカやちらつきが生じてしまう。

本発明は上記の点に鑑みてなされたものであり、対象物の画像を確実に抽出できる映像処理装置、映像処理方法、及びプログラムを提供する。

（１）本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、映像情報が示す映像から前景の画像を示す前景領域情報を抽出する映像処理装置であって、第１の時間における前景領域情報が示す前景の画像を、第２の時間における前景領域情報及び映像情報を用いて補正する前景領域補正部を備えることを特徴とする映像処理装置である。

（２）また、本発明の一態様は、上記の映像処理装置において、前景領域補正部は、第１の時間における前景領域情報が示す前景の画像を、複数の第２の時間における前景領域情報及び映像情報を用いて補正することを特徴とする。

（３）また、本発明の一態様は、上記の映像処理装置において、前記映像情報が示す映像には、予め定められた対象物の画像が含まれ、前景領域補正部は、第１の時間における、映像情報と前記対象物の画像を示す対象画像領域情報、及び、第２の時間における、映像情報と前景領域情報と対象画像領域情報に基づいて、第２の時間から第１の時間の間に前記前景の画像が移動した移動量を算出する移動量算出部と、前記移動量算出部が算出した移動量と前記前景の画像とに基づいて、第１の時間における映像中の部分が前景の画像である確率を算出する前景領域確率マップ生成部と、前記前景画像確率マップ生成部が算出した確率に基づいて第１の時間における前景領域情報を抽出し、抽出した前景領域情報が示す前景の画像を補正する補正部と、を備えることを特徴とする。

（４）また、本発明の一態様は、映像情報が示す映像から前景の画像を示す前景領域情報を抽出する映像処理装置における映像処理方法であって、前景領域補正部が、第１の時間における前景領域情報が示す前景の画像を、第２の時間における前景領域情報及び映像情報を用いて補正する前景領域補正ステップを有することを特徴とする映像処理方法である。

（５）また、本発明の一態様は、上記の映像処理方法において、前記映像情報が示す映像には、予め定められた対象物の画像が含まれ、前景領域補正ステップは、移動量算出部が、第１の時間における、映像情報と前記対象物の画像を示す対象画像領域情報、及び、第２の時間における、映像情報と前景領域情報と対象画像領域情報に基づいて、第２の時間から第１の時間の間に前記前景の画像が移動した移動量を算出する移動量算出ステップと、前景領域確率マップ生成部が、前記移動量算出ステップで算出した移動量と前記前景の画像とに基づいて、第１の時間における映像中の部分が前景の画像である確率を算出する前景領域確率マップ生成ステップと、補正部が、前記前景画像確率マップ生成ステップで算出した確率に基づいて第１の時間における前景領域情報を抽出し、抽出した前景領域情報が示す前景の画像を補正する補正ステップと、を有することを特徴とする。

（６）また、本発明の一態様は、映像情報が示す映像から前景の画像を示す前景領域情報を抽出する映像処理装置のコンピュータに、第１の時間における前景領域情報が示す前景の画像を、第２の時間における前景領域情報及び映像情報を用いて補正する前景領域補正手順を実行させるための映像処理プログラムである。

（７）また、本発明の一態様は、上記の映像処理プログラムにおいて、前記映像情報が示す映像には、予め定められた対象物の画像が含まれ、前景領域補正手順は、第１の時間における、映像情報と前記対象物の画像を示す対象画像領域情報、及び、第２の時間における、映像情報と前景領域情報と対象画像領域情報に基づいて、第２の時間から第１の時間の間に前記前景の画像が移動した移動量を算出する移動量算出手順、前記移動量算出手順で算出した移動量と前記前景の画像とに基づいて、第１の時間における映像中の部分が前景の画像である確率を算出する前景領域確率マップ生成手順、前記前景画像確率マップ生成手順が算出した確率に基づいて第１の時間における前景領域情報を抽出し、抽出した前景領域情報が示す前景の画像を補正する補正手順、を実行させるための映像処理プログラムである。

本発明によれば、前景画像領域又は背景画像領域を確実に抽出できる。

本発明の実施形態に係る映像処理装置１の構成を表すブロック図である。本実施形態に係るユーザ指定ＲＯＩ情報の検出処理の一例を示す概略図である。本実施形態に係る映像処理装置の動作の一例を示すフローチャートである。本実施形態に係るオブジェクト抽出部の構成を示す概略ブロック図である。本実施形態に係るクラスタリング部の構成を示す概略ブロック図である。本実施形態に係るクラスタリング部の処理結果の一例を示す概略図である。本実施形態に係る特徴量算出部の動作の一例を表すフローチャートである。本実施形態に係るラベリング（領域情報）の一例を表す概略図である。領域間の接続関係を重みなし無向グラフ、及び隣接行列による表現の一例を表す概略図である。本実施形態に係る領域の周囲長の取得方法、及び領域の外接矩形の一例を示す概略図である。本実施形態に係る前景領域抽出部の動作の一例を示すフローチャートである。本実施形態に係る前景領域補正部の構成を示す概略ブロック図である。本実施形態に係るテンプレートマッチングを説明する説明図である。本実施形態に係るスパイラルサーチを説明する説明図である。本実施形態に係る前景領域補正部の動作の一例を示すフローチャートである。本実施形態に係るバッファ部の動作の一例を示すフローチャートである。本実施形態に係るオブジェクト抽出部の動作の一例を示すフローチャートである。本実施形態に係る奥行情報の一例を示す概略図である。本実施形態に係る前景領域確率マップＰの一例を示す概略図である。本実施形態に係る前景画像領域の一例の説明図である。本実施形態に係るユーザ指定ＲＯＩ情報の検出処理の別の一例を示す概略図である。本実施形態に係るユーザ指定ＲＯＩ情報の検出処理の別の一例を示す概略図である。

以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図１は、本発明の実施形態に係る映像処理装置１の構成を表すブロック図である。この図において、映像処理装置１は、映像情報取得部１０、奥行情報取得部１１、映像情報再生部１２、ＲＯＩ（ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔ；対象画像領域）取得部１３、映像表示部１４、オブジェクト抽出部１５、及びマスク情報記録部１６を含んで備える。

映像情報取得部１０は、映像情報（ｔ）を取得する。ここで映像情報（ｔ）は、動画の映像情報であり、時刻ｔ（動画の開始時点からの経過時間）の関数である。ただし、本発明の映像情報はこれに限らず、複数の静止画の映像情報であってもよい。例えば、映像情報（ｔ）は、撮像装置を固定して時間的に連続又は隣接する画像を含む動画像又は静止画であってもよいし、同時刻に、連続又は隣接する位置から撮影した画像を含む動画像又は静止画であってもよい（後者の場合、映像情報は位置の関数となる）。また、映像情報取得部１０は、撮像装置から映像情報（ｔ）を取得してもよいし、予め記録部や外部記録装置に記録された映像情報（ｔ）を読み出すことで取得してもよい。
映像情報取得部１０は、取得した映像情報（ｔ）を、映像情報再生部１２、ＲＯＩ取得部１３、及びオブジェクト抽出部１５に出力する。

奥行情報取得部１１は、映像情報取得部１０が取得する映像情報（ｔ）の奥行情報（ｔ）を取得する。ここで、奥行情報（ｔ）は、映像情報（ｔ）の各画素について、撮像装置から撮像物までの距離を表す情報である。
奥行情報取得部１１は、取得した奥行情報（ｔ）を、オブジェクト抽出部１５に出力する。

映像情報再生部１２は、映像情報取得部１０から入力された映像情報（ｔ）に基づいて、映像表示部１４の各時刻ｔにおける各画素の出力を制御する映像信号を生成する。映像情報再生部１２は、生成した映像信号を映像表示部１４に出力することで、映像表示部１４に映像を表示させる。つまり、映像情報再生部１２は、映像情報（ｔ）の映像を再生し、再生した映像を映像表示部１４に表示させる。
ここで、映像情報再生部１２は、マスク情報記録部１６が記録するマスク情報（ｔ）に基づいて、映像情報（ｔ）の映像に、オブジェクト抽出部１５が抽出したオブジェクトの画像を重畳して表示する。つまり、マスク情報（ｔ）は、時刻ｔで映像情報（ｔ）に対応付けられている。なお、マスク情報記録部１６がマスク情報（ｔ）を記録していない場合には、映像情報（ｔ）の映像をそのまま再生する。

映像表示部１４は、タッチパネル型のディスプレイである。映像表示部１４は、映像情報再生部１２から入力された映像信号に基づいて出力を制御することで、映像情報（ｔ）の映像を表示する。映像表示部１４は、そのディスプレイにユーザが触れることで、触れた位置を示す情報を、ある時刻ｔｓにおける映像情報（ｔｓ）の画像（ｔｓ）での位置を示す情報に変換する。
映像表示部１４は、ユーザがディスプレイに触れながらディスプレイに表示された画像（ｔｓ）でのＲＯＩを指定することによって、ＲＯＩの位置情報（ユーザ指定ＲＯＩ情報（ｔｓ）という）、つまり、ＲＯＩの位置と形状（外接形状）を示す情報を検出する。なお、映像表示部１４でのユーザ指定ＲＯＩ情報（ｔｓ）の検出処理の詳細は後述する。
映像表示部１４は、検出したユーザ指定ＲＯＩ情報（ｔｓ）をＲＯＩ取得部１３に出力する。

ＲＯＩ取得部１３は、映像表示部１４から入力されたユーザ指定ＲＯＩ情報（ｔｓ）の範囲内の画像に基づいて、時刻ｔｓ以外の各時刻ｔにおける映像情報（ｔ）の画像（各フレームの画像；以下、処理画像（ｔ）という）から、ユーザ指定ＲＯＩ情報（ｔｓ）の画像に一致又は類似する画像を検出する。その後、ＲＯＩ取得部１３は、一致又は類似する画像の位置と形状を示す情報を、ＲＯＩ情報（ｔ）として抽出する。

具体的には、ＲＯＩ取得部１３は、ユーザ指定ＲＯＩ情報（ｔｓ）の範囲内の画像から特徴点（ＲＯＩ特徴点（ｔｓ）という）を算出して記録する。なお、特徴点とは、画像中の特徴的な点であり、例えば、画素間の色や輝度の変化等に基づいて被写体のエッジの一部や頂点として抽出される点であるが、抽出手法はこれに限られない。ＲＯＩ取得部１３は、各時刻ｔにおける処理画像（ｔ）の画像特徴点（ｔ）を算出する。
ＲＯＩ取得部１３は、画像特徴点（ｔ）とＲＯＩ特徴点（ｔｓ）とのマッチングを行う。具体的には、ＲＯＩ取得部１３は、ＲＯＩ特徴点（ｔｓ）に変換行列を逐次乗算することで、画像中でＲＯＩ特徴点（ｔｓ）を移動（回転含む）及び拡大・縮小させて、特徴点が一致する数（特徴点数という）を算出する。ＲＯＩ取得部１３は、特徴点数が予め定めた閾値以上になったと判定した場合に、そのときの変換行列を記録する。ＲＯＩ取得部１３は、ユーザ指定ＲＯＩ情報（ｔｓ）に変換行列を乗算した位置情報をＲＯＩ情報（ｔ）とする。つまり、ＲＯＩ取得部１３は、ユーザ指定ＲＯＩ情報（ｔｓ）の範囲内の画像が、画像（ｔ）中のどの部分と一致するかを判定し、一致した場合に、ユーザ指定ＲＯＩ情報（ｔｓ）に相当する位置情報を、ＲＯＩ情報（ｔ）とする。ＲＯＩ取得部１３は、抽出したＲＯＩ情報（ｔ）（ユーザ指定ＲＯＩ情報（ｔｓ）を含む）を映像表示部１４、及びオブジェクト抽出部１５に出力する。また、ＲＯＩ取得部１３は、抽出したＲＯＩ情報（ｔ）をＲＯＩ情報記憶部１５８３に記憶する。

オブジェクト抽出部１５は、映像情報取得部１０から映像情報（ｔ）を入力され、奥行情報取得部１１から奥行情報（ｔ）を入力され、ＲＯＩ取得部１３からＲＯＩ情報（ｔ）を入力される。オブジェクト抽出部１５は、入力された映像情報（ｔ）、奥行情報（ｔ）、ＲＯＩ情報（ｔ）を用いて、各時刻ｔにおけるマスク情報（ｔ）を生成する。オブジェクト抽出部１５が行う処理の詳細については、後述する。
オブジェクト抽出部１５は、抽出したマスク情報（ｔ）をマスク情報記録部１６に記録する。

＜ユーザ指定ＲＯＩ情報（ｔｓ）の検出処理＞
以下、映像表示部１４が行うユーザ指定ＲＯＩ情報（ｔｓ）の検出処理の詳細について説明をする。
図２は、本実施形態に係るユーザ指定ＲＯＩ情報（ｔｓ）の検出処理の一例を示す概略図である。図２において、符号Ａを付した四角はタッチパネル型のディスプレイ（映像表示部１４）である。符号Ｂを付した四角は、時刻情報が示す時刻ｔｓ（図２では、ｔｓ＝０．１３３秒）における画像（ｔｓ）である。符号Ｏを付したものは、ユーザが抽出したい対象物（図２では、人物）の画像を表す。また、符号Ｕを付したものは、ユーザの手を表す。

図２は、長方形（四角形）の選択ツールを用いた場合の図である。この図において、符号ｒ１を付した枠（対象物Ｏの外接矩形）の位置情報がユーザ指定ＲＯＩ情報（ｔｓ）である。具体的には、図２の場合に、ユーザ指定ＲＯＩ情報（ｔｓ）は、例えば、以下の表１のデータとして記録される。

表１では、ユーザ指定ＲＯＩ情報（ｔｓ）は、時刻ｔｓ（又は、映像のフレームに付した番号（フレーム番号）でもよい）、外接矩形内に抽出対象画像（対象物の画像）が有るか無いかを示す有無フラグ（抽出対象フラグという）、外接矩形の始点位置（ｘ０，ｙ０）（図２では点Ｐ１の座標）、外接矩形の横幅（図２では符号Ｗ１で表す長さ）、外接矩形の縦幅（図２では符号Ｌ１で表す長さ）で、表される。

＜映像処理装置１の動作について＞
以下、映像処理装置１の動作について説明する。
図３は、本実施形態に係る映像処理装置１の動作の一例を示すフローチャートである。

（ステップＳ１１）映像情報取得部１０は、映像情報（ｔ）を取得し、取得した映像情報（ｔ）を映像情報再生部１２、ＲＯＩ取得部１３、及びオブジェクト抽出部１５に出力する。奥行情報取得部１１は、奥行情報（ｔ）を取得し、取得した奥行情報（ｔ）をオブジェクト抽出部１５に出力する。その後、ステップＳ１２へ進む。

（ステップＳ１２）映像情報再生部１２は、ステップＳ１１で入力された映像情報（ｔ）の映像を再生し、再生した映像を映像表示部１４に表示させる。その後、ステップＳ１３へ進む。
（ステップＳ１３）ユーザは、ステップＳ１２で再生された映像の再生をある時刻ｔｓで一時停止し、ＲＯＩを指定する。映像表示部１４は、ユーザが指定したＲＯＩについて、ユーザ指定ＲＯＩ情報（ｔｓ）を検出し、ＲＯＩ取得部１３に出力する。その後、ステップＳ１４へ進む。

（ステップＳ１４）ＲＯＩ取得部１３は、ステップＳ１３で検出されたユーザ指定ＲＯＩ情報（ｔｓ）に基づいて、各時刻ｔにおけるＲＯＩ情報（ｔ）を抽出する。ＲＯＩ取得部１３は、抽出したＲＯＩ情報（ｔ）を映像表示部１４、及びオブジェクト抽出部１５に出力する。映像表示部１４は、ＲＯＩ情報（ｔ）が示す外接形状（表１の場合は外接矩形、表２の場合は外接円）を、その位置へ、映像情報（ｔ）の映像に重畳して表示する。その後、ステップＳ２へ進む。

（ステップＳ２）オブジェクト抽出部１５は、ステップＳ１１で取得された映像情報（ｔ）、及び奥行情報（ｔ）、ステップＳ１４で抽出されたＲＯＩ情報（ｔ）を用いてオブジェクト抽出を行い、マスク情報（ｔ）を生成する。オブジェクト抽出部１５は、生成したマスク情報（ｔ）をマスク情報記録部１６に記録する。その後、ステップＳ１５へ進む。
（ステップＳ１５）映像情報再生部１２は、マスク情報記録部１６が記録するマスク情報（ｔ）に基づいて、映像情報（ｔ）の映像に、オブジェクト抽出部１５が抽出したオブジェクトの画像を重畳して表示する。

なお、上記のステップＳ１４、Ｓ２、Ｓ１５において、映像処理装置１は、入力された全て時刻ｔの映像情報（ｔ）に関する処理を行ってもよいし、ユーザが指定した範囲の映像情報（ｔ）（ｔ１≦ｔ≦ｔ２）に関する処理を行ってもよい。
上記の動作において、映像処理装置１は、ユーザが指定したＲＯＩについて、ユーザ指定ＲＯＩ情報（ｔｓ）を検出するので、自動でＲＯＩを抽出する場合と比較して、確実にＲＯＩを抽出することができる。また、映像処理装置１は、映像表示部１４は、ＲＯＩ情報（ｔ）が示す外接形状を、映像情報（ｔ）の映像に重畳して表示するので、ユーザは所望のＲＯＩが検出されていることを把握することができる。

＜オブジェクト抽出部１５が行う処理について＞
以下、オブジェクト抽出部１５が行う処理について詳細を説明する。
図４は、本実施形態に係るオブジェクト抽出部１５の構成を示す概略ブロック図である。この図において、オブジェクト抽出部１５は、フィルタ部１５１ａ、１５１ｂ、分布モデル推定部１５２、クラスタリング部１５３、特徴量算出部１５４、前景領域抽出部１５５、前景領域補正部１５６、マスク情報生成部１５７、及びバッファ部１５８を含んで構成される。バッファ部１５８は、映像情報記憶部１５８１、前景領域情報記憶部１５８２、ＲＯＩ情報記憶部１５８３、ＲＯＩ奥行分布情報記憶部１５８４、補正前景領域情報記憶部１５８５を含んで構成される。なお、符号Ｉ１、Ｄ１、Ｒ１、Ｍを付した平行四辺形は情報を示し、それぞれ、映像情報（ｔ）、奥行情報（ｔ）、ＲＯＩ情報（ｔ）、マスク情報（ｔ）である。

フィルタ部１５１ａは、入力された映像情報（ｔ）からノイズを除去し、平滑化処理を行う。具体的には、フィルタ部１５１ａは、各時刻ｔの処理画像（ｔ）に対して、色成分毎に、エッジ（輪郭）を保持する平滑化フィルタ（以降、エッジ保持平滑化フィルタとも呼ぶ）を行う。ここで、フィルタ部１５１ａは、平滑化フィルタとして、次式（１）で表されるバイラテラルフィルタ（ｂｉｌａｔｅｒａｌｆｉｌｔｅｒ）を用いる。

ただし、入力画像はｆ（ｘ，ｙ）、出力画像はｇ（ｘ，ｙ）、Ｗはフィルタリングを適用する窓サイズ、σ_１は画素間距離に関する重み付け係数を制御するパラメータ（ガウス分布の標準偏差）、σ₂は画素値の差に関する重み付け係数を制御するパラメータ（ガウス分布の標準偏差）を表す。
フィルタ部１５１ａは、平滑化フィルタによる平滑化後の映像情報（ｔ）を、クラスタリング部１５３、及び特徴量算出部１５４に出力する。

フィルタ部１５１ｂは、入力された奥行情報（ｔ）からノイズを除去し、平滑化処理を行う。具体的には、フィルタ部１５１ｂは、エッジ保持平滑化フィルタを行う。これにより、フィルタ部１５１ｂは、オクルージョン（遮蔽）によって発生している横方向のノイズを除去する。
フィルタ部１５１ｂは、平滑化フィルタによる平滑化後の奥行情報（ｔ）を、特徴量算出部１５４及び分布モデル推定部１５２に出力する。

分布モデル推定部１５２は、処理画像単位毎に、フィルタ部１５１ｂより入力された平滑化後の奥行情報（ｔ）、及び、入力されたＲＯＩ情報（ｔ）に基づき、ＲＯＩ内の奥行分布モデルのパラメータを推定する。具体的には、分布モデル推定部１５２は、次式(２)、つまり、ガウス分布の混合モデルで表現するＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）を用いて、最尤推定法により分布モデルのパラメータを取得する。以下、取得したパラメータをＲＯＩ奥行分布情報（ｔ）という。

なお、式（２）において、Ｐ（ｘ）は、ベクトルｘが出現する確率を表す。ｗ_ｉはクラスｉのガウス分布の重み係数を表し、μ_ｉはクラスｉの平均ベクトルを表し、Σ_iはクラスｉの共分散行列を表し、Ｄはベクトルｘの次元数を表す。Ｎ（ｘ｜μ_ｉ,Σ_ｉ）は、クラスｉのガウス分布を表し、平均ベクトルμ_ｉ、共分散行列Σ_ｉを用いて表現される。また、分布モデル推定部１５２は、ＥＭ（Ｅｘｐｅｃｔａｔｉｏｎ−Ｍａｘｉｍｉｚａｔｉｏｎ）アルゴリズムを用いて、分布モデルの各パラメータを求める。つまり、分布モデル推定部１５２は、ＲＯＩ内の抽出対象領域の奥行分布を、重み係数ｗ_ｉが最大となるクラスの分布として定める。すなわち、奥行分布は、ＲＯＩ内領域に占める面積が大きい領域であると仮定することによって算出される。
分布モデル推定部１５２は、推定したＲＯＩ奥行分布情報（ｔ）を前景領域抽出部１５５、及びバッファ部１５８に出力する。

クラスタリング部１５３は、処理画像（ｔ）毎に、フィルタ部１５１ａから入力された平滑化後の映像情報（ｔ）に対してクラスタリングを行うことにより、処理画像（ｔ）を複数の領域（スーパーピクセルともいう）に分割する。
例えば、クラスタリング部１５３は、特徴量空間でのクラスタリングを行う。特徴量空間によるクラスタリングとは、画像空間の各画素を特徴量空間（例えば、色、エッジ、動きベクトル）に写像し、その特徴量空間においてＫ-ｍｅａｎｓ法、Ｍｅａｎ-Ｓｈｉｆｔ法、又はＫ最近傍探索法（近似Ｋ最近傍探索法）などの手法により行うクラスタリングである。つまり、クラスタリング部１５３は、処理画像（ｔ）を、特徴量が類似する（特徴量の値が予め定めた範囲内となる）画素の集合（領域；クラス）に分割する。
クラスタリング部１５３は、特徴量空間でのクラスタリング処理の終了後、各領域の代表値となる画素値（例えば平均値）により、そのクラス内の画素について、元の画像空間における画素値を置き換える。クラスタリング部１５３は、各領域に対して領域を識別するラベルを各領域内の全画素に付与し、領域情報（ｔ）を出力する。
以下、クラスタリング部１５３の詳細について説明をする。

図５は、本実施形態に係るクラスタリング部１５３の構成を示す概略ブロック図である。この図において、クラスタリング部１５３は、特徴量検出部１５３１、シード生成部１５３２、領域成長部１５３３、領域統合部１５３４を含んで構成される。なお、クラスタリング部１５３は、エッジ及び、色に基づく特徴量を用いてクラスタリングを行うが、本発明は、この特徴量に限られない。

特徴量検出部１５３１には、平滑化後の映像情報（ｔ）が入力される。特徴量検出部１５３１は、処理画像（ｔ）各々において、画素（ｘ，ｙ）（ｘ、ｙは、画像中の画素の位置を表す座標）の特徴量を算出する。具体的には、特徴量検出部１５３１は、色成分（例えば、ＲＧＢ（Ｒｅｄ（赤）、Ｇｒｅｅｎ（緑）、Ｂｌｕｅ（青）））毎に微分オペレータを適用し、ｘ方向、ｙ方向における各色成分ｉの勾配（グラディエント；ｇｒａｄｉｅｎｔ）Ｇ_ｉ（ｘ，ｙ｜ｔ）＝（ΔＧ_ｉｘ（ｔ）, ΔＧ_ｉｙ（ｔ））（ｉ＝１，２，３）を算出する。例えば、ｉ＝１、２、３は、それぞれ、Ｒ成分、Ｇ成分、Ｂ成分である。
特徴量検出部１５３１は、次式（３）の演算を、座標（ｘ，ｙ）の画素毎に行うことで、エッジ強度Ｅ_２（ｘ，ｙ｜ｔ）を算出する。

ここで、ＴＨ＿Ｅ（ｘ，ｙ｜ｔ）は、時刻（ｔ）の座標（ｘ，ｙ）に対する予め定められた閾値である。また、式（３）は、Ｅ_１（ｘ，ｙ｜ｔ）がＴＨ＿Ｅ（ｘ，ｙ｜ｔ）より小さい場合にはＥ_２（ｘ，ｙ｜ｔ）＝０であることを示し、また、Ｅ_１（ｘ，ｙ｜ｔ）がＴＨ＿Ｅ（ｘ，ｙ｜ｔ）以上の場合にはＥ_２（ｘ，ｙ｜ｔ）＝Ｅ_１（ｘ，ｙ｜ｔ）であることを示す。なお、特徴量検出部１５３１は、この閾値ＴＨ＿Ｅ（ｘ，ｙ｜ｔ）をピクセル単位、ブロック単位、領域単位、画像単位で調整してもよい。それによって、画像特性に応じて適した特徴量を検出することが可能となる。
特徴量検出部１５３１は、算出したエッジ強度Ｅ_２（ｘ，ｙ｜ｔ）をシード生成部１５３２に出力する。

シード生成部１５３２は、特徴量検出部１５３１から入力されたエッジ強度Ｅ_２（ｘ，ｙ｜ｔ）を用いて、スーパーピクセルを生成するためのシード情報を生成する。具体的には、シード生成部１５３２は、次式（４）を用いてシード情報Ｓ（ｘ，ｙ｜ｔ）を算出する。

つまり、シード生成部１５３２は、座標（ｘ，ｙ）を中心とした窓サイズＷ_１×Ｗ_２の範囲内で、エッジ強度Ｅ_２（ｘ，ｙ｜ｔ）が極小値となる場合（ＬｏｃａｌＭｉｎｉｍａ）にシード情報Ｓ（ｘ，ｙ｜ｔ）を「１」、それ以外はシード情報Ｓ（ｘ，ｙ｜ｔ）を「０」とする。ここで、Ｗ_１はｘ方向の窓のサイズ、Ｗ_２はｙ方向の窓のサイズを表す。
シード生成部１５３２は、生成したシード情報Ｓ（ｘ，ｙ｜ｔ）を領域成長部１５３３に出力する。

領域成長部１５３３は、シード生成部１５３２から入力されたシード情報Ｓ（ｘ，ｙ｜ｔ）に基づいて、領域成長法を適用してスーパーピクセル群Ｒ_１（ｔ）を生成する。具体的には、領域成長部１５３３は、ある画素（ｘ１，ｙ１）のエッジ強度Ｅ_２（ｘ１，ｙ１｜ｔ）と、その画素の近傍の画素（ｘ，ｙ）のエッジ強度Ｅ_２（ｘ，ｙ｜ｔ）と、の差が予め定めた値以下である画素（ｘ，ｙ）を元の画素（ｘ１，ｙ１）と同じ領域とすることで、領域を広げる。ここで、領域成長部１５３３は、この処理を、シード情報Ｓ（ｘ，ｙ｜ｔ）が「１」の画素から始める。つまり、領域成長部１５３３は、シード情報Ｓ（ｘ，ｙ｜ｔ）が「１」の画素から、特徴量の値がほぼ等しい領域を少しずつ成長させる。
領域成長部１５３３は、広げた領域をスーパーピクセル群Ｒ_１（ｔ）とし、スーパーピクセル群Ｒ_１（ｔ）を示す情報を領域統合部１５３４に出力する。

領域統合部１５３４は、領域成長部１５３３から入力された情報が示すスーパーピクセル群Ｒ_１（ｔ）から、領域の面積が小さいスーパーピクセル群を、他の領域へ統合する領域統合処理を行う。具体的には、領域統合部１５３４は、各スーパーピクセル群Ｒ_１（ｔ）の一点を頂点として、頂点間の接続関係、及び接続する頂点間のエッジ（重み）によって表現される、重み付無向グラフを算出する。ここで、頂点間のエッジ（重み）には、例えば、各頂点と対応する各スーパーピクセルの代表色との色空間での距離を用いる。
領域統合部１５３４は、貪欲法を用いて全域最小木(ＭｉｎｉｍｕｍＳｐａｎｎｉｎｇＴｒｅｅ：ＭＳＴ)を構成するように、重み付無向グラフを領域統合し、スーパークセル群Ｒ_２（ｔ）を生成する。領域統合部１５３４は、スーパーピクセル毎に、スーパーピクセルを識別するラベルをスーパーピクセル内の全画素に付与し、ラベリング結果を領域情報（ｔ）とし、出力する。

図６は、本実施形態に係るクラスタリング部１５３の処理結果の一例を示す概略図である。この図は、熊のぬいぐるみが電車のおもちゃに乗っている画像である。また、電車のおもちゃが線路に沿って移動することで、熊のぬいぐるみも移動している。
この図において、図６（Ａ）は入力画像より得られたエッジ強度Ｅ_２を表す画像である。また、図６（Ｂ）はエッジ強度Ｅ_２より得られたシード情報Ｓを表す画像である。また、図６（Ｃ）はスーパーピクセル群Ｒ_１（ｔ）を示す画像、図６（Ｄ）はスーパーピクセル群Ｒ_２（ｔ）を示す画像である。
図６（Ａ）において、明るい(白い)部分はエッジ強度が大きい領域を表し、暗い（黒い）部分はエッジ強度が小さい領域を表す。図６（Ｂ）において、明るい(白い)部分がシードを表し、暗い（黒い）部分は、どの領域(クラス)に属するかを領域成長法により決定する部分を表す。
図６（Ｃ）と図６（Ｄ）を比較すると、図６（Ｃ）のスーパーピクセル群Ｒ_１（ｔ）では多数の小さい面積を有するスーパーピクセル（領域）が存在するが、図６（Ｄ）のスーパーピクセル群Ｒ_２（ｔ）では小さい面積を有するスーパーピクセル（領域）が減少している。このように、映像処理装置１では、クラスタリング処理を実施することで、小面積のスーパーピクセル（領域）が少なく、より精度のよいクラスタリング結果を取得できる。

図４に戻って、特徴量算出部１５４には、クラスタリング部１５３から領域情報（ｔ）、フィルタ部１５１ａから平滑後の映像情報（ｔ）、フィルタ部１５１ｂから平滑化後の奥行情報（ｔ）、及びＲＯＩ情報（ｔ）が入力される。特徴量算出部１５４は、入力された領域情報（ｔ）、映像情報（ｔ）、奥行情報（ｔ）、及びＲＯＩ情報（ｔ）に基づいて、領域（ラベル）毎の特徴量を算出する。具体的には、特徴量算出部１５４は、以下の（１）〜（７）の特徴量を算出する。その後、算出した特徴量を示す特徴量情報（ｔ）を前景領域抽出部１５５に出力する。
（１）領域間の隣接関係
（２）ＲＯＩ領域の重心と各領域の重心との間の距離（以下、重心距離という）
（３）各色成分の平均値、中央値、分散及び標準偏差
（４）奥行の平均値、中央値、分散及び標準偏差
（５）領域面積
（６）領域周囲長
（７）領域の外接矩形

＜特徴量算出部１５４の動作について＞
（１）〜（７）の特徴量の算出方法の一例について、図７〜図１０を用いて説明する。図７は、特徴量算出部１５４の動作の一例を表すフローチャートである。図８は、説明のため、８×８画素ブロックでのラベリング（領域情報）の一例を表す図である。図９は、図８における領域間の接続関係を重みなし無向グラフ、及び隣接行列による表現の一例を表す図である。図１０は、図８（Ａ）のラベル３を例に領域の周囲長の取得方法、及び領域の外接矩形の一例を表す図である。

（ステップＳ１５４−０１）特徴量算出部１５４は、クラスタリング部１５３から領域情報（ｔ）、フィルタ部１５１ａから平滑後の映像情報（ｔ）、フィルタ部１５１ｂから平滑化後の奥行情報（ｔ）、及びＲＯＩ情報（ｔ）を取得する。その後、ステップＳ１５４−０２へ進む。

（ステップＳ１５４−０２）特徴量算出部１５４は、ＲＯＩ情報（ｔ）に基づき、ＲＯＩ領域内の画素について、画素の座標の値を合計する。続いて、特徴量算出部１５４は、合計した値をＲＯＩ領域内の画素数で除算し、その計算結果をＲＯＩ領域の重心とする。その後、ステップＳ１５４−０３へ進む。

（ステップＳ１５４−０３）特徴量算出部１５４は、領域情報（ｔ）に基づき、処理対象画像について、原点から一ライン毎に走査（ラスタースキャン）し、各ラベルに属する全画素の座標、画素数、各ラベルに属する画素が最初に出現する位置（始点）、及びラベル（領域）間の隣接関係を求める。また、取得された各ラベルに属する画素が最初に出現する位置（始点）は、ステップＳ１５４−０８において領域周囲長を取得する際の輪郭追跡の始点として記憶される。その後、ステップＳ１５４−０４へ進む。ここで、図８、図９を用いて、ラベルの始点位置の検出結果と、ラベル間の隣接関係の取得方法の一例を説明する。例えば、図８（Ａ）に示す、８×８画素ブロックでのラベリング結果（領域情報）があるとする。図８（Ａ）の場合、８×８画素ブロックの原点（図８（Ａ）上の左上）より、一ライン毎に走査していくと、図８（Ｂ）において、符号Ｌｉ（ｉ＝１，２，・・・，５）を付した画素が、各ラベルの始点として検出される。また、領域間の接続関係は、各画素において、当該画素のラベルと、当該画素に隣接する画素のラベルとを比較し、異なるラベルを逐次検出していくことで取得される。例えば、図９（Ａ）に示す、注目画素（符号Ｑ）の場合、当該画素のラベルは１であり、当該画素に隣接する画素（隣接画素：符号Ｎｉ（ｉ＝１，２，・・・，８））のうち、異なるラベルは３、４となる。その結果、ラベル１は、ラベル３、ラベル４と隣接していることを把握することができる。上記処理を全画素に対して実施することで、図８（Ａ）の領域情報に関するラベル間の隣接関係を、図９（Ｂ）に示す重みなし無向グラフとして最終的に表現することができる。図９（Ｂ）において、各ノード番号が各ラベル番号に対応し、ノード間のエッジが接続関係を表す。図９（Ｂ）のグラフの構造は、図９（Ｃ）に示す隣接行列によって表現される。図９（Ｃ）の隣接行列において、ノード間にエッジがある場合は“１”を、ノード間にエッジがない場合は“０”を、値として割り当てている。

（ステップＳ１５４−０４）特徴量算出部１５４は、各ラベルＬｉ（０≦ｉ＜ＭａｘＬａｂｅｌ）に属する画素について、座標の値を合計する。ここで、ＭａｘＬａｂｅｌは、領域情報（ｔ）より取得されるスーパーピクセル（領域）を識別するラベルの総数を表す。続いて、特徴量算出部１５４は、合計した値をラベルＬｉに属する画素数で除算し、その結果をラベルＬｉの重心とする。そして、ステップＳ１５４−０２において求めたＲＯＩ領域の重心とラベルＬｉの重心との距離（重心距離）を算出する。その後、ステップＳ１５４−０５へ進む。

（ステップＳ１５４−０５）特徴量算出部１５４は、平滑後の映像情報（ｔ）から、各ラベルＬｉ（０≦ｉ＜ＭａｘＬａｂｅｌ）の色成分毎の平均値、中央値、分散値、及び標準偏差を計算する。その後、ステップＳ１５４−０６へ進む。

（ステップＳ１５４−０６）特徴量算出部１５４は、平滑後の奥行情報（ｔ）から、各ラベルＬｉ（０≦ｉ＜ＭａｘＬａｂｅｌ）の奥行の平均値、中央値、分散値、及び標準偏差を計算する。その後、ステップＳ１５４−０７へ進む。

（ステップＳ１５４−０７）特徴量算出部１５４は、ラベルＬｉに属する画素の総数を領域面積とする。その後、ステップＳ１５４−０８へ進む。

（ステップＳ１５４−０８）特徴量算出部１５４は、ラベルＬｉの領域周囲長を算出する。その後、ステップＳ１５４−０９へ進む。ここで、図１０（Ａ）を用いて、ラベル３を例に領域周囲長の算出方法の一例を説明する。領域周囲長とは、図１０（Ａ）において、ラベルの始点から領域の周囲を時計周り（または、反時計周り）に一周する移動量である。８連結の連結成分の場合、上下左右に追跡移動する数のＣ_１と、斜めに追跡移動するＣ_２とがあり、領域周囲長（Perimeter）は、式（５）または、式（６）により計算される。

（ステップＳ１５４−０９）特徴量算出部１５４は、ラベルＬｉが示す領域に外接する最小の矩形（外接矩形）を算出する。その後、ステップＳ１５４−１０へ進む。ここで、図１０（Ｂ）を用いて、外接矩形の取得方法の一例について説明する。図１０（Ｂ）において、ラベル３の外接矩形を構成する４点の頂点（符号Ｐ１，Ｐ２，Ｐ３，Ｐ４）の座標は、領域内で左端にある画素のＸ座標（Ｘ_Ｌと表す）、右端にある画素のＸ座標（Ｘ_Ｒと表す）、上端にある画素のＹ座標（Ｙ_Ｔ）、及び下端にある画素のＹ座標（Ｙ_Ｂと表す）を用いて、
Ｐ１：＝（Ｘ_Ｌ，Ｙ_Ｔ）、Ｐ２：＝（Ｘ_Ｒ，Ｙ_Ｔ）、Ｐ３：＝（Ｘ_Ｒ，Ｙ_Ｂ）、Ｐ４：＝（Ｘ_Ｌ，Ｙ_Ｂ）、と表現される。また、Ｘ_Ｌ、Ｘ_Ｒ、Ｙ_Ｔ、Ｙ_Ｂは式（７）により計算される。なお、式（７）において、符号Ｌｉは、ラベル番号を表し、符号Ｒ_Ｌｉは、ラベルＬｉに属する画素の集合を表し、符号ｘ_ｊ、及び符号ｙ_ｊは、それぞれ集合Ｒ_Ｌｉに属する画素ｊのｘ座標、及びｙ座標を表す。

（ステップＳ１５４−１０）特徴量算出部１５４は、全ラベルの特徴量の算出が完了すれば（ステップＳ１５４−１０においてＹｅｓ）、各ラベル（領域）の特徴量を含む特徴量情報（ｔ）を前景領域抽出部１５５へ出力する。また、特徴量の算出が未処理のラベルがあれば（ステップＳ１５４−１０においてＮｏ）、ステップＳ１５４−０４へ戻り、次のラベルの特徴量算出を行う。

以上のようにすれば、前記（１）〜（７）の特徴量について算出を行うことができる。
なお、本実施形態では、特徴量算出部１５４の動作について、ステップＳ１５４−０１〜Ｓ１５４−１０の順に説明したが、これに限定されるものではなく、本発明を実施できる範囲において変更可能である。また、本実施形態では、領域間の接続関係を表すデータ構造の一例として、隣接行列を用いているが、これに限定されるものではなく、隣接リストを用いてもよい。また、特徴量算出部１５４は、画像の色空間としてＲＧＢを用いて特徴量を算出するが、本発明はこれに限らず、ＹＣｂＣｒ（ＹＵＶ）、ＣＩＥＬ＊ａ＊ｂ＊（エルスター、エースター、ビースター）、ＣＩＥＬ＊ｕ＊ｖ＊（エルスター、ユースター、ブイースター）であっても良いし、他の色空間であってもよい。

前景領域抽出部１５５には、特徴量算出部１５４から特徴量情報（ｔ）、分布モデル推定部１５２からＲＯＩ奥行分布情報（ｔ）、及び、ＲＯＩ情報（ｔ）が入力される。また、前景領域抽出部１５５は、バッファ部１５８の映像情報記憶部１５８から映像情報（ｔ）を読み出す。ここで、読み出される映像情報（ｔ）は、映像情報取得部１０が記憶した情報であって平滑化処理を行っていない情報であるが、これに限定されず、平滑化処理を行った映像情報（ｔ）を用いてもよい。
前景領域抽出部１５５は、ＲＯＩ情報（ｔ）、特徴量情報（ｔ）、ＲＯＩ奥行分布情報（ｔ）に基づいて、映像情報（ｔ）から、抽出対象となる前景画像領域（ｔ）を抽出する。前景領域抽出部１５５は、抽出した前景画像領域（ｔ）を示す前景領域情報（ｔ）を、前景領域情報記憶部１５８２に記憶する。また、前景領域抽出部１５５は、時刻ｔ０―ｋ（ｋ＝１、２、・・・、Ｋ；ｋはフレームの時刻を示す）の前景画像領域（ｔ０−ｋ）を示す情報を前景領域情報記憶部１５８２に記憶した後に、時刻ｔ０を示す情報を前景領域補正部１５６に出力する。

以下、前景領域抽出部１５５が行う処理の詳細を説明する。
図１１は、本実施形態に係る前景領域抽出部１５５の動作の一例を示すフローチャートである。
（ステップＳ１５５−０１）前景領域抽出部１５５は、前景領域を抽出するための核となる領域である基本前景領域を探索するための探索条件のパラメータ設定を行う。具体的には、前景領域抽出部１５５は、特徴量情報（ｔ）各々の下限値及び上限値として、予め定めた値を設定する。前景領域抽出部１５５は、例えば、領域面積の下限値（最小面積という）、上限値（最大面積という）、領域周囲長の下限値（最小周囲長という）、最大値（最大周囲長という）、重心距離の上限値の初期値として、ＲＯＩ領域の外接矩形に内接する円の半径の最大値（最大距離）、をパラメータとして設定する。このように基本前景領域の探索条件を設定することで、ＲＯＩ内に重心があり、かつ、面積が大きい領域を検出できる。また、背景領域に属する領域を、基本前景領域として誤検出することを防止できる。その後、ステップＳ１５５−０２へ進む。
（ステップＳ１５５−０２）前景領域抽出部１５５は、重心距離の上限値以下、または、未満を満たす、領域の中から重心距離が最小となる領域を選択する。その後、ステップＳ１５５−０３へ進む。

（ステップＳ１５５−０３）前景領域抽出部１５５は、ステップＳ１５５−０２で選択した領域の特徴量情報（ｔ）が、ステップＳ１５５−０１で設定した下限値と上限値の間の値であるか否かを判定する。特徴量情報（ｔ）が下限値と上限値の間の値であると判定した場合（Ｙｅｓ）、つまり、ステップＳ１５５−０２で選択した領域が基本前景領域であると決定して、ステップＳ１５５−０５へ進む。一方、特徴量情報（ｔ）が下限値と上限値の間の値でないと判定した場合（Ｎｏ）、ステップＳ１５５−０４へ進む。
（ステップＳ１５５−０４）前景領域抽出部１５５は、特徴量情報（ｔ）各々の下限値から予め定めた値を減算し、又は、上限値に予め定めた値を加算することで、特徴量情報（ｔ）各々の下限値及び上限値を更新する。その後ステップＳ１５５−０２へ進む。

（ステップＳ１５５−０５）前景領域抽出部１５５は、ステップＳ１５５−０３で決定した基本前景領域と、ＲＯＩ内に重心がある各領域と、の特徴量情報（ｔ）のうち奥行に関する平均値、または、中央値を比較して、これらの特徴量情報（ｔ）の差が予め定めた閾値以内（未満でもよい）であるか否かを判定する。前景領域抽出部１５５は、特徴量情報（ｔ）の差が予め定めた閾値以内であると判定した領域と、基本前景領域と、を統合し、統合した領域を前景領域に決定する。
ここで、前景領域抽出部１５５は、特徴量情報（ｔ）の差の閾値を、分布モデル推定部１５２より取得したＲＯＩ奥行分布情報（ｔ）に基づいて定める。具体的には、前景領域抽出部１５５は、次式（８）を用いて、特徴量情報（ｔ）の差の閾値（ＴＨ_Ｄ１）を算出する。

ここで、α＿１は、予め定めたスケーリング定数である。また、σ_１は、前景領域の奥行分布をガウス分布と仮定した場合の標準偏差である。

図４に戻って、前景領域補正部１５６は、前景領域抽出部１５５から入力された情報が示す時刻ｔ０（第１の時間）における前景画像領域（ｔ０）を、その時刻に近接する時刻ｔ０−ｋ（第２の時間）（ｋ＝１、２、・・・、Ｋ）の前景画像領域（ｔ０−ｋ）に基づいて、補正する。前景領域補正部１５６は、時刻が小さい方から大きい方へｔ０を、逐次この補正を繰り返す。前景領域補正部１５６は、補正後の前景画像領域（ｔ０）を示す情報（補正前景画像領情報）を、バッファ部１５８の前景領域情報記憶部１５８５に記憶する。また、前景領域補正部１５６は、補正後の前景画像領域（ｔ０）を示す情報（補正前景画像領情報）を、マスク情報生成部１５７に出力する。
以下、前景領域補正部１５６が行う補正について詳細を説明する。

図１２は、本実施形態に係る前景領域補正部１５６の構成を示す概略ブロック図である。この図において、前景領域補正部１５６は、移動量算出部１５６１、前景領域確率マップ生成部１５６２、前景領域確定部１５６３、及び境界領域補正部１５６４を含んで構成される。

移動量算出部１５６１には、前景領域抽出部１５５から時刻ｔ０を示す情報が入力される。移動量算出部１５６１は、時刻ｔ０から時刻ｔ０−Ｋの情報（映像情報（ｔ０−ｋ）、映像情報（ｔ０）、前景領域情報（ｔ０−ｋ）、前景領域情報（ｔ０）、ＲＯＩ情報（ｔ０−ｋ）、ＲＯＩ情報（ｔ０）、（ｋ＝１、２、・・・、Ｋ））をバッファ部１５８から読み出す。
移動量算出部１５６１は、読み出した映像情報（ｔ０−ｋ）、前景領域情報（ｔ０−ｋ）、及びＲＯＩ情報（ｔ０−ｋ）に基づいて、前景領域情報（ｔ０−ｋ）が示す前景領域画像（ｔ０−ｋ）について、処理画像（ｔ０）での位置から処理画像（ｔ０−ｋ）での位置を差し引いた移動量（ｔ０，ｔ０−ｋ）（動きベクトルともいう）を算出する。つまり、移動量（ｔ０，ｔ０−ｋ）は、前景領域画像（ｔ０−ｋ）が時刻ｔ０−ｋから時刻ｔ０までに移動した移動量を表す。具体的には、移動量算出部１５６１は、図１３に示すテンプレートマッチング（動き探索ともいう）処理を行うことで、移動量（ｔ０，ｔ０−ｋ）を算出する。

図１３は、本実施形態に係るテンプレートマッチングを説明する説明図である。この図において、横軸が時刻ｔであり、縦軸がｙ座標あり、横軸と縦軸に垂直な方向がｘ座標である。また、符号Ｉｋを付した画像は、時刻（ｔ０−ｋ）における処理画像を表す。また、符号Ｏｋを付した画像領域は、時刻（ｔ０−ｋ）における前景画像領域と、前景画像領域（対象物）を囲む外接矩形を表す。また、符号Ａｋを付した座標は、符号Ｏｋで表される前景領域を囲む外接矩形の始点位置の座標を表す。また符号Ｍｋを付した画像は、時刻（ｔ０−ｋ）における外接矩形内でのマスク情報（ｔ０−ｋ）が示す画像である。ここで、マスク情報（ｔ０−ｋ）は、外接矩形内で前景画像領域（図１３では白の部分）と背景画像領域（図１３では黒の部分）を識別する情報であり、前景領域情報（ｔ０−ｋ）が示す前景画像領域（ｔ０−ｋ）とそれ以外の外接矩形内の領域を背景画像領域（ｔ０−ｋ）とするものである。また、符号Ｖｋは、座標Ａｋから座標Ａ０へのベクトルである。このベクトルは、前景画像領域（ｔ０−ｋ）の移動量（ｔ０，ｔ０−ｋ）を表す。

移動量算出部１５６１は、前景画像領域Ｏｋをテンプレートとし、処理画像（ｔ０）上で、テンプレートを移動し（回転や、拡大・縮小をしてもよい）、テンプレートと最も類似性が高い領域（推定領域という）を検出する。移動量算出部１５６１は、検出した推定領域と、前景画像領域Ｏｋと、の座標の差を移動量（ｔ０，ｔ０−ｋ）として算出する。

具体的には、移動量算出部１５６１は、ＲＯＩ情報（ｔ０）が示すＲＯＩ領域の重心の座標（ｘ０、ｙ０）（探索初期座標という）を算出する。移動量算出部１５６１は、探索初期座標（ｘ０、ｙ０）を中心にスパイラルサーチを行うことで、推定領域を検出し、移動量（ｔ０，ｔ０−ｋ）を算出する。ここで、スパイラルサーチとは、前景画像領域（ｔ０）の存在する確率が高い座標（ここでは、前記探索初期座標）から、図１４に示すように、螺旋順に段々と範囲を広げるように座標を移動して、推定領域を探索する手法である。なお、移動量算出部１５６１は、予め定めた値より類似性が高い移動量を抽出した場合に、そこでスパイラルサーチを終了してもよい。これにより、移動量算出部１５６１は、計算量を削減できる。
移動量算出部１５６１は、螺旋順に選択した座標（選択座標という）を重心として、次式（９）を用いて類似度Ｒ_ＳＡＤを算出し、その値が最も小さい領域を推定領域に決定する。

ただし、Ｍ×Ｎ（図２の例では、Ｗ１×Ｌ１）はテンプレートの大きさを表し、（ｉ，ｊ）はテンプレート内の画素の座標を表し、Ｔ（ｉ，ｊ｜ｔ０−ｋ）は座標（ｉ，ｊ）の位置の画素値を表す。また、（ｄｘ，ｄｙ）は選択座標からＲＯＩ情報（ｔ０−ｋ）が示すＲＯＩ領域の重心を減算した値（オフセット値）であり、Ｉ（ｉ＋ｄｘ，ｊ＋ｄｙ｜ｔ０）は処理画像（ｔ０）における座標ｉ＋ｄｘ，ｊ＋ｄｙでの画素値を表す。また、式（９）は、絶対値をマンハッタン距離（Ｌ_１−距離、Ｌ_１−ノルム）で算出し、ｉとｊについて、その総和をとることを示す。
なお、色空間がＲＧＢの場合、Ｉ（ｘ，ｙ｜ｔ０）は、ＲＧＢ空間における各色成分の値、ｒ（ｘ，ｙ｜ｔ０）、ｇ（ｘ，ｙ｜ｔ０）、ｂ（ｘ，ｙ｜ｔ０）を用いて次式（１０）で表される。

移動量算出部１５６１は、算出した移動量（ｔ０，ｔ０−ｋ）を前景領域確率マップ生成部１５６２に出力する。
前景領域確率マップ生成部１５６２は、Ｋ個の移動量（ｔ０，ｔ０−ｋ）（ｋ＝１、２、・・・Ｋ）と前景領域情報（ｔ０−ｋ）、及び前景領域抽出部１５５より取得した時刻ｔ０の前景領域情報（ｔ０）とを用いて、処理画像（ｔ０）上の各座標（ｘ，ｙ）が前景画像領域に含まれる確率を表す確率Ｐ（ｘ，ｙ｜ｔ０）を算出する。具体的には、前景領域確率マップ生成部１５６２は、次式（１１）を用いて確率Ｐ（ｘ，ｙ｜ｔ０）を算出する。

ただし、ｗ_ｋは重み係数を表し、ｋ＝０からＫまでのｗ_ｋの総和は１である。また、ｄｘ_ｋ、ｄｙ_ｋは、それぞれ、移動量（ｔ,ｔ±ｋ）のｘ成分、ｙ成分を表す。また、Ｍ（ｘ，ｙ｜ｔ０−ｋ）は、処理画像（ｔ０−ｋ）の座標ｘ，ｙの画素が前景画像領域（ｔ０−ｋ）である場合には「１」、前景画像領域（ｔ０−ｋ）でない（背景画像領域である）場合には「０」となる値である。なお、重み係数ｗ_ｋは、例えば、式（１２）に示すようにｔ０からの時間距離に応じて設定してもよい。つまり、時刻ｔ０から離れた時刻の前景領域情報に関しては、重み係数の値を小さく設定する。

なお、処理画像（ｔ０）の全ての座標（ｘ，ｙ）についての確率Ｐ（ｘ，ｙ｜ｔ０）の集合を前景領域確率マップＰ（ｔ０）という。前景領域確率マップＰ（ｔ０）は、次式（１３）で表される。

ここで、Ｗは処理画像（ｔ０）の横方向のピクセル数、Ｈは処理画像（ｔ０）の縦方向のピクセル数を表す。

前景領域確率マップ生成部１５６２は、算出した前景領域確率マップＰ（ｔ０）に対して、次式（１４）を用いて、処理画像（ｔ０）の座標（ｘ，ｙ）の画素が前景画像領域であるか否かを示すＭ（ｘ，ｙ｜ｔ０）（前景領域情報）を算出する。

前景領域確率マップ生成部１５６２は、Ｐ（ｘ，ｙ｜ｔ０）が閾値Ｔｈ（ｘ，ｙ｜ｔ０）より大きい場合はＭ（ｘ，ｙ｜ｔ０）を「１」（前景画像領域）、Ｐ（ｘ，ｙ｜ｔ）が閾値Ｔｈ（ｘ，ｙ｜ｔ０）以下の場合はＭ（ｘ，ｙ｜ｔ０）を「０」（背景画像領域）とする。ここで、閾値Ｔｈ（ｘ，ｙ｜ｔ０）は、０〜１の値をとり、例えば、次式（１５）で表される。

ここで、Ｎ_Ｆは、前景領域確率マップを生成するために用いるフレーム数（画像数）であり（本実施形態ではＮ_Ｆ＝Ｋ）、Ｎ_F0は（１≦Ｎ_Ｆ０＜Ｎ_Ｆ−１）を満たす所定の値である。
前景領域確率マップ生成部１５６２は、算出した前景領域情報Ｍ（ｘ，ｙ｜ｔ０）を境界線補正部１５６４に出力する。

境界線補正部１５６４は、前景領域確率マップ生成部１５６２から入力された前景領域情報Ｍ（ｘ，ｙ｜ｔ０）が示す前景画像領域の輪郭に沿って、輪郭の補正処理を行う。具体的には、モルフォロジー画像処理のオープニング及びクロージングを行うことで、平滑化された輪郭（滑らかな輪郭）とする。

＜前景領域補正部１５６の動作について＞
以下、前景領域補正処理の動作の詳細について説明をする。
図１５は、本実施形態に係る前景領域補正処理の動作の一例を示すフローチャートである。

（ステップＳ２０７−０１）移動量算出部１５６１は、時刻ｔ０から時刻ｔ０−Ｋの情報（映像情報（ｔ０−ｋ）、映像情報（ｔ０）、前景領域情報（ｔ０−ｋ）、前景領域情報（ｔ０）、ＲＯＩ情報（ｔ０−ｋ）、ＲＯＩ情報（ｔ０））をバッファ部１５８から読み出す。前景領域確率マップ生成部１５６２は、時刻ｔ０から時刻ｔ０−Ｋの前景領域情報（ｔ０−ｋ）をバッファ部１５８から読み出す。その後、ステップＳ２０７−０２へ進む。

（ステップＳ２０７−０２）移動量算出部１５６１は、ステップＳ２０７−０１で読み出した情報に基づいて、前景画像領域（ｔ０−ｋ）の移動量（ｔ０，ｔ０−ｋ）を算出する。その後、ステップＳ２０７−０３へ進む。
（ステップＳ２０７−０３）移動量算出部１５６１は、時刻ｔ０−１から時刻ｔ０−Ｋまでの移動量（ｔ０，ｔ０−ｋ）を算出したか否か（未処理のバッファはないか）を判定する。時刻ｔ０−１から時刻ｔ０−Ｋまでの移動量（ｔ０，ｔ０−ｋ）を算出したと判定した場合（Ｙｅｓ）、ステップＳ２０７−０４へ進む。一方、移動量（ｔ０，ｔ０−ｋ）を算出していない時刻ｔ０−ｋがあると判定した場合（Ｙｅｓ）、ｋの値を変更し、ステップＳ２０７−０２へ戻る。

（ステップＳ２０７−０４）前景領域確率マップ生成部１５６２は、ステップＳ２０７−０２で算出された移動量（ｔ０，ｔ０−ｋ）（ｋ＝１、２、・・・Ｋ）と、ステップＳ２０７−０１で読み出した前景領域情報（ｔ０−ｋ）とを用いて、前景領域確率マップＰ（ｔ０）を算出する。その後、ステップＳ２０７−０５へ進む。
（ステップＳ２０７−０５）前景領域確率マップ生成部１５６２は、ステップＳ２０７−０４で算出した前景領域確率マップＰ（ｔ０）に対して、式（１３）を用いて、前景領域情報Ｍ（ｘ，ｙ｜ｔ０）を算出する。つまり、前景領域確率マップ生成部１５６２は、前景画像領域を前景領域情報Ｍ（ｘ，ｙ｜ｔ０）＝１の領域として抽出する。その後、ステップＳ２０８−０１へ進む。
（ステップＳ２０８−０１）境界線補正部１５６４は、ステップ前景領域情報Ｍ（ｘ，ｙ｜ｔ０）が示す前景画像領域の輪郭に沿って、輪郭の補正処理を行う。その後、動作を終了する。

図４に戻って、マスク情報生成部１５７は、前景領域補正部１５６から入力された情報が示す補正後の前景画像領域（ｔ）を表すマスクを生成する。なお、マスク情報生成部１５７は、マスクは前景画像領域以外の領域である背景領域を表すマスクを生成してもよい。マスク情報生成部１５７は、生成したマスク情報（ｔ）を出力する。

図４に戻って、バッファ部１５８の動作の詳細について説明をする。
バッファ部１５８は、時刻（ｔ０）における映像の前景領域抽出処理完了後に、以下の条件Ａを満たす時刻（ｔ）における各種データ（映像情報（ｔ）、前景画像領域（ｔ）を示す情報、奥行情報（ｔ）、ＲＯＩ情報（ｔ）等）を破棄し、時刻（ｔ０）における各種データ（映像情報（ｔ０）、前景画像領域（ｔ０）を示す情報、奥行情報（ｔ０）、ＲＯＩ情報（ｔ０）等）に更新する動作を行う記憶及び更新手段である。

＜条件Ａ＞
（１）時刻（ｔ０）と時刻（ｔ０−ｋ）との時間距離が最も離れている（過去、未来の時刻を問わない）時刻ｔの各種データ
（２）時刻（ｔ０）と時刻（ｔ０−ｋ）との形状特徴パラメータ（例えば、モーメント不変量）の類似性が最も小さい時刻ｔの各種データ

図１６は、本実施形態に係るバッファ部１５８の動作の一例を示すフローチャートである。
（ステップＳ１５８−０１）バッファ部１５８は、時刻（ｔ０）における各種情報を記憶するための空きバッファを検索する。その後、ステップＳ１５８−０２へ進む。
（ステップＳ１５８−０２）バッファ部１５８は、ステップＳ１５８で検索した結果、空きバッファがあるか否かを判定する。空きバッファがあると判定した場合（Ｙｅｓ）、ステップＳ１５８−０５へ進む。一方、空きバッファがないと判定した場合（Ｎｏ）、ステップＳ１５８−０３へ進む。

（ステップＳ１５８−０３）バッファ部１５８は、条件Ａを満たす情報が記憶されているバッファ（対象バッファという）を選択する。その後、ステップＳ１５８−０４へ進む。
（ステップＳ１５８−０４）バッファ部１５８は、ステップＳ１５８−０３で選択した対象バッファに格納されている各種データを破棄することで、対象バッファを空にする（記憶領域をクリアする）。その後、ステップＳ１５８−０５へ進む。
（ステップＳ１５８−０５）バッファ部１５８は、対象バッファへ時刻（ｔ）における各種データを格納し、バッファの更新制御を終了する。

＜オブジェクト抽出部１５の動作について＞
オブジェクト抽出部１５が行う動作について説明をする。
図１７は、本実施形態に係るオブジェクト抽出部１５の動作の一例を示すフローチャートである。

（ステップＳ２０１）オブジェクト抽出部１５は、各種データ（映像情報（ｔ）、奥行情報（ｔ）、ＲＯＩ情報（ｔ））を読み込む。具体的には、フィルタ部１５１ａ及びバッファ部１５８には映像情報（ｔ）、フィルタ部１５１ｂは奥行情報（ｔ）、分布モデル推定部１５２及びバッファ部１５８にはＲＯＩ情報（ｔ）が入力される。その後、ステップＳ２０２へ進む。
（ステップＳ２０２）オブジェクト抽出部１５は、ＲＯＩ情報（ｔ）に含まれる抽出対象フラグが有りを示すか、無しを示すかを判定することにより、抽出対象画像が有るか否かを判定する。抽出対象画像が有ると判定した場合（Ｙｅｓ）、ステップＳ２０３へ進む。一方、抽出対象画像が無いと判定した場合（Ｎｏ）、ステップＳ２１０へ進む。

（ステップＳ２０３）フィルタ部１５１ａは、ステップＳ２０１で入力された映像情報（ｔ）からノイズを除去し、平滑化処理を行う。フィルタ部１５１ｂは、ステップＳ２０１で入力された奥行情報（ｔ）からノイズを除去し、平滑化処理を行う。その後、ステップＳ２０４へ進む。
（ステップＳ２０４）分布モデル推定部１５２は、ステップＳ２０３で平滑化処理された奥行情報（ｔ）及びステップＳ２０１で入力されたＲＯＩ情報（ｔ）に基づいて、ＲＯＩ内のＲＯＩ奥行分布情報（ｔ）を推定する。その後、ステップＳ２０５へ進む。

（ステップＳ２０５）クラスタリング部１５３は、ステップＳ２０３で平滑化処理された映像情報（ｔ）に対してクラスタリングを行うことにより、処理画像（ｔ）をスーパーピクセルに分割する。クラスタリング部１５３は、スーパーピクセル毎に、ラベリング付けを行って、領域情報（ｔ）を生成する。その後、ステップＳ２０６へ進む。
（ステップＳ２０６）特徴量算出部１５４は、ステップＳ２０５で生成された領域情報（ｔ）、ステップＳ２０３で平滑化処理された映像情報（ｔ）、平滑化処理された奥行情報（ｔ）及びＲＯＩ情報（ｔ）に基づいて、領域（ラベル）毎の特徴量を算出する。その後、ステップＳ２０７へ進む。

（ステップＳ２０７）前景領域抽出部１５５は、ステップＳ２０１で入力されたＲＯＩ情報（ｔ）、ステップＳ２０４で推定されたＲＯＩ奥行分布情報（ｔ）、ステップＳ２０６で算出された特徴量情報（ｔ）に基づいて、映像情報（ｔ）から、抽出対象となる前景画像領域（ｔ）を抽出する（前景領域抽出処理）。前景領域抽出部１５５は、抽出した前景画像領域（ｔ）を示す前景領域情報（ｔ）を生成する。その後、ステップＳ２０８へ進む。
（ステップＳ２０８）前景領域補正部１５６は、ステップＳ２０７で抽出された前景領域（ｔ）について、時刻ｔ０における前景画像領域（ｔ０）を、その時刻に近接する時刻ｔ０−ｋ（ｋ＝１、２、・・・、Ｋ）の前景画像領域（ｔ０−ｋ）に基づいて、補正する（前景領域補正処理）。

（ステップＳ２０９）マスク情報生成部１５７は、ステップＳ２０８で補正した前景画像領域（ｔ０）を表すマスクを示すマスク情報を生成する。その後、ステップＳ２１０へ進む。
（ステップＳ２１０）マスク情報生成部１５７は、ステップＳ２０９で生成したマスク情報をマスク情報記憶部１６に記憶する。

図１８は、本実施形態に係る奥行情報（ｔ）の一例を示す概略図である。この図において、画像Ｄ１、Ｄ２、Ｄ３は、それぞれ奥行情報（ｔ１−２）、奥行情報（ｔ１−１）、奥行情報（ｔ１）を示す。画像Ｄ１、Ｄ２、Ｄ３において、色が同じ箇所は奥行が同じであることを示す。また、図１８では、色の明るい（淡い）画像部分は、色の暗い（濃い）画像部分と比較して奥行が小さい（手前に位置する）ことを示す。
なお、図１８の奥行情報（ｔ）は、ステレオカメラにより撮影した映像に対して、左眼カメラを基準に右眼カメラとの視差のずれ量をステレオマッチングにより取得したものでる。また、奥行情報Ｄ１〜Ｄ３において、鎖線で囲まれた画像の左部分（符号Ｕ１〜Ｕ３を付した部分）は、左眼カメラから見える映像と右眼カメラから見える映像が異なるため、視差のずれ量が求まらない不定領域である。

図１９は、本実施形態に係る前景領域確率マップＰ（ｔ０）の一例を示す概略図である。この図において、画像Ｐ１、Ｐ２、Ｐ３は、それぞれ前景領域確率マップＰ（ｔ１−２）、前景領域確率マップＰ（ｔ１−１）、前景領域確率マップＰ（ｔ１）を示す。この前景領域確率マップＰ（ｔ）は、ぞれぞれ、図１８の奥行情報（ｔ）に基づいて算出したものである。この図において、色の明るい（淡い）画像部分は、色の暗い（濃い）画像部分と比較して奥行が小さい（手前に位置する）可能性が高いことを示す。

図２０は、本実施形態に係る前景画像領域（ｔ）の一例の説明図である。この図において、画像Ｍ１ａ、Ｍ２ａ、Ｍ３ａは、それぞれ、本実施形態に係る前景領域補正部１５６による補正後の前景画像領域（ｔ１−２）、前景画像領域（ｔ１−１）、前景画像領域（ｔ１）である。画像Ｍ１ｂ、Ｍ２ｂ、Ｍ３ｂは、それぞれ、従来技術による前景画像領域（ｔ１−２）、前景画像領域（ｔ１−１）、前景画像領域（ｔ１）である。

図２０において、従来技術による画像Ｍ１ｂ、Ｍ２ｂ、Ｍ３ｂには、符号Ｅ１〜Ｅ６の符号を付した部分に、欠損部分や誤抽出部分が発生している。また、画像Ｍ１ｂ、Ｍ２ｂ、Ｍ３ｂを時間に沿って再生した場合、前景画像領域の欠損部分や誤抽出部分が画像毎に発生することによって、抽出形状（輪郭）の不連続性によるフリッカ、ちらつきが生じる。
一方、本実施形態による画像Ｍ１ａ、Ｍ２ａ、Ｍ３ａでは、前景画像領域の形状が平滑化（安定化）され、画像Ｍ１ｂ、Ｍ２ｂ、Ｍ３ｂと比較して、前景画像領域の欠損部分、誤抽出部分の発生が低減されている。これにより、本実施形態では、画像Ｍ１ａ、Ｍ２ａ、Ｍ３ａを時間に沿って再生した場合でも、抽出形状の不連続性によるフリッカ、ちらつきが生じることを抑制できる。

このように、本実施形態によれば、前景領域補正部１５６が、時刻ｔ０における前景領域情報（ｔ０）が示す前景画像領域（ｔ０）を、時刻ｔ０−ｋにおける前景領域情報（ｔ０−ｋ）及び映像情報（ｔ０−ｋ）を用いて補正する。これにより、映像処理装置１は、抽出形状の不連続性によるフリッカ、ちらつきが生じることを抑制でき、対象物の画像を確実に抽出できる。

また、本実施形態によれば、移動量算出部１５６１が、時刻ｔ０における映像情報（ｔ０）とＲＯＩ情報（ｔ０）、及び、時刻ｔ０−ｋおける映像情報（ｔ０−ｋ）と前景領域情報（ｔ０−ｋ）とＲＯＩ情報に基づいて、時刻ｔ０−ｋから時刻ｔ０の間に前景画像領域（ｔ０−ｋ）が移動した移動量を算出する、前景領域確率マップ生成部１５６２は、移動量算出部１５６１が算出した移動量と前景画像領域（ｔ０−ｋ）とに基づいて、時刻ｔ０における映像中の部分（各座標）が前景画像領域である前景領域確率マップＰ（ｔ０）を算出する。境界領域補正部１５６４は、前景画像確率マップ生成部１５６２が算出した前景領域確率マップＰ（ｔ０）に基づいて時刻ｔ０における前景領域情報（ｔ０）を抽出し、抽出した前景領域情報（ｔ０）が示す前景画像領域（ｔ０）を補正する。これにより、映像処理装置１は、抽出形状の不連続性によるフリッカ、ちらつきが生じることを抑制でき、対象物の画像を確実に抽出できる。

また、本実施形態によれば、フィルタ部１５１ａは、式（１）のバイラテラルフィルタを用いることにより、映像情報（ｔ）の画像各々を、エッジ成分が保持された骨格成分と、ノイズや模様を含むテクスチャ成分と、へ分離することができる。

また、本実施形態によれば、フィルタ部１５１ｂが奥行情報（ｔ）のノイズを除去し平滑化する。これにより、映像処理装置１では、分布モデル推定部１５２における奥行分布モデルの混合モデルの推定精度を向上できる。その結果、映像処理装置１では、前景領域抽出部１０５において、基本前景領域とＲＯＩ内の各領域の統合処理に用いる奥行に関する閾値を精度良く決定できる。

また、本実施形態によれば、映像処理装置１では、エッジ保持平滑化フィルタ後の骨格成分の画像に対して、クラスタリング部１５３においてクラスタリングを行う。これにより、映像処理装置１では、ノイズ、テクスチャに対して安定した（ロバストな）スーパーピクセル群を得ることができる。なお、スーパーピクセルとは、ある程度の大きな面積を持ち、かつ意味のある領域のことを表す。

また、本実施形態によれば、映像処理装置１では、ＲＯＩ情報を用いてＲＯＩ内の奥行分布モデルを混合モデルにより求めることで、より精度良く前景領域の奥行分布モデルを取得できる。その結果、前景領域抽出部１５５において、基本前景領域とＲＯＩ内の各領域の統合処理に用いる奥行に関する閾値を精度良く決定することが可能となる。

また、本実施形態によれば、前景領域補正部１５６による補正によって、時刻（ｔ０）における抽出対象画像領域の欠損部分、または抽出対象画領域の誤抽出部分を補正し時間方向に関する抽出画像形状（輪郭）の不連続性によるフリッカ、ちらつきを抑制できる。

また、本実施形態において、映像処理装置１では、映像情報（ｔ）におけるノイズを除去して平滑化処理を行う。これにより、映像処理装置１では、ノイズ、テクスチャ成分が起因による、領域面積が小さいスーパーピクセル群が発生することを抑制できる。

また、本実施形態において、移動量算出部１５６１がスパイラルサーチのような動き探索を用いることで、移動量（ｔ０,ｔ０−ｋ）を求めるのに必要な計算量を削減できる。また、移動量算出部１５６１は、類似度の算出時には、マスクＭｋ上の白部分（前景領域）のみを用いてもよい（図１３参照）。これにより、映像処理装置１では、背景領域を含んでテンプレートマッチングを行う場合よりも、移動量の探索誤りを防止でき、また、不要な計算を省略できる。なお、本実施形態では、過去の時刻（ｔ−ｋ）（ｋ＝１〜Ｋ）から時刻（ｔ）への前景領域の移動量を求める例を述べたが、未来の時刻（ｔ＋ｋ）（ｋ＝１〜Ｋ）から時刻（ｔ）への移動量を求めてもよい。

なお、上記実施形態におけるユーザ指定ＲＯＩ情報（ｔｓ）の検出処理では、長方形（四角形）の選択ツールを用いた場合について説明をした。しかし、本発明はこれに限らず、他の選択ツールを用いてもよい。例えば、図２１、２２に示す選択ツールを用いてもよい。

図２１は、本実施形態に係るユーザ指定ＲＯＩ情報（ｔｓ）の検出処理の別の一例を示す概略図である。図２１は、楕円（円）の選択ツールを用いた場合の図である。この図において、符号ｒ２を付した枠（対象物Ｏの外接円；外接円には楕円も含まれる）の位置情報がユーザ指定ＲＯＩ情報（ｔｓ）である。具体的には、図２１の場合に、ユーザ指定ＲＯＩ情報（ｔｓ）は、例えば、以下の表２のデータとして記録される。

表２では、ユーザ指定ＲＯＩ情報（ｔｓ）は、時刻ｔｓ（又は、フレーム番号でもよい）、外接円内に抽出対象画像が有るか無いかを示す有無フラグ（抽出対象フラグ）、外接円の中心位置（ｘ０，ｙ０）（図２１では点Ｐ２の座標）、外接円の短軸方向（図２１では符号Ｄ２１を付したベクトルの方向）及び短辺の長さ（図２では符号Ｗ２で表す長さ）、外接円の長軸方向（図２１では符号Ｄ２２を付したベクトルの方向）及び長辺の長さ（図２１では符号Ｌ２で表す長さ）で、表される。

図２２は、本実施形態に係るユーザ指定ＲＯＩ情報（ｔｓ）の検出処理の別の一例を示す概略図である。図２２は、フリーハンドの選択ツールを用いた場合の図である。この図において、符号ｒ３を付した枠（対象物Ｏの外接形状）の位置情報がユーザ指定ＲＯＩ情報（ｔｓ）である。具体的には、図２２の場合に、ユーザ指定ＲＯＩ情報（ｔｓ）は、例えば、以下の表３のデータとして記録される。

表３では、ユーザ指定ＲＯＩ情報（ｔｓ）は、時刻ｔｓ（又は、フレーム番号でもよい）、外接形状内に抽出対象画像が有るか無いかを示す有無フラグ（抽出対象フラグ）、外接形状の始点位置（ｘ０，ｙ０）（ユーザが外接形状の入力を始めた点の位置）（図２２では点Ｐ３の座標）、始点位置から時計周り（又は反時計周りでもよい）に外接形状の縁上の点を表したチェインコードで、表される。なお、チェインコードとは、ある点Ａに対して隣接する点Ｂの位置を数値化し、さらに、その隣接する点Ｂに対して隣接する点Ｃ（点Ａではない点）の位置を数値化する、ことを繰り返し、それらの数値の結合によって、線を表すものである。

また、上記実施形態において、処理画像単位毎に、ＲＯＩ取得部１３より得られたＲＯＩ情報（ｔ）を利用し、抽出対象となる画像領域を囲むＲＯＩの形状を、処理画像（ｔ）に重畳し、抽出対象の画像領域が選択されていることをユーザに提示してもよい。また、現在表示されている処理画像（ｔ）のフレーム番号、時刻情報をユーザに提示してもよい。

また、上記実施形態において、前景領域補正部１５６がある時刻ｔ０の前景画像領域（ｔ０）に対して前の時刻ｔ０−ｋの前景画像領域（ｔ０−ｋ）を用いる場合について説明したが、本発明はこれに限られない。例えば、ある時刻ｔ０より後の時刻ｔ０＋ｋの前景画像領域（ｔ０＋ｋ）のみを用いてもよいし、ある時刻ｔ０の前後の時刻ｔ０±ｋの前景画像領域（ｔ０±ｋ）のみを用いてもよい。また、ｋ＝１であってもよい。

また、上記実施形態において、奥行情報（ｔ）は、映像情報（ｔ）の１画素に対して１個の情報でなくてもよく、隣接する複数の画素に対して１個の情報であってもよい。つまり、奥行情報（ｔ）が表す解像度は映像情報（ｔ）の解像度と異なっていてもよい。
また、奥行情報（ｔ）は、例えば、近接する複数の撮像装置で被写体を撮像し、撮像した複数の映像情報から被写体の位置等のズレを検出して奥行きを算出するステレオマッチングによって、算出された情報である。ただし、奥行情報（ｔ）は、ステレオマッチング等のパッシブステレオ方式によって算出された情報に限られず、ＴＯＦ（Ｔｉｍｅ−Ｏｆ−Ｆｌｉｇｈｔ）法等の光を利用した能動的３次元計測器（レンジファインダ）によって取得した情報であってもよい。

また、上記実施形態において、映像表示部１４はタッチパネル型のディスプレイである場合について説明したが、本発明はこれに限らず、他の入力手段であってもよいし、映像処理装置１が映像表示部１４とは別に入力部（例えば、マウス等のポインティングデバイス）を備えてもよい。

また、上記実施形態において、ＲＯＩ取得部１３は、例えば、以下の（１）〜（５）の手法のいずれかを用いて、ＲＯＩ情報（ｔ）を抽出してもよい。
（１）Ｈａｒｒｉｓｃｏｒｎｅｒｄｅｔｅｃｔｏｒ
（２）ＦＡＳＴｃｏｎｒｎｅｒｄｅｔｅｃｔｉｏｎ
（３）ＳＵＳＡＮ（ＳｍａｌｌｅｓｔＵｎｉｖａｌｕｅＳｅｇｍｅｎｔＡｓｓｉｍｉｌａｔｉｎｇＮｕｃｌｅｕｓ）ｃｏｒｎｅｒｄｅｔｅｃｔｏｒ
（４）ＳＵＲＦ（ｓｐｅｅｄｕｐｒｏｂｕｓｔｆｅａｔｕｒｅｓ）
（５）ＳＩＦＴ（Ｓｃａｌｅ−ｉｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ）

また、上記実施形態において、ＲＯＩ取得部１３が特徴点を用いてＲＯＩ情報（ｔ）を抽出する場合について説明したが、本発明はこれに限らず、例えば、ユーザの指定領域の色情報の分布に基づき、パーティクルフィルタやＭｅａｎ−ｓｈｉｆｔによってＲＯＩ情報（ｔ）を抽出してもよい。また、例えば、ＲＯＩ取得部１３は、公知の動き探索を用いて、ＲＯＩ情報（ｔ）を抽出してもよい。

また、上記実施形態において、フィルタ部１５１ａ、１５１ｂがバイラテラルフィルタを用いる場合について説明したが、本発明はこれに限らず、フィルタ部１５１ａ、１５１ｂは他のフィルタ、例えば、ＴＶ（ＴｏｔａｌＶａｒｉａｔｉｏｎ）フィルタ、ｋ最近隣平均化フィルタ（ｋ−ｎｅａｒｅｓｔｎｅｉｇｈｂｏｒａｖｅｒａｇｉｎｇｆｉｌｔｅｒ）、メディアンフィルタ、エッジ強度が小さい平坦部のみにローパスフィルタを用いてもよい。
また、上記実施形態において、フィルタ部１５１ａ、１５１ｂは、エッジ平滑化フィルタは再帰的に行ってもよい。
また、上記実施形態において、映像処理装置１は、映像情報（ｔ）、奥行情報（ｔ）に対するエッジ保持平滑化フィルタ処理を、オブジェクト抽出部１５に入力する前に行ってもよい。

また、上記実施形態において、分布モデル推定部１５２が混合モデルに用いる分布モデルとしてガウス分布を用いる場合について説明したが、本発明はこれに限らず、例えば、指数型分布族（ラプラス分布、ベータ分布、ベルヌーイ分布など）を用いてもよい。また、分布モデル推定部１５２は、混合モデルに用いるクラス数Ｋｃを予め定めた値としてもよいし、次の一例のように値を決定してもよい。
分布モデル推定部１５２は、クラス数Ｋｃに予め定めたクラス数Ｋｃ’を設定し、Ｋ-ｍｅａｎｓ法により、クラスタリングを行う。その後、分布モデル推定部１５２は、クラス間距離が所定閾値以下または未満を満たすクラスＣｉとクラスＣｊがある場合は、クラスＣｉとクラスＣｊとを併合して、新たなクラスＣｋ’とする処理を行う。分布モデル推定部１５２は、この処理を、クラス数が一定値へ収束するまで繰り返すことにより、クラス数Ｋｃ（≦Ｋｃ’）を決定する。
なお、分布モデル推定部１５２が奥行分布モデルの推定に用いる手法は、混合モデルなどのパラメトリックの推定手法に限定されず、Ｍｅａｎ−ｓｈｉｆｔ法などのノンパラメトリックの推定手法であってもよい。

また、上記実施形態において、クラスタリング部１５３が特徴量空間でのクラスタリングを行う場合について説明したが、本発明はこれに限らず、画像空間でのクラスタリングを行ってもよい。画像空間でのクラスタリングとは、特徴量空間に写像せず、元の画像空間において、画素間、または領域を構成する画素群（領域）間の類似度を基に、領域分割を実施する手法である。例えば、クラスタリング部１５３は、以下の手法の画像空間でのクラスタリングを行ってもよい。
（ａ）画素結合法
例えば、クラスタリング部１５３は、ピクセル間の連結関係を重み付無向グラフで表し、頂点が全域最小木を構成するように連結関係を表すエッジの強度によって領域統合を行う。
（ｂ）領域成長法（ＲｅｇｉｏｎＧｒｏｗｉｎｇ法ともいう）
（ｃ）領域分割統合法（Ｓｐｌｉｔ＆Ｍｅｒｇｅ法ともいう）
（ｄ）（ａ）、（ｂ）、（ｃ）のいずれかを組み合わせた手法
なお、クラスタリング部１５３は、画像空間でのクラスタリング処理の終了後、ラベリング付けを行い、ラベリング結果を表す領域情報（ｔ）を生成する。

また、上記実施形態において、移動量算出部１５６１が類似度Ｒ_ＳＡＤ（式（９））を算出し（ＳＡＤ（ＳｕｍｏｆＡｂｓｏｌｕｔｅＤｉｆｆｅｒｅｎｃｅ））、その値が最も小さい領域を推定領域に決定したが、本発明はこれに限らず、例えば、（１）〜（３）に示す他の手法を用いて推定領域を決定してもよい。

（１）ＳＳＤ（ＳｕｍｏｆＳｑｕａｒｅｄＤｉｆｆｅｒｅｎｃｅ）
移動量算出部１５６１は、各画像間で対応する画素の値の差の絶対値をユークリッド距離（Ｌ_２−距離、Ｌ_２−ノルム）で算出し、その総和Ｒ_ＳＤＤ（次式（１６））の値が最も小さい領域を推定領域に決定する。

ここで、式（１６）は、絶対値をユークリッド距離（Ｌ_２−距離、Ｌ_２−ノルム）で算出し、ｉとｊについて、その総和をとることを示す。

（２）ＮＣＣ（ＮｏｒｍａｌｉｚｅｄＣｒｏｓｓ−Ｃｏｒｒｅｌａｔｉｏｎ）
正規化相互相関とも称す。移動量算出部１５６１は、次式（１７）のＲ_ＮＣＣの値が最も１に近い領域を推定領域に決定する。

（３）ＣＣＣ（Ｃｒｏｓｓ−ＣｏｒｒｅｌａｔｉｏｎＣｏｅｆｆｉｃｉｅｎｔ）
相互相関係数ともいう。移動量算出部１５６１は、次式（１８）のＲ_ＣＣＣの値が最も１に近い領域を推定領域に決定する。なお、式(１８)中のアイバー（「Ｉ」（アイ）の上に「−」（バー））及びティーバー（「Ｔ」（ティー）の上に「−」（バー））は、それぞれが示す領域内の画素値の平均ベクトルを表す。

なお、移動量算出部１５６１の演算量は、式（９）、（１６）、（１７）、（１８）の順で大きくなる。なお、移動量算出部１５６１は上記のスパイラルサーチに代えて、階層的探索法（多重解像度法、疎密探索法（ｃｏａｒｓｅ−ｔｏ−ｆｉｎｅｓｅａｒｃｈ）ともいう）を用いて、移動量を算出してもよい。

また、上記実施形態において、クラスタリング部１５３は、ＲＯＩ取得部１３より得られるＲＯＩ情報（ｔ）に基づいて、ＲＯＩ内の画像に関してクラスタリングを行なってもよい。これにより、クラスタリング部１５３は、演算理を削減させることができる。また、クラスタリング部１５３は、ＲＯＩ情報に基づいて、対象画像領域よりも広い領域に対して、クラスタリングを行なってもよい。これにより、クラスタリング部１５３は、ＲＯＩ内の画像に関してクラスタリングを行なう場合に比べて、クラスタリングの精度を向上させることができる。

また、上記実施形態において、領域統合部１５３４は、領域統合の判定時に、ＲＯＩ内に重心がある領域に関して、領域の一部がＲＯＩの境界を越えるか否か、領域特徴量（ｔ）の外接矩形を用いて判定してもよい。これにより、映像処理装置１は、背景領域を前景領域として誤抽出することを低減させることができる。また、領域統合部１５３４は、基本前景領域の特徴量を用いる代わりに、領域間の隣接関係を用いて領域統合の判定を行なってもよい。例えば、領域統合部１５３４は、既に前景領域であると判定した領域の特徴量を用いて、既に前景領域であると判定した領域に隣接する領域との領域統合の判定を行なってもよい。これにより、映像処理装置１では、より精度良く前景領域を抽出することが可能となる。

なお、上述した実施形態における映像処理装置１の一部をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、映像処理装置１に内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
また、上述した実施形態における映像処理装置１の一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現しても良い。映像処理装置１の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化しても良い。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いても良い。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

１・・・映像処理装置、１０・・・映像情報取得部、１１・・・奥行情報取得部、１２・・・映像情報再生部、１３・・・ＲＯＩ取得部、１４・・・映像表示部、１５・・・オブジェクト抽出部、１６・・・マスク情報記録部、１５１ａ、１５１ｂ・・・フィルタ部、１５２・・・分布モデル推定部、１５３・・・クラスタリング部、１５４・・・特徴量算出部、１５５・・・前景領域抽出部、１５６・・・前景領域補正部、１５７・・・マスク情報生成部、１５８・・・バッファ部、１５３１・・・特徴量検出部、１５３２・・・シード生成部、１５３３・・・領域成長部、１５３４・・・領域統合部、１５６１・・・移動量算出部、１５６２・・・前景領域確率マップ生成部、１５６３・・・補正前景領域確定部、１５６４・・・境界領域補正部

（１）本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、映像情報が示す映像から前景の画像を示す前景領域情報を抽出する映像処理装置であって、前記映像情報、対象画像領域を示すＲＯＩ情報、及び奥行情報を用いて、前記前景領域情報を生成する抽出部と、前記抽出部が生成した第１の時間における前景領域情報及び１又は複数の第２の時間における前景領域情報と、映像情報と、を用いて、前記第１の時間における前景領域情報を補正する前景領域補正部とを備えることを特徴とする映像処理装置である。

（２）また、本発明の一態様は、上記の映像処理装置において、前記映像情報が示す映像には、予め定められた対象物の画像が含まれ、前記前景領域補正部は、第１の時間における、映像情報と前記対象物の画像を示す対象画像領域情報と前記抽出部が生成した前景領域情報、及び、第２の時間における、映像情報と前記抽出部が生成した前景領域情報と対象画像領域情報に基づいて、第１の時間における前景の画像の位置と第２の時間における前景の画像の位置を推定し、第２の時間から第１の時間の間に前記前景の画像が移動した移動量を算出する移動量算出部と、前記抽出部が生成した第１の時間における前景領域情報と、前記移動量算出部が算出した移動量と、前記抽出部が生成した第２の時間における前景領域情報とに基づいて、第１の時間における映像中の部分が前景の画像である確率を算出する前景領域確率マップ生成部と、前記前景画像確率マップ生成部が算出した確率に基づいて第１の時間における前景領域情報を確定する前景領域確定部と、前記前景領域確定部が確定した前景領域情報の示す前景と背景の境界を平滑化する境界領域補正部とを備えることを特徴とする。

（３）また、本発明の一態様は、上記の映像処理装置において、前景領域確率マップ生成部は、第１の時間と第２の時間と差である時間距離に応じた重みであって、前記時間距離が大きいほど値の小さな重みに基づいて、前記確率を算出することを特徴とする。

（４）また、本発明の一態様は、上記の映像処理装置において、前記抽出部は、前記映像情報が示す映像を小領域に分割するクラスタリング部と、前記クラスタリング部が分割した小領域毎の特徴量を算出する特徴量算出部と、前記ＲＯＩ情報、及び前記奥行情報を用いて、前記ＲＯＩ情報が示す対象画像領域内の奥行の分布を示すＲＯＩ奥行情報を推定する分布モデル推定部と、前記特徴量算出部が算出した小領域の特徴量、及び、前記分布モデル推定部が推定したＲＯＩ奥行情報に基づいて、前記小領域が前記前景の画像の領域であるか否かを判定することで、前記前景領域情報を生成する前景領域抽出部とを備えることを特徴とする。

（５）また、本発明の一態様は、映像情報が示す映像から前景の画像を示す前景領域情報を抽出する映像処理装置における映像処理方法であって、抽出部が、前記映像情報、対象画像領域を示すＲＯＩ情報、及び奥行情報を用いて、前記前景領域情報を生成する抽出ステップと、前景領域補正部が、前記抽出ステップで生成した第１の時間における前景領域情報及び１又は複数の第２の時間における前景領域情報と、映像情報と、を用いて、前記第１の時間における前景領域情報を補正する前景領域補正ステップとを有することを特徴とする映像処理方法である。

（６）また、本発明の一態様は、映像情報が示す映像から前景の画像を示す前景領域情報を抽出する映像処理装置のコンピュータに、前記映像情報、対象画像領域を示すＲＯＩ情報、及び奥行情報を用いて、前記前景領域情報を生成する抽出手順、前記抽出手順で生成した第１の時間における前景領域情報及び１又は複数の第２の時間における前景領域情報と、映像情報と、を用いて、前記第１の時間における前景領域情報を補正する前景領域補正手順、を実行させるための映像処理プログラムである。

Claims

映像情報が示す映像から前景の画像を示す前景領域情報を抽出する映像処理装置であって、
第１の時間における前景領域情報が示す前景の画像を、第２の時間における前景領域情報及び映像情報を用いて補正する前景領域補正部を備えることを特徴とする映像処理装置。
前景領域補正部は、第１の時間における前景領域情報が示す前景画像を、複数の第２の時間における前景領域情報及び映像情報を用いて補正することを特徴とする請求項１に記載の映像処理装置。
前記映像情報が示す映像には、予め定められた対象物の画像が含まれ、
前景領域補正部は、
第１の時間における、映像情報と前記対象物の画像を示す対象画像領域情報、及び、第２の時間における、映像情報と前景領域情報と対象画像領域情報に基づいて、第２の時間から第１の時間の間に前記前景の画像が移動した移動量を算出する移動量算出部と、
前記移動量算出部が算出した移動量と前記前景の画像とに基づいて、第１の時間における映像中の部分が前景の画像である確率を算出する前景領域確率マップ生成部と、
前記前景画像確率マップ生成部が算出した確率に基づいて第１の時間における前景領域情報を抽出し、抽出した前景領域情報が示す前景の画像を補正する補正部と、
を備えることを特徴とする請求項１又は２に記載の映像処理装置。
映像情報が示す映像から前景の画像を示す前景領域情報を抽出する映像処理装置における映像処理方法であって、
前景領域補正部が、第１の時間における前景領域情報が示す前景の画像を、第２の時間における前景領域情報及び映像情報を用いて補正する前景領域補正ステップを有することを特徴とする映像処理方法。
前記映像情報が示す映像には、予め定められた対象物の画像が含まれ、
前景領域補正ステップは、
移動量算出部が、第１の時間における、映像情報と前記対象物の画像を示す対象画像領域情報、及び、第２の時間における、映像情報と前景領域情報と対象画像領域情報に基づいて、第２の時間から第１の時間の間に前記前景の画像が移動した移動量を算出する移動量算出ステップと、
前景領域確率マップ生成部が、前記移動量算出ステップで算出した移動量と前記前景の画像とに基づいて、第１の時間における映像中の部分が前景の画像である確率を算出する前景領域確率マップ生成ステップと、
補正部が、前記前景画像確率マップ生成ステップで算出した確率に基づいて第１の時間における前景領域情報を抽出し、抽出した前景領域情報が示す前景の画像を補正する補正ステップと、
を有することを特徴とする請求項４に記載の映像処理装置。
映像情報が示す映像から前景の画像を示す前景領域情報を抽出する映像処理装置のコンピュータに、
第１の時間における前景領域情報が示す前景の画像を、第２の時間における前景領域情報及び映像情報を用いて補正する前景領域補正手順を実行させるための映像処理プログラム。
前記映像情報が示す映像には、予め定められた対象物の画像が含まれ、
前景領域補正手順は、
第１の時間における、映像情報と前記対象物の画像を示す対象画像領域情報、及び、第２の時間における、映像情報と前景領域情報と対象画像領域情報に基づいて、第２の時間から第１の時間の間に前記前景の画像が移動した移動量を算出する移動量算出手順、
前記移動量算出手順で算出した移動量と前記前景の画像とに基づいて、第１の時間における映像中の部分が前景の画像である確率を算出する前景領域確率マップ生成手順、
前記前景画像確率マップ生成手順が算出した確率に基づいて第１の時間における前景領域情報を抽出し、抽出した前景領域情報が示す前景の画像を補正する補正手順、
を実行させるための映像処理プログラム。