JP2012085233A - 映像処理装置、映像処理方法、及びプログラム - Google Patents

映像処理装置、映像処理方法、及びプログラム Download PDF

Info

Publication number
JP2012085233A
JP2012085233A JP2010231928A JP2010231928A JP2012085233A JP 2012085233 A JP2012085233 A JP 2012085233A JP 2010231928 A JP2010231928 A JP 2010231928A JP 2010231928 A JP2010231928 A JP 2010231928A JP 2012085233 A JP2012085233 A JP 2012085233A
Authority
JP
Japan
Prior art keywords
information
foreground
video
image
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010231928A
Other languages
English (en)
Other versions
JP5036084B2 (ja
Inventor
Kenji Tsukuba
健史 筑波
Masahiro Shioi
正宏 塩井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2010231928A priority Critical patent/JP5036084B2/ja
Priority to PCT/JP2011/073639 priority patent/WO2012050185A1/ja
Publication of JP2012085233A publication Critical patent/JP2012085233A/ja
Application granted granted Critical
Publication of JP5036084B2 publication Critical patent/JP5036084B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)

Abstract

【課題】対象物の画像を確実に抽出できること。
【解決手段】前景領域補正部156は、映像情報が示す映像から前景の画像を示す前景領域情報を抽出する映像処理装置であって、第1の時間における前景領域情報が示す前景画像を、第2の時間における前景領域情報及び映像情報を用いて補正する。
【選択図】図4

Description

本発明は、映像処理装置、映像処理方法、及びプログラムに関する。
近年、デジタルビデオカメラ、デジタルスチルカメラ、携帯電話など撮像機能付き端末が急速に普及している。また、これらのカメラによって撮影された映像に対して、加工や処理を施し、新たな映像を生成する装置がある。例えば、映像中の特定の画像領域を抽出し、抽出した画像領域を部品として映像の加工に利用することや、映像を個々の画像領域毎に抽出し、抽出した映像を元の映像の管理や検索に利用することが知られている。
具体的には、映像中から所望の画像領域を抽出する手法として次の(1)、(2)の手法が知られている。
(1)色情報に基づく前景画像領域の抽出手法
色情報に基づく前景画像領域の抽出手法として、例えば、クロマキー処理、非特許文献1、2、3記載の技術が知られている。
クロマキー処理とは、一定色(例えば、青色)を背景として対象物を撮影し、撮影した映像から一定色の背景部分を除くことによって、所望の対象物(前景領域)を抽出する処理である。この処理により、映像を前景画像領域の映像と背景画像領域の映像に分離する。
非特許文献1には、グレー画像を対象に、所望の画像領域(前景画像領域)に前景領域を表すマーカー、及びそれ以外の領域(背景画像領域)に背景領域を表すマーカーを、予めユーザが付け、その前景画像領域と背景画像領域に付与されたマーカーを基に、グラフカット(Graph Cuts)により前景画像領域を抽出する技術が記載されている。特許文献2には、カラー画像に対して、グラフカット(Graph Cuts)を応用し、前景画像領域を抽出する技術が記載されている。
非特許文献3には、前景画像領域、背景画像領域、及び未知画像領域(前景画像領域、背景画像領域のどちらかに属するか未決定の画像領域)の3つのマーカーを用いてマップ(トライマップと呼ばれる)を予め作成し、未知領域における前景画像領域の画素、背景画像領域の画素の混合率α(マット)を推定することで、前景画像領域を抽出する技術が記載されている。
(2)色情報と奥行情報とに基づく前景画像領域の抽出手法
色情報と奥行情報に基づく前景画像領域の抽出手法として、例えば、特許文献1、2記載の技術が知られている。
特許文献1には、カメラから被写体までの奥行情報の画像(距離画像)に基づいてトライマップを作成し、色情報を利用して未知領域における前景画像領域の画素、背景画像領域の画素の混合率αを推定し、前景画像領域を抽出する技術が記載されている。
特許文献2には、カメラから被写体までの奥行情報から前景画像領域を粗く抽出し、その後、色情報を基に領域分割統合法を再帰的に繰り返し、前景画像領域を抽出する技術が記載されている。
特開2010−16546号公報 特開2009−276294号公報
Y. Boykov, M. Jolly, "Interactive graph cuts for optimal boundary and region segmentation of objects in N-D images", ICCV, 2001 C. Rother, V. Kolmogorov, A. Blake, "Grabcut - interactive foreground extraction using iterated graph cuts", SIGGRAPH, 2004 C. Rhemann, C. Rother, A. Rav-Acha, T. Sharp, "High Resolution Matting via Interactive Trimap Segmentation", CVPR, 2008
しかしながら、従来技術であるクロマキー処理では、対象物(前景領域)が背景の一定色又は類似色を含む場合に、その領域が背景画像領域であると判定される、つまり、確実に対象物を抽出できないという欠点があった。また、クロマキー処理では、一定色の背景でない場合に、背景画像領域の一定色でない部分が対象物として抽出される、つまり、対象物を確実に抽出できないという欠点があった。
非特許文献1−3、特許文献1、2記載の従来技術では、対象物と背景領域の色分布が類似である場合や、対象物と背景領域とが類似した模様(テクスチャ)を有する場合に、領域の境界を特定できずに対象物に欠損部分が生じる。また、この場合には、背景領域を対象物として誤抽出することもある。つまり、従来技術では、対象物を確実に抽出できないという欠点があった。なお、対象物に欠損部分や背景画像領域の誤抽出部分があるとき、動画の映像の場合には、対象物の抽出形状が時間方向に不連続となることによって、対象物の画像にフリッカやちらつきが生じてしまう。
本発明は上記の点に鑑みてなされたものであり、対象物の画像を確実に抽出できる映像処理装置、映像処理方法、及びプログラムを提供する。
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、映像情報が示す映像から前景の画像を示す前景領域情報を抽出する映像処理装置であって、第1の時間における前景領域情報が示す前景の画像を、第2の時間における前景領域情報及び映像情報を用いて補正する前景領域補正部を備えることを特徴とする映像処理装置である。
(2)また、本発明の一態様は、上記の映像処理装置において、前景領域補正部は、第1の時間における前景領域情報が示す前景の画像を、複数の第2の時間における前景領域情報及び映像情報を用いて補正することを特徴とする。
(3)また、本発明の一態様は、上記の映像処理装置において、前記映像情報が示す映像には、予め定められた対象物の画像が含まれ、前景領域補正部は、第1の時間における、映像情報と前記対象物の画像を示す対象画像領域情報、及び、第2の時間における、映像情報と前景領域情報と対象画像領域情報に基づいて、第2の時間から第1の時間の間に前記前景の画像が移動した移動量を算出する移動量算出部と、前記移動量算出部が算出した移動量と前記前景の画像とに基づいて、第1の時間における映像中の部分が前景の画像である確率を算出する前景領域確率マップ生成部と、前記前景画像確率マップ生成部が算出した確率に基づいて第1の時間における前景領域情報を抽出し、抽出した前景領域情報が示す前景の画像を補正する補正部と、を備えることを特徴とする。
(4)また、本発明の一態様は、映像情報が示す映像から前景の画像を示す前景領域情報を抽出する映像処理装置における映像処理方法であって、前景領域補正部が、第1の時間における前景領域情報が示す前景の画像を、第2の時間における前景領域情報及び映像情報を用いて補正する前景領域補正ステップを有することを特徴とする映像処理方法である。
(5)また、本発明の一態様は、上記の映像処理方法において、前記映像情報が示す映像には、予め定められた対象物の画像が含まれ、前景領域補正ステップは、移動量算出部が、第1の時間における、映像情報と前記対象物の画像を示す対象画像領域情報、及び、第2の時間における、映像情報と前景領域情報と対象画像領域情報に基づいて、第2の時間から第1の時間の間に前記前景の画像が移動した移動量を算出する移動量算出ステップと、前景領域確率マップ生成部が、前記移動量算出ステップで算出した移動量と前記前景の画像とに基づいて、第1の時間における映像中の部分が前景の画像である確率を算出する前景領域確率マップ生成ステップと、補正部が、前記前景画像確率マップ生成ステップで算出した確率に基づいて第1の時間における前景領域情報を抽出し、抽出した前景領域情報が示す前景の画像を補正する補正ステップと、を有することを特徴とする。
(6)また、本発明の一態様は、映像情報が示す映像から前景の画像を示す前景領域情報を抽出する映像処理装置のコンピュータに、第1の時間における前景領域情報が示す前景の画像を、第2の時間における前景領域情報及び映像情報を用いて補正する前景領域補正手順を実行させるための映像処理プログラムである。
(7)また、本発明の一態様は、上記の映像処理プログラムにおいて、前記映像情報が示す映像には、予め定められた対象物の画像が含まれ、前景領域補正手順は、第1の時間における、映像情報と前記対象物の画像を示す対象画像領域情報、及び、第2の時間における、映像情報と前景領域情報と対象画像領域情報に基づいて、第2の時間から第1の時間の間に前記前景の画像が移動した移動量を算出する移動量算出手順、前記移動量算出手順で算出した移動量と前記前景の画像とに基づいて、第1の時間における映像中の部分が前景の画像である確率を算出する前景領域確率マップ生成手順、前記前景画像確率マップ生成手順が算出した確率に基づいて第1の時間における前景領域情報を抽出し、抽出した前景領域情報が示す前景の画像を補正する補正手順、を実行させるための映像処理プログラムである。
本発明によれば、前景画像領域又は背景画像領域を確実に抽出できる。
本発明の実施形態に係る映像処理装置1の構成を表すブロック図である。 本実施形態に係るユーザ指定ROI情報の検出処理の一例を示す概略図である。 本実施形態に係る映像処理装置の動作の一例を示すフローチャートである。 本実施形態に係るオブジェクト抽出部の構成を示す概略ブロック図である。 本実施形態に係るクラスタリング部の構成を示す概略ブロック図である。 本実施形態に係るクラスタリング部の処理結果の一例を示す概略図である。 本実施形態に係る特徴量算出部の動作の一例を表すフローチャートである。 本実施形態に係るラベリング(領域情報)の一例を表す概略図である。 領域間の接続関係を重みなし無向グラフ、及び隣接行列による表現の一例を表す概略図である。 本実施形態に係る領域の周囲長の取得方法、及び領域の外接矩形の一例を示す概略図である。 本実施形態に係る前景領域抽出部の動作の一例を示すフローチャートである。 本実施形態に係る前景領域補正部の構成を示す概略ブロック図である。 本実施形態に係るテンプレートマッチングを説明する説明図である。 本実施形態に係るスパイラルサーチを説明する説明図である。 本実施形態に係る前景領域補正部の動作の一例を示すフローチャートである。 本実施形態に係るバッファ部の動作の一例を示すフローチャートである。 本実施形態に係るオブジェクト抽出部の動作の一例を示すフローチャートである。 本実施形態に係る奥行情報の一例を示す概略図である。 本実施形態に係る前景領域確率マップPの一例を示す概略図である。 本実施形態に係る前景画像領域の一例の説明図である。 本実施形態に係るユーザ指定ROI情報の検出処理の別の一例を示す概略図である。 本実施形態に係るユーザ指定ROI情報の検出処理の別の一例を示す概略図である。
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図1は、本発明の実施形態に係る映像処理装置1の構成を表すブロック図である。この図において、映像処理装置1は、映像情報取得部10、奥行情報取得部11、映像情報再生部12、ROI(Region of Interest;対象画像領域)取得部13、映像表示部14、オブジェクト抽出部15、及びマスク情報記録部16を含んで備える。
映像情報取得部10は、映像情報(t)を取得する。ここで映像情報(t)は、動画の映像情報であり、時刻t(動画の開始時点からの経過時間)の関数である。ただし、本発明の映像情報はこれに限らず、複数の静止画の映像情報であってもよい。例えば、映像情報(t)は、撮像装置を固定して時間的に連続又は隣接する画像を含む動画像又は静止画であってもよいし、同時刻に、連続又は隣接する位置から撮影した画像を含む動画像又は静止画であってもよい(後者の場合、映像情報は位置の関数となる)。また、映像情報取得部10は、撮像装置から映像情報(t)を取得してもよいし、予め記録部や外部記録装置に記録された映像情報(t)を読み出すことで取得してもよい。
映像情報取得部10は、取得した映像情報(t)を、映像情報再生部12、ROI取得部13、及びオブジェクト抽出部15に出力する。
奥行情報取得部11は、映像情報取得部10が取得する映像情報(t)の奥行情報(t)を取得する。ここで、奥行情報(t)は、映像情報(t)の各画素について、撮像装置から撮像物までの距離を表す情報である。
奥行情報取得部11は、取得した奥行情報(t)を、オブジェクト抽出部15に出力する。
映像情報再生部12は、映像情報取得部10から入力された映像情報(t)に基づいて、映像表示部14の各時刻tにおける各画素の出力を制御する映像信号を生成する。映像情報再生部12は、生成した映像信号を映像表示部14に出力することで、映像表示部14に映像を表示させる。つまり、映像情報再生部12は、映像情報(t)の映像を再生し、再生した映像を映像表示部14に表示させる。
ここで、映像情報再生部12は、マスク情報記録部16が記録するマスク情報(t)に基づいて、映像情報(t)の映像に、オブジェクト抽出部15が抽出したオブジェクトの画像を重畳して表示する。つまり、マスク情報(t)は、時刻tで映像情報(t)に対応付けられている。なお、マスク情報記録部16がマスク情報(t)を記録していない場合には、映像情報(t)の映像をそのまま再生する。
映像表示部14は、タッチパネル型のディスプレイである。映像表示部14は、映像情報再生部12から入力された映像信号に基づいて出力を制御することで、映像情報(t)の映像を表示する。映像表示部14は、そのディスプレイにユーザが触れることで、触れた位置を示す情報を、ある時刻tsにおける映像情報(ts)の画像(ts)での位置を示す情報に変換する。
映像表示部14は、ユーザがディスプレイに触れながらディスプレイに表示された画像(ts)でのROIを指定することによって、ROIの位置情報(ユーザ指定ROI情報(ts)という)、つまり、ROIの位置と形状(外接形状)を示す情報を検出する。なお、映像表示部14でのユーザ指定ROI情報(ts)の検出処理の詳細は後述する。
映像表示部14は、検出したユーザ指定ROI情報(ts)をROI取得部13に出力する。
ROI取得部13は、映像表示部14から入力されたユーザ指定ROI情報(ts)の範囲内の画像に基づいて、時刻ts以外の各時刻tにおける映像情報(t)の画像(各フレームの画像;以下、処理画像(t)という)から、ユーザ指定ROI情報(ts)の画像に一致又は類似する画像を検出する。その後、ROI取得部13は、一致又は類似する画像の位置と形状を示す情報を、ROI情報(t)として抽出する。
具体的には、ROI取得部13は、ユーザ指定ROI情報(ts)の範囲内の画像から特徴点(ROI特徴点(ts)という)を算出して記録する。なお、特徴点とは、画像中の特徴的な点であり、例えば、画素間の色や輝度の変化等に基づいて被写体のエッジの一部や頂点として抽出される点であるが、抽出手法はこれに限られない。ROI取得部13は、各時刻tにおける処理画像(t)の画像特徴点(t)を算出する。
ROI取得部13は、画像特徴点(t)とROI特徴点(ts)とのマッチングを行う。具体的には、ROI取得部13は、ROI特徴点(ts)に変換行列を逐次乗算することで、画像中でROI特徴点(ts)を移動(回転含む)及び拡大・縮小させて、特徴点が一致する数(特徴点数という)を算出する。ROI取得部13は、特徴点数が予め定めた閾値以上になったと判定した場合に、そのときの変換行列を記録する。ROI取得部13は、ユーザ指定ROI情報(ts)に変換行列を乗算した位置情報をROI情報(t)とする。つまり、ROI取得部13は、ユーザ指定ROI情報(ts)の範囲内の画像が、画像(t)中のどの部分と一致するかを判定し、一致した場合に、ユーザ指定ROI情報(ts)に相当する位置情報を、ROI情報(t)とする。ROI取得部13は、抽出したROI情報(t)(ユーザ指定ROI情報(ts)を含む)を映像表示部14、及びオブジェクト抽出部15に出力する。また、ROI取得部13は、抽出したROI情報(t)をROI情報記憶部1583に記憶する。
オブジェクト抽出部15は、映像情報取得部10から映像情報(t)を入力され、奥行情報取得部11から奥行情報(t)を入力され、ROI取得部13からROI情報(t)を入力される。オブジェクト抽出部15は、入力された映像情報(t)、奥行情報(t)、ROI情報(t)を用いて、各時刻tにおけるマスク情報(t)を生成する。オブジェクト抽出部15が行う処理の詳細については、後述する。
オブジェクト抽出部15は、抽出したマスク情報(t)をマスク情報記録部16に記録する。
<ユーザ指定ROI情報(ts)の検出処理>
以下、映像表示部14が行うユーザ指定ROI情報(ts)の検出処理の詳細について説明をする。
図2は、本実施形態に係るユーザ指定ROI情報(ts)の検出処理の一例を示す概略図である。図2において、符号Aを付した四角はタッチパネル型のディスプレイ(映像表示部14)である。符号Bを付した四角は、時刻情報が示す時刻ts(図2では、ts=0.133秒)における画像(ts)である。符号Oを付したものは、ユーザが抽出したい対象物(図2では、人物)の画像を表す。また、符号Uを付したものは、ユーザの手を表す。
図2は、長方形(四角形)の選択ツールを用いた場合の図である。この図において、符号r1を付した枠(対象物Oの外接矩形)の位置情報がユーザ指定ROI情報(ts)である。具体的には、図2の場合に、ユーザ指定ROI情報(ts)は、例えば、以下の表1のデータとして記録される。
Figure 2012085233
表1では、ユーザ指定ROI情報(ts)は、時刻ts(又は、映像のフレームに付した番号(フレーム番号)でもよい)、外接矩形内に抽出対象画像(対象物の画像)が有るか無いかを示す有無フラグ(抽出対象フラグという)、外接矩形の始点位置(x0,y0)(図2では点P1の座標)、外接矩形の横幅(図2では符号W1で表す長さ)、外接矩形の縦幅(図2では符号L1で表す長さ)で、表される。
<映像処理装置1の動作について>
以下、映像処理装置1の動作について説明する。
図3は、本実施形態に係る映像処理装置1の動作の一例を示すフローチャートである。
(ステップS11)映像情報取得部10は、映像情報(t)を取得し、取得した映像情報(t)を映像情報再生部12、ROI取得部13、及びオブジェクト抽出部15に出力する。奥行情報取得部11は、奥行情報(t)を取得し、取得した奥行情報(t)をオブジェクト抽出部15に出力する。その後、ステップS12へ進む。
(ステップS12)映像情報再生部12は、ステップS11で入力された映像情報(t)の映像を再生し、再生した映像を映像表示部14に表示させる。その後、ステップS13へ進む。
(ステップS13)ユーザは、ステップS12で再生された映像の再生をある時刻tsで一時停止し、ROIを指定する。映像表示部14は、ユーザが指定したROIについて、ユーザ指定ROI情報(ts)を検出し、ROI取得部13に出力する。その後、ステップS14へ進む。
(ステップS14)ROI取得部13は、ステップS13で検出されたユーザ指定ROI情報(ts)に基づいて、各時刻tにおけるROI情報(t)を抽出する。ROI取得部13は、抽出したROI情報(t)を映像表示部14、及びオブジェクト抽出部15に出力する。映像表示部14は、ROI情報(t)が示す外接形状(表1の場合は外接矩形、表2の場合は外接円)を、その位置へ、映像情報(t)の映像に重畳して表示する。その後、ステップS2へ進む。
(ステップS2)オブジェクト抽出部15は、ステップS11で取得された映像情報(t)、及び奥行情報(t)、ステップS14で抽出されたROI情報(t)を用いてオブジェクト抽出を行い、マスク情報(t)を生成する。オブジェクト抽出部15は、生成したマスク情報(t)をマスク情報記録部16に記録する。その後、ステップS15へ進む。
(ステップS15)映像情報再生部12は、マスク情報記録部16が記録するマスク情報(t)に基づいて、映像情報(t)の映像に、オブジェクト抽出部15が抽出したオブジェクトの画像を重畳して表示する。
なお、上記のステップS14、S2、S15において、映像処理装置1は、入力された全て時刻tの映像情報(t)に関する処理を行ってもよいし、ユーザが指定した範囲の映像情報(t)(t1≦t≦t2)に関する処理を行ってもよい。
上記の動作において、映像処理装置1は、ユーザが指定したROIについて、ユーザ指定ROI情報(ts)を検出するので、自動でROIを抽出する場合と比較して、確実にROIを抽出することができる。また、映像処理装置1は、映像表示部14は、ROI情報(t)が示す外接形状を、映像情報(t)の映像に重畳して表示するので、ユーザは所望のROIが検出されていることを把握することができる。
<オブジェクト抽出部15が行う処理について>
以下、オブジェクト抽出部15が行う処理について詳細を説明する。
図4は、本実施形態に係るオブジェクト抽出部15の構成を示す概略ブロック図である。この図において、オブジェクト抽出部15は、フィルタ部151a、151b、分布モデル推定部152、クラスタリング部153、特徴量算出部154、前景領域抽出部155、前景領域補正部156、マスク情報生成部157、及びバッファ部158を含んで構成される。バッファ部158は、映像情報記憶部1581、前景領域情報記憶部1582、ROI情報記憶部1583、ROI奥行分布情報記憶部1584、補正前景領域情報記憶部1585を含んで構成される。なお、符号I1、D1、R1、Mを付した平行四辺形は情報を示し、それぞれ、映像情報(t)、奥行情報(t)、ROI情報(t)、マスク情報(t)である。
フィルタ部151aは、入力された映像情報(t)からノイズを除去し、平滑化処理を行う。具体的には、フィルタ部151aは、各時刻tの処理画像(t)に対して、色成分毎に、エッジ(輪郭)を保持する平滑化フィルタ(以降、エッジ保持平滑化フィルタとも呼ぶ)を行う。ここで、フィルタ部151aは、平滑化フィルタとして、次式(1)で表されるバイラテラルフィルタ(bilateral filter)を用いる。
Figure 2012085233
ただし、入力画像はf(x,y)、出力画像はg(x,y)、Wはフィルタリングを適用する窓サイズ、σは画素間距離に関する重み付け係数を制御するパラメータ(ガウス分布の標準偏差)、σ2は画素値の差に関する重み付け係数を制御するパラメータ(ガウス分布の標準偏差)を表す。
フィルタ部151aは、平滑化フィルタによる平滑化後の映像情報(t)を、クラスタリング部153、及び特徴量算出部154に出力する。
フィルタ部151bは、入力された奥行情報(t)からノイズを除去し、平滑化処理を行う。具体的には、フィルタ部151bは、エッジ保持平滑化フィルタを行う。これにより、フィルタ部151bは、オクルージョン(遮蔽)によって発生している横方向のノイズを除去する。
フィルタ部151bは、平滑化フィルタによる平滑化後の奥行情報(t)を、特徴量算出部154及び分布モデル推定部152に出力する。
分布モデル推定部152は、処理画像単位毎に、フィルタ部151bより入力された平滑化後の奥行情報(t)、及び、入力されたROI情報(t)に基づき、ROI内の奥行分布モデルのパラメータを推定する。具体的には、分布モデル推定部152は、次式(2)、つまり、ガウス分布の混合モデルで表現するGMM(Gaussian Mixture Model)を用いて、最尤推定法により分布モデルのパラメータを取得する。以下、取得したパラメータをROI奥行分布情報(t)という。
Figure 2012085233
なお、式(2)において、P(x)は、ベクトルxが出現する確率を表す。wはクラスiのガウス分布の重み係数を表し、μはクラスiの平均ベクトルを表し、Σiはクラスiの共分散行列を表し、Dはベクトルxの次元数を表す。N(x|μ)は、クラスiのガウス分布を表し、平均ベクトルμ、共分散行列Σを用いて表現される。また、分布モデル推定部152は、EM(Expectation−Maximization)アルゴリズムを用いて、分布モデルの各パラメータを求める。つまり、分布モデル推定部152は、ROI内の抽出対象領域の奥行分布を、重み係数wが最大となるクラスの分布として定める。すなわち、奥行分布は、ROI内領域に占める面積が大きい領域であると仮定することによって算出される。
分布モデル推定部152は、推定したROI奥行分布情報(t)を前景領域抽出部155、及びバッファ部158に出力する。
クラスタリング部153は、処理画像(t)毎に、フィルタ部151aから入力された平滑化後の映像情報(t)に対してクラスタリングを行うことにより、処理画像(t)を複数の領域(スーパーピクセルともいう)に分割する。
例えば、クラスタリング部153は、特徴量空間でのクラスタリングを行う。特徴量空間によるクラスタリングとは、画像空間の各画素を特徴量空間(例えば、色、エッジ、動きベクトル)に写像し、その特徴量空間においてK-means法、Mean-Shift法、又はK最近傍探索法(近似K最近傍探索法)などの手法により行うクラスタリングである。つまり、クラスタリング部153は、処理画像(t)を、特徴量が類似する(特徴量の値が予め定めた範囲内となる)画素の集合(領域;クラス)に分割する。
クラスタリング部153は、特徴量空間でのクラスタリング処理の終了後、各領域の代表値となる画素値(例えば平均値)により、そのクラス内の画素について、元の画像空間における画素値を置き換える。クラスタリング部153は、各領域に対して領域を識別するラベルを各領域内の全画素に付与し、領域情報(t)を出力する。
以下、クラスタリング部153の詳細について説明をする。
図5は、本実施形態に係るクラスタリング部153の構成を示す概略ブロック図である。この図において、クラスタリング部153は、特徴量検出部1531、シード生成部1532、領域成長部1533、領域統合部1534を含んで構成される。なお、クラスタリング部153は、エッジ及び、色に基づく特徴量を用いてクラスタリングを行うが、本発明は、この特徴量に限られない。
特徴量検出部1531には、平滑化後の映像情報(t)が入力される。特徴量検出部1531は、処理画像(t)各々において、画素(x,y)(x、yは、画像中の画素の位置を表す座標)の特徴量を算出する。具体的には、特徴量検出部1531は、色成分(例えば、RGB(Red(赤)、Green(緑)、Blue(青)))毎に微分オペレータを適用し、x方向、y方向における各色成分iの勾配(グラディエント;gradient)G(x,y|t)=(ΔGix(t), ΔGiy(t))(i=1,2,3)を算出する。例えば、i=1、2、3は、それぞれ、R成分、G成分、B成分である。
特徴量検出部1531は、次式(3)の演算を、座標(x,y)の画素毎に行うことで、エッジ強度E(x,y|t)を算出する。
Figure 2012085233
ここで、TH_E(x,y|t)は、時刻(t)の座標(x,y)に対する予め定められた閾値である。また、式(3)は、E(x,y|t)がTH_E(x,y|t)より小さい場合にはE(x,y|t)=0であることを示し、また、E(x,y|t)がTH_E(x,y|t)以上の場合にはE(x,y|t)=E(x,y|t)であることを示す。なお、特徴量検出部1531は、この閾値TH_E(x,y|t)をピクセル単位、ブロック単位、領域単位、画像単位で調整してもよい。それによって、画像特性に応じて適した特徴量を検出することが可能となる。
特徴量検出部1531は、算出したエッジ強度E(x,y|t)をシード生成部1532に出力する。
シード生成部1532は、特徴量検出部1531から入力されたエッジ強度E(x,y|t)を用いて、スーパーピクセルを生成するためのシード情報を生成する。具体的には、シード生成部1532は、次式(4)を用いてシード情報S(x,y|t)を算出する。
Figure 2012085233
つまり、シード生成部1532は、座標(x,y)を中心とした窓サイズW×Wの範囲内で、エッジ強度E(x,y|t)が極小値となる場合(Local Minima)にシード情報S(x,y|t)を「1」、それ以外はシード情報S(x,y|t)を「0」とする。ここで、Wはx方向の窓のサイズ、Wはy方向の窓のサイズを表す。
シード生成部1532は、生成したシード情報S(x,y|t)を領域成長部1533に出力する。
領域成長部1533は、シード生成部1532から入力されたシード情報S(x,y|t)に基づいて、領域成長法を適用してスーパーピクセル群R(t)を生成する。具体的には、領域成長部1533は、ある画素(x1,y1)のエッジ強度E(x1,y1|t)と、その画素の近傍の画素(x,y)のエッジ強度E(x,y|t)と、の差が予め定めた値以下である画素(x,y)を元の画素(x1,y1)と同じ領域とすることで、領域を広げる。ここで、領域成長部1533は、この処理を、シード情報S(x,y|t)が「1」の画素から始める。つまり、領域成長部1533は、シード情報S(x,y|t)が「1」の画素から、特徴量の値がほぼ等しい領域を少しずつ成長させる。
領域成長部1533は、広げた領域をスーパーピクセル群R(t)とし、スーパーピクセル群R(t)を示す情報を領域統合部1534に出力する。
領域統合部1534は、領域成長部1533から入力された情報が示すスーパーピクセル群R(t)から、領域の面積が小さいスーパーピクセル群を、他の領域へ統合する領域統合処理を行う。具体的には、領域統合部1534は、各スーパーピクセル群R(t)の一点を頂点として、頂点間の接続関係、及び接続する頂点間のエッジ(重み)によって表現される、重み付無向グラフを算出する。ここで、頂点間のエッジ(重み)には、例えば、各頂点と対応する各スーパーピクセルの代表色との色空間での距離を用いる。
領域統合部1534は、貪欲法を用いて全域最小木(Minimum Spanning Tree:MST)を構成するように、重み付無向グラフを領域統合し、スーパークセル群R(t)を生成する。領域統合部1534は、スーパーピクセル毎に、スーパーピクセルを識別するラベルをスーパーピクセル内の全画素に付与し、ラベリング結果を領域情報(t)とし、出力する。
図6は、本実施形態に係るクラスタリング部153の処理結果の一例を示す概略図である。この図は、熊のぬいぐるみが電車のおもちゃに乗っている画像である。また、電車のおもちゃが線路に沿って移動することで、熊のぬいぐるみも移動している。
この図において、図6(A)は入力画像より得られたエッジ強度Eを表す画像である。また、図6(B)はエッジ強度Eより得られたシード情報Sを表す画像である。また、図6(C)はスーパーピクセル群R(t)を示す画像、図6(D)はスーパーピクセル群R(t)を示す画像である。
図6(A)において、明るい(白い)部分はエッジ強度が大きい領域を表し、暗い(黒い)部分はエッジ強度が小さい領域を表す。図6(B)において、明るい(白い)部分がシードを表し、暗い(黒い)部分は、どの領域(クラス)に属するかを領域成長法により決定する部分を表す。
図6(C)と図6(D)を比較すると、図6(C)のスーパーピクセル群R(t)では多数の小さい面積を有するスーパーピクセル(領域)が存在するが、図6(D)のスーパーピクセル群R(t)では小さい面積を有するスーパーピクセル(領域)が減少している。このように、映像処理装置1では、クラスタリング処理を実施することで、小面積のスーパーピクセル(領域)が少なく、より精度のよいクラスタリング結果を取得できる。
図4に戻って、特徴量算出部154には、クラスタリング部153から領域情報(t)、フィルタ部151aから平滑後の映像情報(t)、フィルタ部151bから平滑化後の奥行情報(t)、及びROI情報(t)が入力される。特徴量算出部154は、入力された領域情報(t)、映像情報(t)、奥行情報(t)、及びROI情報(t)に基づいて、領域(ラベル)毎の特徴量を算出する。具体的には、特徴量算出部154は、以下の(1)〜(7)の特徴量を算出する。その後、算出した特徴量を示す特徴量情報(t)を前景領域抽出部155に出力する。
(1)領域間の隣接関係
(2)ROI領域の重心と各領域の重心との間の距離(以下、重心距離という)
(3)各色成分の平均値、中央値、分散及び標準偏差
(4)奥行の平均値、中央値、分散及び標準偏差
(5)領域面積
(6)領域周囲長
(7)領域の外接矩形
<特徴量算出部154の動作について>
(1)〜(7)の特徴量の算出方法の一例について、図7〜図10を用いて説明する。図7は、特徴量算出部154の動作の一例を表すフローチャートである。図8は、説明のため、8×8画素ブロックでのラベリング(領域情報)の一例を表す図である。図9は、図8における領域間の接続関係を重みなし無向グラフ、及び隣接行列による表現の一例を表す図である。図10は、図8(A)のラベル3を例に領域の周囲長の取得方法、及び領域の外接矩形の一例を表す図である。
(ステップS154−01)特徴量算出部154は、クラスタリング部153から領域情報(t)、フィルタ部151aから平滑後の映像情報(t)、フィルタ部151bから平滑化後の奥行情報(t)、及びROI情報(t)を取得する。その後、ステップS154−02へ進む。
(ステップS154−02)特徴量算出部154は、ROI情報(t)に基づき、ROI領域内の画素について、画素の座標の値を合計する。続いて、特徴量算出部154は、合計した値をROI領域内の画素数で除算し、その計算結果をROI領域の重心とする。その後、ステップS154−03へ進む。
(ステップS154−03)特徴量算出部154は、領域情報(t)に基づき、処理対象画像について、原点から一ライン毎に走査(ラスタースキャン)し、各ラベルに属する全画素の座標、画素数、各ラベルに属する画素が最初に出現する位置(始点)、及びラベル(領域)間の隣接関係を求める。また、取得された各ラベルに属する画素が最初に出現する位置(始点)は、ステップS154−08において領域周囲長を取得する際の輪郭追跡の始点として記憶される。その後、ステップS154−04へ進む。ここで、図8、図9を用いて、ラベルの始点位置の検出結果と、ラベル間の隣接関係の取得方法の一例を説明する。例えば、図8(A)に示す、8×8画素ブロックでのラベリング結果(領域情報)があるとする。図8(A)の場合、8×8画素ブロックの原点(図8(A)上の左上)より、一ライン毎に走査していくと、図8(B)において、符号Li(i=1,2,・・・,5)を付した画素が、各ラベルの始点として検出される。また、領域間の接続関係は、各画素において、当該画素のラベルと、当該画素に隣接する画素のラベルとを比較し、異なるラベルを逐次検出していくことで取得される。例えば、図9(A)に示す、注目画素(符号Q)の場合、当該画素のラベルは1であり、当該画素に隣接する画素(隣接画素:符号Ni(i=1,2,・・・,8))のうち、異なるラベルは3、4となる。その結果、ラベル1は、ラベル3、ラベル4と隣接していることを把握することができる。上記処理を全画素に対して実施することで、図8(A)の領域情報に関するラベル間の隣接関係を、図9(B)に示す重みなし無向グラフとして最終的に表現することができる。図9(B)において、各ノード番号が各ラベル番号に対応し、ノード間のエッジが接続関係を表す。図9(B)のグラフの構造は、図9(C)に示す隣接行列によって表現される。図9(C)の隣接行列において、ノード間にエッジがある場合は“1”を、ノード間にエッジがない場合は“0”を、値として割り当てている。
(ステップS154−04)特徴量算出部154は、各ラベルLi(0≦i<MaxLabel)に属する画素について、座標の値を合計する。ここで、MaxLabelは、領域情報(t)より取得されるスーパーピクセル(領域)を識別するラベルの総数を表す。続いて、特徴量算出部154は、合計した値をラベルLiに属する画素数で除算し、その結果をラベルLiの重心とする。そして、ステップS154−02において求めたROI領域の重心とラベルLiの重心との距離(重心距離)を算出する。その後、ステップS154−05へ進む。
(ステップS154−05)特徴量算出部154は、平滑後の映像情報(t)から、各ラベルLi(0≦i<MaxLabel)の色成分毎の平均値、中央値、分散値、及び標準偏差を計算する。その後、ステップS154−06へ進む。
(ステップS154−06)特徴量算出部154は、平滑後の奥行情報(t)から、各ラベルLi(0≦i<MaxLabel)の奥行の平均値、中央値、分散値、及び標準偏差を計算する。その後、ステップS154−07へ進む。
(ステップS154−07)特徴量算出部154は、ラベルLiに属する画素の総数を領域面積とする。その後、ステップS154−08へ進む。
(ステップS154−08)特徴量算出部154は、ラベルLiの領域周囲長を算出する。その後、ステップS154−09へ進む。ここで、図10(A)を用いて、ラベル3を例に領域周囲長の算出方法の一例を説明する。領域周囲長とは、図10(A)において、ラベルの始点から領域の周囲を時計周り(または、反時計周り)に一周する移動量である。8連結の連結成分の場合、上下左右に追跡移動する数のCと、斜めに追跡移動するCとがあり、領域周囲長(Perimeter)は、式(5)または、式(6)により計算される。
Figure 2012085233
(ステップS154−09)特徴量算出部154は、ラベルLiが示す領域に外接する最小の矩形(外接矩形)を算出する。その後、ステップS154−10へ進む。ここで、図10(B)を用いて、外接矩形の取得方法の一例について説明する。図10(B)において、ラベル3の外接矩形を構成する4点の頂点(符号P1,P2,P3,P4)の座標は、領域内で左端にある画素のX座標(Xと表す)、右端にある画素のX座標(Xと表す)、上端にある画素のY座標(Y)、及び下端にある画素のY座標(Yと表す)を用いて、
P1:=(XL,)、P2:=(XR,)、P3:=(XR,)、P4:=(XL,)、と表現される。また、X、X、YT、は式(7)により計算される。なお、式(7)において、符号Liは、ラベル番号を表し、符号RLiは、ラベルLiに属する画素の集合を表し、符号x、及び符号yは、それぞれ集合RLiに属する画素jのx座標、及びy座標を表す。
Figure 2012085233
(ステップS154−10)特徴量算出部154は、全ラベルの特徴量の算出が完了すれば(ステップS154−10においてYes)、各ラベル(領域)の特徴量を含む特徴量情報(t)を前景領域抽出部155へ出力する。また、特徴量の算出が未処理のラベルがあれば(ステップS154−10においてNo)、ステップS154−04へ戻り、次のラベルの特徴量算出を行う。
以上のようにすれば、前記(1)〜(7)の特徴量について算出を行うことができる。
なお、本実施形態では、特徴量算出部154の動作について、ステップS154−01〜S154−10の順に説明したが、これに限定されるものではなく、本発明を実施できる範囲において変更可能である。また、本実施形態では、領域間の接続関係を表すデータ構造の一例として、隣接行列を用いているが、これに限定されるものではなく、隣接リストを用いてもよい。また、特徴量算出部154は、画像の色空間としてRGBを用いて特徴量を算出するが、本発明はこれに限らず、YCbCr(YUV)、CIE L*a*b*(エルスター、エースター、ビースター)、CIE L*u*v*(エルスター、ユースター、ブイースター)であっても良いし、他の色空間であってもよい。
前景領域抽出部155には、特徴量算出部154から特徴量情報(t)、分布モデル推定部152からROI奥行分布情報(t)、及び、ROI情報(t)が入力される。また、前景領域抽出部155は、バッファ部158の映像情報記憶部158から映像情報(t)を読み出す。ここで、読み出される映像情報(t)は、映像情報取得部10が記憶した情報であって平滑化処理を行っていない情報であるが、これに限定されず、平滑化処理を行った映像情報(t)を用いてもよい。
前景領域抽出部155は、ROI情報(t)、特徴量情報(t)、ROI奥行分布情報(t)に基づいて、映像情報(t)から、抽出対象となる前景画像領域(t)を抽出する。前景領域抽出部155は、抽出した前景画像領域(t)を示す前景領域情報(t)を、前景領域情報記憶部1582に記憶する。また、前景領域抽出部155は、時刻t0―k(k=1、2、・・・、K;kはフレームの時刻を示す)の前景画像領域(t0−k)を示す情報を前景領域情報記憶部1582に記憶した後に、時刻t0を示す情報を前景領域補正部156に出力する。
以下、前景領域抽出部155が行う処理の詳細を説明する。
図11は、本実施形態に係る前景領域抽出部155の動作の一例を示すフローチャートである。
(ステップS155−01)前景領域抽出部155は、前景領域を抽出するための核となる領域である基本前景領域を探索するための探索条件のパラメータ設定を行う。具体的には、前景領域抽出部155は、特徴量情報(t)各々の下限値及び上限値として、予め定めた値を設定する。前景領域抽出部155は、例えば、領域面積の下限値(最小面積という)、上限値(最大面積という)、領域周囲長の下限値(最小周囲長という)、最大値(最大周囲長という)、重心距離の上限値の初期値として、ROI領域の外接矩形に内接する円の半径の最大値(最大距離)、をパラメータとして設定する。このように基本前景領域の探索条件を設定することで、ROI内に重心があり、かつ、面積が大きい領域を検出できる。また、背景領域に属する領域を、基本前景領域として誤検出することを防止できる。その後、ステップS155−02へ進む。
(ステップS155−02)前景領域抽出部155は、重心距離の上限値以下、または、未満を満たす、領域の中から重心距離が最小となる領域を選択する。その後、ステップS155−03へ進む。
(ステップS155−03)前景領域抽出部155は、ステップS155−02で選択した領域の特徴量情報(t)が、ステップS155−01で設定した下限値と上限値の間の値であるか否かを判定する。特徴量情報(t)が下限値と上限値の間の値であると判定した場合(Yes)、つまり、ステップS155−02で選択した領域が基本前景領域であると決定して、ステップS155−05へ進む。一方、特徴量情報(t)が下限値と上限値の間の値でないと判定した場合(No)、ステップS155−04へ進む。
(ステップS155−04)前景領域抽出部155は、特徴量情報(t)各々の下限値から予め定めた値を減算し、又は、上限値に予め定めた値を加算することで、特徴量情報(t)各々の下限値及び上限値を更新する。その後ステップS155−02へ進む。
(ステップS155−05)前景領域抽出部155は、ステップS155−03で決定した基本前景領域と、ROI内に重心がある各領域と、の特徴量情報(t)のうち奥行に関する平均値、または、中央値を比較して、これらの特徴量情報(t)の差が予め定めた閾値以内(未満でもよい)であるか否かを判定する。前景領域抽出部155は、特徴量情報(t)の差が予め定めた閾値以内であると判定した領域と、基本前景領域と、を統合し、統合した領域を前景領域に決定する。
ここで、前景領域抽出部155は、特徴量情報(t)の差の閾値を、分布モデル推定部152より取得したROI奥行分布情報(t)に基づいて定める。具体的には、前景領域抽出部155は、次式(8)を用いて、特徴量情報(t)の差の閾値(TH_D1)を算出する。
Figure 2012085233
ここで、α_1は、予め定めたスケーリング定数である。また、σ_1は、前景領域の奥行分布をガウス分布と仮定した場合の標準偏差である。
図4に戻って、前景領域補正部156は、前景領域抽出部155から入力された情報が示す時刻t0(第1の時間)における前景画像領域(t0)を、その時刻に近接する時刻t0−k(第2の時間)(k=1、2、・・・、K)の前景画像領域(t0−k)に基づいて、補正する。前景領域補正部156は、時刻が小さい方から大きい方へt0を、逐次この補正を繰り返す。前景領域補正部156は、補正後の前景画像領域(t0)を示す情報(補正前景画像領情報)を、バッファ部158の前景領域情報記憶部1585に記憶する。また、前景領域補正部156は、補正後の前景画像領域(t0)を示す情報(補正前景画像領情報)を、マスク情報生成部157に出力する。
以下、前景領域補正部156が行う補正について詳細を説明する。
図12は、本実施形態に係る前景領域補正部156の構成を示す概略ブロック図である。この図において、前景領域補正部156は、移動量算出部1561、前景領域確率マップ生成部1562、前景領域確定部1563、及び境界領域補正部1564を含んで構成される。
移動量算出部1561には、前景領域抽出部155から時刻t0を示す情報が入力される。移動量算出部1561は、時刻t0から時刻t0−Kの情報(映像情報(t0−k)、映像情報(t0)、前景領域情報(t0−k)、前景領域情報(t0)、ROI情報(t0−k)、ROI情報(t0)、(k=1、2、・・・、K))をバッファ部158から読み出す。
移動量算出部1561は、読み出した映像情報(t0−k)、前景領域情報(t0−k)、及びROI情報(t0−k)に基づいて、前景領域情報(t0−k)が示す前景領域画像(t0−k)について、処理画像(t0)での位置から処理画像(t0−k)での位置を差し引いた移動量(t0,t0−k)(動きベクトルともいう)を算出する。つまり、移動量(t0,t0−k)は、前景領域画像(t0−k)が時刻t0−kから時刻t0までに移動した移動量を表す。具体的には、移動量算出部1561は、図13に示すテンプレートマッチング(動き探索ともいう)処理を行うことで、移動量(t0,t0−k)を算出する。
図13は、本実施形態に係るテンプレートマッチングを説明する説明図である。この図において、横軸が時刻tであり、縦軸がy座標あり、横軸と縦軸に垂直な方向がx座標である。また、符号Ikを付した画像は、時刻(t0−k)における処理画像を表す。また、符号Okを付した画像領域は、時刻(t0−k)における前景画像領域と、前景画像領域(対象物)を囲む外接矩形を表す。また、符号Akを付した座標は、符号Okで表される前景領域を囲む外接矩形の始点位置の座標を表す。また符号Mkを付した画像は、時刻(t0−k)における外接矩形内でのマスク情報(t0−k)が示す画像である。ここで、マスク情報(t0−k)は、外接矩形内で前景画像領域(図13では白の部分)と背景画像領域(図13では黒の部分)を識別する情報であり、前景領域情報(t0−k)が示す前景画像領域(t0−k)とそれ以外の外接矩形内の領域を背景画像領域(t0−k)とするものである。また、符号Vkは、座標Akから座標A0へのベクトルである。このベクトルは、前景画像領域(t0−k)の移動量(t0,t0−k)を表す。
移動量算出部1561は、前景画像領域Okをテンプレートとし、処理画像(t0)上で、テンプレートを移動し(回転や、拡大・縮小をしてもよい)、テンプレートと最も類似性が高い領域(推定領域という)を検出する。移動量算出部1561は、検出した推定領域と、前景画像領域Okと、の座標の差を移動量(t0,t0−k)として算出する。
具体的には、移動量算出部1561は、ROI情報(t0)が示すROI領域の重心の座標(x0、y0)(探索初期座標という)を算出する。移動量算出部1561は、探索初期座標(x0、y0)を中心にスパイラルサーチを行うことで、推定領域を検出し、移動量(t0,t0−k)を算出する。ここで、スパイラルサーチとは、前景画像領域(t0)の存在する確率が高い座標(ここでは、前記探索初期座標)から、図14に示すように、螺旋順に段々と範囲を広げるように座標を移動して、推定領域を探索する手法である。なお、移動量算出部1561は、予め定めた値より類似性が高い移動量を抽出した場合に、そこでスパイラルサーチを終了してもよい。これにより、移動量算出部1561は、計算量を削減できる。
移動量算出部1561は、螺旋順に選択した座標(選択座標という)を重心として、次式(9)を用いて類似度RSADを算出し、その値が最も小さい領域を推定領域に決定する。
Figure 2012085233
ただし、M×N(図2の例では、W1×L1)はテンプレートの大きさを表し、(i,j)はテンプレート内の画素の座標を表し、T(i,j|t0−k)は座標(i,j)の位置の画素値を表す。また、(dx,dy)は選択座標からROI情報(t0−k)が示すROI領域の重心を減算した値(オフセット値)であり、I(i+dx,j+dy|t0)は処理画像(t0)における座標i+dx,j+dyでの画素値を表す。また、式(9)は、絶対値をマンハッタン距離(L−距離、L−ノルム)で算出し、iとjについて、その総和をとることを示す。
なお、色空間がRGBの場合、I(x,y|t0)は、RGB空間における各色成分の値、r(x,y|t0)、g(x,y|t0)、b(x,y|t0)を用いて次式(10)で表される。
Figure 2012085233
移動量算出部1561は、算出した移動量(t0,t0−k)を前景領域確率マップ生成部1562に出力する。
前景領域確率マップ生成部1562は、K個の移動量(t0,t0−k)(k=1、2、・・・K)と前景領域情報(t0−k)、及び前景領域抽出部155より取得した時刻t0の前景領域情報(t0)とを用いて、処理画像(t0)上の各座標(x,y)が前景画像領域に含まれる確率を表す確率P(x,y|t0)を算出する。具体的には、前景領域確率マップ生成部1562は、次式(11)を用いて確率P(x,y|t0)を算出する。
Figure 2012085233
ただし、wは重み係数を表し、k=0からKまでのwの総和は1である。また、dx、dyは、それぞれ、移動量(t,t±k)のx成分、y成分を表す。また、M(x,y|t0−k)は、処理画像(t0−k)の座標x,yの画素が前景画像領域(t0−k)である場合には「1」、前景画像領域(t0−k)でない(背景画像領域である)場合には「0」となる値である。なお、重み係数wは、例えば、式(12)に示すようにt0からの時間距離に応じて設定してもよい。つまり、時刻t0から離れた時刻の前景領域情報に関しては、重み係数の値を小さく設定する。
Figure 2012085233
なお、処理画像(t0)の全ての座標(x,y)についての確率P(x,y|t0)の集合を前景領域確率マップP(t0)という。前景領域確率マップP(t0)は、次式(13)で表される。
Figure 2012085233
ここで、Wは処理画像(t0)の横方向のピクセル数、Hは処理画像(t0)の縦方向のピクセル数を表す。
前景領域確率マップ生成部1562は、算出した前景領域確率マップP(t0)に対して、次式(14)を用いて、処理画像(t0)の座標(x,y)の画素が前景画像領域であるか否かを示すM(x,y|t0)(前景領域情報)を算出する。
Figure 2012085233
前景領域確率マップ生成部1562は、P(x,y|t0)が閾値Th(x,y|t0)より大きい場合はM(x,y|t0)を「1」(前景画像領域)、P(x,y|t)が閾値Th(x,y|t0)以下の場合はM(x,y|t0)を「0」(背景画像領域)とする。ここで、閾値Th(x,y|t0)は、0〜1の値をとり、例えば、次式(15)で表される。
Figure 2012085233
ここで、Nは、前景領域確率マップを生成するために用いるフレーム数(画像数)であり(本実施形態ではN=K)、NF0は(1≦NF0<N−1)を満たす所定の値である。
前景領域確率マップ生成部1562は、算出した前景領域情報M(x,y|t0)を境界線補正部1564に出力する。
境界線補正部1564は、前景領域確率マップ生成部1562から入力された前景領域情報M(x,y|t0)が示す前景画像領域の輪郭に沿って、輪郭の補正処理を行う。具体的には、モルフォロジー画像処理のオープニング及びクロージングを行うことで、平滑化された輪郭(滑らかな輪郭)とする。
<前景領域補正部156の動作について>
以下、前景領域補正処理の動作の詳細について説明をする。
図15は、本実施形態に係る前景領域補正処理の動作の一例を示すフローチャートである。
(ステップS207−01)移動量算出部1561は、時刻t0から時刻t0−Kの情報(映像情報(t0−k)、映像情報(t0)、前景領域情報(t0−k)、前景領域情報(t0)、ROI情報(t0−k)、ROI情報(t0))をバッファ部158から読み出す。前景領域確率マップ生成部1562は、時刻t0から時刻t0−Kの前景領域情報(t0−k)をバッファ部158から読み出す。その後、ステップS207−02へ進む。
(ステップS207−02)移動量算出部1561は、ステップS207−01で読み出した情報に基づいて、前景画像領域(t0−k)の移動量(t0,t0−k)を算出する。その後、ステップS207−03へ進む。
(ステップS207−03)移動量算出部1561は、時刻t0−1から時刻t0−Kまでの移動量(t0,t0−k)を算出したか否か(未処理のバッファはないか)を判定する。時刻t0−1から時刻t0−Kまでの移動量(t0,t0−k)を算出したと判定した場合(Yes)、ステップS207−04へ進む。一方、移動量(t0,t0−k)を算出していない時刻t0−kがあると判定した場合(Yes)、kの値を変更し、ステップS207−02へ戻る。
(ステップS207−04)前景領域確率マップ生成部1562は、ステップS207−02で算出された移動量(t0,t0−k)(k=1、2、・・・K)と、ステップS207−01で読み出した前景領域情報(t0−k)とを用いて、前景領域確率マップP(t0)を算出する。その後、ステップS207−05へ進む。
(ステップS207−05)前景領域確率マップ生成部1562は、ステップS207−04で算出した前景領域確率マップP(t0)に対して、式(13)を用いて、前景領域情報M(x,y|t0)を算出する。つまり、前景領域確率マップ生成部1562は、前景画像領域を前景領域情報M(x,y|t0)=1の領域として抽出する。その後、ステップS208−01へ進む。
(ステップS208−01)境界線補正部1564は、ステップ前景領域情報M(x,y|t0)が示す前景画像領域の輪郭に沿って、輪郭の補正処理を行う。その後、動作を終了する。
図4に戻って、マスク情報生成部157は、前景領域補正部156から入力された情報が示す補正後の前景画像領域(t)を表すマスクを生成する。なお、マスク情報生成部157は、マスクは前景画像領域以外の領域である背景領域を表すマスクを生成してもよい。マスク情報生成部157は、生成したマスク情報(t)を出力する。
図4に戻って、バッファ部158の動作の詳細について説明をする。
バッファ部158は、時刻(t0)における映像の前景領域抽出処理完了後に、以下の条件Aを満たす時刻(t)における各種データ(映像情報(t)、前景画像領域(t)を示す情報、奥行情報(t)、ROI情報(t)等)を破棄し、時刻(t0)における各種データ(映像情報(t0)、前景画像領域(t0)を示す情報、奥行情報(t0)、ROI情報(t0)等)に更新する動作を行う記憶及び更新手段である。
<条件A>
(1)時刻(t0)と時刻(t0−k)との時間距離が最も離れている(過去、未来の時刻を問わない)時刻tの各種データ
(2)時刻(t0)と時刻(t0−k)との形状特徴パラメータ(例えば、モーメント不変量)の類似性が最も小さい時刻tの各種データ
図16は、本実施形態に係るバッファ部158の動作の一例を示すフローチャートである。
(ステップS158−01)バッファ部158は、時刻(t0)における各種情報を記憶するための空きバッファを検索する。その後、ステップS158−02へ進む。
(ステップS158−02)バッファ部158は、ステップS158で検索した結果、空きバッファがあるか否かを判定する。空きバッファがあると判定した場合(Yes)、ステップS158−05へ進む。一方、空きバッファがないと判定した場合(No)、ステップS158−03へ進む。
(ステップS158−03)バッファ部158は、条件Aを満たす情報が記憶されているバッファ(対象バッファという)を選択する。その後、ステップS158−04へ進む。
(ステップS158−04)バッファ部158は、ステップS158−03で選択した対象バッファに格納されている各種データを破棄することで、対象バッファを空にする(記憶領域をクリアする)。その後、ステップS158−05へ進む。
(ステップS158−05)バッファ部158は、対象バッファへ時刻(t)における各種データを格納し、バッファの更新制御を終了する。
<オブジェクト抽出部15の動作について>
オブジェクト抽出部15が行う動作について説明をする。
図17は、本実施形態に係るオブジェクト抽出部15の動作の一例を示すフローチャートである。
(ステップS201)オブジェクト抽出部15は、各種データ(映像情報(t)、奥行情報(t)、ROI情報(t))を読み込む。具体的には、フィルタ部151a及びバッファ部158には映像情報(t)、フィルタ部151bは奥行情報(t)、分布モデル推定部152及びバッファ部158にはROI情報(t)が入力される。その後、ステップS202へ進む。
(ステップS202)オブジェクト抽出部15は、ROI情報(t)に含まれる抽出対象フラグが有りを示すか、無しを示すかを判定することにより、抽出対象画像が有るか否かを判定する。抽出対象画像が有ると判定した場合(Yes)、ステップS203へ進む。一方、抽出対象画像が無いと判定した場合(No)、ステップS210へ進む。
(ステップS203)フィルタ部151aは、ステップS201で入力された映像情報(t)からノイズを除去し、平滑化処理を行う。フィルタ部151bは、ステップS201で入力された奥行情報(t)からノイズを除去し、平滑化処理を行う。その後、ステップS204へ進む。
(ステップS204)分布モデル推定部152は、ステップS203で平滑化処理された奥行情報(t)及びステップS201で入力されたROI情報(t)に基づいて、ROI内のROI奥行分布情報(t)を推定する。その後、ステップS205へ進む。
(ステップS205)クラスタリング部153は、ステップS203で平滑化処理された映像情報(t)に対してクラスタリングを行うことにより、処理画像(t)をスーパーピクセルに分割する。クラスタリング部153は、スーパーピクセル毎に、ラベリング付けを行って、領域情報(t)を生成する。その後、ステップS206へ進む。
(ステップS206)特徴量算出部154は、ステップS205で生成された領域情報(t)、ステップS203で平滑化処理された映像情報(t)、平滑化処理された奥行情報(t)及びROI情報(t)に基づいて、領域(ラベル)毎の特徴量を算出する。その後、ステップS207へ進む。
(ステップS207)前景領域抽出部155は、ステップS201で入力されたROI情報(t)、ステップS204で推定されたROI奥行分布情報(t)、ステップS206で算出された特徴量情報(t)に基づいて、映像情報(t)から、抽出対象となる前景画像領域(t)を抽出する(前景領域抽出処理)。前景領域抽出部155は、抽出した前景画像領域(t)を示す前景領域情報(t)を生成する。その後、ステップS208へ進む。
(ステップS208)前景領域補正部156は、ステップS207で抽出された前景領域(t)について、時刻t0における前景画像領域(t0)を、その時刻に近接する時刻t0−k(k=1、2、・・・、K)の前景画像領域(t0−k)に基づいて、補正する(前景領域補正処理)。
(ステップS209)マスク情報生成部157は、ステップS208で補正した前景画像領域(t0)を表すマスクを示すマスク情報を生成する。その後、ステップS210へ進む。
(ステップS210)マスク情報生成部157は、ステップS209で生成したマスク情報をマスク情報記憶部16に記憶する。
図18は、本実施形態に係る奥行情報(t)の一例を示す概略図である。この図において、画像D1、D2、D3は、それぞれ奥行情報(t1−2)、奥行情報(t1−1)、奥行情報(t1)を示す。画像D1、D2、D3において、色が同じ箇所は奥行が同じであることを示す。また、図18では、色の明るい(淡い)画像部分は、色の暗い(濃い)画像部分と比較して奥行が小さい(手前に位置する)ことを示す。
なお、図18の奥行情報(t)は、ステレオカメラにより撮影した映像に対して、左眼カメラを基準に右眼カメラとの視差のずれ量をステレオマッチングにより取得したものでる。また、奥行情報D1〜D3において、鎖線で囲まれた画像の左部分(符号U1〜U3を付した部分)は、左眼カメラから見える映像と右眼カメラから見える映像が異なるため、視差のずれ量が求まらない不定領域である。
図19は、本実施形態に係る前景領域確率マップP(t0)の一例を示す概略図である。この図において、画像P1、P2、P3は、それぞれ前景領域確率マップP(t1−2)、前景領域確率マップP(t1−1)、前景領域確率マップP(t1)を示す。この前景領域確率マップP(t)は、ぞれぞれ、図18の奥行情報(t)に基づいて算出したものである。この図において、色の明るい(淡い)画像部分は、色の暗い(濃い)画像部分と比較して奥行が小さい(手前に位置する)可能性が高いことを示す。
図20は、本実施形態に係る前景画像領域(t)の一例の説明図である。この図において、画像M1a、M2a、M3aは、それぞれ、本実施形態に係る前景領域補正部156による補正後の前景画像領域(t1−2)、前景画像領域(t1−1)、前景画像領域(t1)である。画像M1b、M2b、M3bは、それぞれ、従来技術による前景画像領域(t1−2)、前景画像領域(t1−1)、前景画像領域(t1)である。
図20において、従来技術による画像M1b、M2b、M3bには、符号E1〜E6の符号を付した部分に、欠損部分や誤抽出部分が発生している。また、画像M1b、M2b、M3bを時間に沿って再生した場合、前景画像領域の欠損部分や誤抽出部分が画像毎に発生することによって、抽出形状(輪郭)の不連続性によるフリッカ、ちらつきが生じる。
一方、本実施形態による画像M1a、M2a、M3aでは、前景画像領域の形状が平滑化(安定化)され、画像M1b、M2b、M3bと比較して、前景画像領域の欠損部分、誤抽出部分の発生が低減されている。これにより、本実施形態では、画像M1a、M2a、M3aを時間に沿って再生した場合でも、抽出形状の不連続性によるフリッカ、ちらつきが生じることを抑制できる。
このように、本実施形態によれば、前景領域補正部156が、時刻t0における前景領域情報(t0)が示す前景画像領域(t0)を、時刻t0−kにおける前景領域情報(t0−k)及び映像情報(t0−k)を用いて補正する。これにより、映像処理装置1は、抽出形状の不連続性によるフリッカ、ちらつきが生じることを抑制でき、対象物の画像を確実に抽出できる。
また、本実施形態によれば、移動量算出部1561が、時刻t0における映像情報(t0)とROI情報(t0)、及び、時刻t0−kおける映像情報(t0−k)と前景領域情報(t0−k)とROI情報に基づいて、時刻t0−kから時刻t0の間に前景画像領域(t0−k)が移動した移動量を算出する、前景領域確率マップ生成部1562は、移動量算出部1561が算出した移動量と前景画像領域(t0−k)とに基づいて、時刻t0における映像中の部分(各座標)が前景画像領域である前景領域確率マップP(t0)を算出する。境界領域補正部1564は、前景画像確率マップ生成部1562が算出した前景領域確率マップP(t0)に基づいて時刻t0における前景領域情報(t0)を抽出し、抽出した前景領域情報(t0)が示す前景画像領域(t0)を補正する。これにより、映像処理装置1は、抽出形状の不連続性によるフリッカ、ちらつきが生じることを抑制でき、対象物の画像を確実に抽出できる。
また、本実施形態によれば、フィルタ部151aは、式(1)のバイラテラルフィルタを用いることにより、映像情報(t)の画像各々を、エッジ成分が保持された骨格成分と、ノイズや模様を含むテクスチャ成分と、へ分離することができる。
また、本実施形態によれば、フィルタ部151bが奥行情報(t)のノイズを除去し平滑化する。これにより、映像処理装置1では、分布モデル推定部152における奥行分布モデルの混合モデルの推定精度を向上できる。その結果、映像処理装置1では、前景領域抽出部105において、基本前景領域とROI内の各領域の統合処理に用いる奥行に関する閾値を精度良く決定できる。
また、本実施形態によれば、映像処理装置1では、エッジ保持平滑化フィルタ後の骨格成分の画像に対して、クラスタリング部153においてクラスタリングを行う。これにより、映像処理装置1では、ノイズ、テクスチャに対して安定した(ロバストな)スーパーピクセル群を得ることができる。なお、スーパーピクセルとは、ある程度の大きな面積を持ち、かつ意味のある領域のことを表す。
また、本実施形態によれば、映像処理装置1では、ROI情報を用いてROI内の奥行分布モデルを混合モデルにより求めることで、より精度良く前景領域の奥行分布モデルを取得できる。その結果、前景領域抽出部155において、基本前景領域とROI内の各領域の統合処理に用いる奥行に関する閾値を精度良く決定することが可能となる。
また、本実施形態によれば、前景領域補正部156による補正によって、時刻(t0)における抽出対象画像領域の欠損部分、または抽出対象画領域の誤抽出部分を補正し時間方向に関する抽出画像形状(輪郭)の不連続性によるフリッカ、ちらつきを抑制できる。
また、本実施形態において、映像処理装置1では、映像情報(t)におけるノイズを除去して平滑化処理を行う。これにより、映像処理装置1では、ノイズ、テクスチャ成分が起因による、領域面積が小さいスーパーピクセル群が発生することを抑制できる。
また、本実施形態において、移動量算出部1561がスパイラルサーチのような動き探索を用いることで、移動量(t0,t0−k)を求めるのに必要な計算量を削減できる。また、移動量算出部1561は、類似度の算出時には、マスクMk上の白部分(前景領域)のみを用いてもよい(図13参照)。これにより、映像処理装置1では、背景領域を含んでテンプレートマッチングを行う場合よりも、移動量の探索誤りを防止でき、また、不要な計算を省略できる。なお、本実施形態では、過去の時刻(t−k)(k=1〜K)から時刻(t)への前景領域の移動量を求める例を述べたが、未来の時刻(t+k)(k=1〜K)から時刻(t)への移動量を求めてもよい。
なお、上記実施形態におけるユーザ指定ROI情報(ts)の検出処理では、長方形(四角形)の選択ツールを用いた場合について説明をした。しかし、本発明はこれに限らず、他の選択ツールを用いてもよい。例えば、図21、22に示す選択ツールを用いてもよい。
図21は、本実施形態に係るユーザ指定ROI情報(ts)の検出処理の別の一例を示す概略図である。図21は、楕円(円)の選択ツールを用いた場合の図である。この図において、符号r2を付した枠(対象物Oの外接円;外接円には楕円も含まれる)の位置情報がユーザ指定ROI情報(ts)である。具体的には、図21の場合に、ユーザ指定ROI情報(ts)は、例えば、以下の表2のデータとして記録される。
Figure 2012085233
表2では、ユーザ指定ROI情報(ts)は、時刻ts(又は、フレーム番号でもよい)、外接円内に抽出対象画像が有るか無いかを示す有無フラグ(抽出対象フラグ)、外接円の中心位置(x0,y0)(図21では点P2の座標)、外接円の短軸方向(図21では符号D21を付したベクトルの方向)及び短辺の長さ(図2では符号W2で表す長さ)、外接円の長軸方向(図21では符号D22を付したベクトルの方向)及び長辺の長さ(図21では符号L2で表す長さ)で、表される。
図22は、本実施形態に係るユーザ指定ROI情報(ts)の検出処理の別の一例を示す概略図である。図22は、フリーハンドの選択ツールを用いた場合の図である。この図において、符号r3を付した枠(対象物Oの外接形状)の位置情報がユーザ指定ROI情報(ts)である。具体的には、図22の場合に、ユーザ指定ROI情報(ts)は、例えば、以下の表3のデータとして記録される。
Figure 2012085233
表3では、ユーザ指定ROI情報(ts)は、時刻ts(又は、フレーム番号でもよい)、外接形状内に抽出対象画像が有るか無いかを示す有無フラグ(抽出対象フラグ)、外接形状の始点位置(x0,y0)(ユーザが外接形状の入力を始めた点の位置)(図22では点P3の座標)、始点位置から時計周り(又は反時計周りでもよい)に外接形状の縁上の点を表したチェインコードで、表される。なお、チェインコードとは、ある点Aに対して隣接する点Bの位置を数値化し、さらに、その隣接する点Bに対して隣接する点C(点Aではない点)の位置を数値化する、ことを繰り返し、それらの数値の結合によって、線を表すものである。
また、上記実施形態において、処理画像単位毎に、ROI取得部13より得られたROI情報(t)を利用し、抽出対象となる画像領域を囲むROIの形状を、処理画像(t)に重畳し、抽出対象の画像領域が選択されていることをユーザに提示してもよい。また、現在表示されている処理画像(t)のフレーム番号、時刻情報をユーザに提示してもよい。
また、上記実施形態において、前景領域補正部156がある時刻t0の前景画像領域(t0)に対して前の時刻t0−kの前景画像領域(t0−k)を用いる場合について説明したが、本発明はこれに限られない。例えば、ある時刻t0より後の時刻t0+kの前景画像領域(t0+k)のみを用いてもよいし、ある時刻t0の前後の時刻t0±kの前景画像領域(t0±k)のみを用いてもよい。また、k=1であってもよい。
また、上記実施形態において、奥行情報(t)は、映像情報(t)の1画素に対して1個の情報でなくてもよく、隣接する複数の画素に対して1個の情報であってもよい。つまり、奥行情報(t)が表す解像度は映像情報(t)の解像度と異なっていてもよい。
また、奥行情報(t)は、例えば、近接する複数の撮像装置で被写体を撮像し、撮像した複数の映像情報から被写体の位置等のズレを検出して奥行きを算出するステレオマッチングによって、算出された情報である。ただし、奥行情報(t)は、ステレオマッチング等のパッシブステレオ方式によって算出された情報に限られず、TOF(Time−Of−Flight)法等の光を利用した能動的3次元計測器(レンジファインダ)によって取得した情報であってもよい。
また、上記実施形態において、映像表示部14はタッチパネル型のディスプレイである場合について説明したが、本発明はこれに限らず、他の入力手段であってもよいし、映像処理装置1が映像表示部14とは別に入力部(例えば、マウス等のポインティングデバイス)を備えてもよい。
また、上記実施形態において、ROI取得部13は、例えば、以下の(1)〜(5)の手法のいずれかを用いて、ROI情報(t)を抽出してもよい。
(1)Harris corner detector
(2)FAST conrner detection
(3)SUSAN(Smallest Univalue Segment Assimilating Nucleus) corner detector
(4)SURF(speed up robust features)
(5)SIFT(Scale−invariant Feature Transform)
また、上記実施形態において、ROI取得部13が特徴点を用いてROI情報(t)を抽出する場合について説明したが、本発明はこれに限らず、例えば、ユーザの指定領域の色情報の分布に基づき、パーティクルフィルタやMean−shiftによってROI情報(t)を抽出してもよい。また、例えば、ROI取得部13は、公知の動き探索を用いて、ROI情報(t)を抽出してもよい。
また、上記実施形態において、フィルタ部151a、151bがバイラテラルフィルタを用いる場合について説明したが、本発明はこれに限らず、フィルタ部151a、151bは他のフィルタ、例えば、TV(Total Variation)フィルタ、k最近隣平均化フィルタ(k−nearest neighbor averaging filter)、メディアンフィルタ、エッジ強度が小さい平坦部のみにローパスフィルタを用いてもよい。
また、上記実施形態において、フィルタ部151a、151bは、エッジ平滑化フィルタは再帰的に行ってもよい。
また、上記実施形態において、映像処理装置1は、映像情報(t)、奥行情報(t)に対するエッジ保持平滑化フィルタ処理を、オブジェクト抽出部15に入力する前に行ってもよい。
また、上記実施形態において、分布モデル推定部152が混合モデルに用いる分布モデルとしてガウス分布を用いる場合について説明したが、本発明はこれに限らず、例えば、指数型分布族(ラプラス分布、 ベータ分布、ベルヌーイ分布など)を用いてもよい。また、分布モデル推定部152は、混合モデルに用いるクラス数Kcを予め定めた値としてもよいし、次の一例のように値を決定してもよい。
分布モデル推定部152は、クラス数Kcに予め定めたクラス数Kc’を設定し、K-means法により、クラスタリングを行う。その後、分布モデル推定部152は、クラス間距離が所定閾値以下または未満を満たすクラスCiとクラスCjがある場合は、クラスCiとクラスCjとを併合して、新たなクラスCk’とする処理を行う。分布モデル推定部152は、この処理を、クラス数が一定値へ収束するまで繰り返すことにより、クラス数Kc(≦Kc’)を決定する。
なお、分布モデル推定部152が奥行分布モデルの推定に用いる手法は、混合モデルなどのパラメトリックの推定手法に限定されず、Mean−shift法などのノンパラメトリックの推定手法であってもよい。
また、上記実施形態において、クラスタリング部153が特徴量空間でのクラスタリングを行う場合について説明したが、本発明はこれに限らず、画像空間でのクラスタリングを行ってもよい。画像空間でのクラスタリングとは、特徴量空間に写像せず、元の画像空間において、画素間、または領域を構成する画素群(領域)間の類似度を基に、領域分割を実施する手法である。例えば、クラスタリング部153は、以下の手法の画像空間でのクラスタリングを行ってもよい。
(a)画素結合法
例えば、クラスタリング部153は、ピクセル間の連結関係を重み付無向グラフで表し、頂点が全域最小木を構成するように連結関係を表すエッジの強度によって領域統合を行う。
(b)領域成長法(Region Growing法ともいう)
(c)領域分割統合法(Split&Merge法ともいう)
(d)(a)、(b)、(c)のいずれかを組み合わせた手法
なお、クラスタリング部153は、画像空間でのクラスタリング処理の終了後、ラベリング付けを行い、ラベリング結果を表す領域情報(t)を生成する。
また、上記実施形態において、移動量算出部1561が類似度RSAD(式(9))を算出し(SAD(Sum of Absolute Difference))、その値が最も小さい領域を推定領域に決定したが、本発明はこれに限らず、例えば、(1)〜(3)に示す他の手法を用いて推定領域を決定してもよい。
(1)SSD(Sum of Squared Difference)
移動量算出部1561は、各画像間で対応する画素の値の差の絶対値をユークリッド距離(L−距離、L−ノルム)で算出し、その総和RSDD(次式(16))の値が最も小さい領域を推定領域に決定する。
Figure 2012085233
ここで、式(16)は、絶対値をユークリッド距離(L−距離、L−ノルム)で算出し、iとjについて、その総和をとることを示す。
(2)NCC(Normalized Cross−Correlation)
正規化相互相関とも称す。移動量算出部1561は、次式(17)のRNCCの値が最も1に近い領域を推定領域に決定する。
Figure 2012085233
(3)CCC(Cross−Correlation Coefficient)
相互相関係数ともいう。移動量算出部1561は、次式(18)のRCCCの値が最も1に近い領域を推定領域に決定する。なお、式(18)中のアイバー(「I」(アイ)の上に「−」(バー))及びティーバー(「T」(ティー)の上に「−」(バー))は、それぞれが示す領域内の画素値の平均ベクトルを表す。
Figure 2012085233
なお、移動量算出部1561の演算量は、式(9)、(16)、(17)、(18)の順で大きくなる。なお、移動量算出部1561は上記のスパイラルサーチに代えて、階層的探索法(多重解像度法、疎密探索法(coarse−to−fine search)ともいう)を用いて、移動量を算出してもよい。
また、上記実施形態において、クラスタリング部153は、ROI取得部13より得られるROI情報(t)に基づいて、ROI内の画像に関してクラスタリングを行なってもよい。これにより、クラスタリング部153は、演算理を削減させることができる。また、クラスタリング部153は、ROI情報に基づいて、対象画像領域よりも広い領域に対して、クラスタリングを行なってもよい。これにより、クラスタリング部153は、ROI内の画像に関してクラスタリングを行なう場合に比べて、クラスタリングの精度を向上させることができる。
また、上記実施形態において、領域統合部1534は、領域統合の判定時に、ROI内に重心がある領域に関して、領域の一部がROIの境界を越えるか否か、領域特徴量(t)の外接矩形を用いて判定してもよい。これにより、映像処理装置1は、背景領域を前景領域として誤抽出することを低減させることができる。また、領域統合部1534は、基本前景領域の特徴量を用いる代わりに、領域間の隣接関係を用いて領域統合の判定を行なってもよい。例えば、領域統合部1534は、既に前景領域であると判定した領域の特徴量を用いて、既に前景領域であると判定した領域に隣接する領域との領域統合の判定を行なってもよい。これにより、映像処理装置1では、より精度良く前景領域を抽出することが可能となる。
なお、上述した実施形態における映像処理装置1の一部をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、映像処理装置1に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
また、上述した実施形態における映像処理装置1の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現しても良い。映像処理装置1の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化しても良い。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いても良い。
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
1・・・映像処理装置、10・・・映像情報取得部、11・・・奥行情報取得部、12・・・映像情報再生部、13・・・ROI取得部、14・・・映像表示部、15・・・オブジェクト抽出部、16・・・マスク情報記録部、151a、151b・・・フィルタ部、152・・・分布モデル推定部、153・・・クラスタリング部、154・・・特徴量算出部、155・・・前景領域抽出部、156・・・前景領域補正部、157・・・マスク情報生成部、158・・・バッファ部、1531・・・特徴量検出部、1532・・・シード生成部、1533・・・領域成長部、1534・・・領域統合部、1561・・・移動量算出部、1562・・・前景領域確率マップ生成部、1563・・・補正前景領域確定部、1564・・・境界領域補正部
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、映像情報が示す映像から前景の画像を示す前景領域情報を抽出する映像処理装置であって、前記映像情報、対象画像領域を示すROI情報、及び奥行情報を用いて、記前景領域情報を生成する抽出部と、前記抽出部が生成した第1の時間における前景領域情報及び1又は複数の第2の時間における前景領域情報と、映像情報と、を用いて、前記第1の時間における前景領域情報を補正する前景領域補正部とを備えることを特徴とする映像処理装置である。
(2)また、本発明の一態様は、上記の映像処理装置において、前記映像情報が示す映像には、予め定められた対象物の画像が含まれ、前記前景領域補正部は、第1の時間における、映像情報と前記対象物の画像を示す対象画像領域情報と前記抽出部が生成した前景領域情報、及び、第2の時間における、映像情報と前記抽出部が生成した前景領域情報と対象画像領域情報に基づいて、第1の時間における前景の画像の位置と第2の時間における前景の画像の位置を推定し、第2の時間から第1の時間の間に前記前景の画像が移動した移動量を算出する移動量算出部と、前記抽出部が生成した第1の時間における前景領域情報と、前記移動量算出部が算出した移動量と、前記抽出部が生成した第2の時間における前景領域情報とに基づいて、第1の時間における映像中の部分が前景の画像である確率を算出する前景領域確率マップ生成部と、前記前景画像確率マップ生成部が算出した確率に基づいて第1の時間における前景領域情報を確定する前景領域確定部と、前記前景領域確定部が確定した前景領域情報の示す前景と背景の境界を平滑化する境界領域補正部とを備えることを特徴とする。
(3)また、本発明の一態様は、上記の映像処理装置において、前景領域確率マップ生成部は、第1の時間と第2の時間と差である時間距離に応じた重みであって、前記時間距離が大きいほど値の小さな重みに基づいて、前記確率を算出することを特徴とする。
(4)また、本発明の一態様は、上記の映像処理装置において、前記抽出部は、前記映像情報が示す映像を小領域に分割するクラスタリング部と、前記クラスタリング部が分割した小領域毎の特徴量を算出する特徴量算出部と、前記ROI情報、及び前記奥行情報を用いて、前記ROI情報が示す対象画像領域内の奥行の分布を示すROI奥行情報を推定する分布モデル推定部と、前記特徴量算出部が算出した小領域の特徴量、及び、前記分布モデル推定部が推定したROI奥行情報に基づいて、前記小領域が前記前景の画像の領域であるか否かを判定することで、前記前景領域情報を生成する前景領域抽出部とを備えることを特徴とする。
(5)また、本発明の一態様は、映像情報が示す映像から前景の画像を示す前景領域情報を抽出する映像処理装置における映像処理方法であって、抽出部が、前記映像情報、対象画像領域を示すROI情報、及び奥行情報を用いて、前記前景領域情報を生成する抽出ステップと、前景領域補正部が、前記抽出ステップで生成した第1の時間における前景領域情報及び1又は複数の第2の時間における前景領域情報と、映像情報と、を用いて、前記第1の時間における前景領域情報を補正する前景領域補正ステップとを有することを特徴とする映像処理方法である。
(6)また、本発明の一態様は、映像情報が示す映像から前景の画像を示す前景領域情報を抽出する映像処理装置のコンピュータに、前記映像情報、対象画像領域を示すROI情報、及び奥行情報を用いて、前記前景領域情報を生成する抽出手順、前記抽出手順で生成した第1の時間における前景領域情報及び1又は複数の第2の時間における前景領域情報と、映像情報と、を用いて、前記第1の時間における前景領域情報を補正する前景領域補正手順、を実行させるための映像処理プログラムである。

Claims (7)

  1. 映像情報が示す映像から前景の画像を示す前景領域情報を抽出する映像処理装置であって、
    第1の時間における前景領域情報が示す前景の画像を、第2の時間における前景領域情報及び映像情報を用いて補正する前景領域補正部を備えることを特徴とする映像処理装置。
  2. 前景領域補正部は、第1の時間における前景領域情報が示す前景画像を、複数の第2の時間における前景領域情報及び映像情報を用いて補正することを特徴とする請求項1に記載の映像処理装置。
  3. 前記映像情報が示す映像には、予め定められた対象物の画像が含まれ、
    前景領域補正部は、
    第1の時間における、映像情報と前記対象物の画像を示す対象画像領域情報、及び、第2の時間における、映像情報と前景領域情報と対象画像領域情報に基づいて、第2の時間から第1の時間の間に前記前景の画像が移動した移動量を算出する移動量算出部と、
    前記移動量算出部が算出した移動量と前記前景の画像とに基づいて、第1の時間における映像中の部分が前景の画像である確率を算出する前景領域確率マップ生成部と、
    前記前景画像確率マップ生成部が算出した確率に基づいて第1の時間における前景領域情報を抽出し、抽出した前景領域情報が示す前景の画像を補正する補正部と、
    を備えることを特徴とする請求項1又は2に記載の映像処理装置。
  4. 映像情報が示す映像から前景の画像を示す前景領域情報を抽出する映像処理装置における映像処理方法であって、
    前景領域補正部が、第1の時間における前景領域情報が示す前景の画像を、第2の時間における前景領域情報及び映像情報を用いて補正する前景領域補正ステップを有することを特徴とする映像処理方法。
  5. 前記映像情報が示す映像には、予め定められた対象物の画像が含まれ、
    前景領域補正ステップは、
    移動量算出部が、第1の時間における、映像情報と前記対象物の画像を示す対象画像領域情報、及び、第2の時間における、映像情報と前景領域情報と対象画像領域情報に基づいて、第2の時間から第1の時間の間に前記前景の画像が移動した移動量を算出する移動量算出ステップと、
    前景領域確率マップ生成部が、前記移動量算出ステップで算出した移動量と前記前景の画像とに基づいて、第1の時間における映像中の部分が前景の画像である確率を算出する前景領域確率マップ生成ステップと、
    補正部が、前記前景画像確率マップ生成ステップで算出した確率に基づいて第1の時間における前景領域情報を抽出し、抽出した前景領域情報が示す前景の画像を補正する補正ステップと、
    を有することを特徴とする請求項4に記載の映像処理装置。
  6. 映像情報が示す映像から前景の画像を示す前景領域情報を抽出する映像処理装置のコンピュータに、
    第1の時間における前景領域情報が示す前景の画像を、第2の時間における前景領域情報及び映像情報を用いて補正する前景領域補正手順を実行させるための映像処理プログラム。
  7. 前記映像情報が示す映像には、予め定められた対象物の画像が含まれ、
    前景領域補正手順は、
    第1の時間における、映像情報と前記対象物の画像を示す対象画像領域情報、及び、第2の時間における、映像情報と前景領域情報と対象画像領域情報に基づいて、第2の時間から第1の時間の間に前記前景の画像が移動した移動量を算出する移動量算出手順、
    前記移動量算出手順で算出した移動量と前記前景の画像とに基づいて、第1の時間における映像中の部分が前景の画像である確率を算出する前景領域確率マップ生成手順、
    前記前景画像確率マップ生成手順が算出した確率に基づいて第1の時間における前景領域情報を抽出し、抽出した前景領域情報が示す前景の画像を補正する補正手順、
    を実行させるための映像処理プログラム。
JP2010231928A 2010-10-14 2010-10-14 映像処理装置、映像処理方法、及びプログラム Expired - Fee Related JP5036084B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010231928A JP5036084B2 (ja) 2010-10-14 2010-10-14 映像処理装置、映像処理方法、及びプログラム
PCT/JP2011/073639 WO2012050185A1 (ja) 2010-10-14 2011-10-14 映像処理装置、映像処理方法、及び映像処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010231928A JP5036084B2 (ja) 2010-10-14 2010-10-14 映像処理装置、映像処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2012085233A true JP2012085233A (ja) 2012-04-26
JP5036084B2 JP5036084B2 (ja) 2012-09-26

Family

ID=45938406

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010231928A Expired - Fee Related JP5036084B2 (ja) 2010-10-14 2010-10-14 映像処理装置、映像処理方法、及びプログラム

Country Status (2)

Country Link
JP (1) JP5036084B2 (ja)
WO (1) WO2012050185A1 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140063440A (ko) * 2012-11-15 2014-05-27 톰슨 라이센싱 수퍼픽셀 라이프 사이클 관리 방법
KR20140088697A (ko) * 2013-01-03 2014-07-11 삼성전자주식회사 깊이 영상 처리 장치 및 방법
JP2014211718A (ja) * 2013-04-17 2014-11-13 キヤノン株式会社 画像処理装置および画像処理方法
JP2015099563A (ja) * 2013-11-20 2015-05-28 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
JP2015197816A (ja) * 2014-04-01 2015-11-09 キヤノン株式会社 画像処理装置、画像処理方法
JP2016075993A (ja) * 2014-10-02 2016-05-12 キヤノン株式会社 画像処理装置及びその制御方法、プログラム
JP2016139320A (ja) * 2015-01-28 2016-08-04 Kddi株式会社 情報端末装置
JP2018048890A (ja) * 2016-09-21 2018-03-29 株式会社日立製作所 姿勢推定システム、姿勢推定装置、及び距離画像カメラ
WO2020195936A1 (ja) * 2019-03-28 2020-10-01 ソニーセミコンダクタソリューションズ株式会社 固体撮像装置、及び電子機器
WO2022249997A1 (ja) * 2021-05-24 2022-12-01 京セラ株式会社 教師データ生成装置、教師データ生成方法、及び画像処理装置
WO2023047643A1 (ja) * 2021-09-21 2023-03-30 ソニーグループ株式会社 情報処理装置、映像処理方法、プログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112018006730T5 (de) * 2017-12-28 2020-10-01 Sony Corporation Steuervorrichtung und steuerverfahren, programm und mobiles objekt
JP7094702B2 (ja) * 2018-01-12 2022-07-04 キヤノン株式会社 画像処理装置及びその方法、プログラム
CN111709328B (zh) * 2020-05-29 2023-08-04 北京百度网讯科技有限公司 车辆跟踪方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11112871A (ja) * 1997-09-30 1999-04-23 Sony Corp 画像抜き出し装置および画像抜き出し方法、画像符号化装置および画像符号化方法、画像復号装置および画像復号方法、画像記録装置および画像記録方法、画像再生装置および画像再生方法、並びに記録媒体
JP2001076161A (ja) * 1999-09-02 2001-03-23 Canon Inc 画像処理方法及び装置並びに記憶媒体
JP2002024834A (ja) * 2000-07-11 2002-01-25 Canon Inc 画像処理装置及びその方法
JP2008523454A (ja) * 2004-12-15 2008-07-03 ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド 背景領域および前景領域をモデリングする方法
JP2009526495A (ja) * 2006-02-07 2009-07-16 クゥアルコム・インコーポレイテッド モード間の関心領域画像オブジェクト区分

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11112871A (ja) * 1997-09-30 1999-04-23 Sony Corp 画像抜き出し装置および画像抜き出し方法、画像符号化装置および画像符号化方法、画像復号装置および画像復号方法、画像記録装置および画像記録方法、画像再生装置および画像再生方法、並びに記録媒体
JP2001076161A (ja) * 1999-09-02 2001-03-23 Canon Inc 画像処理方法及び装置並びに記憶媒体
JP2002024834A (ja) * 2000-07-11 2002-01-25 Canon Inc 画像処理装置及びその方法
JP2008523454A (ja) * 2004-12-15 2008-07-03 ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド 背景領域および前景領域をモデリングする方法
JP2009526495A (ja) * 2006-02-07 2009-07-16 クゥアルコム・インコーポレイテッド モード間の関心領域画像オブジェクト区分

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102128121B1 (ko) * 2012-11-15 2020-06-29 인터디지털 브이씨 홀딩스 인코포레이티드 수퍼픽셀 라이프 사이클 관리 방법
JP2014099178A (ja) * 2012-11-15 2014-05-29 Thomson Licensing スーパーピクセルライフサイクル管理のための方法
KR20140063440A (ko) * 2012-11-15 2014-05-27 톰슨 라이센싱 수퍼픽셀 라이프 사이클 관리 방법
KR20140088697A (ko) * 2013-01-03 2014-07-11 삼성전자주식회사 깊이 영상 처리 장치 및 방법
KR101896301B1 (ko) * 2013-01-03 2018-09-07 삼성전자주식회사 깊이 영상 처리 장치 및 방법
JP2014211718A (ja) * 2013-04-17 2014-11-13 キヤノン株式会社 画像処理装置および画像処理方法
JP2015099563A (ja) * 2013-11-20 2015-05-28 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
JP2015197816A (ja) * 2014-04-01 2015-11-09 キヤノン株式会社 画像処理装置、画像処理方法
US10438361B2 (en) 2014-04-01 2019-10-08 Canon Kabushiki Kaisha Image processing apparatus and image processing method for finding background regions in an image
JP2016075993A (ja) * 2014-10-02 2016-05-12 キヤノン株式会社 画像処理装置及びその制御方法、プログラム
JP2016139320A (ja) * 2015-01-28 2016-08-04 Kddi株式会社 情報端末装置
JP2018048890A (ja) * 2016-09-21 2018-03-29 株式会社日立製作所 姿勢推定システム、姿勢推定装置、及び距離画像カメラ
WO2020195936A1 (ja) * 2019-03-28 2020-10-01 ソニーセミコンダクタソリューションズ株式会社 固体撮像装置、及び電子機器
WO2022249997A1 (ja) * 2021-05-24 2022-12-01 京セラ株式会社 教師データ生成装置、教師データ生成方法、及び画像処理装置
JP7467773B2 (ja) 2021-05-24 2024-04-15 京セラ株式会社 教師データ生成装置、教師データ生成方法、及び画像処理装置
WO2023047643A1 (ja) * 2021-09-21 2023-03-30 ソニーグループ株式会社 情報処理装置、映像処理方法、プログラム

Also Published As

Publication number Publication date
WO2012050185A1 (ja) 2012-04-19
JP5036084B2 (ja) 2012-09-26

Similar Documents

Publication Publication Date Title
JP5036084B2 (ja) 映像処理装置、映像処理方法、及びプログラム
Zhang et al. Shadow remover: Image shadow removal based on illumination recovering optimization
KR102031302B1 (ko) 오브젝트 디지타이제이션 기법
Crabb et al. Real-time foreground segmentation via range and color imaging
CN109636732B (zh) 一种深度图像的空洞修复方法以及图像处理装置
KR101670282B1 (ko) 전경-배경 제약 조건 전파를 기초로 하는 비디오 매팅
EP3104332A1 (en) Digital image manipulation
US9542735B2 (en) Method and device to compose an image by eliminating one or more moving objects
US10249029B2 (en) Reconstruction of missing regions of images
CN108961304B (zh) 识别视频中运动前景的方法和确定视频中目标位置的方法
KR20170015299A (ko) 배경 추적을 통한 오브젝트 추적 및 분할을 위한 방법 및 장치
Le et al. Object removal from complex videos using a few annotations
JP5656768B2 (ja) 画像特徴量抽出装置およびそのプログラム
CN108537868A (zh) 信息处理设备和信息处理方法
Recky et al. Façade segmentation in a multi-view scenario
JP6272071B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN109840951A (zh) 针对平面地图进行增强现实的方法及装置
EP4052224B1 (en) Method for generating a three dimensional, 3d, model
Luo et al. Depth-aided inpainting for disocclusion restoration of multi-view images using depth-image-based rendering
Engels et al. Automatic occlusion removal from façades for 3D urban reconstruction
JP2013120504A (ja) オブジェクト抽出装置、オブジェクト抽出方法、及びプログラム
Finger et al. Video Matting from Depth Maps
Xiang et al. A modified joint trilateral filter based depth map refinement method
JP2012123567A (ja) オブジェクト検出方法、オブジェクト検出装置およびオブジェクト検出プログラム
Friedland et al. Object cut and paste in images and videos

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120510

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120605

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120702

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150713

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees