JP5766620B2 - 物体領域検出装置、方法、及びプログラム - Google Patents

物体領域検出装置、方法、及びプログラム Download PDF

Info

Publication number
JP5766620B2
JP5766620B2 JP2012002544A JP2012002544A JP5766620B2 JP 5766620 B2 JP5766620 B2 JP 5766620B2 JP 2012002544 A JP2012002544 A JP 2012002544A JP 2012002544 A JP2012002544 A JP 2012002544A JP 5766620 B2 JP5766620 B2 JP 5766620B2
Authority
JP
Japan
Prior art keywords
image
feature amount
likelihood
object region
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012002544A
Other languages
English (en)
Other versions
JP2013142991A (ja
Inventor
昭悟 木村
昭悟 木村
坂野 鋭
鋭 坂野
竜 米谷
竜 米谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012002544A priority Critical patent/JP5766620B2/ja
Publication of JP2013142991A publication Critical patent/JP2013142991A/ja
Application granted granted Critical
Publication of JP5766620B2 publication Critical patent/JP5766620B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Description

本発明は、物体領域検出装置、方法、及びプログラムに係り、特に、入力画像から、物体領域を検出する物体領域検出装置、方法、及びプログラムに関する。
画像や映像から、人物・動物・物体など興味の対象である領域(以下、「物体領域」という)を、背景などの物体領域以外の領域(以下、「背景領域」という)と区別して抽出する領域分割技術は、クロマキーなどを利用しない自由な画像映像合成、背景領域の変動に頑健な物体認識・画像映像検索、領域の重要性に応じてビットレートを調整可能な画像映像符号化など、応用範囲の広い重要な技術である。また、物体領域抽出技術として、画像領域分割をある種の統計モデルに対する事後確率最大化問題として定式化し、事後確率最大化問題を統計モデルと等価なグラフの最小カットを求めることによって解決する方法が知られている(例えば、特許文献1参照)。
特開2010−258914号公報
上記特許文献1を含めた数多くの先行技術では、物体領域を同定するための特徴として、色やテクスチャなどのアピアランスに基づく情報のみが用いられてきた。そのため、上記特許文献1に記載の技術では、物体領域と類似するアピアランスを持つ背景下で物体領域抽出を行う場合、物体のみではなく類似アピアランスの背景をも切り出してしまう、という問題がある。
本発明は、上記の課題に鑑みてなされたもので、物体領域と類似するアピアランスを持つ背景下であっても、より頑健に安定して、物体領域を検出することができる物体領域検出装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る物体領域検出装置は、入力画像の各位置が物体領域である事前確率を示す事前確率画像を、前記入力画像における顕著な特性を有する度合いを示す顕著度画像に基づいて抽出する事前確率画像抽出手段と、前記入力画像の物体領域および背景領域の領域にそれぞれ含まれる画像特徴量の尤度を示す画像特徴量尤度を、前記入力画像、前記顕著度画像、及び前記事前確率画像の少なくとも1つに基づいて算出する画像特徴量尤度算出手段と、前記入力画像に対応し、かつ、深度情報を表示する画像である深度画像に基づいて、物体領域および背景領域の領域にそれぞれ含まれる、深度情報の尤度を示す深度特徴量尤度を、前記深度画像、前記顕著度画像、及び前記事前確率画像の少なくとも1つに基づいて算出する深度特徴量尤度算出手段と、前記画像特徴量尤度および前記深度特徴量尤度を統合した統合特徴量尤度を算出する特徴量尤度統合手段と、前記入力画像、前記事前確率画像および前記統合特徴量尤度から、前記入力画像の物体領域を示す物体領域画像を抽出する物体領域画像抽出手段と、を含んで構成されている。また、前記特徴量尤度統合手段は、物体領域に含まれる前記画像特徴量の尤度と前記深度情報の尤度とを予め定めた深度情報の重みに基づいて統合し、背景領域に含まれる前記画像特徴量の尤度と前記深度情報の尤度とを、前記物体領域の尤度を統合する際に用いた重みとは異なるように予め定めた深度情報の重みに基づいて統合することにより、物体領域および背景領域の領域にそれぞれ含まれる、前記画像特徴量及び前記深度情報の組み合わせの尤度を示す前記統合特徴量尤度を、物体領域と背景領域でそれぞれ算出する。
本発明に係る物体領域検出方法は、事前確率画像抽出手段によって、入力画像の各位置が物体領域である事前確率を示す事前確率画像を、前記入力画像における顕著な特性を有する度合いを示す顕著度画像に基づいて抽出するステップと、画像特徴量尤度算出手段によって、前記入力画像の物体領域および背景領域の領域にそれぞれ含まれる画像特徴量の尤度を示す画像特徴量尤度を、前記入力画像、前記顕著度画像、及び前記事前確率画像の少なくとも1つに基づいて算出するステップと、深度特徴量尤度算出手段によって、前記入力画像に対応し、かつ、深度情報を表示する画像である深度画像に基づいて、物体領域および背景領域の領域にそれぞれ含まれる、深度情報の尤度を示す深度特徴量尤度を、前記深度画像、前記顕著度画像、及び前記事前確率画像の少なくとも1つに基づいて算出するステップと、特徴量尤度統合手段によって、前記画像特徴量尤度および前記深度特徴量尤度を統合した統合特徴量尤度を算出するステップと、物体領域画像抽出手段によって、前記入力画像、前記事前確率画像および前記統合特徴量尤度から、前記入力画像の物体領域を示す物体領域画像を抽出するステップと、を含む。また、前記特徴量尤度統合手段によって算出するステップは、物体領域に含まれる前記画像特徴量の尤度と前記深度情報の尤度とを予め定めた深度情報の重みに基づいて統合し、背景領域に含まれる前記画像特徴量の尤度と前記深度情報の尤度とを、前記物体領域の尤度を統合する際に用いた重みとは異なるように予め定めた深度情報の重みに基づいて統合することにより、物体領域および背景領域の領域にそれぞれ含まれる、前記画像特徴量及び前記深度情報の組み合わせの尤度を示す前記統合特徴量尤度を、物体領域と背景領域でそれぞれ算出する。
本発明によれば、事前確率画像抽出手段によって、入力画像の各位置が物体領域である事前確率を示す事前確率画像を、前記入力画像における顕著な特性を有する度合いを示す顕著度画像に基づいて抽出する。画像特徴量尤度算出手段によって、前記入力画像の物体領域および背景領域の領域にそれぞれ含まれる画像特徴量の尤度を示す画像特徴量尤度を、前記入力画像、前記顕著度画像、及び前記事前確率画像の少なくとも1つに基づいて算出する。
そして、深度特徴量尤度算出手段によって、前記入力画像に対応し、かつ、深度情報を表示する画像である深度画像に基づいて、物体領域および背景領域の領域にそれぞれ含まれる、深度情報の尤度を示す深度特徴量尤度を、前記深度画像、前記顕著度画像、及び前記事前確率画像の少なくとも1つに基づいて算出する。特徴量尤度統合手段によって、前記画像特徴量尤度および前記深度特徴量尤度を統合した統合特徴量尤度を算出する。
そして、物体領域画像抽出手段によって、前記入力画像、前記事前確率画像および前記統合特徴量尤度から、前記入力画像の物体領域を示す物体領域画像を抽出する。
このように、画像特徴量尤度および前記深度特徴量尤度を統合した統合特徴量尤度を算出して、入力画像の物体領域を示す物体領域画像を抽出することにより、物体領域と類似するアピアランスを持つ背景下であっても、より頑健に安定して、物体領域を検出することができる。
本発明に係るプログラムは、コンピュータを、上記の物体領域検出装置の各手段として機能させるためのプログラムである。
以上説明したように、本発明の物体領域検出装置、方法、及びプログラムによれば、画像特徴量尤度および前記深度特徴量尤度を統合した統合特徴量尤度を算出して、入力画像の物体領域を示す物体領域画像を抽出することにより、物体領域と類似するアピアランスを持つ背景下であっても、より頑健に安定して、物体領域を検出することができる、という効果が得られる。
入力画像から物体領域画像を生成する流れを示す図である。 本発明の第1の実施の形態に係る物体領域検出装置の構成を示す概略図である。 (A)事前確率画像抽出部の構成を示す図、及び(B)画像特徴量尤度算出部の構成を示す図である。 深度特徴量尤度算出部の構成を示す図である。 物体領域画像抽出部の構成を示す図である。 深度情報推定モデル構築部の処理内容を示す図である。 振動情報推定部の処理内容を示す図である。 物体領域抽出グラフの例である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
[第1の実施の形態]
以下、本発明の第1の実施形態に係る物体領域検出装置1000について図面を参照して説明する。なお、本実施形態(後述する第2の実施形態も同様)においては、領域分割を画像顕著性に基づいて実現するため、以下、「顕著領域」と「物体領域」とを同義で用い、「非顕著領域」と「背景領域」とを同義で用いる。また、以下の説明において、式中の文字上部に ̄が付いた文字は、文中において文字の前に ̄を記載して示す。
また、式中の文字上部に〜が付いた文字は、文中において文字の前に〜を記載して示す。
物体領域検出装置1000は、図1に示すように、外部から入力画像を取得し、当該入力画像から物体領域を抽出した物体領域画像を生成し、外部に出力する。
物体領域検出装置1000は、CPUと、RAMと、プログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図2に示すように、物体領域検出装置1000は、入力部100と、演算部200と、出力部300とを備えている。
入力部100は、入力された検出対象の入力画像を受け付ける。
演算部200は、図2に示すように、顕著度画像抽出部1、事前確率画像抽出部2、画像特徴量尤度算出部3、深度特徴量尤度算出部4、特徴量尤度統合部5、及び物体領域画像抽出部6を備える。事前確率画像抽出部2は、図3(A)に示すように、物体領域事前確率画像生成部21および物体領域事前確率画像更新部22を備える。画像特徴量尤度算出部3は、図3(B)に示すように、画像特徴量抽出部31、物体領域画像特徴量尤度算出部32、背景領域画像特徴量尤度算出部33、及び画像特徴量尤度出力部34を備える。物体領域画像特徴量尤度算出部32は、物体領域画像特徴量尤度生成部321および物体領域画像特徴量尤度更新部322を備える。背景領域画像特徴量尤度算出部33は、背景領域画像特徴量尤度生成部331および背景領域画像特徴量尤度更新部332を備える。深度特徴量尤度算出部4は、図4に示すように、深度情報推定モデル構築部41、深度情報推定部42、物体領域深度特徴量尤度算出部43、及び背景領域深度特徴量尤度算出部44、及び深度特徴量尤度出力部45を備えている。深度情報推定モデル構築部41は、学習画像データベース410、深度情報推定特徴量抽出部411、及び深度情報推定モデル決定部412を備える。深度情報推定部42は、深度情報推定特徴量抽出部421及び推定深度情報算出部422を備える。物体領域深度特徴量尤度算出部43は、物体領域深度特徴量尤度生成部431及び物体領域深度特徴量尤度更新部432を備える。背景領域深度特徴量尤度算出部44は、背景領域深度特徴量尤度生成部441及び背景領域深度特徴量尤度更新部442を備える。物体領域画像抽出部6は、図5に示すように、物体領域抽出グラフ生成部61および物体領域抽出グラフ分割部62を備える。
顕著度画像抽出部1は、入力画像を取得する。顕著度画像抽出部1は、入力画像の中で顕著な特性を持つ度合いである顕著度を示す画像である顕著度画像を抽出する。顕著度画像抽出部1は、抽出した顕著度画像を事前確率画像抽出部2に出力(供給)する。
顕著度画像抽出部1は、従来既知の手法を用いて、入力画像から、顕著度画像を抽出すればよく、例えば、特許文献1に記載した注目度映像抽出方法と同様の手法を用いることができる。この場合には、入力が映像となるため、入力部100により、入力画像を複製して時系列に並べることで、入力映像を生成すればよい。また、注目度映像抽出方法により抽出された注目度映像の各フレームを、顕著度画像として用いればよい。
あるいは、顕著度画像抽出部1は、特許文献2(特開2009−259035号公報)、特許文献3(特開2009−178034号公報)、特許公報4(特開2010−257344号公報)に記載した手法を用いてもよい。
本実施形態では、特許文献1に記載した注目度映像抽出方法で算出される基礎注目度画像を ̄S(t)と表わし、視線位置確率密度画像をX(t)と表わすこととする。
事前確率画像抽出部2は、入力映像を構成する各フレームである入力画像の各位置が顕著領域である確率を示す事前確率画像を抽出する。具体的には、事前確率画像抽出部2は、顕著度画像および物体領域画像抽出部6によって抽出された物体領域画像から、入力画像の各位置が物体領域である確率を表示する事前確率画像を抽出する。換言すれば、事前確率画像抽出部2は、入力画像の各位置が物体領域である確率を示す事前確率画像を、顕著度画像抽出部1によって抽出された顕著度画像および物体領域画像抽出部6によって抽出された当該入力画像に対応する物体領域画像に基づいて抽出する。事前確率画像抽出部2は、抽出した事前確率画像を画像特徴量尤度算出部3、深度特徴量尤度算出部4、および物体領域画像抽出部6に出力する。事前確率画像抽出部2が事前確率画像を抽出する方法は特に限定しないが、本実施形態においては、物体領域事前確率画像生成部21と物体領域事前確率画像更新部22とによって抽出する方法について説明する。
物体領域事前確率画像生成部21は、顕著度画像を入力し、顕著度画像のみから事前確率画像を生成する。物体領域事前確率画像生成部21が顕著度画像から事前確率画像を生成する方法は特に限定しないが、本実施形態においては、混合ガウス分布モデルを利用した方法について説明する。
物体領域事前確率画像生成部21は、まず、時刻tの顕著度画像(即ち、基礎注目度画像 ̄S(t)若しくは視線位置確率密度画像X(t))が、それぞれ中心位置〜x(t)・共分散行列〜Σs,j(t)(j=1,2,・・・,M)を持ち、混合比が〜ηs,j(t)であるM個のガウス分布の混合によって構成されていると仮定し、そのモデルパラメータ(即ち、M個の中心位置、共分散行列、混合比)を顕著度画像から推定する。推定方法の具体例は、以下の2つである。
(推定方法1)
EMアルゴリズムを用いて導出する。このとき、EMアルゴリズムに与える各サンプルは顕著度画像のある特定の位置xに対応し、位置xにおける画素値と等しい値の重みを持つことに注意する。EMアルゴリズムによる混合ガウス分布パラメータの推定は、下記式(1)〜下記式(4)をk=1,2,・・・で繰り返すことによって行われ、各パラメータが収束した時点で手順を打ち切り、パラメータを固定する。
ここで、g(x;〜x,Σ)は多次元正規分布であり、次元数がDとするときには下記式(5)で定義される。
また、視線位置確率密度画像X(t)の位置xにおける画素値を、位置xをEMアルゴリズムのサンプルとみなしたときの重みとして利用していることから、ここではw(t)と表現している。
(推定方法2)
注目度画像の画素値の極大値をM個検出し、極大値となる位置を中心位置〜x(j=1,2,・・・,M)として定め、その位置の顕著度画像の画素値を混合比〜ηs,j(t)とする。共分散行列〜Σs,j(t)については、第1の推定方法と同様にして求めるか、予め定めておいた値を利用する。
以上のようにして、物体領域事前確率画像生成部21は、顕著度画像から混合ガウス分布のモデルパラメータを推定し、事前確率画像を生成する。具体的には、物体領域事前確率画像生成部21は、モデルパラメータの1つである混合比を、その最大値が1と等しくなるように正規化し、その後に各位置における混合ガウス分布の確率を計算して、当該位置の事前確率画像 ̄Ξの画素値ξ(x,t)とする(下記式(6))。
上記の実施形態では、全ての位置において混合ガウス分布を用いた方法によって事前確率画像を生成しているが、物体領域が画像の中心位置に存在しやすいことを考慮してもよい。この場合には、事前確率画像を第1の実施形態と同様に生成した後、画像の左右両端もしくは上下左右の端の一定領域のピクセル値を強制的に0とする。当該方法は、画像の端に物体領域が存在する可能性を排除することを意味している。若しくは、事前確率画像を第1の実施形態と同様に生成した後、画像の中心位置からの距離に比例する重みを事前確率画像に掛け合わせ、その出力を新たに事前確率画像とする実施形態も考えられる。上記の通り、物体領域事前確率画像生成部21は、事前確率画像 ̄Ξ(t)を生成し出力する。
物体領域事前確率画像更新部22は、物体領域画像を用いて物体領域事前確率画像生成部21によって生成された事前確率画像を更新する。即ち、物体領域事前確率画像更新部22は、物体領域事前確率画像生成部21によって生成された事前確率画像、および、物体領域画像抽出部6によって抽出された物体領域画像を入力し、物体領域画像を用いて事前確率画像を更新する。物体領域事前確率画像更新部22が事前確率画像を更新する方法は特に限定しないが、本実施形態においては、カルマンフィルタの原理を利用する方法について説明する。
現時点(時刻t)の事前確率画像Ξ(t)(確率変数)の位置xにおける画素値ξ(x,t)(確率変数)が、現時点の更新前事前確率画像 ̄Ξ1(t)の位置xにおける画素値 ̄ξ1(x,t)、および、1時点前(時刻t−1)の物体領域画像A(t−1)の位置xにおける画素値a(x,t−1)について、下記式(7)(8)を満たしているものとする。
ここで、θ=(σ,σ)はあらかじめ与えられるパラメータである。またf(・) は、物体領域画像の画素値を実数値に変換する関数であり、例えば、下記式(9)(10)のように設定する。
ただし、 ̄a(0≦ ̄a≦1/2)は予め定められたパラメータである。
このとき、物体領域事前確率画像更新部22は、現時点の事前確率画像Ξ(t)の位置xにおける画素値ξ(x,t)を、カルマンフィルタの原理を利用することにより、下記式(11)(12)によって更新する。
なお、σ2 ξ1(t)は、各時刻の物体領域事前確率の分散である。
上記の実施形態では、各時刻の事前確率画像を保持しているが、この分散を次の時刻での更新の際に利用しなくてもよい。即ち、上記式(11)(12)に、下記式(13)を追加してもよい。
上記の通り、物体領域事前確率画像更新部22は、事前確率画像 ̄Ξ(t) をΞ(t)に更新し、更新後の事前確率画像Ξ1(t)を出力する。
上記の通り、事前確率画像抽出部2は、上記図1に示すように、事前確率画像Ξ1(t)を抽出(生成、更新)し、出力する。
画像特徴量尤度算出部3は、入力画像の物体領域および背景領域の領域にそれぞれ含まれる画像特徴量の尤度を示す特徴量尤度を算出する。具体的には、画像特徴量尤度算出部3は、特徴量尤度を、入力画像、顕著度画像、事前確率画像抽出部2によって抽出された事前確率画像、及び物体領域画像抽出部6によって抽出された物体領域画像の少なくとも1つに基づいて算出する。例えば、画像特徴量尤度算出部3は、入力画像、事前確率画像、物体領域画像、及び前回までに算出した画像特徴量尤度から、画像特徴量尤度を算出する。画像特徴量尤度算出部3は、算出した画像特徴量尤度を物体領域画像抽出部6に出力する。画像特徴量尤度算出部3が画像特徴量尤度を算出する方法は特に限定しないが、本実施形態においては、画像特徴量抽出部31と物体領域画像特徴量尤度算出部32と背景領域画像特徴量尤度算出部33と画像特徴量尤度出力部34とによって算出する方法について説明する。
画像特徴量抽出部31は、入力画像から、画像特徴量(例えば、RGB値)を抽出する。
物体領域画像特徴量尤度算出部32は、物体領域に含まれる画像特徴量の尤度を示す物体領域特徴量尤度を、入力画像、事前確率画像、物体領域画像および前回迄に算出した物体領域画像特徴量尤度のうち少なくとも1つに基づいて算出する。物体領域画像特徴量尤度算出部32が物体領域画像特徴量尤度を算出する方法は特に限定しないが、本実施形態においては、物体領域画像特徴量尤度生成部321と物体領域画像特徴量尤度更新部322とによって算出する方法について説明する。
物体領域画像特徴量尤度生成部321は、入力画像の画像特徴量、事前確率画像および物体領域画像に基づいて物体領域画像特徴量尤度を新たに生成(算出)し、出力する。物体領域画像特徴量尤度生成部321が物体領域画像特徴量尤度を生成する方法は、特に限定しないが、本実施形態においては、混合ガウス分布モデルを利用した方法について説明する。
物体領域画像特徴量尤度生成部321は、まず、時刻tにおいて、物体領域に特有の画像特徴量の確率分布である物体領域画像特徴量確率が、それぞれ平均〜c(t)・共分散行列〜Σf,j(t)(j= 1,2,・・・,M)を持ち、混合比が〜ηf,j(t)であるM個のガウス分布の混合によって構成されていると仮定し、これらのモデルパラメータを、事前確率画像の画素値で重み付けした入力画像の画素値から推定する。モデルパラメータの推定には、例えばEMアルゴリズムを用いる。具体的には、下記式(14)〜下記式(17)をk=1,2,・・・ で繰り返すことによって行われ、各パラメータが収束した時点で手順を打ち切り、パラメータを固定する。
ただし、j=1,2,・・・,Mfである。
ここで、入力画像の位置xにおける画素値は、RGBの3次元ベクトルとしてc(x, t)で表現される。上記のようにして、物体領域画像特徴量尤度生成部321は、推定した混合ガウス分布のモデルパラメータから、物体領域画像特徴量尤度を算出する。具体的には、推定したモデルパラメータで特徴付けられる混合ガウス分布を尤度とする下記式(18)によって算出する。
上記の通り、物体領域画像特徴量尤度生成部321は、物体領域画像特徴量尤度 ̄ψ(c, t)を生成(算出)し、出力する。
物体領域画像特徴量尤度更新部322は、物体領域画像特徴量尤度生成部321によって生成された物体領域画像特徴量尤度を更新する。具体的には、物体領域画像特徴量尤度更新部322は、入力画像、物体領域画像および前回迄に更新した更新後の物体領域画像特徴量尤度のうち少なくとも1つに基づいて、物体領域画像特徴量尤度生成部321によって生成された物体領域画像特徴量尤度を更新する。物体領域画像特徴量尤度更新部322が物体領域画像特徴量尤度を更新する方法は特に限定しないが、本実施形態においては、以下の2通りの方法を説明する。
(更新方法1)
2種類の物体領域画像特徴量尤度を混合することによって更新する。具体的には、求めるべき現時点(時刻t)の物体領域画像特徴量尤度ψ(c,t)を、物体領域画像特徴量尤度生成部321から出力された更新前の物体領域画像特徴量尤度 ̄ψ(c,t)、および、1時点前(時刻t−1)の物体領域画像特徴量尤度ψ(c,t−1)を、あらかじめ定められた混合比λにて混合する下記式(19)によって計算する。φ
(更新方法2)
1時点前(時刻t−1)の物体領域画像A(t−1)に基づいて、1時点前の物体領域画像特徴量尤度ψ(c,t−1)を更新した上で第1の実施形態と同様の方法を実施する。具体的には、1時点前の物体領域画像A(t−1)において物体領域であるとされた領域(下記式(20)によって示される物体領域Aobj(t))を取り出し、物体領域Aobj(t)にある入力画像中の画素値から、物体領域画像特徴量尤度生成部321に示した方法と同様の方法で物体領域画像特徴量尤度ψ(c,t−1)を再学習する。但し、本実施形態では、重みとして、事前確率画像に代えて物体領域画像を用いるものとする。1時点前の物体領域画像特徴量尤度ψ1(c,t−1)を再学習した後、第1の実施形態と同様の方法により、現在の物体領域画像特徴量尤度ψ(c,t)を生成する。
上記の通り、物体領域画像特徴量尤度更新部322は、物体領域画像特徴量尤度 ̄ψ(c,t)をψ(c,t)に更新し、出力する。上記の通り、物体領域画像特徴量尤度算出部32は、物体領域画像特徴量尤度ψ(c,t) を算出し、出力する。
背景領域画像特徴量尤度算出部33は、背景領域に含まれる画像特徴量の尤度を示す背景領域画像特徴量尤度を、入力画像の画像特徴量、事前確率画像、物体領域画像および前回迄に算出した背景領域画像特徴量尤度のうち少なくとも1つに基づいて算出する。背景領域画像特徴量尤度算出部33が背景領域画像特徴量尤度を算出する方法は特に限定しないが、本実施形態においては、背景領域画像特徴量尤度生成部331と背景領域画像特徴量尤度更新部332とによって算出する方法について説明する。
背景領域画像特徴量尤度生成部331は、入力画像の画像特徴量、事前確率画像および物体領域画像に基づいて背景領域画像特徴量尤度を新たに生成(算出)し、出力する。背景領域画像特徴量尤度生成部331が背景領域画像特徴量尤度を生成する方法は特に限定しないが、本実施形態においては、混合ガウス分布モデルを利用した方法について説明する。当該方法は、前述の物体領域画像特徴量尤度生成部321の方法とほぼ同様であるが、事前確率画像に代えて、事前確率画像Ξ(t)の各画素値ξ(x,t)をある規則に従って変換して生成した画像である背景領域事前確率画像Ξ(t)を用いるものとする。当該変換規則として、例えば以下の2つの方法が考えられる。
(方法1)
背景領域事前確率画像(f)の位置xにおける画素値ξ(x,t)を、1−ξ(x,t)に変換する。
(方法2)
ξ(x,t)=0である位置xのみ、その位置の背景領域事前確率画像(f)の画素値を1とする。それ以外の位置は、画素値を0とする。
上記の通り、背景領域画像特徴量尤度生成部331は、背景領域画像特徴量尤度 ̄ψ(c,t)を生成(算出)し、出力する。
背景領域画像特徴量尤度更新部332は、背景領域画像特徴量尤度生成部331によって生成された背景領域画像特徴量尤度を更新する。具体的には、背景領域画像特徴量尤度更新部332は、入力画像の画像特徴量、背景領域画像および前回迄に更新した更新後の背景領域画像特徴量尤度のうち少なくとも1つに基づいて、背景領域画像特徴量尤度生成部331によって生成された背景領域画像特徴量尤度を更新する。なお、背景領域画像は、事前確率画像抽出部2によって抽出される背景領域に係る画像である。背景領域画像特徴量尤度更新部332が背景領域画像特徴量尤度を更新する方法は、物体領域画像特徴量尤度更新部322の方法と同様である。但し、事前確率画像に代えて背景領域事前確率画像を、物体領域画像特徴量尤度に代えて背景領域画像特徴量尤度を、物体領域に代えて背景領域(下記式(21)によって示される物体領域Abkg(t))を用いる。
上記の通り、背景領域画像特徴量尤度更新部332は、背景領域画像特徴量尤度ψ(c,t)を更新し、更新後の背景領域画像特徴量尤度を出力する。上記の通り、背景領域画像特徴量尤度算出部33は、背景領域画像特徴量尤度ψ(c,t)を抽出し、出力する。
画像特徴量尤度出力部34は、物体領域画像特徴量尤度および背景領域画像特徴量尤度を加算して画像特徴量尤度として出力する。
深度特徴量尤度算出部4は、入力画像、事前確率画像抽出部2の出力である事前確率画像を入力し、入力画像の物体領域及び背景領域のそれぞれに含まれる深度情報の尤度を示す深度特徴量尤度を算出し、深度特徴量尤度を出力する。本実施形態においては、深度情報推定モデル構築部41、深度情報推定部42、物体領域深度特徴量尤度算出部43、背景領域深度特徴量尤度算出部44、及び深度特徴量尤度出力部45で構成される方法について説明する。
深度情報推定モデルを構築する処理を俯瞰する図を、図6に示し、深度情報を推定する処理を俯瞰する図を図7に示す。
なお、深度情報が入力画像と同時に獲得できる場合には、深度情報推定モデル構築部41及び深度情報推定部42による処理を行う必要はない。深度情報が入力画像と同時に獲得できない場合には、深度情報推定モデル構築部41及び深度情報推定部42による処理を行う。
深度情報推定モデル構築部41は、あらかじめ用意された画像集合である学習画像集合、及び学習画像集合の各要素である学習画像と同時に取得した深度画像の集合である学習深度画像集合を入力し、画像から深度情報を推定するためのモデルである深度情報推定モデルを推定し、深度情報推定モデルを出力する。深度情報推定モデル構築部41は、学習画像データベース410、深度情報推定特徴量抽出部411、及び深度情報推定モデル決定部412で構成される。深度画像は、対応する画像の各画素の深度情報(奥行き情報)を、各画素の画素値とした画像である。
深度情報推定特徴量抽出部411は、学習画像データベース410に記憶された学習画像集合を入力し、学習画像それぞれから、深度情報を推定するための画像特徴量である学習深度情報推定特徴量を抽出し、学習深度情報推定特徴量を出力する。
深度情報推定特徴量抽出部411はまず、各学習画像から輝度情報だけを抽出し、学習輝度画像を作成する.
次に、各学習輝度画像にいくつかのフィルタをかけ、その出力である学習フィルタ画像を作成する。フィルタの種類と数は特に限定されるものではないが、本実施形態では、上記図6に示すように、9つの3×3 Law’s masksと6つの5×5 gradient masksをフィルタとして採用し、計15個のフィルタを個別に学習輝度画像に畳み込むことで、15枚の学習フィルタ画像を得る。
最後に、各学習フィルタ画像の各画素から特徴量を取り出し、これを統合したものを学習深度情報推定特徴量とする。特徴量の取り出し方は特に限定されるものではないが、本実施形態では、上記図6に示すように、各学習フィルタ画像の当該画素の値とその自乗、隣接4近傍の画素値とその自乗、当該画素を中心とする3×3画素の値の平均値と自乗値の平均値、その隣接4近傍の3×3領域の画素値の平均と自乗値の平均、及び当該画素と同一の横位置にある領域を縦に4分割した各領域の画素置の平均と自乗値の平均を、特徴量として採用する。これにより、深度情報推定特徴量は、420次元(フィルタ15種類×(領域の大きさ2種類×値を取得する画素位置5種類+同一横位置の分割数4種類)×自乗の有無2種類)のベクトルとして表現される。
深度情報推定モデル決定部412は、学習深度情報推定特徴量、及び学習画像データベース410に記憶された学習深度画像を入力し、あらかじめ与えられたモデル形式に学習深度情報推定特徴量と学習深度画像を当てはめることで、このモデル形式のモデルパラメータを推定し、モデルパラメータを深度情報推定モデルとして出力する。
モデル形式及びモデルパラメータの推定方法は特に限定されるものではないが、本実施形態では、モデル形式として、学習深度情報推定特徴量の各次元の重み付き和によって当該画素の深度情報を推定する線形回帰モデルを採用し、モデルパラメータをリッジ回帰と呼ばれる方法により求める。具体的には、以下の式(22)に従ってモデルパラメータwを推定する。
ここで、Ωは画素の集合、~Zxは画素xにおける学習深度画像の画素値、Fxは画素xにおける学習深度情報推定特徴量、λはあらかじめ与えられた定数である。モデルパラメータが学習深度情報推定特徴量と同じ次元数(420次元)を持つベクトルとして表現されることに注意する。
深度情報推定部42は、入力画像、及び予め用意された深度情報推定モデルを入力し、入力画像に対する深度画像を推定し、深度画像を出力する。深度情報推定部42は、深度情報推定特徴量抽出部421及び推定深度情報算出部422で構成される。
深度情報推定特徴量抽出部421は、入力画像の各画素から、上述した深度情報推定特徴量を抽出する。推定深度情報算出部422は、抽出した各画素の深度情報推定特徴量と、深度情報推定モデル決定部412によって予め求められたモデルパラメータとに基づいて、入力画像の各画素について深度情報を算出し、各画素の深度情報を表わす深度画像を出力する。
物体領域深度特徴量尤度算出部43及び背景領域深度特徴量尤度算出部44は、入力画像を、深度情報推定部42により出力される深度画像に置き換えた上で、物体領域画像特徴量尤度算出部32及び背景領域画像特徴量尤度算出部33とそれぞれ同一の処理を行う。すなわち、物体領域深度特徴量尤度算出部43は、深度画像、事前確率画像、物体領域画像および前回迄に算出した物体領域深度特徴量尤度のうち少なくとも1つを入力として、物体領域深度特徴量尤度生成部431及び物体領域深度特徴量尤度更新部432により、物体領域に含まれる深度情報zの尤度を示す物体領域深度特徴量尤度v1(z,t)を算出する。背景領域深度特徴量尤度算出部44は、深度画像、事前確率画像、物体領域画像および前回迄に算出した背景領域深度特徴量尤度のうち少なくとも1つを入力として、背景領域深度特徴量尤度生成部441及び背景領域深度特徴量尤度更新部442により、背景領域に含まれる深度情報zの尤度を示す背景領域深度特徴量尤度v2(z,t)を算出する。なお、入力画像の位置xにおける深度情報は、z(x,t)で表現される。
深度特徴量尤度出力部45は、物体領域深度特徴量尤度および背景領域深度特徴量尤度を加算して深度特徴量尤度として出力する。
なお、深度情報推定モデル構築部41及び深度情報推定部42の1つの実現形態として、非特許文献1(A.Saxena et al, “Learning Depth from Single Monocular Images,” In Neural Information Processing Systems (NIPS) 18, 2005.)に記載の方法を用いてもよい。
特徴量尤度統合部5は、画像特徴量尤度、深度特徴量尤度、及び物体領域画像を入力し、物体領域及び背景領域の各々について、画像特徴量と深度特徴量の双方を考慮するように尤度を統合し、統合した尤度を統合特徴量尤度として出力する。
特徴量尤度の統合方法は特に限定されるものではないが,本実施形態では、以下の式()を用いて、特徴量尤度を統合する。
ここで、i=1,2であり、i=1ならば物体領域であり、i=2ならば背景領域であることを示す。ψi(c(x,t),t)は物体領域または背景領域の画像特徴量尤度、vi(z(x,t),t)は物体領域または背景領域の深度特徴量尤度である。また、φ1は統合特徴量尤度の対数を取って−1をかけた数量であり、αi(i=1,2)はあらかじめ定められた定数である。
上記式(23)では、物体領域について、画像特徴量尤度の対数を取って−1をかけた値と、深度特徴量尤度の対数を取って−1をかけた値とを重み付き加算することにより、φ1を求めている。また、背景領域について、画像特徴量尤度の対数を取って−1をかけた値と、深度特徴量尤度の対数を取って−1をかけた値とを重み付き加算することにより、φ1を求めている。
特徴量尤度統合部5は、物体領域及び背景領域のそれぞれについて、上記の式(23)で算出されたφを用いて、exp(−1×φ)の値を、統合特徴量尤度(画像特徴量と深度情報の組み合わせの尤度)とし、物体領域及び背景領域のそれぞれの統合特徴量尤度を加算して、統合特徴量尤度として出力する。
物体領域画像抽出部6は、入力画像、事前確率画像および統合特徴量尤度から、入力画像の物体領域を示す物体領域画像を抽出する。物体領域画像抽出部6は、抽出した物体領域画像を事前確率画像抽出部2、画像特徴量尤度算出部3、及び深度特徴量尤度算出部4に出力する。物体領域画像抽出部6が物体領域画像を抽出する方法は特に限定しないが、本実施形態においては、非特許文献2(Y.Boykov and G.F.Lea,“Graph cuts and efficient N-D image segmentation,” International Journal of Computer Vision,Vol.70,No.2,pp.109-131,2006.)に記載の方法を基礎としたグラフカットを用いる方法について説明する。当該方法は、物体領域抽出グラフ生成部61と、物体領域抽出グラフ分割部62とによって物体領域画像を抽出する。
物体領域抽出グラフ生成部61は、入力画像、事前確率画像および統合特徴量尤度を入力し、物体領域画像を抽出するためのグラフである物体領域抽出グラフを生成し、出力する。
具体的には、物体領域抽出グラフ生成部61は、まず、時刻tの物体領域抽出グラフG(t)の頂点として、入力画像の各位置x∈Ωに対応する頂点と、物体領域・背景領域のラベルにそれぞれ対応する頂点の2種類の頂点を用意する。即ち、頂点は総計画素数+2個となる。以降、簡単のため、各位置xに対応する頂点をv、物体領域のラベルに対応する頂点をSOURCE S、背景領域のラベルに対応する頂点をSINK Tとして、それぞれ表現する。また、物体領域抽出グラフの辺として、近傍位置に対応する頂点の間相互に配置される有向辺であるn−linkと、SOURCEから各頂点・各頂点からSINKにそれぞれ配置される有向辺であるt−linkの2種類の辺を用意する。近傍としては、例えば上下左右の4近傍、若しくはさらに斜め方向を加えた8近傍を考える。このようにして、物体領域抽出グラフは有向グラフとして、例えば、図8に示すような形で構成される。
次に、物体領域抽出グラフ生成部61は、物体領域抽出グラフの各辺にコストを与える。t−linkのコストは、事前確率画像および統合特徴量尤度から算出される。具体的には、SOURCESから頂点vへのt−linkのコストC(S,v;t)は対応する背景領域事前確率と背景領域の統合特徴量尤度の和で、頂点vからSINKTへのt−linkのコストC(T,v;t)は、対応する物体領域事前確率と物体領域の統合特徴量尤度を用いて、下記式(24)(25)のように与えられる。
一方、n−linkのコストは、近接画素間の輝度値の類似性に基づいて算出される。具体的には、ある2点vとvとの間のn−linkのコストC(v,v)は、下記式(26)で与えられる。
ただし、λiは、n−linkとt−linkのコストのバランスを取る目的で導入された定数、I(x、t)は、時刻t・位置xにおける入力画像の輝度である。
物体領域抽出グラフ分割部62は、物体領域抽出グラフを入力し、物体領域抽出グラフを分割することで物体領域画像を生成し、出力する。
具体的には、物体領域抽出グラフ分割部62は、まず、物体領域抽出グラフに含まれる頂点を、SOURCEを含む部分集合とSINKを含む部分集合に分割することを考える。このとき、SOURCE側の頂点の部分集合からSINK側の頂点の部分集合へまたがる辺のコストが最も小さくなるように分割する。逆向き、即ち、SINK側の頂点の部分集合からSOURCE側の頂点の部分集合へまたがる辺のコストは考慮しないことに注意する。このような問題は、グラフの最小カット問題と呼ばれ、グラフの最大フロー問題と等価であることが知られている。この最大フロー問題を解く方法として、非特許文献2の他、非特許文献3(L.R.Ford,D.R.Fulkerson:“Maximal flow through a network, ”Canadial Journal of Mathematics,Vol.8,pp.399-404,1956.)に記載の「Ford-Fulkerson algorithm」、非特許文献4(A.V.Goldberg,R.E.Tarjan:“A new approach to the maximum-flow problem,”Journal of the ACM,Vol.35,pp.921-940,1988.)に記載の「Goldberg-Tarjan algorithm」などが一般に広く知られている。
上記の方法で物体領域抽出グラフを分割した結果、SOURCEを含む部分グラフに属した頂点に対応する画素位置を物体領域Aobj(t)に、SINKを含む部分グラフに属した頂点に対応する画素位置を背景領域Abkg(t)に所属させる。物体領域画像は、下記式(27)に示すように、物体領域に属する位置の画素値を1、背景領域に属する位置の画素値を0とする画像である。
上記の通り、物体領域抽出グラフ分割部62は、物体領域画像A(x,t) を抽出し、出力する。物体領域画像抽出部6は、入力映像の各フレーム(各時刻t)の物体領域画像A(x,t)を平均し、平均した物体領域画像を出力部300により出力する。
以上説明したように、第1の実施の形態に係る物体領域検出装置によれば、画像のアピアランス(色やテクスチャなどの見た目)の情報から計算される物体領域および背景領域の尤度と、画像の奥行き情報から計算される物体領域および背景領域の尤度とを統合した統合特徴量尤度を使って、物体領域を抽出することにより、画像のアピアランスとは異なる特徴から得られる、物体の不連続性に関する情報を加味することができ、アピアランスが類似(背景領域に物体領域と類似した色を持つ領域があるなど)している領域があっても精度よく物体領域を抽出することができる。
また、人間は、シーンの深度情報を暗黙の内に推定し、物体と類似したアピアランスを持つ背景を正しく背景として認識することができる。この知見に基づき、本発明では、画像の深度情報を物体領域抽出に導入し、アピアランスに基づく特徴から得られる情報と統合することにより、より頑健で安定した領域分割を可能にする。
[第2の実施の形態]
次に、第2の実施の形態に係る物体領域検出装置について説明する。なお、第1の実施の形態と同様の構成となる部分には、同一符号を付して説明を省略する。
第2の実施の形態では、入力画像に対して静止画像のまま処理を行い、物体領域画像を抽出している点が、第1の実施の形態と異なっている。
第2の実施の形態に係る物体領域検出装置では、特許文献1に記載の基礎注目度画像抽出部のみで、顕著度画像抽出部1を構成する。すなわち、顕著度画像抽出部1は、特許文献1に記載した基礎注目度画像の抽出方法と同様の手法を用いて、基礎注目度画像を顕著度画像として抽出する。この場合、基礎注目度画像の抽出処理は、上記の特許文献2に記載されている基礎注目度画像抽出部の処理と同様である。また、非特許文献7(L. Itti, C. Koch, E. Niebur, A Model of Saliency-Based Visual Attention for Rapid Scene Analysis, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 20, No. 11, pp. 1254-1259, Nov 1998.)にも記載されている。また、入力が静止画像となるため、入力部100は、入力画像を複製せずに、静止画像のまま、入力画像を顕著度画像抽出部1、画像特徴量尤度算出部3、及び深度特徴量尤度算出部4に出力する。
また、事前確率画像抽出部2は、物体領域事前確率画像更新部22を用いずに、物体領域事前確率画像生成部21のみで構成されている。
また、物体領域画像特徴量尤度算出部32は、物体領域画像特徴量尤度更新部322を用いずに、物体領域画像特徴量尤度生成部321のみで構成されている。背景領域画像特徴量尤度算出部33は、背景領域画像特徴量尤度更新部332を用いずに、背景領域画像特徴量尤度生成部331のみで構成されている。
また、物体領域深度特徴量尤度算出部43は、物体領域深度特徴量尤度更新部432を用いずに、物体領域深度特徴量尤度生成部431のみで構成されている。背景領域深度特徴量尤度算出部44は、背景領域深度特徴量尤度更新部442を用いずに、背景領域深度特徴量尤度生成部441のみで構成されている。
事前確率画像抽出部2、物体領域画像特徴量尤度算出部32、及び物体領域深度特徴量尤度算出部43は、入力画像に対して、静止画像のまま各種の処理を行う。
なお、第2の実施の形態に係る物体領域検出装置の他の構成及び作用については、同様であるため、説明を省略する。
このように、静止画像を入力とした場合であっても、物体領域と背景領域とにおける画像特徴量尤度および深度特徴量尤度を統合した統合特徴量尤度を算出して、入力画像の物体領域を示す物体領域画像を抽出することができ、物体領域と類似するアピアランスを持つ背景下であっても、より頑健に安定して、物体領域を検出することができる。
[第3の実施の形態]
次に、第3の実施の形態に係る物体領域検出装置について説明する。なお、第1の実施の形態と同様の構成となる部分には、同一符号を付して説明を省略する。
第3の実施の形態では、手動で物体位置に関する事前情報を与えている点と、入力画像と同時に深度画像が入力されている点とが、第1の実施の形態と異なっている。
第3の実施の形態に係る物体領域検出装置は、事前確率画像抽出部2、画像特徴量尤度算出部3、深度特徴量尤度算出部4、特徴量尤度統合部5、及び物体領域画像抽出部6を備える。
事前確率画像抽出部2は、あらかじめ手動(例えば、画像に対するクリック操作)で与えられた物体位置に関する事前情報である手動事前情報を用いて事前確率を設定する。手動事前情報の与え方と事前確率の設定方法は特に限定されるものではないが、下記に示す非特許文献5、6に記載の方法などが用いられる。
(非特許文献5)Fukuda et al.: “Graph cuts by using local texture features of wavelet coefficient for image segmentation,” Proceeding of IEEE International Conference on Multimedia and Expo (ICME2008), pp.881-884, 2008.
(非特許文献6)Rother et al.: “Grabcut: Interactive foreground extraction using iterated graph cuts,” ACM Transactions on Graphics (TOG), Vol.23, Issue 3, pp.309-314, 2004
深度特徴量尤度算出部4は、物体領域深度特徴量尤度算出部43、背景領域深度特徴量尤度算出部44、及び深度特徴量尤度出力部45を備えている。すなわち、上記の第1の実施の形態と比較して、深度情報推定モデル構築部41及び深度情報推定部42が不要となっている。
物体領域深度特徴量尤度算出部43は、入力画像に対応して入力される、深度情報を表示する画像である深度画像を入力し、物体領域深度特徴量尤度生成部431及び物体領域深度特徴量尤度更新部432を用いて、物体領域深度特徴量尤度を算出する。なお、入力される深度画像の各深度情報は、例えば、奥行き情報が得られるセンサなどを用いて求められるが、複数の画像を用いて深度を求める等の方法によって求めてもよい。
背景領域深度特徴量尤度算出部44は、入力画像に対応して入力される深度画像を入力し、背景領域深度特徴量尤度生成部441及び背景領域深度特徴量尤度算出部442を用いて、背景領域深度特徴量尤度を更新する。
なお、第3の実施の形態に係る物体領域検出装置の他の構成及び作用については、同様であるため、説明を省略する。
このように、物体位置に関する事前情報を手動で入力し、入力画像と共に深度画像を入力する場合であっても、物体領域と背景領域とにおける画像特徴量尤度および深度特徴量尤度を統合した統合特徴量尤度を算出して、入力画像の物体領域を示す物体領域画像を抽出することができ、物体領域と類似するアピアランスを持つ背景下であっても、より頑健に安定して、物体領域を検出することができる。
なお、物体領域検出装置1000の各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、物体領域検出装置1000に係る上述した種々の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
1 顕著度画像抽出部
2 事前確率画像抽出部
3 画像特徴量尤度算出部
4 深度特徴量尤度算出部
5 特徴量尤度統合部
6 物体領域画像抽出部
32 物体領域画像特徴量尤度算出部
33 背景領域画像特徴量尤度算出部
41 深度情報推定モデル構築部
42 深度情報推定部
43 物体領域深度特徴量尤度算出部
44 背景領域深度特徴量尤度算出部
100 入力部
200 演算部
300 出力部
1000 物体領域検出装置

Claims (7)

  1. 入力画像の各位置が物体領域である事前確率を示す事前確率画像を、前記入力画像における顕著な特性を有する度合いを示す顕著度画像に基づいて抽出する事前確率画像抽出手段と、
    前記入力画像の物体領域および背景領域の領域にそれぞれ含まれる画像特徴量の尤度を示す画像特徴量尤度を、前記入力画像、前記顕著度画像、及び前記事前確率画像の少なくとも1つに基づいて算出する画像特徴量尤度算出手段と、
    前記入力画像に対応し、かつ、深度情報を表示する画像である深度画像に基づいて、物体領域および背景領域の領域にそれぞれ含まれる、深度情報の尤度を示す深度特徴量尤度を、前記深度画像、前記顕著度画像、及び前記事前確率画像の少なくとも1つに基づいて算出する深度特徴量尤度算出手段と、
    前記画像特徴量尤度および前記深度特徴量尤度を統合した統合特徴量尤度を算出する特徴量尤度統合手段と、
    前記入力画像、前記事前確率画像および前記統合特徴量尤度から、前記入力画像の物体領域を示す物体領域画像を抽出する物体領域画像抽出手段と、
    を含み、
    前記特徴量尤度統合手段は、物体領域に含まれる前記画像特徴量の尤度と前記深度情報の尤度とを予め定めた深度情報の重みに基づいて統合し、背景領域に含まれる前記画像特徴量の尤度と前記深度情報の尤度とを、前記物体領域の尤度を統合する際に用いた重みとは異なるように予め定めた深度情報の重みに基づいて統合することにより、物体領域および背景領域の領域にそれぞれ含まれる、前記画像特徴量及び前記深度情報の組み合わせの尤度を示す前記統合特徴量尤度を、物体領域と背景領域でそれぞれ算出する物体領域検出装置。
  2. 前記特徴量尤度統合手段は、以下の式を用いて、前記統合特徴量尤度を、物体領域と背景領域でそれぞれ算出する請求項1記載の物体領域検出装置。

    ここで、i=1,2であり、i=1ならば物体領域であり、i=2ならば背景領域であることを示し、ψ i (c(x,t),t)は物体領域または背景領域の画像特徴量尤度、v i (z(x,t),t)は物体領域または背景領域の深度特徴量尤度であり、φ i は統合特徴量尤度の対数を取って−1をかけた数量であり、α i (i=1,2)はあらかじめ定められた定数である。
  3. 入力画像から、前記顕著度画像を抽出する顕著度画像抽出手段と、
    前記入力画像から、前記深度特徴量を抽出し、前記深度特徴量と予め学習された深度情報推定モデルとに基づいて、前記入力画像に対応する深度画像を推定する深度情報推定手段とを更に含み、
    前記事前確率画像抽出手段は、前記顕著度画像抽出手段によって抽出された前記顕著度画像に基づいて、前記事前確率画像を抽出し、
    前記深度特徴量尤度算出手段は、前記深度情報推定手段によって推定された前記深度画像の前記深度特徴量尤度を算出する請求項1又は2記載の物体領域検出装置。
  4. 事前確率画像抽出手段によって、入力画像の各位置が物体領域である事前確率を示す事前確率画像を、前記入力画像における顕著な特性を有する度合いを示す顕著度画像に基づいて抽出するステップと、
    画像特徴量尤度算出手段によって、前記入力画像の物体領域および背景領域の領域にそれぞれ含まれる画像特徴量の尤度を示す画像特徴量尤度を、前記入力画像、前記顕著度画像、及び前記事前確率画像の少なくとも1つに基づいて算出するステップと、
    深度特徴量尤度算出手段によって、前記入力画像に対応し、かつ、深度情報を表示する画像である深度画像に基づいて、物体領域および背景領域の領域にそれぞれ含まれる、深度情報の尤度を示す深度特徴量尤度を、前記深度画像、前記顕著度画像、及び前記事前確率画像の少なくとも1つに基づいて算出するステップと、
    特徴量尤度統合手段によって、前記画像特徴量尤度および前記深度特徴量尤度を統合した統合特徴量尤度を算出するステップと、
    物体領域画像抽出手段によって、前記入力画像、前記事前確率画像および前記統合特徴量尤度から、前記入力画像の物体領域を示す物体領域画像を抽出するステップと、
    を含み、
    前記特徴量尤度統合手段によって算出するステップは、物体領域に含まれる前記画像特徴量の尤度と前記深度情報の尤度とを予め定めた深度情報の重みに基づいて統合し、背景領域に含まれる前記画像特徴量の尤度と前記深度情報の尤度とを、前記物体領域の尤度を統合する際に用いた重みとは異なるように予め定めた深度情報の重みに基づいて統合することにより、物体領域および背景領域の領域にそれぞれ含まれる、前記画像特徴量及び前記深度情報の組み合わせの尤度を示す前記統合特徴量尤度を、物体領域と背景領域でそれぞれ算出する物体領域検出方法。
  5. 前記特徴量尤度統合手段によって算出するステップは、以下の式を用いて、前記統合特徴量尤度を、物体領域と背景領域でそれぞれ算出する請求項4記載の物体領域検出方法。

    ここで、i=1,2であり、i=1ならば物体領域であり、i=2ならば背景領域であることを示し、ψ i (c(x,t),t)は物体領域または背景領域の画像特徴量尤度、v i (z(x,t),t)は物体領域または背景領域の深度特徴量尤度であり、φ i は統合特徴量尤度の対数を取って−1をかけた数量であり、α i (i=1,2)はあらかじめ定められた定数である。
  6. 顕著度画像抽出手段によって、入力画像から、前記顕著度画像を抽出するステップと、
    深度情報推定手段によって、前記入力画像から、前記深度特徴量を抽出し、前記深度特徴量と予め学習された深度情報推定モデルとに基づいて、前記入力画像に対応する深度画像を推定するステップとを更に含み、
    前記事前確率画像抽出手段によって抽出するステップは、前記顕著度画像抽出手段によって抽出された前記顕著度画像に基づいて、前記事前確率画像を抽出し、
    前記深度特徴量尤度算出手段によって算出するステップは、前記深度情報推定手段によって推定された前記深度画像の前記深度特徴量尤度を算出する請求項4又は5記載の物体領域検出方法。
  7. コンピュータを、請求項1〜請求項3の何れか1項記載の物体領域検出装置の各手段として機能させるためのプログラム。

JP2012002544A 2012-01-10 2012-01-10 物体領域検出装置、方法、及びプログラム Active JP5766620B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012002544A JP5766620B2 (ja) 2012-01-10 2012-01-10 物体領域検出装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012002544A JP5766620B2 (ja) 2012-01-10 2012-01-10 物体領域検出装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2013142991A JP2013142991A (ja) 2013-07-22
JP5766620B2 true JP5766620B2 (ja) 2015-08-19

Family

ID=49039531

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012002544A Active JP5766620B2 (ja) 2012-01-10 2012-01-10 物体領域検出装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5766620B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135408A (zh) * 2019-03-26 2019-08-16 北京捷通华声科技股份有限公司 文本图像检测方法、网络以及设备

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9542626B2 (en) * 2013-09-06 2017-01-10 Toyota Jidosha Kabushiki Kaisha Augmenting layer-based object detection with deep convolutional neural networks
JP6798183B2 (ja) 2016-08-04 2020-12-09 株式会社リコー 画像解析装置、画像解析方法およびプログラム
JP6565967B2 (ja) * 2017-05-12 2019-08-28 トヨタ自動車株式会社 路上障害物検出装置,方法,およびプログラム
JP7149707B2 (ja) * 2018-01-15 2022-10-07 キヤノン株式会社 情報処理装置及びその制御方法及びプログラム、並びに、運転制御システム
WO2019167453A1 (ja) * 2018-02-28 2019-09-06 富士フイルム株式会社 画像処理装置、画像処理方法、およびプログラム
US10628686B2 (en) * 2018-03-12 2020-04-21 Waymo Llc Neural networks for object detection and characterization
CN111508010B (zh) * 2019-01-31 2023-08-08 北京地平线机器人技术研发有限公司 对二维图像进行深度估计的方法、装置及电子设备
WO2021014846A1 (ja) * 2019-07-22 2021-01-28 日本電気株式会社 情報処理装置、データ生成方法、及びプログラムが格納された非一時的なコンピュータ可読媒体
US11488317B2 (en) 2020-11-23 2022-11-01 Sony Group Corporation Neural network model based depth estimation
JP7113327B1 (ja) 2021-07-12 2022-08-05 パナソニックIpマネジメント株式会社 撮像装置
JP2023160275A (ja) * 2022-04-22 2023-11-02 株式会社ノビアス 2次元動画を3次元的に表示するためのシステム、方法、およびプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4559375B2 (ja) * 2006-02-28 2010-10-06 日本電信電話株式会社 対象物位置追跡方法、装置、およびプログラム
JP5235770B2 (ja) * 2009-04-27 2013-07-10 日本電信電話株式会社 顕著領域映像生成方法、顕著領域映像生成装置、プログラムおよび記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135408A (zh) * 2019-03-26 2019-08-16 北京捷通华声科技股份有限公司 文本图像检测方法、网络以及设备
CN110135408B (zh) * 2019-03-26 2021-02-19 北京捷通华声科技股份有限公司 文本图像检测方法、网络以及设备

Also Published As

Publication number Publication date
JP2013142991A (ja) 2013-07-22

Similar Documents

Publication Publication Date Title
JP5766620B2 (ja) 物体領域検出装置、方法、及びプログラム
CN111902825B (zh) 多边形对象标注系统和方法以及训练对象标注系统的方法
CN108460338B (zh) 人体姿态估计方法和装置、电子设备、存储介质、程序
Zhu et al. A fast single image haze removal algorithm using color attenuation prior
Wu et al. Learning-based super resolution using kernel partial least squares
Nguyen et al. Fast and robust spatially constrained Gaussian mixture model for image segmentation
Kim et al. Structure selective depth superresolution for RGB-D cameras
US20170132771A1 (en) Systems and methods for automated hierarchical image representation and haze removal
CN111860414B (zh) 一种基于多特征融合检测Deepfake视频方法
CN108510499B (zh) 一种基于模糊集和Otsu的图像阈值分割方法及装置
JP5235770B2 (ja) 顕著領域映像生成方法、顕著領域映像生成装置、プログラムおよび記録媒体
Wang et al. Image deblurring with filters learned by extreme learning machine
US9449395B2 (en) Methods and systems for image matting and foreground estimation based on hierarchical graphs
Song et al. Unsupervised PolSAR image classification and segmentation using Dirichlet process mixture model and Markov random fields with similarity measure
Tian et al. Vehicle license plate super-resolution using soft learning prior
Santiago et al. 2D segmentation using a robust active shape model with the EM algorithm
CN106780450A (zh) 一种基于低秩多尺度融合的图像显著性检测方法
Zhang et al. High-quality face image generation based on generative adversarial networks
Xiong et al. Double Gaussian mixture model for image segmentation with spatial relationships
Cao et al. No-reference image quality assessment for contrast-changed images via a semi-supervised robust PCA model
Hammoumi et al. Adding geodesic information and stochastic patch-wise image prediction for small dataset learning
Riche et al. Bottom-up saliency models for still images: A practical review
Mansoor et al. Marginal shape deep learning: applications to pediatric lung field segmentation
Gao et al. Adaptive and robust sparse coding for laser range data denoising and inpainting
Kouritzin et al. A graph theoretic approach to simulation and classification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141020

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141028

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150519

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150617

R150 Certificate of patent or registration of utility model

Ref document number: 5766620

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150