JP2014215926A

JP2014215926A - 画像処理装置、画像処理方法、プログラムおよび記録媒体

Info

Publication number: JP2014215926A
Application number: JP2013094757A
Authority: JP
Inventors: 翔阮; Sho Gen; 湖川盧; Huchuan Lu; 川楊; Chuan Yang; 立和張; Lihe Zhang
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 2013-04-26
Filing date: 2013-04-26
Publication date: 2014-11-17
Anticipated expiration: 2033-04-26
Also published as: US20140321748A1; CN104123717A; EP2797051B1; EP2797051A2; JP6135283B2; EP2797051A3; US9189861B2; CN104123717B

Abstract

【課題】事前知識を必要とせずに、１枚の静止画像についても顕著度を精度よく評価できる画像処理装置を実現する。【解決手段】画像処理装置１は、スーパーピクセルの各々について、画像における端部領域に位置するスーパーピクセルとの類似度を示す類似マップを生成する類似マップ生成部１２２と、類似マップ生成部１２２により算出された類似マップにおいて類似度が所定閾値よりも非類似であることを示すスーパーピクセルを前景領域として特定する前景領域特定部１２３と、各スーパーピクセルについて前景領域との類似度を示す前景類似マップを求め、当該前景類似マップを顕著マップとして出力する顕著マップ生成部１２４とを備える。【選択図】図１

Description

本発明は、画像における顕著度を出力する画像処理装置および画像処理方法に関する。

従来、画像処理の分野では、画像において人間が注目すると予想される画像領域、あるいは注目すべき画像領域である顕著領域を、その画像から検出（抽出）する画像処理装置が知られている。また、このような顕著領域検出の技術を用いて、画像における各画素の顕著度(saliency measure)を算出することにより、その画像の各画素の顕著度を示す顕著マップを作成することも行われている。

こうした顕著領域検出の技術は、例えば、画像から被写体を検出するために使用されている。

さて、上記顕著領域検出のためのアルゴリズムとして、学習ベースのアルゴリズムが存在している。例えば、特許文献１には、学習対象となる複数の画像データに基づいて特徴の種類を事前に学習して決定しておき、決定された特徴の種類と顕著度の算出対象となる対象画像データとに基づいて、当該対象画像データにおける各部の特徴を抽出することが記載されている。この技術によれば、学習効果を人の経験や記憶の度合と擬制することにより、より人の感覚に近似した顕著度の判断が可能となる。

ところが、上記学習ベースのアルゴリズムでは、対象画像データに対する事前知識として、学習対象となる複数の画像データを予め用意しておく必要がある。そのため、このような事前知識を持っていない場合には顕著度を評価することができない。

一方、特許文献２には、事前知識を必要とせず、映像を構成する各フレーム間の情報を用いて顕著領域を検出する技術が記載されている。

特開２００１−２３６５０８号公報（２００１年８月３１日公開）特開２０１０−２５８９１４号公報（２０１０年１１月１１日公開）

しかしながら、特許文献２の技術は、事前知識を必要としないが、複数のフレームから構成される動画像のみを対象としており、静止画像に対する顕著度の評価に適用することができない。

本発明は、上記課題を解決するためになされたものであり、事前知識を必要とせずに、１枚の静止画像についても顕著度を精度よく評価できる画像処理装置および画像処理方法を提供することを目的とする。

本発明に係る画像処理装置は、画像における画素または連結された複数の画素からなる領域を単位構成とし、上記単位構成の各々について、画像における端部領域に位置する単位構成との第１類似度を求める類似度算出部と、上記類似度算出部により算出された第１類似度が所定閾値よりも非類似であることを示す単位構成の領域を前景領域として特定する前景領域特定部と、上記画像の各単位構成について、前景領域特定部により特定された前景領域との第２類似度を求め、当該第２類似度を当該単位構成の顕著度として出力する顕著度出力部とを備えることを特徴とする。

また、本発明に係る画像処理方法は、画像における画素または連結された複数の画素からなる領域を単位構成とし、上記単位構成の各々について、画像における端部領域に位置する単位構成との第１類似度を求める類似度算出ステップと、上記第１類似度が所定閾値よりも非類似であることを示す単位構成の領域を前景領域として特定する前景領域特定ステップと、上記画像の各単位構成について、上記前景領域との第２類似度を求め、当該第２類似度を当該単位構成の顕著度として出力する顕著度出力ステップとを含むことを特徴とする。

画像を撮像する際、人間は、注目すべき物体がなるべく画像の端部（枠）からはみ出ないようにすることが一般的である。そのため、画像の端部には主に背景領域が存在することとなる。上記の構成によれば、画像における端部領域に位置する単位構成との類似度が判定閾値より非類似であることを示す単位構成の領域が前景領域として特定されるので、画像において人間が注目すべき注目物体が前景領域として特定される確率が高くなる。

そして、画像の各単位構成について、特定された前景領域との第２類似度が顕著度として求められる。上述したように、画像において人間が注目すべき注目物体が前景領域として特定されるため、前景領域との第２類似度は、単位構成における顕著度を示すこととなる。

このように、上記の構成によれば、１枚の静止画像であっても、事前知識を必要とせずに、顕著度を精度よく評価できる画像処理装置および画像処理方法を実現することができる。

さらに、本発明の画像処理装置は、上記画像を、輝度値および／または色度が類似する互いに隣接した画素からなる画素小領域に分割し、当該画素小領域を上記単位構成とする分割処理部を備えることが好ましい。

上記の構成によれば、画素を単位構成とする場合に比べて、第１類似度および第２類似度を求める際の演算処理数が小さくなり、計算速度を向上させることができる。

さらに、本発明の画像処理装置において、上記類似度算出部は、上記単位構成の各々について、矩形状の上記画像の上端部領域に位置する単位構成との類似度である上端用類似度と、上記画像の下端部領域に位置する単位構成との類似度である下端用類似度と、上記画像の左端部領域に位置する単位構成との類似度である左端用類似度と、上記画像の右端部領域に位置する単位構成との類似度である右端用類似度とを求め、上端用類似度，下端用類似度，左端用類似度および右端用類似度を掛け合わせることで上記第１類似度を求めることが好ましい。

人間が撮像する画像には様々な形態があり、人間が注目すべき注目物体が画像の端部（枠）の一部に存在している場合もある。しかしながら、このような場合であっても、ほとんどの画像では、画像における４つの端部（上端部、下端部、左端部、右端部）の一部にのみ注目物体が重なる。そのため、注目物体が重ならない端部との類似度では、注目物体の領域と端部との類似度が低くなる傾向にある。そのため、４つの類似度を掛け合わせて第１類似度を求めることにより、注目物体が画像の端部（枠）の一部に存在している場合であっても、注目物体を前景領域として特定できる確率をある程度高く維持することができる。

さらに、本発明の画像処理装置において、上記類似度算出部は、以下の式（１）を用いて、上端用類似度，下端用類似度，左端用類似度および右端用類似度を求める。

ｆ^＊＝（Ｄ−αＷ）^−１ｙ・・・式（１）
なお、ｆ^＊は、[ｆ_１ ^＊，・・・，ｆ_ｎ ^＊]^Ｔで示され、上端用類似度，下端用類似度，左端用類似度および右端用類似度を示すベクトルである。ここで、ｆ_ｉ ^＊はｉ番目の単位構成と端部領域に位置する単位構成との類似度を示す。なお、ｎは画像における単位構成の数である。

Ｗはｎ行×ｎ列の行列であり、ｉ行ｊ列の要素ｗ_ｉｊは以下の式で示される。

なお、ｃ_ｉは、ｉ番目の単位構成の特徴量を示し、ｃ_ｊはｊ番目の単位構成の特徴量を示す。

Ｄはｎ行×ｎ列の対角行列であり、Ｄ＝diag（ｄ_１１，・・・，ｄ_ｎｎ）で示される。なお、ｄ_ｉｉは以下の式で示される。

ｙは、［ｙ_１，・・・，ｙ_ｎ］^Ｔで示され、ｙ_ｉは、ｉ番目の単位構成が比較対象となる端部領域に位置する場合に１であり、ｉ番目の単位構成が比較対象となる端部領域に位置しない場合に０である。

αは所定の定数である。

上記の式（１）は、多様体（Manifold）ランキング法で用いられる式であり、多様体の類似度を精度よく求めることができる。また、上端用類似度，下端用類似度，左端用類似度および右端用類似度の４つの類似度を求める際、式（１）の（Ｄ−αＷ）^−１が共通しているため、援用することができ、計算速度を速めることができる。

さらに、本発明の画像処理装置において、上記顕著度出力部は、ｉ番目の単位構成が前景領域に位置する場合に１であり、ｉ番目の単位構成が前景領域に位置しない場合に０となるｙ_ｉを要素とするｙを用いて、上記の式（１）に従って第２類似度を求めることが好ましい。

上記の構成によれば、第２類似度を求める際に上記の式（１）を用いるため、上端用類似度，下端用類似度，左端用類似度および右端用類似度を求める際に求めた（Ｄ−αＷ）^−１を援用することができる。その結果、顕著マップを求める際の計算速度を速めることができる。

なお、上記画像処理方法は、コンピュータによって実現してもよく、この場合には、コンピュータに上記各ステップを含む処理を実行させることにより、画像処理方法の各ステップをコンピュータにて実現させる画像処理プログラムおよびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明によれば、事前知識を必要とせずに、１枚の静止画像についても顕著度を精度よく評価できる画像処理装置および画像処理方法を提供することができる。

本発明の一実施形態に係る画像処理装置の概略的構成の一例を示す機能ブロック図である。図１に示す画像処理装置における顕著マップ生成処理の流れを示すフローチャートである。スーパーピクセル画像の一例を示す図である。図１に示す画像処理装置の類似マップ生成部により生成された上端用類似マップ，下端用類似マップ，左端用類似マップ，右端用類似マップの一例を示す図である。図１に示す画像処理装置の類似マップ生成部により生成された統合類似マップと、前景領域特定部により特定された前景領域との一例を示す図である。図１に示す画像処理装置の類似マップ生成部により生成された統合類似マップと、前景領域特定部により特定された前景領域との他の例を示す図である。図１に示す画像処理装置の顕著マップ生成部により生成された顕著マップの一例を示す図である。図１に示す画像処理装置により生成された顕著マップと、従来のアルゴリズムにより生成された顕著マップとの比較を示す図である。図１に示す画像処理装置により生成された顕著マップと従来のアルゴリズムにより生成された顕著マップとの適合率−再現率カーブの比較を示す図である。図９に示す適合率−再現率カーブにおいてＦ値が最大値となるときの適合率，再現率およびＦ値を示す図である。図１に示す画像処理装置により顕著マップを求めるときの計算速度と従来のアルゴリズムにより顕著マップを求めるときの計算速度との比較を示す図である。

画像において顕著度が相対的に高い領域である顕著領域を検出するアルゴリズムは、様々な仮説を基に構築されている。例えば、従来のアルゴリズムでは、顕著領域を含む局所領域の中で顕著領域のコントラストが高いという仮説や、画像の中心部に近いほど顕著度が高いという仮説に基づいて構築されている。しかしながら、前者の仮説に基づくアルゴリズムでは、局所領域を特定することが難しいという問題がある。また、後者の仮説は、全ての画像についてあてはまるものではない。そこで、本発明者らは、画像における背景領域が画像の端部に存在しているという、従来用いられなかった新たな仮説に着目し、本発明を行うに至った。

（画像処理装置１の構成）
以下に、本発明の一実施形態に係る画像処理装置１の構成について、図１は、本実施形態の画像処理装置の構成を示すブロック図である。図１に示す画像処理装置は、入力画像を取得し、取得した入力画像の各画素における顕著度を示す顕著マップを出力する。なお、本実施形態において入力画像は静止画像であるとして説明するが、動画像であってもよい。

図１に示すように、画像処理装置１は、画像取得部１１、制御部１２、出力部１３、および記憶部１４を備えている。

画像取得部１１は、外部からカラーの入力画像を取得するものである。画像取得部１１は、例示的には、ユーザの入力操作に応じて、画像処理装置１に接続されるデジタルカメラ、あるいはデジタルビデオカメラ等の撮像装置から、リアルタイムで（同期をとって）、または、非同期で、入力画像を取得する。

しかしながら、入力画像の供給元は、特に限定されない。例えば、画像取得部１１は、記憶部１４に格納されている画像データを入力画像として取得してもよいし、画像処理装置１に接続される周辺機器から入力画像を取得してもよいし、有線または無線の通信ネットワークを介して入力画像を取得してもよい。

制御部１２は、画像処理装置１における各種機能を統括的に制御するものである。制御部１２の制御機能は、制御プログラムをＣＰＵ（Central Processing Unit）などの処理装置が実行することによって実現される。例えば、制御部１２は、画像取得部１１から入力される入力画像に対する各種処理を実行するための機能および構成を備えている。なお、制御部１２の詳細な機能および構成については後述する。

出力部１３は、制御部１２による入力画像の処理結果を外部に対して出力するものである。例えば、出力部１３は、各種の画像アプリケーションに上記処理結果を出力してもよい。本実施形態の出力部１３は、画像取得部１１が取得した入力画像に対して制御部１２により生成された顕著マップを出力する。

記憶部１４は、各種データおよびプログラムを記憶するものである。記憶部１４は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、および不揮発性メモリ（例えばフラッシュメモリ）等の記憶装置を組み合わせることにより実現することができる。

記憶部１４には、例えば、制御部１２において実行されるプログラムや、当該プログラムにおいて処理される各種データ等が格納される。

（制御部１２）
次に、制御部１２の各部について説明する。図１に示すように、制御部１２は、ＳＰ画像生成部１２１、類似マップ生成部１２２、前景領域特定部１２３、および顕著マップ生成部１２４を備える。

ＳＰ画像生成部１２１は、画像取得部１１から取得される入力画像を元画像として、画素を単位構成とする元画像から、スーパーピクセル（ＳＰ）を単位構成とするスーパーピクセル画像（ＳＰ画像）を生成するものである。すなわち、ＳＰ画像生成部１２１は、入力画像を複数のスーパーピクセルに分割する分割処理部として機能する。

ここで、スーパーピクセルとは、画像において、色または輝度などの各種パラメータの値が互いに類似している連接した複数の画素からなる小領域である。画素を単位構成とする元画像から作成されたスーパーピクセルを単位構成とする画像を、元画像と区別するために、スーパーピクセル画像と呼ぶ。

元画像の替わりに、スーパーピクセル画像を用いた画像処理を行うことによって、処理のデータ量を大幅に削減したり、上記各種パラメータ（輝度、色など）のノイズを抑制したりすることができる。

スーパーピクセル画像の生成アルゴリズムとして、複数の生成アルゴリズムが知られており、例えば、http://www2.cs.sfu.ca/~mori/research/superpixels/ に記載されている公知の方法を用いればよい。いずれの生成アルゴリズムにおいても、使用されるパラメータに依存して、生成されるスーパーピクセル画像に含まれるスーパーピクセルの総数が異なるものとなる。

ＳＰ画像生成部１２１は、入力画像をｎ個のスーパーピクセル（小領域）に分割したとき、当該ｎ個のスーパーピクセルの各々に対して１〜ｎの異なる番号を付与し、各スーパーピクセルを区別する。

類似マップ生成部１２２は、スーパーピクセル画像の単位構成となる各スーパーピクセルについて、画像の端部に存在するスーパーピクセルとの類似度（第１類似度）を示す類似マップを算出する。画像の端部とは、矩形状の画像の上端部、下端部、左端部、右端部である。そして、端部に存在するスーパーピクセルとは、入力画像の端に位置する画素を含むスーパーピクセルである。類似マップ生成部１２２は、上端部，下端部，左端部，右端部の各々に対する類似マップである、上端用類似マップ，下端用類似マップ，左端用類似マップ，右端用類似マップを算出する。すなわち、上端用類似マップは、スーパーピクセルごとに上端部のスーパーピクセルとの類似度（上端用類似度）を示すマップである。同様に、下端用類似マップは、スーパーピクセルごとに下端部のスーパーピクセルとの類似度（下端用類似度）を示すマップである。左端用類似マップは、スーパーピクセルごとに左端部のスーパーピクセルとの類似度（左端用類似度）を示すマップである。右端用類似マップは、スーパーピクセルごとに右端部のスーパーピクセルとの類似度（右端用類似度）を示すマップである。

類似マップの算出方法は特に限定されるものではないが、本実施形態の類似マップ生成部１２２は、多様体ランキング法（Manifold Ranking法）を用いて類似マップを算出する。多様体ランキング法（Manifold Ranking法）は、D. Zhou, J. Weston, A. Gretton, O. Bousquet, and B.Scholkopf, “Ranking on data manifolds,” Advances in Neural Information Processing Systems, vol.16, pp.169-176,2004. や、J. He, M. Li, H.J. Zhang, H. Tong, and C. Zhang, “Manifold-ranking based image retrieval, ”Proc. of ACM International Conference Multimedia, pp.9-16, 2004.に記載されている公知の手法であり、Ｗｅｂ検索における関連度を求める際にも用いられている手法である。

具体的には、類似マップ生成部１２２は、
ｆ^＊＝（Ｄ−αＷ）^−１ｙ・・・式（１）
に従って、類似マップを算出する。ＳＰ画像生成部１２１がｎ個のスーパーピクセルからなるスーパーピクセル画像を生成した場合、類似マップ生成部１２２は、ｎ個のスーパーピクセルの各々についての類似度を示す類似マップを算出する。以下、ｎはスーパーピクセルの個数を示す。

式（１）において、Ｗは、ｎ行×ｎ列の類似度行列（affinity matrix）である。Ｗのｉ行ｊ列の要素ｗ_ｉｊは以下の式で示される。

なお、ｃ_ｉはｉ番目のスーパーピクセルの特徴量を示しており、ｃ_ｊはｊ番目のスーパーピクセルの特徴量を示しており、σ^２は特徴量の類似度の分散を示している。そして、ｗ_ｉｊは、ｉ番目のスーパーピクセルとｊ番目のスーパーピクセルとの類似度を示している。

特徴量としては、輝度値、色度、色空間を構成する各色成分の濃度値など様々なパラメータを用いることができる。また、ｉ番目のスーパーピクセルの特徴量ｃ_ｉは、ｉ番目のスーパーピクセルに属する画素の特徴量の代表値（例えば平均値など）であってもよいし、ｉ番目のスーパーピクセルに属する画素の特徴量の集合であってもよい。ｉ番目のスーパーピクセルに属する複数の画素の特徴量の集合を用いる場合、ｉ番目のスーパーピクセルに属する画素の各々について、当該画素の特徴量とｊ番目のスーパーピクセルに属する各画素の特徴量との差（距離）を求め、それら差から求められる演算値（例えば平均値など）を式（２）の（ｃ_ｉ−ｃ_ｊ）^２として算出すればよい。

Ｄは、ディグリーマトリクス（degree matrix）と呼ばれ、ｎ行×ｎ列の対角行列であり、Ｄ＝diag（ｄ_１１，・・・，ｄ_ｎｎ）で示される。Ｄの対角要素ｄ_ｉｉは以下の式で示される。

ｙは、インディケータ行列（indicator matrix）であり、ｙ＝［ｙ_１，・・・，ｙ_ｎ］^Ｔで示される。ここで、ｙ_ｉは、ｉ番目のスーパーピクセルがスーパーピクセル画像の比較対象となる端部に位置するとき１であり、ｉ番目のスーパーピクセルがスーパーピクセル画像の比較対象となる端部に位置しないとき０である。すなわち、上端部との類似度を示す上端用類似マップを算出する場合、上端部に位置するスーパーピクセルに対応するｙ_ｉのみが１に設定され、下端部との類似度を示す下端用類似マップを算出する場合、下端部に位置するスーパーピクセルに対応するｙ_ｉのみが１に設定され、左端部との類似度を示す左端用類似マップを算出する場合、左端部に位置するスーパーピクセルに対応するｙ_ｉのみが１に設定され、右端部との類似度を示す右端用類似マップを算出する場合、右端部に位置するスーパーピクセルに対応するｙ_ｉのみが１に設定される。

αは所定の定数（パラメータ、経験値）である。

式（１）において、ｆ^＊＝［ｆ_１ ^＊，・・・，ｆ_ｎ ^＊］^Ｔであり、端部領域との類似度を示すベクトルである。ここで、ｆ_ｉ ^＊はｉ番目のスーパーピクセルと端部領域との類似度を示す。

類似マップ生成部１２２は、上端部に位置するスーパーピクセルに対応するｙ_ｉのみが１に設定されたｙを用いて式（１）を計算し、得られたｆ^＊を上端用類似マップとする。同様にして、類似マップ生成部１２２は、ｙを適宜変更することで、下端用類似マップ、左端用類似マップ、右端用類似マップを算出する。

そして、類似マップ生成部１２２は、このようにして算出された４つの類似マップ（上端用類似マップ、下端用類似マップ、左端用類似マップ、右端用類似マップ）を掛け合わせ、統合類似マップを算出する。すなわち、ｉ番目のスーパーピクセルに対応する４つの類似度を乗算することで、ｉ番目のスーパーピクセルに対応する統合類似度を算出する。統合類似マップは、各スーパーピクセルと画像の全端部との類似度を示すマップとなる。

前景領域特定部１２３は、類似マップ生成部１２２が算出した統合類似マップを二値化することで前景領域を特定する。具体的には、前景領域特定部１２３は、画像における背景領域が画像の端部に存在しているという仮説に基づいて、判定閾値よりも非類似であることを示す類似度を有するスーパーピクセルの領域を前景領域であると特定する。ここで、判定閾値は、予め設定されていてもよいし、入力画像に応じて統合類似マップから設定されてもよい。例えば、前景領域特定部は、統合類似マップで示される類似度の平均値、最大値と最小値との中間値などを判定閾値として設定してもよい。

顕著マップ生成部１２４は、入力画像に対する顕著マップを生成する。顕著マップ生成部１２４は、各スーパーピクセルについて、前景領域特定部１２３により特定された前景領域との類似度（第２類似度）を示す前景類似マップを顕著マップとして生成する。顕著マップ生成部１２４は、前景領域特定部１２３により前景領域として特定されたスーパーピクセルに対応するｙ_ｉのみを１に設定し、それ以外のｙ_ｉを０に設定したｙ＝［ｙ_１，・・・，ｙ_ｎ］^Ｔを用いて、上記の式（１）に従って前景類似マップを求め、当該前景類似マップを顕著マップとして出力部１３に送る。

（顕著マップ生成処理の流れ）
次に、画像処理装置１の制御部１２によって実行される顕著マップ生成処理の流れについて、図２を用いて説明する。図２は制御部１２によって実行される顕著マップ生成処理の流れを示すフローチャートである。

まず、画像取得部１１は、顕著マップの生成対象となる入力画像を取得し、取得した入力画像を制御部１２に送る（Ｓ１）。次に、ＳＰ画像生成部１２１は、入力画像を複数（ｎ個）のスーパーピクセルに分割し、スーパーピクセル画像を生成する（Ｓ２）。図３は、Ｓ２の処理により生成されたスーパーピクセル画像の一例を示す図である。このとき、ＳＰ画像生成部１２１は、各スーパーピクセルを区別するために、１〜ｎの異なる番号をスーパーピクセルに付与する。

続いて、類似マップ生成部１２２は、上記の式（１）に従って、各スーパーピクセルについて、画像の上端部に位置するスーパーピクセルとの類似度を示す上端用類似マップを生成する（Ｓ３）。同様に、類似マップ生成部１２２は、下端用類似マップ，左端用類似マップ，右端用類似マップを生成する（Ｓ４〜Ｓ６）。

図４は、スーパーピクセル画像から生成された上端用類似マップ，下端用類似マップ，左端用類似マップ，右端用類似マップの一例を示す。なお、図４の各類似マップは、端部との類似度が高いほど濃度が濃くなる（黒に近づく）ように示されている。そのため、各類似マップにおいて、黒に近い濃度を示す領域が背景領域である確率が高く、白に近い濃度を示す領域が前景領域である確率が高くなる。

次に、類似マップ生成部１２２は、Ｓ３〜Ｓ６で生成した４つの類似マップを掛け合わせて統合類似マップを生成する（Ｓ７）。そして、前景領域特定部１２３は、統合類似マップに対して判定閾値を適用することで、判定閾値よりも類似度が低い領域を前景領域として特定する（Ｓ８）。

図５および図６は、類似マップ生成部１２２により求められた統合類似マップおよび前景領域特定部１２３により特定された前景領域の一例を示している。図５および図６に示されるように、４つの類似マップを掛け合わせることで、画像の端部（枠）全体との類似度を認識することができる。なお、図５および図６の統合類似マップでは、類似度が高いほど濃度が濃くなり（黒に近づく）、類似度が低いほど濃度が薄くなる（白に近づく）ように示されている。そのため、判定閾値よりも類似度が低い領域（図において白い領域）が前景領域として特定される。

特に、図６に示されるように、入力画像における注目物体（図６ではサッカーボール）の一部が端部に重なっていたとしても、重なっている部分の端部全体における割合が相対的に小さい場合、当該注目物体を前景領域として特定することができる。すなわち、下端用類似マップや右端用類似マップで示されるように、比較対象となる端部が注目物体の一部と重なっているため、比較対象の端部と注目物体との類似度が高くなる。しかしながら、上端用類似マップおよび左端用類似マップでは注目物体と比較対象となる端部とが類似していないため、４つの類似マップを掛け合わせて生成された統合類似マップを用いることで注目物体を前景領域として特定することができる。

そして、顕著マップ生成部１２４は、各スーパーピクセルについて、Ｓ８で特定された前景領域との類似度を示す前景類似マップを式（１）に従って生成し、当該前景類似マップを顕著マップとして出力部に出力する（Ｓ９）。

図７は、顕著マップ生成部１２４により生成された顕著マップの一例を示す図である。図７の顕著マップは、顕著度が高いほど白くなる。図７に示されるように、人間が注目すると予想される画像領域の顕著度が高くなっていることが確認できる。

（本実施形態により生成された顕著マップの精度）
本実施形態の画像処理装置１における顕著マップの生成アルゴリズムを評価するため、ある画像に関し、画像処理装置１による出力された顕著マップと従来のアルゴリズムにより生成された顕著マップとを比較した。

図８は、本実施形態の画像処理装置１により生成された顕著マップと、従来のアルゴリズムにより生成された顕著マップとの比較を示す図である。図８において、左端列は入力画像を示しており、左から２列目は真顕著領域を含む真画像を示している。真顕著領域は、入力画像から複数の人により選択された顕著領域の平均を示すものである。よって、真画像に近い顕著マップを示すアルゴリズムが精度の高いアルゴリズムであるといえる。

そして、図８の左から３番目の列が本実施形態の画像処理装置１により生成された顕著マップを示し、４番目以降の列が従来のアルゴリズムにより生成された顕著マップを示している。図８に示されるように、本実施形態の画像処理装置１により生成された顕著マップが最も真画像に近く、顕著マップを生成するアルゴリズムの精度が高いことが確認できた。

また、ある画像に関し、本実施形態の画像処理装置１による出力された顕著マップと従来のアルゴリズムにより生成された顕著マップとの適合率−再現率（Precision-Recall：ＰＲ）カーブを計算し、比較した。

適合率−再現率カーブとは、顕著マップを生成するアルゴリズムの精度を示す指標となるものであり、顕著マップに対して異なる顕著領域検出用閾値を設定したときの顕著領域の適合率（Precision）および再現率（Recall）の関係を示すものである。なお、顕著マップにおいて顕著領域検出用閾値よりも顕著度が高い領域が顕著領域として抽出される。また、適合率および再現率を求めるために、図８の左から２番目に示したような真顕著領域を含む真画像が予め準備される。ここで、画像から検出された顕著領域である評価対象顕著領域をＡ、真顕著領域をＢ、評価対象顕著領域Ａと真顕著領域とが重なり合う領域をＣとするとき、適合率はＣ／Ａ、再現率はＣ／Ｂで示される。つまり、適合率は、画像から検出された評価対象顕著領域に含まれる真顕著領域Ｂの割合である。また、再現率は、真顕著領域Ｂに含まれる評価対象顕著領域の割合である。入力画像から生成された顕著マップに対して、当該顕著マップで示される顕著度の最大値から最小値まで顕著領域検出用閾値を変化させたときの適合率と再現率との関係をプロットすることで、適合率−再現率カーブを作成することができる。

図９は、本実施形態の画像処理装置１により生成された顕著マップ（図中、実施例を記載）と従来のアルゴリズムにより生成された顕著マップとの適合率−再現率カーブの比較を示す図である。また、図１０は、各アルゴリズムにおける、適合率−再現率カーブにおいてＦ値（＝２×適合率×再現率／（適合率＋再現率））が最大値となるときの適合率，再現率およびＦ値を示す図である。

図９に示す適合率−再現率カーブのグラフを見ると、本実施形態の画像処理装置１により生成された顕著マップにおける適合率は、他のアルゴリズムで生成された顕著マップよりも高くなっていることがわかる。また、Ｆ値の最大値も、本実施形態の方が他のアルゴリズムよりも高くなっている。このことから、本実施形態の画像処理装置１による顕著マップの生成アルゴリズムの精度が従来よりも高いことがわかる。

なお、図８、図９、図１０中の従来のアルゴリズムを示す記号は、それぞれ下記に示す文献に従ったアルゴリズムを示すものである。
〔ＣＢ〕 H. Jiang, J. Wang, Z. Yuan, T. Liu, N. Zheng, and S. Li,“Automatic salient object segmentation based on context and shape prior,” in British Machine Vision Conference, 2011, pp. 1-12.
〔ＧＳ＿ＳＰ〕 Y. C. Wei, F. Wen, W. J. Zhu, and J. Sun. Geodesic saliency using background priors.
〔ＳＦ〕 F. Perazzi, P. Krahenbuhl, Y. Pritch, and A. Hornung. Saliency filters:Contrast based filtering for salient region detection. In CVPR, 2012.
〔ＳＶＯ〕 K.-Y. Chang, T.-L. Liu, H.-T. Chen, and S.-H. Lai. Fusing generic
objectness and visual saliency for salient object detection. In ICCV,2011.
〔ＲＣ〕 Ming-Ming Cheng, Guo-Xin Zhang, Niloy J. Mitra, Xiaolei Huang, and Shi-Min Hu. “Global contrast based salient region detection. ” In IEEE CVPR, pages 409-416, 2011.
〔ＣＡ〕 S. Goferman, L. Zelnik-Manor, and A. Tal, “Context-aware saliency detection,” in IEEE CVPR, 2010, pp. 2376-2383.
〔ＦＴ〕 R. Achanta, S. Hemami, F. Estrada, and S. Susstrunk,“Frequency-tuned salient region detection,” in IEEE CVPR, 2009, pp. 1597-1604.
〔ＩＴ〕 L. Itti, C. Koch, and E. Niebur, “A model of saliency-based visual attention for rapid scene analysis,” IEEE TPAMI, vol. 20, no. 11, pp. 1254-1259, 1998.
〔ＬＣ〕 Y. Zhai and M. Shah, “Visual attention detection in video sequences using spatiotemporal cues,” in ACM Multimedia, 2006, pp. 815-824.
〔ＡＣ〕 R. Achanta, F. Estrada, P. Wils, and S. S ¨ usstrunk, “Salient region detection and segmentation,” in IEEE ICVS, 2008, pp. 66-75.
〔ＧＢ〕 J. Harel, C. Koch, and P. Perona, “Graph-based visual saliency,” in NIPS, 2007, pp. 545-552.
〔ＳＲ〕 X. Hou and L. Zhang, “Saliency detection: A spectral residual approach,” in IEEE CVPR, 2007, pp. 1-8.
〔ＭＺ〕 Y. Ma and H. Zhang. Contrast-based image attention analysis by
using fuzzy growing. ACM Multimedia, 2003.
（本実施形態の処理速度）
本実施形態の画像処理装置１は、上述したように、上端用類似マップ、下端用類似マップ、左端用類似マップ、右端用類似マップ、前景類似マップの５つの類似マップを算出する。ただし、上述したように、これらの類似マップは、多様体ランキング法（Manifold Ranking法）を用いた上記の式（１）に従って算出される。各類似マップの算出過程においてはｙのみが異なり、行列（Ｄ−αＷ）^−１は共通している。そのため、最初の上端用類似マップの算出の際に行列（Ｄ−αＷ）^−１を求めれば、他の４つの類似マップの算出の際に行列（Ｄ−αＷ）^−１を改めて計算する必要がなく、援用すればよい。これにより、計算速度が向上する。

また、本実施形態では、上述したように、ＳＰ画像生成部１２１が入力画像からスーパーピクセル画像（ＳＰ画像）を生成し、その後の処理はスーパーピクセルを単位構成として行われる。そのため、計算速度が向上する。

そこで、本実施形態の画像処理装置１で用いるアルゴリズムと従来のアルゴリズムとで計算速度の比較を行った。図１１は、ある画像について顕著マップを算出するときの計算速度の結果を示す図である。図１１に示されるように、本実施形態の画像処理装置１における計算速度は、同じプログラミング言語を用いて実行された従来のアルゴリズムと比べて格段に速いことが確認できた。また、プログラム言語Matlabを用いたときは、プログラム言語Ｃ++を用いたときよりも一般的に４〜５倍程度計算速度が遅くなる。そのため、従来のアルゴリズムＲＣと比較しても、計算速度の向上が期待できる。

（変形例）
上記の説明では、類似マップ生成部１２２および顕著マップ生成部１２４は、ＳＰ画像生成部１２１により生成されたスーパーピクセル画像を基に、スーパーピクセルごとに類似マップおよび顕著マップを生成した。しかしながら、画像処理装置１がＳＰ画像生成部１２１を備えておらず、類似マップ生成部１２２および顕著マップ生成部１２４は、画像取得部１１が取得した入力画像について、画素ごとに類似マップおよび顕著マップを生成してもよい。この場合、類似マップ生成部１２２は、画素ごとに、入力画像の端部に位置する画素との類似度を示す類似マップを生成すればよい。

（まとめ）
以上のように、本実施形態に係る画像処理装置１は、画像における画素または連結された複数の画素からなるスーパーピクセルを単位構成とし、（ａ）単位構成の各々について、画像における端部領域に位置する単位構成との類似度を示す類似マップを生成する類似マップ生成部（類似度算出部）１２２と、（ｂ）類似マップ生成部１２２により算出された類似マップにおいて類似度が所定閾値よりも非類似であることを示す単位構成の領域を前景領域として特定する前景領域特定部１２３と、（ｃ）各単位構成について、前景領域特定部１２３により特定された前景領域との類似度を示す前景類似マップを求め、当該前景類似マップを顕著マップとして出力する顕著マップ生成部（顕著度出力部）１２４とを備える。

上記の構成によれば、画像における端部領域に位置する単位構成との類似度が判定閾値より非類似であることを示す単位構成の領域が前景領域として特定されるので、画像において人間が注目すべき注目物体が前景領域として特定される確率が高くなる。

そして、画像の各単位構成について、特定された前景領域との類似度が顕著度として求められる。画像において人間が注目すべき注目物体が前景領域として特定されるため、前景領域との類似度は、単位構成における顕著度を示すこととなる。

よって、１枚の静止画像であっても、事前知識を必要とせずに、顕著度を精度よく評価できる画像処理装置および画像処理方法を実現することができる。

（ソフトウェアによる実現例）
最後に、画像処理装置１の各ブロックは、集積回路（ＩＣチップ）上に形成された論理回路によってハードウェア的に実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェア的に実現してもよい。

後者の場合、画像処理装置１は、各機能を実現するプログラムの命令を実行するＣＰＵ、上記プログラムを格納したＲＯＭ（Read Only Memory）、上記プログラムを展開するＲＡＭ（Random Access Memory）、上記プログラムおよび各種データを格納するメモリ等の記憶装置（記録媒体）などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである画像処理装置１の制御プログラムのプログラムコード（実行形式プログラム、中間コードプログラム、ソースプログラム）をコンピュータで読み取り可能に記録した記録媒体を、上記画像処理装置１に供給し、そのコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。

上記記録媒体としては、一時的でない有形の媒体（non-transitory tangible medium）、例えば、磁気テープやカセットテープ等のテープ類、フロッピー（登録商標）ディスク／ハードディスク等の磁気ディスクやＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ／ＣＤ−Ｒ等の光ディスクを含むディスク類、ＩＣカード（メモリカードを含む）／光カード等のカード類、マスクＲＯＭ／ＥＰＲＯＭ／ＥＥＰＲＯＭ（登録商標）／フラッシュＲＯＭ等の半導体メモリ類、あるいはＰＬＤ（Programmable logic device）やＦＰＧＡ（Field Programmable Gate Array）等の論理回路類などを用いることができる。

また、画像処理装置１を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークは、プログラムコードを伝送可能であればよく、特に限定されない。例えば、インターネット、イントラネット、エキストラネット、ＬＡＮ、ＩＳＤＮ、ＶＡＮ、ＣＡＴＶ通信網、仮想専用網（Virtual Private Network）、電話回線網、移動体通信網、衛星通信網等が利用可能である。
また、この通信ネットワークを構成する伝送媒体も、プログラムコードを伝送可能な媒体であればよく、特定の構成または種類のものに限定されない。例えば、ＩＥＥＥ１３９４、ＵＳＢ、電力線搬送、ケーブルＴＶ回線、電話線、ＡＤＳＬ（Asymmetric Digital Subscriber Line）回線等の有線でも、ＩｒＤＡやリモコンのような赤外線、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＩＥＥＥ８０２．１１無線、ＨＤＲ（High Data Rate）、ＮＦＣ（Near Field Communication）、ＤＬＮＡ（登録商標）（Digital Living Network Alliance）、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。

本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、実施形態中に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。

本発明は、画像から顕著領域を検出する画像処理装置等に利用することができる。

１画像処理装置
１３出力部（顕著度出力部）
１２１ＳＰ画像生成部（分割処理部）
１２２類似マップ生成部（類似度算出部）
１２３前景領域特定部
１２４顕著マップ生成部（顕著度出力部）

Claims

画像における画素または連結された複数の画素からなる領域を単位構成とし、上記単位構成の各々について、画像における端部領域に位置する単位構成との第１類似度を求める類似度算出部と、
上記類似度算出部により算出された第１類似度が所定閾値よりも非類似であることを示す単位構成の領域を前景領域として特定する前景領域特定部と、
上記画像の各単位構成について、前景領域特定部により特定された前景領域との第２類似度を求め、当該第２類似度を当該単位構成の顕著度として出力する顕著度出力部とを備えることを特徴とする画像処理装置。
上記画像を、輝度値および／または色度が類似する互いに隣接した画素からなる画素小領域に分割し、当該画素小領域を上記単位構成とする分割処理部を備えることを特徴とする請求項１に記載の画像処理装置。
上記類似度算出部は、上記単位構成の各々について、矩形状の上記画像の上端部領域に位置する単位構成との類似度である上端用類似度と、上記画像の下端部領域に位置する単位構成との類似度である下端用類似度と、上記画像の左端部領域に位置する単位構成との類似度である左端用類似度と、上記画像の右端部領域に位置する単位構成との類似度である右端用類似度とを求め、上端用類似度，下端用類似度，左端用類似度および右端用類似度を掛け合わせることで上記第１類似度を求めることを特徴とする請求項１または２に記載の画像処理装置。
上記類似度算出部は、以下の式（１）を用いて、上端用類似度，下端用類似度，左端用類似度および右端用類似度を求めることを特徴とする請求項３に記載の画像処理装置。
ｆ^＊＝（Ｄ−αＷ）^−１ｙ・・・式（１）
（なお、ｆ^＊は、[ｆ_１ ^＊，・・・，ｆ_ｎ ^＊]^Ｔで示され、上端用類似度，下端用類似度，左端用類似度および右端用類似度を示すベクトルである。ここで、ｆ_ｉ ^＊はｉ番目の単位構成と端部領域に位置する単位構成との類似度を示す。なお、ｎは画像における単位構成の数である。
Ｗはｎ行×ｎ列の行列であり、ｉ行ｊ列の要素ｗ_ｉｊは以下の式で示される。
なお、ｃ_ｉは、ｉ番目の単位構成の特徴量を示し、ｃ_ｊはｊ番目の単位構成の特徴量を示す。
Ｄはｎ行×ｎ列の対角行列であり、Ｄ＝diag（ｄ_１１，・・・，ｄ_ｎｎ）で示される。なお、ｄ_ｉｉは以下の式で示される。
ｙは、［ｙ_１，・・・，ｙ_ｎ］^Ｔで示され、ｙ_ｉは、ｉ番目の単位構成が比較対象となる端部領域に位置する場合に１であり、ｉ番目の単位構成が比較対象となる端部領域に位置しない場合に０である。
αは所定の定数である。）
上記顕著度出力部は、ｉ番目の単位構成が前景領域に位置する場合に１であり、ｉ番目の単位構成が前景領域に位置しない場合に０となるｙ_ｉを要素とするｙを用いて、上記の式（１）に従って第２類似度を求めることを特徴とする請求項４に記載の画像処理装置。
画像における画素または連結された複数の画素からなる領域を単位構成とし、上記単位構成の各々について、画像における端部領域に位置する単位構成との第１類似度を求める類似度算出ステップと、
上記第１類似度が所定閾値よりも非類似であることを示す単位構成の領域を前景領域として特定する前景領域特定ステップと、
上記画像の各単位構成について、上記前景領域との第２類似度を求め、当該第２類似度を当該単位構成の顕著度として出力する顕著度出力ステップとを含むことを特徴とする画像処理方法。
画像における画素または連結された複数の画素からなる領域を単位構成とし、上記単位構成の各々について、画像における端部領域に位置する単位構成との第１類似度を求める類似度算出ステップと、
上記第１類似度が所定閾値よりも非類似であることを示す単位構成の領域を前景領域として特定する前景領域特定ステップと、
上記画像の各単位構成について、上記前景領域との第２類似度を求め、当該第２類似度を当該単位構成の顕著度として出力する顕著度出力ステップとをコンピュータにより実施するよう制御するプログラム。
請求項７に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。