JP2017004480A - 顕著性情報取得装置及び顕著性情報取得方法 - Google Patents
顕著性情報取得装置及び顕著性情報取得方法 Download PDFInfo
- Publication number
- JP2017004480A JP2017004480A JP2015132103A JP2015132103A JP2017004480A JP 2017004480 A JP2017004480 A JP 2017004480A JP 2015132103 A JP2015132103 A JP 2015132103A JP 2015132103 A JP2015132103 A JP 2015132103A JP 2017004480 A JP2017004480 A JP 2017004480A
- Authority
- JP
- Japan
- Prior art keywords
- saliency
- candidate
- local
- input image
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biodiversity & Conservation Biology (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
【課題】汎用性及び信頼性に優れた新規な顕著性検出技術を提供する。【解決手段】顕著性情報取得装置は、入力画像のピクセルごとの顕著度を、各ピクセルの周囲の局所領域から得られる情報に基づいて計算する、ローカル顕著性取得部と、前記入力画像に対し、複数の候補領域を設定する候補領域設定部と、前記複数の候補領域それぞれの顕著度を、各候補領域内のピクセルごとの顕著度の特徴を表すローカル顕著性特徴量と、前記入力画像の全体に対する各候補領域の特徴を表すグローバル特徴量とを含む情報に基づいて計算する、グローバル顕著性取得部と、前記グローバル顕著性取得部により得られた前記複数の候補領域の顕著度を統合して、前記入力画像の顕著性情報を生成する統合部と、を有する。【選択図】図1
Description
本発明は、画像のなかの顕著領域を自動で検出する技術に関する。
画像解析によって、画像のなかの重要な領域、あるいは人間が注目すると予測される領域(このような領域を顕著領域(saliency region)と呼ぶ。)を自動で検出する技術が
知られている。この種の技術は、顕著性検出(saliency detection)又は注視領域検出(visual attention detection)と呼ばれ、コンピュータビジョンなどの分野における重要な要素技術として大きな注目を集めている。
知られている。この種の技術は、顕著性検出(saliency detection)又は注視領域検出(visual attention detection)と呼ばれ、コンピュータビジョンなどの分野における重要な要素技術として大きな注目を集めている。
顕著性検出のアルゴリズムは、一般に、ローカル手法とグローバル手法に大別される。ローカル手法とは、画像内の局所領域から抽出される特徴量(局所コントラスト、エッジ方向など)を手掛かりとして顕著度(saliency measure)を計算する手法である(例えば非特許文献1)。一方のグローバル手法は、画像全体から抽出される特徴量(大域コントラスト、ヒストグラムなど)や事前知識(背景、注目しやすい位置など)を手掛かりとして顕著度を計算する手法である(例えば非特許文献2)。
このように顕著性検出のアルゴリズムは従来から数多く提案されている。しかし、あらゆる画像で高精度な検出結果を得ることは難しく、顕著性検出の汎用性及び信頼性のさらなる向上が望まれている。
L. Itti, C. Koch, and E. Niebur. A model of saliency-based visual attention for rapid scene analysis. PAMI, 20(11):1254-1259, 1998.
M.-M. Cheng, G.-X. Zhang, N. J. Mitra, X. Huang, and S.-M. Hu. Global contrast based salient region detection. In CVPR, pages 409-416, 2011.
P. Krahenbuhl and V. Koltun. Geodesic object proposals. In ECCV, pages 725-739. 2014.
A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, pages 1097-1105, 2012.
本発明は上記実情に鑑みなされたものであって、汎用性及び信頼性に優れた新規な顕著性検出技術を提供することを目的とする。
上記目的を達成するために、本発明は以下の構成を採用する。
具体的には、本発明に係る顕著性情報取得装置は、入力画像のピクセルごとの顕著度(saliency measure)を、各ピクセルの周囲の局所領域(local region)から得られる情報に基づいて計算する、ローカル顕著性取得部と、前記入力画像に対し、複数の候補領域(candidate region)を設定する候補領域設定部と、前記複数の候補領域それぞれの顕著度を、各候補領域内のピクセルごとの顕著度の特徴を表すローカル顕著性特徴量(local saliency feature)と、前記入力画像の全体に対する各候補領域の特徴を表すグローバル特徴量(g
lobal feature)とを含む情報に基づいて計算する、グローバル顕著性取得部と、前記グローバル顕著性取得部により得られた前記複数の候補領域の顕著度を統合して、前記入力画像の顕著性情報(saliency information)を生成する統合部と、を有することを特徴とする。
lobal feature)とを含む情報に基づいて計算する、グローバル顕著性取得部と、前記グローバル顕著性取得部により得られた前記複数の候補領域の顕著度を統合して、前記入力画像の顕著性情報(saliency information)を生成する統合部と、を有することを特徴とする。
この構成によれば、局所領域から得られる情報を手掛かりとしてピクセルごとの顕著度(ローカル顕著性)を計算した後に、領域単位のローカル顕著性特徴量とグローバル特徴量を手掛かりとして候補領域ごとの顕著度(グローバル顕著性)を計算し、それらを統合して最終的な顕著性情報を生成する。したがって、局所的な特徴と画像全体でみたときの特徴の両方を考慮した顕著性の評価が実現でき、顕著性検出の汎用性及び信頼性を向上することができる。
前記ローカル顕著性取得部は、第1のディープニューラルネットワークを用いて、前記入力画像のピクセルごとの顕著度を計算するとよい。従来の顕著性検出アルゴリズムでは、顕著度の評価に用いる特徴量やその組み合わせをユーザ自身が設計する必要があった。そのため、特徴量の最適化が非常に難しく、また、顕著性検出の性能が特徴量の設計の良し悪しに依存してしまうという課題があった。これに対し、本発明では、第1のディープニューラルネットワークを利用したことによって、局所領域の情報から顕著度を計算する識別器を機械学習により自動生成することができる。したがって、安定した性能をもつ識別器を簡単に得ることが可能となる。
前記第1のディープニューラルネットワークは、あるピクセルの周囲の局所領域の画像を入力とし、当該ピクセルの顕著度の推定結果を出力する、ように構成されたニューラルネットワークであるとよい。局所領域から抽出可能な特徴量はいろいろあるが、その中のどれが顕著性に影響するかは明らかでない。したがって、機械学習の段階で、第1のディープニューラルネットワークに対し生データである画像そのものを入力し、第1のディープニューラルネットワーク内部で特徴量の抽出、選択、結合の最適化を行わせるようにすることで、顕著度の推定結果の信頼性を向上することができる。
前記ローカル顕著性取得部により得られたピクセルごとの顕著度と、前記候補領域設定部により得られた前記複数の候補領域とに基づいて、前記候補領域に含まれるピクセルの顕著度が相対的に大きくなり、前記候補領域から外れたピクセルの顕著度が相対的に小さくなるように、ピクセルごとの顕著度を修整(refine)する、ローカル顕著性修整部をさらに有し、前記グローバル顕著性取得部は、前記ローカル顕著性修整部によって修整された顕著度を用いて、各候補領域の前記ローカル顕著性特徴量を得るとよい。候補領域の内部か外部かという空間的な情報を補完的に用いて顕著度を修整することで、顕著度分布におけるノイズを低減し、顕著度分布の空間的な一貫性を高めることができる。
前記グローバル顕著性取得部は、第2のディープニューラルネットワークを用いて、前記複数の候補領域それぞれの顕著度を計算するとよい。従来の顕著性検出アルゴリズムでは、顕著度の評価に用いる特徴量やその組み合わせをユーザ自身が設計する必要があった。そのため、特徴量の最適化が非常に難しく、また、顕著性検出の性能が特徴量の設計の良し悪しに依存してしまうという課題があった。これに対し、本発明では、第2のディープニューラルネットワークを利用したことによって、ローカル顕著性特徴量とグローバル特徴量とを含む情報から各候補領域の顕著度を計算する識別器を機械学習により自動生成することができる。したがって、安定した性能をもつ識別器を簡単に得ることが可能となる。
前記第2のディープニューラルネットワークは、ある候補領域のローカル顕著性特徴量とグローバル特徴量を成分として含む特徴ベクトルを入力とし、当該候補領域の顕著度の
推定結果を出力する、ように構成されたニューラルネットワークであるとよい。ローカル顕著性特徴量とグローバル特徴量にはいろいろあるが、その中のどれが顕著性に影響するかは明らかでない。したがって、機械学習の段階で、第2のディープニューラルネットワークに対し様々な種類のローカル顕著性特徴量とグローバル特徴量を入力し、第2のディープニューラルネットワーク内部で特徴量の選択、結合の最適化を行わせるようにすることで、顕著度の推定結果の信頼性を向上することができる。
推定結果を出力する、ように構成されたニューラルネットワークであるとよい。ローカル顕著性特徴量とグローバル特徴量にはいろいろあるが、その中のどれが顕著性に影響するかは明らかでない。したがって、機械学習の段階で、第2のディープニューラルネットワークに対し様々な種類のローカル顕著性特徴量とグローバル特徴量を入力し、第2のディープニューラルネットワーク内部で特徴量の選択、結合の最適化を行わせるようにすることで、顕著度の推定結果の信頼性を向上することができる。
例えば、前記ローカル顕著性特徴量としては、「当該候補領域におけるピクセルごとの顕著度の統計値」、「前記入力画像全体でのピクセルごとの顕著度の合計に対する、当該候補領域におけるピクセルごとの顕著度の合計の比」、「前記統計値と前記比の積」、「前記入力画像内で顕著度がゼロでない領域に対する、当該候補領域の重なり率」などが考えられる。これらのうちの1つ以上を、ローカル顕著性特徴量として用いるとよい。
例えば、前記グローバル特徴量としては、「当該候補領域の色ヒストグラムと前記入力画像の端部領域の色ヒストグラムのあいだの差」、「当該候補領域内での色の代表値と前記入力画像の端部領域内での色の代表値のあいだの差」、「当該候補領域の色ヒストグラムと前記入力画像全体の色ヒストグラムのあいだの差」、「当該候補領域内での色の分散」などが考えられる。これらのうちの1つ以上を、グローバル特徴量として用いるとよい。
また、前記グローバル特徴量としては、「当該候補領域を包含する矩形のアスペクト比」、「前記矩形の高さ」、「前記矩形の幅」、「当該候補領域の中心座標」、「当該候補領域の長軸の長さ」、「当該候補領域の短軸の長さ」、「当該候補領域のオイラー数」なども考えられる。これらは候補領域の幾何特徴を表している。これらのうちの1つ以上を、グローバル特徴量として用いるとよい。
前記統合部は、前記複数の候補領域の顕著度を、前記第2のディープニューラルネットワークによる各候補領域に対する推定結果の信頼性に応じた重みを用いて、重み付け加算することにより、前記入力画像の顕著性情報を生成するとよい。これにより、より信頼性の高い顕著性情報を得ることができる。
前記候補領域設定部は、前記入力画像のなかから物体らしい領域を複数検出し、検出された複数の領域を前記複数の候補領域に設定するとよい。人間の注意は、画像の背景や何もない領域よりも、画像に写る物体に向けられることが多い。したがって、顕著性は、画像のなかに存在する物体の単位で評価するのが妥当であると考えられる。それゆえ、物体らしい領域を候補領域に設定することで、より信頼性の高い顕著性情報が得られると期待できる。
なお、本発明は、上記構成ないし機能の少なくとも一部を有する顕著性情報取得装置、顕著性検出装置などとして捉えることができる。また本発明は、上記処理の少なくとも一部を含む顕著性情報取得方法、顕著性検出方法などとして捉えることができる。さらに、本発明は、これらの方法をコンピュータに実行させるためのプログラム、又は、そのようなプログラムを非一時的に記録したコンピュータ読取可能な記録媒体として捉えることもできる。上記構成及び処理の各々は技術的な矛盾が生じない限り互いに組み合わせて本発明を構成することができる。
本発明によれば、汎用性及び信頼性に優れた新規な顕著性検出技術を提供することができる。
本発明は、コンピュータによる画像解析によって、静止画像又は動画像から顕著領域を自動で検出・抽出する顕著性検出アルゴリズムに関する。顕著性検出の結果である顕著性情報は、例えば、ピクセルごと又は領域ごとの顕著度(saliency measure)の分布を表す顕著性マップ(saliency map)、又は、顕著性マップを所定の閾値で二値化した二値画像の形式で出力される。このような顕著性情報は、コンピュータビジョンアプリケーション(例えば、画像の領域分割(セグメンテーション)、画像分類、シーン解釈、画像圧縮、顔認識、物体認識)の前処理など、様々な用途に好ましく利用される。
本発明に係る顕著性検出アルゴリズムは「ローカル推定」と「グローバル検出」の2つのステージで構成される。前段のローカル推定ステージでは、入力画像の各ピクセル周辺の局所領域から得られる情報を手掛かりとして、各ピクセルの顕著度が推定され、仮の顕著性マップ(ローカル顕著性マップと呼ぶ)が生成される。後段のグローバル検出ステージでは、ローカル推定ステージで得たローカル顕著性マップと、入力画像の全体から得られる情報を手掛かりとして、顕著領域が推定され、最終的な顕著性マップが生成される。これにより、画像内の局所的な特徴と画像全体でみたときの特徴の両方を考慮した顕著性の評価が実現でき、アルゴリズムのロバスト性を向上し汎用性を高めることができるとともに、顕著性検出の精度及び信頼性を向上することができる。
さらに、以下に述べる実施形態では、ローカル推定とグローバル検出のそれぞれのステージにおいて、ディープラーニング(Deep learning)ベースのニューラルネットワーク
であるディープニューラルネットワーク(DNN)を利用する。ローカル推定ステージで用いる第1のディープニューラルネットワーク(以後、DNN−Lと呼ぶ)については、多数の教師あり画像を用いて、ピクセル周辺の局所領域から抽出可能なローカル特徴量(局所的なコントラスト、テクスチャ、形状情報など)と顕著性との関係が学習される。また、グローバル検出ステージで用いる第2のディープニューラルネットワーク(以後、DNN−Gと呼ぶ)については、多数の教師あり画像を用いて、入力画像から抽出可能なグローバル特徴量(大域的なコントラスト、幾何情報(画像内での位置情報含む)など)と顕著性との関係が学習される。このような方法により、画像から抽出可能な様々な手掛かり(特徴量)のあいだの複雑な依存関係や重要性(顕著性に対する貢献)をモデル化し、任意の画像に汎用的に適用可能な顕著性検出エンジンを構築することができる。
であるディープニューラルネットワーク(DNN)を利用する。ローカル推定ステージで用いる第1のディープニューラルネットワーク(以後、DNN−Lと呼ぶ)については、多数の教師あり画像を用いて、ピクセル周辺の局所領域から抽出可能なローカル特徴量(局所的なコントラスト、テクスチャ、形状情報など)と顕著性との関係が学習される。また、グローバル検出ステージで用いる第2のディープニューラルネットワーク(以後、DNN−Gと呼ぶ)については、多数の教師あり画像を用いて、入力画像から抽出可能なグローバル特徴量(大域的なコントラスト、幾何情報(画像内での位置情報含む)など)と顕著性との関係が学習される。このような方法により、画像から抽出可能な様々な手掛かり(特徴量)のあいだの複雑な依存関係や重要性(顕著性に対する貢献)をモデル化し、任意の画像に汎用的に適用可能な顕著性検出エンジンを構築することができる。
以下に、本発明に係る顕著性検出アルゴリズムの具体的な実施形態の一例を、図面を用いて説明する。ただし、以下に述べる実施形態は本発明の好適な構成例を示すものであり、本発明の範囲をその構成例に限定する趣旨のものではない。
(装置構成)
図1は、本発明の実施形態に係る顕著性情報取得装置の機能構成を示すブロック図である。図1の顕著性情報取得装置1は、主な構成として、画像取得部10、ローカル顕著性取得部11、候補領域設定部12、ローカル顕著性修整部13、特徴抽出部14、グロー
バル顕著性取得部15、統合部16を有する。このうち、ローカル顕著性取得部11、候補領域設定部12、ローカル顕著性修整部13が「ローカル推定」に関わる機能ブロックであり、候補領域設定部12、特徴抽出部14、グローバル顕著性取得部15、統合部16が「グローバル検出」に関わる機能ブロックである。図1の符号D10〜D16は、機能ブロックのあいだで受け渡しされるデータを示している。
図1は、本発明の実施形態に係る顕著性情報取得装置の機能構成を示すブロック図である。図1の顕著性情報取得装置1は、主な構成として、画像取得部10、ローカル顕著性取得部11、候補領域設定部12、ローカル顕著性修整部13、特徴抽出部14、グロー
バル顕著性取得部15、統合部16を有する。このうち、ローカル顕著性取得部11、候補領域設定部12、ローカル顕著性修整部13が「ローカル推定」に関わる機能ブロックであり、候補領域設定部12、特徴抽出部14、グローバル顕著性取得部15、統合部16が「グローバル検出」に関わる機能ブロックである。図1の符号D10〜D16は、機能ブロックのあいだで受け渡しされるデータを示している。
画像取得部10は、処理対象となる画像を取得する機能を有する。画像取得部10は、撮像装置(カメラ)から画像データを取り込んでもよいし、記憶装置やネットワーク上のサーバなどから画像データを読み込んでもよい。画像の形式は問わないが、本実施形態ではRGBのカラー画像を想定している。また、画像としては、静止画像、動画像のいずれを入力してもよい。動画像が入力される場合には、後述する顕著性検出の処理がフレームごとに実行される。取得された入力画像D10は、メモリなどに記憶され、ローカル顕著性取得部11、候補領域設定部12、特徴抽出部14などで利用される。
ローカル顕著性取得部11は、入力画像D10のピクセルごとの顕著度を、各ピクセルの周囲の局所領域から得られる情報に基づいて計算(推定)する機能を有する。ローカル顕著性取得部11は、局所領域の情報から顕著度を推定するための識別器として、ディープニューラルネットワークDNN−Lを利用する。ローカル顕著性取得部11によって推定されたピクセルごとの顕著度の分布を表すデータをローカル顕著性マップD11と呼ぶ。
候補領域設定部12は、入力画像D10に対し、複数の候補領域D12を設定する機能を有する。この候補領域D12は、ローカル顕著性修整部13、特徴抽出部14、統合部16などで利用される。
ローカル顕著性修整部13は、ローカル顕著性取得部11により得られたローカル顕著性マップD11と、候補領域設定部12により得られた複数の候補領域D12の情報とに基づいて、ピクセルごとの顕著度を修整(リファイン)する機能を有する。後段のグローバル検出ステージでは、修整されたローカル顕著性マップD13が利用される。なお、ローカル顕著性取得部11により得られたローカル顕著性マップD11の信頼性が十分高い場合には、修整処理は省略して構わない(その場合は、ローカル顕著性マップD11がそのままグローバル検出に利用される)。
特徴抽出部14は、複数の候補領域D12のそれぞれについて、顕著性の手掛かりとなり得る様々な種類の特徴量を抽出し、多次元の特徴ベクトルD14を生成する機能を有する。特徴量には、少なくとも、候補領域内のピクセルごとの顕著度の特徴を表すもの(ローカル顕著性特徴量と呼ぶ)と、入力画像D10の全体に対する候補領域の特徴を表すもの(グローバル特徴量と呼ぶ)とが含まれる。
グローバル顕著性取得部15は、特徴抽出部14により得られた特徴ベクトルD14に基づいて、各候補領域の顕著度を計算(推定)する機能を有する。グローバル顕著性取得部15は、特徴ベクトルD14から顕著度を推定するための識別器として、ディープニューラルネットワークDNN−Gを利用する。グローバル顕著性取得部15の推定結果D15は統合部16に入力される。
統合部16は、グローバル顕著性取得部15により得られた複数の候補領域の顕著度を統合して、入力画像全体の最終的な顕著性マップ(顕著性情報)を生成する機能を有する。統合部16によって生成された最終的な顕著性マップD16は、記憶装置に保存され、又は、外部装置に出力され、物体認識や画像分類などの各種コンピュータビジョンアプリケーションに利用される。
顕著性情報取得装置1は、例えば、CPU(プロセッサ)、メモリ、補助記憶装置、入力装置、表示装置、通信装置などを具備するコンピュータにより構成することができる。図1に示した顕著性情報取得装置1の各機能は、補助記憶装置に格納されたプログラムをメモリにロードし、CPUが実行することにより実現される。ただし、顕著性情報取得装置1の一部又は全部の機能をASICやFPGAなどの回路で実現することもできる。あるいは、顕著性情報取得装置1の一部の機能をクラウドコンピューティングや分散コンピューティングにより実現してもよい。
(顕著性検出処理)
顕著性情報取得装置1が実行する顕著性検出処理の詳細を説明する。図2は、顕著性検出処理の流れを示すフローチャートである。
顕著性情報取得装置1が実行する顕著性検出処理の詳細を説明する。図2は、顕著性検出処理の流れを示すフローチャートである。
(1)ローカル推定ステージ
ステップS10において、画像取得部10が、顕著性検出の対象となる入力画像を取得する。画像取得部10は、必要に応じて、フォーマット変換、解像度変換、ノイズ除去などの前処理を行ってもよい。図3に入力画像D10の一例として、自転車に乗った女性の画像を示す。この画像を見た人は、多くの場合、被写体である女性に注目すると考えられる。したがって、顕著性情報取得装置1に期待される出力結果は、女性の領域の顕著度が高い顕著性マップである。
ステップS10において、画像取得部10が、顕著性検出の対象となる入力画像を取得する。画像取得部10は、必要に応じて、フォーマット変換、解像度変換、ノイズ除去などの前処理を行ってもよい。図3に入力画像D10の一例として、自転車に乗った女性の画像を示す。この画像を見た人は、多くの場合、被写体である女性に注目すると考えられる。したがって、顕著性情報取得装置1に期待される出力結果は、女性の領域の顕著度が高い顕著性マップである。
続くステップS11〜S13の処理は、入力画像D10内の全てのピクセルに対し順に実行される。以後、入力画像D10の座標(x,y)にあるピクセルをピクセル(x,y)と表記する。図3は、ステップS11〜S13の処理を模式的に示している。
ローカル顕著性取得部11は、入力画像D10から、処理対象のピクセル(x,y)を中心とする所定サイズの局所領域画像を切り出す(ステップS11)。局所領域画像のサイズは任意に設定できるが、本実施形態では51×51ピクセルとする。そして、ローカル顕著性取得部11は、DNN−Lを用いてピクセル(x,y)の顕著度を計算する(ステップS12)。DNN−Lは、51×51ピクセルの局所領域画像を入力とし、その中心ピクセル(x,y)の顕著度の推定結果を出力するように構成されている。推定結果S(x,y)は、0〜1の値、又は、0〜255の値で与えられる(0が非顕著であり、値が大きくなるほど顕著性が高い)。DNN−Lの構成及びパラメータθLの学習方法については後述する。
ローカル顕著性取得部11は、入力画像D10内の全てのピクセルの顕著度が求まるまで、ステップS11及びS12の処理を繰り返す(ステップS13)。その結果、図3に示すようなローカル顕著性マップD11が得られる。ピクセルごとの顕著度がグレースケールで表されており、明るい(白色に近い)ピクセルほど顕著性が高いことを示している。
次に、候補領域設定部12が、入力画像D10に対し、複数の候補領域D12を設定する(ステップS14)。候補領域D12の決め方は任意であるが、本実施形態では、候補領域設定部12が入力画像D10のなかから「物体らしい領域(物体である可能性がある領域)」を複数検出し、その検出された領域をそれぞれ候補領域D12に設定する。人間の注意は、画像の背景や何もない領域よりも、画像に写る物体に向けられることが多い。したがって、顕著性は、画像のなかに存在する物体の単位で評価するのが妥当であると考えられる。それゆえ、本実施形態では、物体らしい領域を候補領域D12に設定し、以降の処理を候補領域ベースで行う。これにより、物体らしさ(objectness)を考慮した顕著性検出が実現できるので、より信頼性の高い顕著性情報が得られると期待できる。
画像から物体らしい領域を検出する方法については様々な方法が提案されており、いずれの方法を用いても構わないが、本実施形態では非特許文献3に記載されているGedesic Object Proposal(GOP)法を利用する。図4にGOP法により得られた候補領域D12の一例を示す。なお、ここでの物体検出は厳密でなくてよく、むしろ、物体の可能性がある領域を漏らさず検出することが望ましい。また、図4の例からも分かるように、複数の候補領域D12が重複部分(冗長部分)を含んでいてもよい。
ところで、ローカル顕著性マップD11は、局所的な情報のみから計算されるため、入力画像D10に含まれる高周波成分(例えば、背景内の輪郭、模様や色の変わり目など)に起因するノイズが現れやすい。そこで、ステップS15において、ローカル顕著性修整部13が、ステップS14で得られた複数の候補領域D12の情報に基づき、ローカル顕著性マップD11を修整(リファイン)する処理を行う。このとき、候補領域D12に含まれるピクセルの顕著度が相対的に大きく、候補領域D12から外れたピクセルの顕著度が相対的に小さくなるように、各ピクセルの顕著度を修整するとよい。
図5を参照して、本実施形態で採用した修整処理の具体例を説明する。まず、ローカル顕著性修整部13は、式(1)により、各候補領域iの信頼性スコアconfLを計算する。なお、右肩の添え字「L」は「ローカル推定」に関係する指標であることを示す記号である。
ここで、iは候補領域の番号である。m個の候補領域が設定されている場合、iは1〜mの値をとる。Oiは候補領域iのマスクであり、Oi(x,y)=1は、ピクセル(x,y)がi番目の候補領域に含まれていること、Oi(x,y)=0は、ピクセル(x,y)がi番目の候補領域から外れていることを意味する。SLはローカル顕著性マップD11であり、SL(x,y)∈[0,1]はピクセル(x,y)の顕著度を表す。
Aiは、候補領域iにおけるピクセルごとの顕著度SL(x,y)の平均値であり、以後、「精度スコア(accuracy score)」と呼ぶ。精度スコアAiが大きいほど(1に近いほど)、候補領域iが顕著領域である可能性(確率)が高いことを表す。本実施形態では、顕著度の平均値を用いたが、平均値以外の統計値(最頻値、最大値、最小値、合計値など)を精度スコアに用いてもよい。
Ciは、入力画像全体における顕著度SL(x,y)の合計に対する、候補領域iにおける顕著度SL(x,y)の合計の比であり、以後、「カバー率スコア(coverage score)」と呼ぶ。カバー率スコアCiが大きいほど(1に近いほど)、候補領域iが顕著領域である可能性(確率)が高いことを表す。なお、ここでは、顕著度SL(x,y)が1か
0の値しかとらないため、Ciの分母は、入力画像における顕著度がゼロでない領域(顕著領域)の総面積と等価であり、Ciの分子は、顕著領域と候補領域iの重なり部分の面積と等価である。したがってCiは、顕著領域に対する候補領域iの重なり率(overlap ratio)も表している。
0の値しかとらないため、Ciの分母は、入力画像における顕著度がゼロでない領域(顕著領域)の総面積と等価であり、Ciの分子は、顕著領域と候補領域iの重なり部分の面積と等価である。したがってCiは、顕著領域に対する候補領域iの重なり率(overlap ratio)も表している。
βは、精度スコアAiとカバー率スコアCiのバランスを調整するための重み係数である。本実施形態ではβ=0.4に設定する。
ローカル顕著性修整部13は、m個の候補領域のすべてについて信頼性スコアconfLを計算した後、スコアの大きい順に各候補領域のマスクO1〜Omをソートする。そして、上位K個(本実施形態では20個とする。)の候補領域のマスクを合成することで、修整後のローカル顕著性マップD13を生成する。マスクの合成方法は、例えば、単純な加算平均でもよいし、信頼性スコアconfLに応じた重みによる重み付け加算でもよい。
図5に、修整されたローカル顕著性マップD13の例を示す。候補領域の内部か外部かという空間的な情報を補完的に用いて顕著度を修整したことにより、顕著度分布におけるノイズが低減され、顕著度分布の空間的な一貫性が向上していることがわかる。
(2)グローバル検出ステージ
ステップS16〜S18の処理は、ステップS14で設定された全ての候補領域D12に対し順に実行される。図6は、ステップS16〜S18の処理を模式的に示している。
ステップS16〜S18の処理は、ステップS14で設定された全ての候補領域D12に対し順に実行される。図6は、ステップS16〜S18の処理を模式的に示している。
特徴抽出部14は、処理対象の候補領域iとローカル顕著性マップD13と入力画像D10に基づいて、候補領域iの特徴ベクトルD14を生成する(ステップS16)。候補領域iの顕著性の手掛かりとなり得る特徴量としては、例えば次のようなものを用いることができる。
(a)ローカル顕著性特徴量
(a−1)候補領域iのマスクOiと修整後のローカル顕著性マップD13から式(2)で計算される精度スコアAi。この特徴量は、候補領域iにおけるピクセルごとの顕著度の統計値を表している。
(a−2)候補領域iのマスクOiと修整後のローカル顕著性マップD13から式(3)で計算されるカバー率スコアCi。この特徴量は、入力画像全体におけるピクセルごとの顕著度の合計に対する、候補領域iにおけるピクセルごとの顕著度の合計の比を表している。
(a−3)精度スコアとカバー率スコアの積Ai×Ci。
(a−4)修整後のローカル顕著性マップD13における顕著領域(顕著度がゼロでない領域)の総面積に対する候補領域iの面積比(重なり率)。
(a−1)候補領域iのマスクOiと修整後のローカル顕著性マップD13から式(2)で計算される精度スコアAi。この特徴量は、候補領域iにおけるピクセルごとの顕著度の統計値を表している。
(a−2)候補領域iのマスクOiと修整後のローカル顕著性マップD13から式(3)で計算されるカバー率スコアCi。この特徴量は、入力画像全体におけるピクセルごとの顕著度の合計に対する、候補領域iにおけるピクセルごとの顕著度の合計の比を表している。
(a−3)精度スコアとカバー率スコアの積Ai×Ci。
(a−4)修整後のローカル顕著性マップD13における顕著領域(顕著度がゼロでない領域)の総面積に対する候補領域iの面積比(重なり率)。
(b)グローバル特徴量(候補領域のコントラスト特徴量)
(b−1)候補領域iの色ヒストグラムと入力画像D10の端部領域の色ヒストグラムのあいだの差(例えばカイ二乗距離)。端部領域とは画像の端に位置する小領域であり、例えば、図7に示すように、入力画像D10の上端、左端、下端、右端の所定幅の領域を端部領域B1〜B4と定義する。一般的に、画像の端部は背景である蓋然性が高いため、この特徴量は、候補領域iの背景に対するコントラストを表すとみなすことができる。なお、RGB色空間で計算した値だけでなく、Lab、HSVなど、他の色空間で計算した値も用いることも好ましい。
(b−2)候補領域i内での色の代表値と入力画像D10の端部領域内での色の代表値のあいだの差(例えばユークリッド距離)。この特徴量も、候補領域iの背景に対する
コントラストを表すとみなすことができる。色の代表値は、例えば、平均値、最頻値、中間値、最大値、最小値などである。色チャネルごとに特徴量を計算してもよいし(RGBの場合、R代表値の特徴量、G代表値の特徴量、B代表値の特徴量)、輝度値で特徴量を計算してもよい。また、RGB色空間で計算した値だけでなく、Lab、HSVなど、他の色空間で計算した値も用いることも好ましい。
(b−3)候補領域iの色ヒストグラムと入力画像D10全体の色ヒストグラムのあいだの差(例えばカイ二乗距離)。この特徴量は、候補領域iの画像全体に対するコントラストを表している。この特徴量についても、RGB、Lab、HSVなど、複数の色空間で計算した値を用いるとよい。
(b−4)候補領域i内での色の分散。この特徴量についても、色チャネルごとに分散を計算してもよいし、輝度値の分散を計算してもよい。また、RGB、Lab、HSVなど、複数の色空間で計算した値を用いてもよい。
(b−1)候補領域iの色ヒストグラムと入力画像D10の端部領域の色ヒストグラムのあいだの差(例えばカイ二乗距離)。端部領域とは画像の端に位置する小領域であり、例えば、図7に示すように、入力画像D10の上端、左端、下端、右端の所定幅の領域を端部領域B1〜B4と定義する。一般的に、画像の端部は背景である蓋然性が高いため、この特徴量は、候補領域iの背景に対するコントラストを表すとみなすことができる。なお、RGB色空間で計算した値だけでなく、Lab、HSVなど、他の色空間で計算した値も用いることも好ましい。
(b−2)候補領域i内での色の代表値と入力画像D10の端部領域内での色の代表値のあいだの差(例えばユークリッド距離)。この特徴量も、候補領域iの背景に対する
コントラストを表すとみなすことができる。色の代表値は、例えば、平均値、最頻値、中間値、最大値、最小値などである。色チャネルごとに特徴量を計算してもよいし(RGBの場合、R代表値の特徴量、G代表値の特徴量、B代表値の特徴量)、輝度値で特徴量を計算してもよい。また、RGB色空間で計算した値だけでなく、Lab、HSVなど、他の色空間で計算した値も用いることも好ましい。
(b−3)候補領域iの色ヒストグラムと入力画像D10全体の色ヒストグラムのあいだの差(例えばカイ二乗距離)。この特徴量は、候補領域iの画像全体に対するコントラストを表している。この特徴量についても、RGB、Lab、HSVなど、複数の色空間で計算した値を用いるとよい。
(b−4)候補領域i内での色の分散。この特徴量についても、色チャネルごとに分散を計算してもよいし、輝度値の分散を計算してもよい。また、RGB、Lab、HSVなど、複数の色空間で計算した値を用いてもよい。
(c)グローバル特徴量(候補領域の幾何特徴量)
(c−1)候補領域iを包含する矩形(外接矩形)のアスペクト比、高さ、幅。
(c−2)候補領域iの中心座標。
(c−3)候補領域iの長軸の長さ、短軸の長さ。
(c−4)候補領域iのオイラー数。
(c−1)候補領域iを包含する矩形(外接矩形)のアスペクト比、高さ、幅。
(c−2)候補領域iの中心座標。
(c−3)候補領域iの長軸の長さ、短軸の長さ。
(c−4)候補領域iのオイラー数。
本実施形態では、ここで挙げた全ての特徴量を成分として含む72次元の特徴ベクトルD14用いるが、特徴量の数及び種類は任意に設定することができる。
グローバル顕著性取得部15は、DNN−Gを用いて候補領域iの顕著度を計算する(ステップS17)。DNN−Gは、候補領域の特徴ベクトルD14を入力とし、その候補領域の顕著度の推定結果を出力するように構成されている。推定結果φは、予測精度φ1と重なり率φ2で与えられる。予測精度φ1は、候補領域iが顕著領域である可能性(確率)を表し、重なり率φ2は、入力画像内の顕著領域の総面積に対する候補領域iの面積比を表す。グローバル顕著性取得部15は、m個の候補領域の顕著度φ=[φ1,φ2]が求まるまで、ステップS16及びS17の処理を繰り返す(ステップS18)。DNN−Gの構成及びパラメータθGの学習方法については後述する。
ステップS19では、統合部16が、ステップS17で得た顕著度φ=[φ1,φ2]を用いて、式(4)により、各候補領域iの信頼性スコアconfGを計算する。なお、右肩の添え字「G」は「グローバル検出」に関係する指標であることを示す記号である。
統合部16は、m個の候補領域のすべてについて信頼性スコアconfGを計算した後、スコアの大きい順に各候補領域のマスクO1〜Omをソートする。そして、上位K個(本実施形態では20個とする。)の候補領域のマスクを合成することで、最終的な顕著性マップD16を生成する。マスクの合成方法は、例えば、単純な加算平均でもよいし、信頼性スコアconfGに応じた重みによる重み付け加算でもよい。図8に、重み付け加算により得られた最終的な顕著性マップD16の一例を示す。入力画像D10における被写体(女性)部分の顕著度が高くなっており、高精度な顕著性マップが生成できていることが分かる。
(DNN−L)
ローカル推定で利用されるDNN−Lの構成例とその学習方法について説明する。ディ
ープニューラルネットワークについては様々な手法が提案されており、いずれの手法を用いても構わないが、本実施形態では非特許文献4に記載されている、ディープ・コンボリューション・ニューラルネットワークを利用する。
ローカル推定で利用されるDNN−Lの構成例とその学習方法について説明する。ディ
ープニューラルネットワークについては様々な手法が提案されており、いずれの手法を用いても構わないが、本実施形態では非特許文献4に記載されている、ディープ・コンボリューション・ニューラルネットワークを利用する。
Typeはレイヤーの種類を示す。「C」は畳み込みレイヤー(Convolutional layer
)であり、「F」は全結合レイヤー(Fully connected layer)である。また、「R」は
活性化関数としてReLU(rectified linear unit)を用いることを、「L」はフィル
タ結果を正規化することを、「D」はドロップアウト(オーバーフィッティング防止のために一部のニューロンを次の計算に参加させないこと)を、「S」はソフトマックスレイヤーをそれぞれ意味する。
)であり、「F」は全結合レイヤー(Fully connected layer)である。また、「R」は
活性化関数としてReLU(rectified linear unit)を用いることを、「L」はフィル
タ結果を正規化することを、「D」はドロップアウト(オーバーフィッティング防止のために一部のニューロンを次の計算に参加させないこと)を、「S」はソフトマックスレイヤーをそれぞれ意味する。
Channelsは、次のレイヤーに出力する特徴量マップの数(特徴量の次元数)である。Filter sizeは、畳み込み演算に用いるフィルタのカーネルサイズである。Pooling sizeとPooling strideは、特徴量マップのダウンサンプリングのパラメータである。Input sizeは、レイヤーに入力される特徴量マップのサイズである。
学習用データとしては、多数の教師あり画像を用いる。どのような画像を用いてもよいが、望ましくは、様々な被写体やシーンの画像が混在しているとよい。各画像から、51×51ピクセルサイズのパッチを複数個切り出す(例えば、10ピクセルずつ中心位置をずらしながら、1枚の画像から数十から数百個のパッチを切り出すとよい。)。そして、真値(ground truth)マスクとの重なり率が大きい(例えば0.7以上)のパッチをポジティブサンプル、重なり率が小さい(例えば0.3以下)のパッチをネガティブサンプルに分類する。ポジティブサンプルにはラベル「1」を、ネガティブサンプルにはラベル「0」を付ける。最終的に、ポジティブサンプルとネガティブサンプルのそれぞれについて、数百から数千個のパッチを用意する。
ここで、θLは、DNN−Lの学習パラメータであり、6つのレイヤーそれぞれの重み
、バイアスなどを含んでいる。1{・}は、指示関数(indicator function)である。P(li=j|θL)は、DNN−Lの推定結果であり、i番目の学習サンプルが顕著(li=1)又は非顕著(li=0)である確率である。λは、重み減衰(weight decay)パラメータである。WL kは、k番目のレイヤーの重みである。||・||Fはフロベニウスノルム(Frobenius Norm)である。mは、学習サンプルの総数である。
、バイアスなどを含んでいる。1{・}は、指示関数(indicator function)である。P(li=j|θL)は、DNN−Lの推定結果であり、i番目の学習サンプルが顕著(li=1)又は非顕著(li=0)である確率である。λは、重み減衰(weight decay)パラメータである。WL kは、k番目のレイヤーの重みである。||・||Fはフロベニウスノルム(Frobenius Norm)である。mは、学習サンプルの総数である。
例えば、確率的勾配降下法(stochastic gradient descent)により式(5)のコスト
関数を解くことにより、DNN−LのパラメータθLを学習することができる。例えば、モーメンタム(momentum)は0.9、重み減衰パラメータλは0.0005に設定するとよい。
関数を解くことにより、DNN−LのパラメータθLを学習することができる。例えば、モーメンタム(momentum)は0.9、重み減衰パラメータλは0.0005に設定するとよい。
学習用データとしては、DNN−Lと同じ教師あり画像を用いる。各画像に対し、GOP法を用いて複数の候補領域(物体らしい領域)を設定する。そして、各候補領域について特徴ベクトルvを生成するとともに、真値マスクと比較したときの精度pと重なり率oを成分としてもつラベルベクトルyを計算する。なお、特徴ベクトルvの構成はステップS16で説明したものと同じである。精度p及び重なり率oは、それぞれ、式(2)及び式(3)により計算できる(ただし、顕著性マップSLとして、真値マスクを用いる。)。
ここで、θGは、DNN−Gの学習パラメータであり、6つのレイヤーそれぞれの重みなどを含んでいる。yi=[pi,oi]は、i番目の候補領域の精度pi及び重なり率oiからなるラベルベクトルである。viは、i番目の候補領域の特徴ベクトルである。φ(vi|θG)=[φ1 i,φ2 i]は、DNN−Gの推定結果である。WG kは、k番目のレイヤーの重みである。||・||Fはフロベニウスノルム(Frobenius Norm)である。ηは、重み減衰パラメータである。mは、学習用の候補領域の総数である。
例えば、確率的勾配降下法(stochastic gradient descent)により式(6)のコスト
関数を解くことにより、DNN−GのパラメータθGを学習することができる。例えば、モーメンタム(momentum)は0.9、重み減衰パラメータηは0.0005に設定するとよい。
関数を解くことにより、DNN−GのパラメータθGを学習することができる。例えば、モーメンタム(momentum)は0.9、重み減衰パラメータηは0.0005に設定するとよい。
(本実施形態の利点)
以上述べた本実施形態の構成によれば、局所領域から得られる情報を手掛かりとしてピクセルごとの顕著度(D11又はD13)を計算した後に、領域単位のローカル顕著性特徴量とグローバル特徴量を含む特徴ベクトル(D14)を手掛かりとして候補領域ごとの顕著度(D15)を計算し、それらを統合して最終的な顕著性情報(D16)を生成する。したがって、局所的な特徴と画像全体でみたときの特徴の両方を考慮した顕著性の評価が実現でき、顕著性検出の汎用性及び信頼性を向上することができる。
以上述べた本実施形態の構成によれば、局所領域から得られる情報を手掛かりとしてピクセルごとの顕著度(D11又はD13)を計算した後に、領域単位のローカル顕著性特徴量とグローバル特徴量を含む特徴ベクトル(D14)を手掛かりとして候補領域ごとの顕著度(D15)を計算し、それらを統合して最終的な顕著性情報(D16)を生成する。したがって、局所的な特徴と画像全体でみたときの特徴の両方を考慮した顕著性の評価が実現でき、顕著性検出の汎用性及び信頼性を向上することができる。
従来の顕著性検出アルゴリズムでは、顕著度の評価に用いる特徴量やその組み合わせをユーザ自身が設計する必要があった。そのため、特徴量の最適化が非常に難しく、また、顕著性検出の性能が特徴量の設計の良し悪しに依存してしまうという課題があった。これに対し、ディープラーニングを利用したことによって、局所領域の情報から顕著度を計算する識別器(DNN−L)とグローバル情報から各候補領域の顕著度を計算する識別器(DNN−G)を機械学習により自動生成することができる。したがって、安定した性能をもつ顕著性検出器を簡単に得ることが可能となる。
また、DNNに対しできるだけ多くの情報を入力として与え、機械学習によりDNN内部で特徴量の抽出、選択、結合の最適化を行わせるようにしたので、顕著度の推定結果の信頼性を向上することができる。
また、DNN−Gによる各候補領域に対する推定結果の信頼性(confG)に応じた重みを用いて、複数の候補領域の顕著度を重み付け合成して最終的な顕著性マップ(D16)を生成したので、より信頼性の高い顕著性情報を得ることができる。
上述した実施形態は本発明の一具体例を示したものであり、本発明の範囲をそれらの具体例に限定する趣旨のものではない。
1:顕著性情報取得装置
10:画像取得部、11:ローカル顕著性取得部、12:候補領域設定部、13:ローカル顕著性修整部、14:特徴抽出部、15:グローバル顕著性取得部、16:統合部
D10:入力画像、D11:ローカル顕著性マップ、D12:候補領域、D13:修整されたローカル顕著性マップ、D14:特徴ベクトル、D15:候補領域の顕著度の推定結果、D16:最終の顕著性マップ
10:画像取得部、11:ローカル顕著性取得部、12:候補領域設定部、13:ローカル顕著性修整部、14:特徴抽出部、15:グローバル顕著性取得部、16:統合部
D10:入力画像、D11:ローカル顕著性マップ、D12:候補領域、D13:修整されたローカル顕著性マップ、D14:特徴ベクトル、D15:候補領域の顕著度の推定結果、D16:最終の顕著性マップ
Claims (13)
- 入力画像のピクセルごとの顕著度を、各ピクセルの周囲の局所領域から得られる情報に基づいて計算する、ローカル顕著性取得部と、
前記入力画像に対し、複数の候補領域を設定する候補領域設定部と、
前記複数の候補領域それぞれの顕著度を、各候補領域内のピクセルごとの顕著度の特徴を表すローカル顕著性特徴量と、前記入力画像の全体に対する各候補領域の特徴を表すグローバル特徴量とを含む情報に基づいて計算する、グローバル顕著性取得部と、
前記グローバル顕著性取得部により得られた前記複数の候補領域の顕著度を統合して、前記入力画像の顕著性情報を生成する統合部と、
を有することを特徴とする顕著性情報取得装置。 - 前記ローカル顕著性取得部は、第1のディープニューラルネットワークを用いて、前記入力画像のピクセルごとの顕著度を計算する
ことを特徴とする請求項1に記載の顕著性情報取得装置。 - 前記第1のディープニューラルネットワークは、あるピクセルの周囲の局所領域の画像を入力とし、当該ピクセルの顕著度の推定結果を出力する、ように構成されたニューラルネットワークである
ことを特徴とする請求項2に記載の顕著性情報取得装置。 - 前記ローカル顕著性取得部により得られたピクセルごとの顕著度と、前記候補領域設定部により得られた前記複数の候補領域とに基づいて、前記候補領域に含まれるピクセルの顕著度が相対的に大きくなり、前記候補領域から外れたピクセルの顕著度が相対的に小さくなるように、ピクセルごとの顕著度を修整する、ローカル顕著性修整部をさらに有し、
前記グローバル顕著性取得部は、前記ローカル顕著性修整部によって修整された顕著度を用いて、各候補領域の前記ローカル顕著性特徴量を得る
ことを特徴とする請求項1〜3のうちいずれか1項に記載の顕著性情報取得装置。 - 前記グローバル顕著性取得部は、第2のディープニューラルネットワークを用いて、前記複数の候補領域それぞれの顕著度を計算する
ことを特徴とする請求項1〜4のうちいずれか1項に記載の顕著性情報取得装置。 - 前記第2のディープニューラルネットワークは、ある候補領域のローカル顕著性特徴量とグローバル特徴量を成分として含む特徴ベクトルを入力とし、当該候補領域の顕著度の推定結果を出力する、ように構成されたニューラルネットワークである
ことを特徴とする請求項5に記載の顕著性情報取得装置。 - 前記ローカル顕著性特徴量は、
当該候補領域におけるピクセルごとの顕著度の統計値、
前記入力画像全体におけるピクセルごとの顕著度の合計に対する、当該候補領域におけるピクセルごとの顕著度の合計の比、
前記統計値と前記比の積、及び、
前記入力画像内で顕著度がゼロでない領域に対する、当該候補領域の重なり率、
のうち少なくともいずれかを含む
ことを特徴とする請求項1〜6のうちいずれか1項に記載の顕著性情報取得装置。 - 前記グローバル特徴量は、
当該候補領域の色ヒストグラムと前記入力画像の端部領域の色ヒストグラムのあいだの差、
当該候補領域内での色の代表値と前記入力画像の端部領域内での色の代表値のあいだの差、
当該候補領域の色ヒストグラムと前記入力画像全体の色ヒストグラムのあいだの差、及び、
当該候補領域内での色の分散、
のうち少なくともいずれかを含む
ことを特徴とする請求項1〜7のうちいずれか1項に記載の顕著性情報取得装置。 - 前記グローバル特徴量は、
当該候補領域を包含する矩形のアスペクト比、
前記矩形の高さ、
前記矩形の幅、
当該候補領域の中心座標、
当該候補領域の長軸の長さ、
当該候補領域の短軸の長さ、及び、
当該候補領域のオイラー数、
のうち少なくともいずれかを含む
ことを特徴とする請求項1〜8のうちいずれか1項に記載の顕著性情報取得装置。 - 前記統合部は、前記複数の候補領域の顕著度を、前記第2のディープニューラルネットワークによる各候補領域に対する推定結果の信頼性に応じた重みを用いて、重み付け加算することにより、前記入力画像の顕著性情報を生成する
ことを特徴とする請求項6に記載の顕著性情報取得装置。 - 前記候補領域設定部は、前記入力画像のなかから物体らしい領域を複数検出し、検出された複数の領域を前記複数の候補領域に設定する
ことを特徴とする請求項1〜10のうちいずれか1項に記載の顕著性情報取得装置。 - 前記候補領域設定部は、Geodesic Object Proposal(GOP)法によって、前記入力画像のなかから前記物体らしい領域を検出する
ことを特徴とする請求項11に記載の顕著性情報取得装置。 - 入力画像のピクセルごとの顕著度を、各ピクセルの周囲の局所領域から得られる情報に基づいて計算するステップと、
前記入力画像に対し、複数の候補領域を設定するステップと、
前記複数の候補領域それぞれの顕著度を、各候補領域内のピクセルごとの顕著度の特徴を表すローカル顕著性特徴量と、前記入力画像の全体に対する各候補領域の特徴を表すグローバル特徴量とを含む情報に基づいて計算するステップと、
前記複数の候補領域の顕著度を統合して、前記入力画像の顕著性情報を生成するステップと、
を有することを特徴とする顕著性情報取得方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510303277.6A CN106296638A (zh) | 2015-06-04 | 2015-06-04 | 显著性信息取得装置以及显著性信息取得方法 |
CN201510303277.6 | 2015-06-04 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017004480A true JP2017004480A (ja) | 2017-01-05 |
Family
ID=55701710
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015132103A Pending JP2017004480A (ja) | 2015-06-04 | 2015-06-30 | 顕著性情報取得装置及び顕著性情報取得方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9824294B2 (ja) |
EP (1) | EP3101594A1 (ja) |
JP (1) | JP2017004480A (ja) |
KR (1) | KR20160143494A (ja) |
CN (1) | CN106296638A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018124740A (ja) * | 2017-01-31 | 2018-08-09 | 株式会社デンソーアイティーラボラトリ | 画像検索システム、画像検索方法及び画像検索プログラム |
JP2019125128A (ja) * | 2018-01-16 | 2019-07-25 | Necソリューションイノベータ株式会社 | 情報処理装置、制御方法、及びプログラム |
JP2019160251A (ja) * | 2018-03-16 | 2019-09-19 | 株式会社リコー | 画像処理装置、物体認識装置、機器制御システム、移動体、画像処理方法およびプログラム |
DE102019128840A1 (de) | 2018-10-29 | 2020-04-30 | Aisin Seiki Kabushiki Kaisha | Fahrassistenzgerät |
JP2020528176A (ja) * | 2017-09-27 | 2020-09-17 | グーグル エルエルシー | 高解像度画像セグメンテーションのためのエンドツーエンドネットワークモデル |
JP2020184146A (ja) * | 2019-05-07 | 2020-11-12 | パイオニア株式会社 | 顕著性推定装置、顕著性推定方法、及びプログラム |
WO2020235079A1 (ja) * | 2019-05-23 | 2020-11-26 | 日本電信電話株式会社 | 3次元点群ラベル学習推定装置、3次元点群ラベル学習推定方法、及び3次元点群ラベル学習推定プログラム |
US11080812B2 (en) | 2018-08-30 | 2021-08-03 | Fujitsu Limited | Image recognition apparatus and image recognition method for sorting candidate regions detected in image |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9779492B1 (en) * | 2016-03-15 | 2017-10-03 | International Business Machines Corporation | Retinal image quality assessment, error identification and automatic quality correction |
WO2018100668A1 (en) * | 2016-11-30 | 2018-06-07 | Nec Corporation | Image processing device, image processing method, and image processing program |
JP6565967B2 (ja) * | 2017-05-12 | 2019-08-28 | トヨタ自動車株式会社 | 路上障害物検出装置,方法,およびプログラム |
CN109118459B (zh) | 2017-06-23 | 2022-07-19 | 南开大学 | 图像显著性物体检测方法和装置 |
CN107301420A (zh) * | 2017-06-30 | 2017-10-27 | 武汉大学 | 一种基于显著性分析的热红外影像目标探测方法 |
US10726307B2 (en) | 2017-06-30 | 2020-07-28 | Ai Systems Co., Ltd. | Real-time identification of moving objects in video images |
CN107506792B (zh) * | 2017-08-16 | 2020-09-29 | 广西荷福智能科技有限公司 | 一种半监督的显著对象检测方法 |
US9984325B1 (en) * | 2017-10-04 | 2018-05-29 | StradVision, Inc. | Learning method and learning device for improving performance of CNN by using feature upsampling networks, and testing method and testing device using the same |
CN108021920A (zh) * | 2017-11-09 | 2018-05-11 | 华南理工大学 | 一种图像对象协同发现的方法 |
CN107784662B (zh) * | 2017-11-14 | 2021-06-11 | 郑州布恩科技有限公司 | 一种图像目标显著性度量方法 |
US10579908B2 (en) * | 2017-12-15 | 2020-03-03 | Google Llc | Machine-learning based technique for fast image enhancement |
CN108154150B (zh) * | 2017-12-18 | 2021-07-23 | 北京工业大学 | 一种基于背景先验的显著性检测方法 |
CN108629286B (zh) * | 2018-04-03 | 2021-09-28 | 北京航空航天大学 | 一种基于主观感知显著模型的遥感机场目标检测方法 |
KR20210006962A (ko) * | 2018-05-10 | 2021-01-19 | 더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티 | 인시츄 역전파를 통한 광자 신경망의 훈련 |
KR102631031B1 (ko) | 2018-07-27 | 2024-01-29 | 삼성전자주식회사 | 반도체 장치의 불량 검출 방법 |
US10929708B2 (en) * | 2018-12-10 | 2021-02-23 | International Business Machines Corporation | Deep learning network for salient region identification in images |
CN110361625B (zh) * | 2019-07-23 | 2022-01-28 | 中南大学 | 一种用于逆变器开路故障诊断的方法和电子设备 |
CN110598610B (zh) * | 2019-09-02 | 2022-02-22 | 北京航空航天大学 | 一种基于神经选择注意的目标显著性检测方法 |
CN110765882B (zh) * | 2019-09-25 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 一种视频标签确定方法、装置、服务器及存储介质 |
CN110737497B (zh) * | 2019-10-15 | 2020-11-03 | 中国人民解放军海军大连舰艇学院 | 一种显控界面辅助决策设计优化方法 |
US11373407B2 (en) * | 2019-10-25 | 2022-06-28 | International Business Machines Corporation | Attention generation |
CN111027544B (zh) * | 2019-11-29 | 2023-09-29 | 武汉虹信技术服务有限责任公司 | 一种基于视觉显著性检测的mser车牌定位方法及系统 |
CN111047579B (zh) * | 2019-12-13 | 2023-09-05 | 中南大学 | 一种特征质量评估方法及图像特征均匀提取方法 |
CN111161177B (zh) * | 2019-12-25 | 2023-09-26 | Tcl华星光电技术有限公司 | 图像自适应降噪方法和装置 |
CN111429463A (zh) * | 2020-03-04 | 2020-07-17 | 北京三快在线科技有限公司 | 实例分割方法、装置、电子设备和存储介质 |
US12020484B2 (en) * | 2020-03-17 | 2024-06-25 | Samsung Electronics Co., Ltd. | Methods and systems for grouping of media based on similarities between features of the media |
US11854242B2 (en) * | 2020-09-23 | 2023-12-26 | Apple Inc. | Systems and methods for providing personalized saliency models |
CN112348033B (zh) * | 2020-10-15 | 2024-01-26 | 北京交通大学 | 一种协同显著性目标检测方法 |
CN112581446A (zh) * | 2020-12-15 | 2021-03-30 | 影石创新科技股份有限公司 | 一种图像的显著性物体检测方法、装置、设备及存储介质 |
EP4116871A1 (en) * | 2021-07-08 | 2023-01-11 | Argo AI GmbH | Method and processing unit for processing sensor data of several different sensors with an artificial neural network in a vehicle |
CN113850828B (zh) * | 2021-11-30 | 2022-02-22 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、电子设备、存储介质及程序产品 |
CN114140622B (zh) * | 2021-12-06 | 2024-09-13 | 许昌三维测绘有限公司 | 一种基于双分支网络的实时显著性检测图像方法 |
CN114338355B (zh) * | 2021-12-30 | 2023-12-22 | 龙坤(无锡)智慧科技有限公司 | 一种嵌入式数据采集设备同步与更换方法及装置 |
CN114863138B (zh) * | 2022-07-08 | 2022-09-06 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、存储介质及设备 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6721446B1 (en) * | 1999-04-26 | 2004-04-13 | Adobe Systems Incorporated | Identifying intrinsic pixel colors in a region of uncertain pixels |
IL172480A (en) * | 2005-12-08 | 2011-11-30 | Amir Zahavi | Method for automatic detection and classification of objects and patterns in low resolution environments |
JP4712635B2 (ja) * | 2006-07-27 | 2011-06-29 | 富士フイルム株式会社 | データ補正方法および装置並びにプログラム |
JP5049899B2 (ja) * | 2008-06-30 | 2012-10-17 | キヤノン株式会社 | 撮像装置及びその制御方法 |
CN101329767B (zh) * | 2008-07-11 | 2011-11-16 | 西安交通大学 | 基于学习的视频中显著物体序列自动检测方法 |
JP5202148B2 (ja) * | 2008-07-15 | 2013-06-05 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びコンピュータプログラム |
JP5057183B2 (ja) * | 2010-03-31 | 2012-10-24 | アイシン・エィ・ダブリュ株式会社 | 風景マッチング用参照データ生成システム及び位置測位システム |
CN102236883A (zh) * | 2010-04-27 | 2011-11-09 | 株式会社理光 | 图像增强方法和装置、物体检测方法和装置 |
CN102779338B (zh) | 2011-05-13 | 2017-05-17 | 欧姆龙株式会社 | 图像处理方法和图像处理装置 |
US8675966B2 (en) * | 2011-09-29 | 2014-03-18 | Hewlett-Packard Development Company, L.P. | System and method for saliency map generation |
CN102693426B (zh) * | 2012-05-21 | 2014-01-08 | 清华大学深圳研究生院 | 一种图像显著区域检测方法 |
JP5958534B2 (ja) * | 2012-05-24 | 2016-08-02 | 日本電気株式会社 | 病理診断結果判定システム、病理診断結果判定方法および病理診断結果判定装置 |
WO2015025704A1 (ja) * | 2013-08-23 | 2015-02-26 | 日本電気株式会社 | 映像処理装置、映像処理方法および映像処理プログラム |
CN103679173B (zh) * | 2013-12-04 | 2017-04-26 | 清华大学深圳研究生院 | 图像显著区域检测方法 |
US10650508B2 (en) * | 2014-12-03 | 2020-05-12 | Kla-Tencor Corporation | Automatic defect classification without sampling and feature selection |
US9530082B2 (en) * | 2015-04-24 | 2016-12-27 | Facebook, Inc. | Objectionable content detector |
US10019657B2 (en) * | 2015-05-28 | 2018-07-10 | Adobe Systems Incorporated | Joint depth estimation and semantic segmentation from a single image |
-
2015
- 2015-06-04 CN CN201510303277.6A patent/CN106296638A/zh active Pending
- 2015-06-30 JP JP2015132103A patent/JP2017004480A/ja active Pending
-
2016
- 2016-03-15 EP EP16160433.5A patent/EP3101594A1/en not_active Withdrawn
- 2016-03-21 KR KR1020160033218A patent/KR20160143494A/ko active IP Right Grant
- 2016-03-28 US US15/083,018 patent/US9824294B2/en active Active
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018124740A (ja) * | 2017-01-31 | 2018-08-09 | 株式会社デンソーアイティーラボラトリ | 画像検索システム、画像検索方法及び画像検索プログラム |
US10860919B2 (en) | 2017-09-27 | 2020-12-08 | Google Llc | End to end network model for high resolution image segmentation |
JP2020528176A (ja) * | 2017-09-27 | 2020-09-17 | グーグル エルエルシー | 高解像度画像セグメンテーションのためのエンドツーエンドネットワークモデル |
US11792553B2 (en) | 2017-09-27 | 2023-10-17 | Google Llc | End to end network model for high resolution image segmentation |
JP2019125128A (ja) * | 2018-01-16 | 2019-07-25 | Necソリューションイノベータ株式会社 | 情報処理装置、制御方法、及びプログラム |
JP7107544B2 (ja) | 2018-01-16 | 2022-07-27 | Necソリューションイノベータ株式会社 | 情報処理装置、制御方法、及びプログラム |
JP2019160251A (ja) * | 2018-03-16 | 2019-09-19 | 株式会社リコー | 画像処理装置、物体認識装置、機器制御システム、移動体、画像処理方法およびプログラム |
US11080812B2 (en) | 2018-08-30 | 2021-08-03 | Fujitsu Limited | Image recognition apparatus and image recognition method for sorting candidate regions detected in image |
DE102019128840A1 (de) | 2018-10-29 | 2020-04-30 | Aisin Seiki Kabushiki Kaisha | Fahrassistenzgerät |
US11440473B2 (en) | 2018-10-29 | 2022-09-13 | Aisin Corporation | Driving assistance apparatus |
JP2020184146A (ja) * | 2019-05-07 | 2020-11-12 | パイオニア株式会社 | 顕著性推定装置、顕著性推定方法、及びプログラム |
JPWO2020235079A1 (ja) * | 2019-05-23 | 2020-11-26 | ||
WO2020235079A1 (ja) * | 2019-05-23 | 2020-11-26 | 日本電信電話株式会社 | 3次元点群ラベル学習推定装置、3次元点群ラベル学習推定方法、及び3次元点群ラベル学習推定プログラム |
JP7276437B2 (ja) | 2019-05-23 | 2023-05-18 | 日本電信電話株式会社 | 3次元点群ラベル学習推定装置、3次元点群ラベル学習推定方法、及び3次元点群ラベル学習推定プログラム |
Also Published As
Publication number | Publication date |
---|---|
CN106296638A (zh) | 2017-01-04 |
US20160358035A1 (en) | 2016-12-08 |
EP3101594A1 (en) | 2016-12-07 |
US9824294B2 (en) | 2017-11-21 |
KR20160143494A (ko) | 2016-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2017004480A (ja) | 顕著性情報取得装置及び顕著性情報取得方法 | |
Wang et al. | Deep networks for saliency detection via local estimation and global search | |
Li et al. | Robust saliency detection via regularized random walks ranking | |
Li et al. | SAR image change detection using PCANet guided by saliency detection | |
Li et al. | Saliency detection via dense and sparse reconstruction | |
CN104835175B (zh) | 一种基于视觉注意机制的核环境中目标检测方法 | |
CN110298297B (zh) | 火焰识别方法和装置 | |
Wang et al. | Background-driven salient object detection | |
CN111125416A (zh) | 一种基于多特征融合的图像检索方法 | |
US9367762B2 (en) | Image processing device and method, and computer readable medium | |
JP4098021B2 (ja) | シーン識別方法および装置ならびにプログラム | |
CN108629286B (zh) | 一种基于主观感知显著模型的遥感机场目标检测方法 | |
CN112381775A (zh) | 一种图像篡改检测方法、终端设备及存储介质 | |
CN107944403B (zh) | 一种图像中的行人属性检测方法及装置 | |
CN108596197A (zh) | 一种印章匹配方法及装置 | |
CN112991238B (zh) | 基于纹理色彩混合式的食物图像分割方法、系统、介质 | |
WO2019197021A1 (en) | Device and method for instance-level segmentation of an image | |
CN107622280B (zh) | 基于场景分类的模块化处方式图像显著性检测方法 | |
CN110910497B (zh) | 实现增强现实地图的方法和系统 | |
CN109658523A (zh) | 利用ar增强现实应用实现车辆各功能使用说明的方法 | |
CN113139549A (zh) | 一种基于多任务学习的参数自适应全景分割方法 | |
Wang et al. | Dermoscopic image segmentation through the enhanced high-level parsing and class weighted loss | |
Dhingra et al. | Clustering-based shadow detection from images with texture and color analysis | |
JP2009123234A (ja) | オブジェクト識別方法および装置ならびにプログラム | |
JP4285640B2 (ja) | オブジェクト識別方法および装置ならびにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180412 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190522 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190604 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20191210 |