JP2013117860A - 画像処理方法、画像処理装置、撮像装置およびプログラム - Google Patents

画像処理方法、画像処理装置、撮像装置およびプログラム Download PDF

Info

Publication number
JP2013117860A
JP2013117860A JP2011265047A JP2011265047A JP2013117860A JP 2013117860 A JP2013117860 A JP 2013117860A JP 2011265047 A JP2011265047 A JP 2011265047A JP 2011265047 A JP2011265047 A JP 2011265047A JP 2013117860 A JP2013117860 A JP 2013117860A
Authority
JP
Japan
Prior art keywords
region
image
result
similar
division
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011265047A
Other languages
English (en)
Other versions
JP5836779B2 (ja
Inventor
Shunta Tachi
俊太 舘
Hirosuke Mitarai
裕輔 御手洗
Katsuhiko Mori
克彦 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2011265047A priority Critical patent/JP5836779B2/ja
Publication of JP2013117860A publication Critical patent/JP2013117860A/ja
Application granted granted Critical
Publication of JP5836779B2 publication Critical patent/JP5836779B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】 被写体の教師データを事前に与えることなく、入力画像を被写体の種類に応じて、互いに異なる領域に分割すること。
【解決手段】 入力画像を、当該入力画像中の被写体ごとの領域に分割する画像処理装置は、入力画像を被写体ごとの複数の領域の候補を表わす候補領域群に分割する分割部と、候補領域群のそれぞれの候補領域に対して類似する類似画像群を画像データベースより取得する取得部と、類似画像群の中から類似画像に共通する特徴を候補領域の特徴成分として抽出する抽出部と、抽出された特徴成分と入力画像の各画素の特徴量とを比較して、各画素が候補領域群のうちどの候補領域に属するかを同定し、領域分割の結果として出力する領域同定部と、を備える。
【選択図】 図1

Description

本発明は画像処理方法、画像処理装置、撮像装置およびプログラムに関する。
従来、画像を被写体ごとに分割する手法として非特許文献1のような方法がある。非特許文献1の方法では、各被写体のカテゴリーごとにテクスチャや画素の色といった特徴量を記憶しておく。次にこの特徴量に基づいて各画素がどのカテゴリーに属するかの尤度を求め、画素間の整合性を考慮しながら画素の帰属を決定することで領域分割を行う。
Pushmeet Kohli, L’ubor Ladicky and Philip H. S. Torr, Int. J. of Computer Vision, 82(3), 302−324, 2009. Jitendra Malik, Serge Belongie, Thomas Leung and Jianbo Shi, Int. J. of Computer Vision, 43(1), 7−27, 2001. A. Rabinovich, T. Lange, J. Buhmann, S. Belongie, IEEE Conf. on ComputerVision and Pattern Recognition, 2006. J. Carreira, C. Sminchisescu, IEEE Conf. on Computer Vision and PatternRecognition, 2010. A. Gionis, P. Indyk, R. Motwani, Proc. of the 25th Very Large Database Conf., 1999. J. Sivic, B. C. Russell, A. A. Efros, A. Zisserman, and W. T. Freeman. In Proc. of 10th IEEE Int. Conf. on Computer Vision, 2005. A. Saxena, S.H. Chung, A.Y. Ng, Int. J. of Computer Vision, 76(1), 53−69, 2008. J. Sivic, A. Zisserman, Proc. of the 9th IEEE Int. Conf. on Computer Vision, 2003. O. Chum, M. Perdoch, J. Matas, IEEE Conf. on Computer Vision and Pattern Recognition,2009. B.C. Russell, W.T. Freeman, A.A. Efros, J. Sivic, A. Zisserman, Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition, 2006. D. Blei, A. Ng, and M. Jordan., J. of Machine Learning Research, 3:993.1022, 2003. G. Kim, A. Torralba, Annual Conf. on Neural Information Processing Systems, 2009. G. Wang, Y. Zhang. L. Fei−Fei, Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition, 2006. K. Barnard, D. Forsyth, Proc. of 8th IEEE Int. Conf. on Computer Vision, 2001.
非特許文献1の方法では、複数の事例画像と、事例画像中の各画素がどの被写体に属するかという教師データを用意し、被写体の特徴を事前に学習しておく必要がある。このため領域分割が可能な被写体のカテゴリーは限定され、未知の被写体に対して所望の分割結果が得られないことがある。
被写体を限定しない方法として、局所特徴の類似性などを手掛かりにして領域分割を行う非特許文献2のような方法も研究されている。しかしこの種の方法では、被写体が見え方の異なる複数の部分で構成されている場合、複数の部分に過分割されてしまうという避け難い問題がある。
本発明は、被写体の教師データを事前に与えることなく、入力画像を被写体の種類に応じて、互いに異なる領域に分割することが可能な技術を提供する。
上記の目的を達成する本発明の一つの側面に係る画像処理装置は、入力画像を、当該入力画像中の被写体ごとの領域に分割する画像処理装置であって、
前記入力画像を被写体ごとの複数の領域の候補を表わす候補領域群に分割する分割手段と、
前記候補領域群のそれぞれの候補領域に対して類似する類似画像群を画像データベースより取得する取得手段と、
前記類似画像群の中から類似画像に共通する特徴を候補領域の特徴成分として抽出する抽出手段と、
前記特徴成分と前記入力画像の各画素の特徴量とを比較して、各画素が候補領域群のうちどの候補領域に属するかを同定し、領域分割の結果として出力する領域同定手段と、を備えることを特徴とする。
本発明によれば、被写体の教師データを事前に与えることなく、入力画像を被写体の種類に応じて、互いに異なる領域に分割することができる。
第1実施形態の画像処理装置の構成を説明する図。 領域成分の抽出動作の概念を説明する図。 従来手法の領域成分の抽出動作と実施形態における領域成分の抽出動作との比較を説明する図。 領域成分抽出部の動作を説明する図。 類似領域の抽出動作の概念を説明する図。 領域同定部の動作を説明する図。 類似画像取得部の動作を説明する図。 類似画像取得部の更に詳細な動作を説明する図。 第2実施形態の画像処理装置の構成を説明する図。 第2実施形態の画像処理装置の全体の動作を説明する図。 第3実施形態の画像処理装置の構成を説明する図。 領域ラベル同定部の動作を説明する図。 第5実施形態の画像処理装置の構成を説明する図。 第5実施形態の画像処理装置の全体の動作を説明する図。
(第1実施形態)
以下、図面を参照しながら本発明の実施形態に係る画像処理方法(画像の領域分割方法)、および画像処理装置10について詳細に説明する。また、撮像装置20は、画像を撮像する撮像部と、撮像部により撮像された画像を入力画像とし、入力画像を、入力画像中の被写体ごとの領域に分割する画像処理装置10とを有する。なお、図面間で符号が同じものは同じ動作をするものとして説明を省略する。本発明の実施形態にかかる画像処理方法および画像処理装置は、入力画像を被写体に応じて適切に複数の領域に分割するための画像処理技術に関するものである。適切に被写体を分割することは、被写体の認識やシーンの認識、被写体に応じた画質の補正などにおいて多くの画像処理を容易にする。ここでの入力画像は静止画・動画を問わない。また被写体としては人物や犬などの生物、建物や道具などの人工物、山や空といった自然物などあらゆる対象を含む。
図1を参照して本発明の実施形態にかかる画像処理装置10の動作を説明する。領域分割部101は入力画像を被写体ごとの複数の領域の候補を表わす複数の候補領域群に分割する。次に、類似画像取得部102は、画像データベース103から候補領域群のそれぞれの領域に対して複数の類似の画像(類似画像群)を取得する。領域成分抽出部104はこの類似画像群の中から類似画像に共通する特徴成分としてK個の成分を候補領域の特徴成分(領域成分)として抽出する。各領域成分は入力画像中の主要な被写体に関する成分である。領域同定部105は特徴成分(領域成分)の情報と入力画像の各画素の特徴量とを比較する。そして、領域同定部105は、比較の結果から各画素がそれぞれK個の領域成分のうちどの候補領域に属するか判定してラベリングして、ラベリングの結果を被写体ごとの領域分割の結果として出力する。このようにして最終的に入力画像の領域分割結果を得る。
なお本発明に係る領域分割の方法は、部分的には非特許文献10に開示される方法に関連する。ここで本方法と非特許文献10との共通点および機能的な差異に関して説明することは、本方法の効果を理解する上で有効であるので以下に詳しく説明する。
図3の模式図で二つの方法の相違を概念的に説明する。図3(a)が非特許文献10の動作を示す図である。非特許文献10の方法では画像データベース内の全ての画像群を対象として領域の主成分を抽出する。同方法は特定の画像を重視せずに全画像の共通の成分を抽出するため、「空」や「地面」といった、一般に画像中に広く現れる被写体の成分が上位の成分として抽出される。他方で、「牛」のように、比較的少数の画像内にのみ現れ、且つ被写体の姿勢による見え方の変動があるような被写体は、適切に抽出されないことがある。上記のような被写体の成分は剰余の成分として無視されるか、他の被写体の成分と混合して抽出されることがある。これは主成分分析において下位の成分にノイズが多く含まれることと同様にして理解できる。
これに対して本発明に係る領域分割の方法は、図3(b)に示すように、1枚の入力画像に対して、領域分割を行って被写体の候補領域を抽出する。次に候補領域に類似する領域を画像データベースから取得し、入力画像と関連する画像のみに限定した画像セット(類似画像群)を生成する。次の領域成分抽出部104は、画像セット(類似画像群)に対して非特許文献10の方法と同種の方法を適用することができる。ただし画像セット(類似画像群)が限定されているため、入力画像の被写体の領域に関わる成分のみをより精度高く抽出することが可能である。以上が非特許文献10の方法と本方法との差異となる。
(領域分割部101)
次に本発明の実施形態に係る領域分割部101の動作を説明する。領域分割部101は入力画像から複数の領域を抽出し、画像中の被写体の領域の候補とする。領域分割部101は画像中でひとまとまりと考えられる領域を入力画像から複数個抽出することが可能である。この段階の領域抽出は画素の色、テクスチャ、画素の位置等、画像の局所的な特徴量の類似性を手掛かりとして行う。領域の多くは被写体の一部だけを切り出し、あるいは領域中に複数の被写体を含むことが考えられる。このような切り出しの失敗を考慮して、領域分割部101では十分な数のバリエーションの候補領域を抽出する。なお候補領域は多重の切り出しを許す。すなわち互いに部分的な重なりがあることを許す。
このような機能を満たす領域分割部101の具体的な方法としては、非特許文献3のようにクラスタリングを行う手法や非特許文献4のようなグラフカットを利用する方法がある。上記の手法は、分割するクラスターの数やグラフカットを行う中心の画素の位置といった制御可能なパラメーターを備える。上記の手法はこの制御パラメーターを変化させて複数通りの領域分割を行い、複数の候補領域を得ることができる。
(類似画像取得部102)
次に類似画像取得部102の動作を説明する。類似画像取得部102は、前段の処理で得られた入力画像中の候補領域に対して、類似する領域を含む画像(類似画像)を取得する。類似画像の取得は候補領域ごとに行われ、複数の検索結果の画像が類似画像群として後段の処理に送られる。
類似画像の検索技術はイメージリトリーバルと呼ばれる分野で良く研究されている。例えば、非特許文献8や非特許文献9ではロゴマークなど、特異な見え方の部分画像を画像データベースから高速に検索する手法について述べられている。類似画像取得部102に上記手法を用いてもよいが、上記手法は領域中の物体の姿勢変化などの見え方の変動に弱いことがある。そのため本実施形態では、以降に述べるような方法を用いることでより柔軟に類似領域の取得を行う。
以下に類似画像取得部102の具体的な動作を図7のフロー図を用いて説明する。まず類似画像取得部102は、所定の方法で各候補領域の特徴量を算出する(S701、S702)。次にこの特徴量を類似の領域を検索するための問合せのデータとして、画像データベース103から類似の領域を検索し、類似領域(領域サンプル)を取得する(S703)。ここで類似領域の検索の具体的な方法に関しては後述する。類似画像取得部102は検索結果から類似性(類似度)の高い順に類似領域(領域サンプル)をランキング(ソート)する(S704)。次に上位ランクの類似領域(領域サンプル)の画像を類似画像のセットとして出力する(S705)。出力する画像は所定のランク以上のものに限る。もしくは類似性(類似度)のスコアが所定の閾値以上のものか、あるいは類似性(類似度)のスコアとランクの双方の条件を満たすものに限ってもよい。
領域の特徴量としては、様々なものが考えられる。過去の画像認識技術に用いられた特徴を用いることができる。例えば、領域中の複数の特徴点からSIFT(Scale Invariant Feature Transform)特徴を算出し、Bag−of−words手法によって変換したヒストグラム特徴量を用いることができる。また例えば、領域の画像内の位置、領域の形状を表す2次モーメント、領域内の画素の色ヒストグラムなどを用いることもできる。また例えば、HOG特徴量やLBP特徴量などを用いることもできる。また例えば、これら複数の特徴量のベクトルを連結した高次の特徴量などを用いることもできる。なお、候補領域の形状は一般に不定形なので、HOG特徴量やLBP特徴量等を算出する際には、領域に外接する矩形で周辺部ごと画像を切り出し、正方形の画像に変換する必要がある。以上のような各特徴量に関する詳細は非特許文献6や非特許文献7などの多くの先行研究にて広く開示されているので、詳細についてはそれらに譲る。
(類似領域の検索方法(S703))
次に類似領域の検索する方法の詳細について説明する。画像データベース103には十万や百万といったオーダーのサンプル画像のセットがあらかじめ記憶されていると想定する。そのためここでは高速な近傍検索の一般的な手法であるハッシュを用いる。例えば具体的には非特許文献5に開示されている局所性鋭敏型ハッシュ(LSH)と呼ばれる手法を用いる。
LSHでは高速検索のためにオフラインでデータの登録を行っておく。まず画像データベース103の中の画像群をあらかじめ領域分割部101と同様の方法で領域分割しておく。また更に分割された各領域について特徴量を算出しておく。次に特徴量を所定の関数を用いて変換し、ハッシュキーと呼ばれる元の特徴量よりも低次元の変量を得る。このハッシュキーをアドレスとして各領域のデータを登録し、ハッシュ表と呼ばれる表を作成する。ハッシュ表の一つのアドレス上には類似のデータサンプルが集まって登録される。以上の処理が画像データベース103にデータを登録する際の動作となる。
次に検索時の動作を、図8を用いて説明する。図8は先に図7で説明した類似画像取得部102の更に詳細なフロー図である。まず、類似の領域を検索するための問合せに用いる候補領域を特徴量に変換し(S801、S802)、これを更にハッシュキーに変換する(S803)。次に、ハッシュキーからハッシュ表を参照する。対応するアドレスのエントリーを参照して、登録されているデータがあれば類似領域として取得する(S804、S805)。ステップS805の判定処理で、類似領域が存在しない場合(S805−No)、処理をステップS812に進める。一方、ステップS805の判定処理で、類似領域が存在する場合(S805−Yes)、処理をステップS806に進めて、ハッシュキーに変換される前の元となる各類似領域について、高次元の特徴量を呼び出す(S806、S807)。特徴量に基づいて問合せの候補領域と類似領域との正確な距離を算出する(S808)。この処理を全ての類似領域について繰り返し実行する。そして、算出された距離を比較して、距離の近い順にサンプル(類似領域)をソートし(S810)、所定の閾値よりも距離の近かった類似領域を出力する(S811)。ここで、距離としてはユークリッド距離やカイ二乗距離などを用いればよい。この処理を全ての候補領域について繰り返し実行する(S812)。以上が類似画像取得部102の詳細な動作となる。なお、近傍探索のための精度の高いハッシュ関数の設計に関しては広く研究されており、詳細は非特許文献5に譲る。
なお、類似画像取得部102の別の派生的な形態として、画像の類似度のグラフ構造を用いる形態も考えられる。これにより類似画像の問合せをより柔軟に行うことが期待できる。ここでいうグラフとは、各領域をノードとし、領域間の類似性をエッジとする類似度行列で表されるグラフのことである。具体的な動作例は例えば以下のようになる。まず前述と同じくハッシュによって近傍領域を検出する。次に領域間の類似度行列を使って更に近傍領域に近接する他のデータサンプルを探索する。個々のデータサンプルについて高次の特徴量で候補領域との距離の評価を行う。このような工夫により、ハッシュのみでは反映しにくい画像の多様体としての相互の関連性を考慮しながら、類似画像の問合せを行うことができる。
また、画像データベース103の別の派生的な形態として、インターネット上に設置された画像検索サーバーを用いる形態も考えられる。この画像検索サーバーはエージェントをウェブサービスのネットワーク上で動作させ、新たな画像をネットワーク上で自動収集してデータベースに追加する機能を持つ。このような形態の画像データベース103を用いる類似画像取得部102、領域分割部101においては、与えられた入力画像中に新規な被写体が含まれていても正しく動作することが期待できる。例えば、入力画像中にある種の家電の新製品のような、未知の特定形状の被写体が写っている状況を考える。ユーザがこの被写体について何らの知識を持っていなくても、ウェブ上に十分な数の同製品の画像情報が掲示され、データベースへの収集がなされていれば、正しく領域分割することが可能であることが期待できる。
(領域成分抽出部104)
領域成分抽出部104の動作について説明する。このモジュールの動作の目的は、前段の類似画像取得部102によって得られた類似画像のセット(類似画像群)の中から、領域の成分を抽出することである。
本実施形態において領域の成分と呼んでいるものについて図2を用いて具体的に説明する。図2(a)は画像中の草地に関する領域をいくつか抽出したものである。それぞれの草地の事例画像は僅かな見え方のバリエーションがある。また領域内には牛の四肢のような余計な要素も混合している。図2(a)中の各領域は、図2(b)のようにそれぞれ特徴量に変換される。ここでは先に説明したSIFT特徴量とBag−of−words手法を用いてヒストグラム特徴量に変換した例を図示している。なお図中のw・・・wはコードブックの分布である。この特徴量のセットから、特徴量間に共通する図2(c)のような主成分を抽出してこれを領域1、2、3の全体的な成分とする。領域の成分は草地に共通する特徴のみが分離され、コードブックの分布の上に表現されたものである。
このような成分抽出を目的とした手法は複数存在する。例えば非特許文献10のLatent Dirichlet allocation(LDA)の方法を用いることができる。またLDA以外ではディリクレ過程を用いたモデルなどもよく研究されている(非特許文献13)。ここでは成分抽出の精度の高さで一定の評価のあるLDAを中心に説明を行うが、本発明に係る実施形態は成分抽出の方法を特にLDAに限定するものではないことに注意されたい。
LDAは自然言語処理に広く用いられる文書生成モデルの一つであり、以下の(1)式により示される。
Figure 2013117860
以下にLDAについて簡単に説明する。上式はK個のトピック(話題)を含む文書がN個の語彙を生成する時の確率モデルを表したものである。ここでwは生成されたN個の語彙w、・・・・、wの列を表す。K個のトピックのうち、各トピックZは語彙w、・・・・、wのうちいずれの語彙を生成するかの生成確率を決める確率分布である。またVは可能な語彙の総数である。Zはβをハイパーパラメーターとする多項分布より生成される。zはN個の確率分布z、・・・・、zの列である。zはK個のトピックZ、・・・・、Zの混合で構成される分布で、n番目の語彙の生成に関わる。混合比はパラメーターθによって決定され、θはαをハイパーパラメーターとしてディリクレ分布より生成される。学習時には与えられた事例データを用いて変分法等でハイパーパラメーターを学習する。
トピックZを画像の特徴量の潜在変数とし、Bag−of−wordsのコードブックを語彙w、・・・、wと置くことで、LDAは画像認識に適用することが可能である。LDAによって抽出される各トピックZは各コードブックw、・・・・、wの生起する確率分布となる。LDAについては非特許文献11に、その画像認識への適用の詳細に関しては非特許文献10等に開示されているので詳細はそちらに譲る。
次にLDAを適用した領域成分抽出部104の詳細な動作を図4のフロー図に基づいて説明する。まず領域成分抽出部104は類似画像取得部102から類似領域群と類似領域を含む類似画像群とを受け取る。次に領域成分抽出部104は全ての類似画像について、領域分割の結果を読み出す(S401、S402)。この領域分割の結果は先の類似画像取得部102の動作時に利用したものと同一である。制御パラメーターを変化させて複数通りの分割結果を得て画像データベース103に記憶させたものである。次に、読みだされた全ての分割領域に対して、類似領域にオーバーラップする領域を抽出する(S403、S404、S405)。
類似領域にオーバーラップする領域を抽出する(S403、S404、S405)ステップは類似領域の質を高めるために重要であるので特に図5に模式的に図示する。図5には入力画像中の候補領域501と、候補領域501に関連するとして抽出された類似領域502が示されている。また類似領域502にオーバーラップする領域503a、503b、503cが示されている。類似領域502の一部と重複する領域も類似領域とともに抽出する。オーバーラップする領域503(503a、503b、503c)も抽出してデータサンプルとする工夫によって、類似領域502が被写体の一部分に限られていても、領域成分を抽出するためのより好適なデータを得ることが期待できる。
説明を図4に戻し、ステップS401からステップS406の処理を全類似画像について繰り返し実行する。
次に領域成分抽出部104はステップS403〜S405で得られた全ての領域の特徴量を画像データベース103から読み出し、これをデータサンプルとして先掲の手法であるLDAを実行する(S407)。LDAの結果としてK個のトピックZ、・・・・、Zを得てこれを領域成分とする(S408)。なお、ここでは領域成分の数として所定の数Kを定めたが、ある程度大きな数Kを決めておき、混合比のパラメーターθが小さいトピックを削除してもよい。その場合はK以下の可変の数のトピックを得ることができる。
(領域同定部105)
次に領域同定部105の動作について詳しく説明する。領域同定部105には、領域成分抽出部104によって抽出されたK個の領域成分Z、・・・・、Zが送られる。次に領域同定部105はこの領域成分に基づいて入力画像の各画素のカテゴリーの同定を行う。
具体的な動作のフローを、図6を用いて説明する。入力画像中の各画素に関してその画素を中心として領域分割を行う(S601〜S602)。各領域のBag−of−wordsの特徴量を算出する(S603)。この特徴量とK個の領域成分Z、・・・・、Zの間のカルバック・ライブラー距離(KL距離)を求める。K個の領域成分の全てに対してカルバック・ライブラー距離を算出する(S604〜S606)。
ステップS607の判定で、K個のうち、最小のカルバック・ライブラー距離(KL距離)が閾値以下であるか否かを判定する。ステップS607の判定で、最小のカルバック・ライブラー距離が所定の閾値以下にならない場合(S607−No)、処理をステップS608に進め、注目画素を最小のカルバック・ライブラー距離の領域成分にラベリングする。最も近かった領域成分Zに注目画素が帰属するとしてk番目のラベルを割り当てる(S608)。一方、ステップS607の判定で、最小のカルバック・ライブラー距離が所定の閾値以下になる場合(S607−Yes)、処理をステップ609に進め、注目画素を空白領域とする。カルバック・ライブラー距離が所定の閾値以下の画素はどれにも属さない領域としてラベルを割り当てない(S609)。従って、ここでラベルの種類の数は帰属が未決定の領域を含めて最大でK+1となる。入力画像の全画素についてステップS601からステップS610の処理を繰り返し、最終的なラベリングの結果を領域分割結果として出力する(S611)。なお、ここでは領域に与えられるラベルは種別の番号のみであって、「牛」や「草原」といった意味的なラベルの同定は特になされていないことに注意されたい。
以上のような処理を行うことによって、被写体の教師データを用いずに、入力画像を被写体の種類に応じて、互いに異なる領域に分割することができる。
(第2実施形態)
本発明に係る第2実施形態として、第1実施形態が行う領域分割の精度を更に向上させることのできる拡張的な方法について説明する。図9に本実施形態の画像処理装置10のブロック図を示す。図1と符号を同じとする処理要素は同じ動作をするものとして説明を省略する。図9に示す構成では、領域同定部105の領域分割結果が変化しなくなるまで(所定の変化率以下になるまで)、領域分割部101からの処理を繰り返す。この点で、図9の構成は第1実施形態における図1の構成と相違する。
図10の本実施形態の全体的なフローの図に基づいて本実施形態の画像処理装置10の動作を詳細に説明する。まず、第1実施形態と同様の処理を行い、入力画像より領域分割結果を得る。領域同定部105から出力された領域分割の結果を候補領域群として取得する(S1001)。領域分割部101(第2の分割部)は、次にステップS1001の取得工程で取得された領域分割の結果の個々の候補領域に対してグラフカットアルゴリズムを適用する。具体的には各領域の画素とそれ以外の領域の画素をそれぞれ前景と背景の初期値として与え、グラフカットアルゴリズムを適用する。このとき、グラフカットアルゴリズムのパラメーターを変化させて、複数の領域分割結果を得る(S1002〜S1006)。領域分割部101(第2の分割部)は、このようにして得られた候補領域群を新たな候補領域群とする(第2の候補領域群)。新たな候補領域群(第2の候補領域群)に対して、第1実施形態と同様の処理により再び類似領域の検索を行い、領域分割の処理を行う(S1007)。
ステップS1007では、新たな候補領域群のそれぞれの候補領域に対して類似する類似画像群を画像データベースより取得する。類似画像群の中から類似画像に共通する特徴を候補領域の特徴成分として抽出する。抽出された特徴成分と入力画像の各画素の特徴量とを比較して、各画素が新たな候補領域群のうちどの候補領域に属するかを示すラベリングをして、ラベリングの結果を被写体ごとの領域分割の結果(第2の領域分割の結果)として出力する。
ステップS1008では、領域分割の結果に対して第2の領域分割の結果が収束しているか否かを判定する。第2の領域分割の結果が収束していると判定された場合、領域同定工程は、第2の領域分割の結果を被写体ごとの領域分割の結果として出力する。第2の領域分割の結果が収束していないと判定される場合、領域分割の結果が変化しなくなるまで(例えば、所定の変化率以下になるまで)以上の処理を繰り返す(S1008)。以上のような工夫を行えば、繰り返し処理が進む度に領域分割結果の精度が向上することが期待できる。
なお、ここでグラフカットを行って第一回目の領域分割結果から新たな候補領域群を生成する方法を示したが、候補領域群の生成の方法はこれに限定されない。別の実施形態として以下のようなものでもよい。例えば、第1実施形態と同様の処理を行い第一回目の分割結果を得る。次に第一回目の候補領域群のうち、第一回目の分割結果と所定の割合以上にオーバーラップしている候補領域のみを抽出する。これを第二回目の候補領域群とし、再び領域分割を行うことも可能である。
(第3実施形態)
本発明に係る第3実施形態として、第1実施形態が行う領域分割の結果に対して、「牛」や「草原」といった被写体の名称の同定(被写体認識)を行う方法について説明する。本実施形態における被写体認識方法は第1実施形態の拡張的な方法である。図11に本実施形態の画像処理装置10のブロック図を示す。図11に示す画像処理装置10は、図1に示したブロック図の構成に対して更に領域ラベル同定部106を備える。領域ラベル同定部106は、画像データベースに記憶されている各画像に対して関連づけられたタグを用いて、領域同定部105の領域分割の結果にアノテ−ションを設定し、入力画像における被写体の認識結果として出力する。図11の画像データベース103は、各画像に対して関連づけられたタグを記憶しているとする。タグはウェブページなどから画像を自動収集する際に、ウェブページの見出しなどの関連情報から抽出されたり、Flickr等のイメージデータベースのように、人手によってタグが付されていることを想定している。
本実施形態の画像処理装置10の領域ラベル同定部106の動作フローを図12に基づいて説明する。まずK個の候補領域のカテゴリーとその領域成分がすでに得られているとする(S1201)。次に各カテゴリーについて、それぞれ領域の事例データ(類似画像)を得る。そのために先ず領域成分の特徴量よりハッシュキーを作成する(S1202)。これは第1実施形態で説明したのと同じ方法を用いればよい。次にハッシュ表から類似領域群を得る(S1203)。次に類似領域群の含まれる画像の全てのタグを画像データベース103から読み出す(S1204)。次にタグのセット中に出現頻度の高い語彙を抽出し、これをアノテーションの結果とする(S1205)。なお、出現頻度に基づく方法は語彙の抽出の最も単純な方法であるが、ここで語彙間のオントロジー上の距離を考慮したり、語彙の出現頻度の希少さを加味すれば、より精度高くアノテーションを行うことができる。このようなアノテーションを設定する手法は古くより研究されており、本実施形態においては実現手段を特に一つに限定するものではない。ここでは非特許文献14などの先行手法を参考の方法として挙げて詳細の説明を省く。
(第4実施形態)
本発明に係る第4実施形態として、第1実施形態で述べた領域成分抽出部104ならびに領域同定部105の動作の派生的な別の形態について説明する。本実施形態は第1実施形態と部分的に同一であり、領域成分抽出部104と領域同定部105の動作のみが異なる形態を説明する。そのため、ここでは説明の重複を避けて領域成分抽出部104と領域同定部105の動作についてのみ説明する。
本実施形態では領域成分抽出部104と領域同定部105との動作において画像の類似性のグラフ構造を利用する。非特許文献12にはこの目的に適用可能な方法の一例であるリンク解析と呼ばれる手法が開示されている。本方法は、インターネット上の検索エンジンが、リンクの集中するウェブページを重要度の高いページとして抽出する際に用いる方法と同種のアルゴリズムである。
以下に非特許文献12の概略を説明する。本手法はデータベースの画像群から所定の方法で領域を複数個切り出す。切り出した領域をそれぞれノードと見なし、領域間の類似性をノード間のエッジとするグラフを作成する。次に、このグラフ構造の核となっているノードを見つけ出して、画像データベースに含まれる被写体の代表的な事例画像とする。このようなノードをハブと呼ぶ。ハブは複数個存在してよい。
次に非特許文献12の方法を領域成分抽出部104に適用した形態の詳細について説明する。領域成分抽出部104は、まず前段の処理で得られた類似画像群から領域群を切り出す。領域群を切り出す方法は領域分割部101と同じ方法でもよいし、非特許文献12に述べられているようなスーパーピクセルを用いる方法でもよい。次に領域をノードとし、領域間の特徴量の距離を求めてグラフを作成する。次に同グラフのハブとなっているノードをK個抽出する。K個のハブをK個のカテゴリーの代表的な事例画像と見なすことができる。
次に領域同定部105について説明する。領域同定部105では入力画像の各画素について第1実施形態で説明したのと同様の方法で領域を一つ生成する。この領域に最も類似する類似領域を画像データベース103より取り出す。次に上記の類似領域がK個のカテゴリーのいずれに属するかを求める。具体的には、上記の類似領域から各ハブまでの測地線距離を求め、最も近いハブのカテゴリーに注目画素を割り当てる。なお、ここで類似する領域を一つではなく所定の複数の数だけ取り出し、投票によりカテゴリーの帰属を決定してもよい。
以上が画像の類似性のネットワーク構造を用いた領域分割の方法の実施形態の説明である。本実施形態では領域成分の抽出に領域間の類似性のグラフを利用することで、画像の多様体としての性質をより考慮しながら領域の成分の抽出を行うことができる。
(第5実施形態)
本発明に係る画像処理方法(領域分割方法)の別の形態として、任意の手段により求められた領域カテゴリーの成分に基づいて候補領域の領域分割を行う方法について説明する。第1実施形態では類似画像に基づいて領域の成分を求めたが、本実施形態において、領域の成分を求める構成はこれに限定するものではない。本実施形態では外部の構成によって領域の成分が得られているような場合に適用可能な別の実施形態について説明する。本実施形態の画像処理装置10の構成例を図13に示す。また本実施形態の画像処理装置10の動作フローを図14に示す。領域分割部101によって分割された候補領域群は、領域同定部105に送られる。領域同定部105は、K個の領域成分を領域成分データベース107より読み出し、次に候補領域ごとに特徴量を算出する(S1401、S1402)。K個の領域成分とのカルバック・ライブラー距離を計算する(S1403、S1404、S1405)。以上の処理を入力画像の全候補領域について繰り返し実行する(S1406)。
次に入力画像の各画素について以下の処理を行う。注目画素が含まれる候補領域を選び、そのうちいずれかの領域成分までの距離が最小となる候補領域を選択する(S1407、S1408)。このときカルバック・ライブラー距離(KL距離)が閾値以下であれば(S1409−Yes)、画素を同領域成分のカテゴリーに割り当てる(S1410)。一方、ステップS1409の判定で、距離が閾値より大きい場合(S1409−No)、注目画素を空白領域としてラベリングを行わない(S1411)。以上の処理を入力画像の全画素について繰り返し実行する(S1412)。そして、全画素のラベリングの結果を領域分割結果として出力して処理を終了する(S1413)。
(その他の実施形態)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。

Claims (10)

  1. 入力画像を、当該入力画像中の被写体ごとの領域に分割する画像処理方法であって、
    分割手段が、前記入力画像を被写体ごとの複数の領域の候補を表わす候補領域群に分割する分割工程と、
    取得手段が、前記候補領域群のそれぞれの候補領域に対して類似する類似画像群を画像データベースより取得する取得工程と、
    抽出手段が、前記類似画像群の中から類似画像に共通する特徴を候補領域の特徴成分として抽出する抽出工程と、
    領域同定手段が、前記特徴成分と前記入力画像の各画素の特徴量とを比較して、各画素が候補領域群のうちどの候補領域に属するかを同定し、領域分割の結果として出力する領域同定工程と、
    を有することを特徴とする画像処理方法。
  2. 第2の分割手段が、前記領域同定工程で出力された前記領域分割の結果を、被写体ごとの複数の領域の候補を表わす新たな候補領域群に分割する第2の分割工程を更に有し、
    前記取得工程は、前記第2の分割工程で分割された新たな候補領域群のそれぞれの候補領域に対して類似する類似画像群を画像データベースより取得し、
    前記抽出工程は、前記類似画像群の中から類似画像に共通する特徴を候補領域の特徴成分として抽出し、
    前記領域同定工程は、前記抽出された特徴成分と入力画像の各画素の特徴量とを比較して、各画素が新たな候補領域群のうちどの候補領域に属するかを同定して、第2の領域分割の結果とすることを特徴とする請求項1に記載の画像処理方法。
  3. 前記領域同定工程は、前記領域分割の結果に対して前記第2の領域分割の結果が収束しているか否かを判定する判定工程を有し、
    前記判定工程で前記第2の領域分割の結果が収束していると判定された場合、前記領域同定工程は、前記第2の領域分割の結果を被写体ごとの領域分割の結果として出力し、
    前記判定工程により前記第2の領域分割の結果が収束していないと判定された場合、前記第2の分割工程は、当該第2の領域分割の結果を、被写体ごとの複数の領域の候補を表わす新たな候補領域群に分割することを特徴とする請求項2に記載の画像処理方法。
  4. 設定手段が、前記画像データベースに記憶されている各画像に対して関連づけられたタグを用いて、前記領域同定工程の領域分割の結果にアノテ−ションを設定し、前記入力画像における被写体の認識結果として出力する設定工程を更に有することを特徴とする請求項1乃至3のいずれか1項に記載の画像処理方法。
  5. 入力画像を、当該入力画像中の被写体ごとの領域に分割する画像処理装置であって、
    前記入力画像を被写体ごとの複数の領域の候補を表わす候補領域群に分割する分割手段と、
    前記候補領域群のそれぞれの候補領域に対して類似する類似画像群を画像データベースより取得する取得手段と、
    前記類似画像群の中から類似画像に共通する特徴を候補領域の特徴成分として抽出する抽出手段と、
    前記特徴成分と前記入力画像の各画素の特徴量とを比較して、各画素が候補領域群のうちどの候補領域に属するかを同定し、領域分割の結果として出力する領域同定手段と、
    を備えることを特徴とする画像処理装置。
  6. 前記領域同定手段で出力された前記領域分割の結果を、被写体ごとの複数の領域の候補を表わす新たな候補領域群に分割する第2の分割手段を更に備え、
    前記取得手段は、前記第2の分割手段で分割された新たな候補領域群のそれぞれの候補領域に対して類似する類似画像群を画像データベースより取得し、
    前記抽出手段は、前記類似画像群の中から類似画像に共通する特徴を候補領域の特徴成分として抽出し、
    前記領域同定手段は、前記抽出された特徴成分と入力画像の各画素の特徴量とを比較して、各画素が新たな候補領域群のうちどの候補領域に属するかを同定して、第2の領域分割の結果とすることを特徴とする請求項5に記載の画像処理装置。
  7. 前記領域同定手段は、前記領域分割の結果に対して前記第2の領域分割の結果が収束しているか否かを判定する判定手段を有し、
    前記判定手段により前記第2の領域分割の結果が収束していると判定された場合、前記領域同定手段は、前記第2の領域分割の結果を被写体ごとの領域分割の結果として出力し、
    前記判定手段により前記第2の領域分割の結果が収束していないと判定された場合、前記第2の分割手段が、当該第2の領域分割の結果を、被写体ごとの複数の領域の候補を表わす新たな候補領域群に分割することを特徴とする請求項6に記載の画像処理装置。
  8. 前記画像データベースに記憶されている各画像に対して関連づけられたタグを用いて、前記領域同定手段の領域分割の結果にアノテ−ションを設定し、前記入力画像における被写体の認識結果として出力する設定手段を更に有することを特徴とする請求項5乃至7のいずれか1項に記載の画像処理装置。
  9. 画像を撮像する撮像手段と、
    前記撮像手段により撮像された前記画像を入力画像とし、当該入力画像を入力画像中の被写体ごとの領域に分割する請求項5乃至8のいずれか1項に記載の画像処理装置と、
    を有することを特徴とする撮像装置。
  10. コンピュータを、請求項5乃至8のいずれか1項に記載の画像処理装置の各手段として機能させるためのプログラム。
JP2011265047A 2011-12-02 2011-12-02 画像処理方法、画像処理装置、撮像装置およびプログラム Expired - Fee Related JP5836779B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011265047A JP5836779B2 (ja) 2011-12-02 2011-12-02 画像処理方法、画像処理装置、撮像装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011265047A JP5836779B2 (ja) 2011-12-02 2011-12-02 画像処理方法、画像処理装置、撮像装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2013117860A true JP2013117860A (ja) 2013-06-13
JP5836779B2 JP5836779B2 (ja) 2015-12-24

Family

ID=48712381

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011265047A Expired - Fee Related JP5836779B2 (ja) 2011-12-02 2011-12-02 画像処理方法、画像処理装置、撮像装置およびプログラム

Country Status (1)

Country Link
JP (1) JP5836779B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015064292A1 (ja) * 2013-10-30 2015-05-07 日本電気株式会社 画像の特徴量に関する処理システム、処理方法及びプログラム
JP2016004369A (ja) * 2014-06-16 2016-01-12 日本電信電話株式会社 被写体領域抽出装置、方法、及びプログラム
US10007678B2 (en) 2014-11-21 2018-06-26 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and recording medium
CN110378911A (zh) * 2019-07-11 2019-10-25 太原科技大学 基于候选区域和邻域分类器的弱监督图像语义分割方法
JPWO2021186672A1 (ja) * 2020-03-19 2021-09-23
WO2022137979A1 (ja) * 2020-12-21 2022-06-30 日本電気株式会社 画像処理装置、画像処理方法およびプログラム記録媒体
JP2023500835A (ja) * 2019-10-31 2023-01-11 シーメンス・ヘルスケア・ダイアグノスティックス・インコーポレイテッド 自動診断分析システムにおいて検体のhiln決定に使用される訓練画像をハッシュおよび検索するための方法および装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015064292A1 (ja) * 2013-10-30 2015-05-07 日本電気株式会社 画像の特徴量に関する処理システム、処理方法及びプログラム
US10140555B2 (en) 2013-10-30 2018-11-27 Nec Corporation Processing system, processing method, and recording medium
JP2016004369A (ja) * 2014-06-16 2016-01-12 日本電信電話株式会社 被写体領域抽出装置、方法、及びプログラム
US10007678B2 (en) 2014-11-21 2018-06-26 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and recording medium
CN110378911A (zh) * 2019-07-11 2019-10-25 太原科技大学 基于候选区域和邻域分类器的弱监督图像语义分割方法
CN110378911B (zh) * 2019-07-11 2022-06-21 太原科技大学 基于候选区域和邻域分类器的弱监督图像语义分割方法
JP2023500835A (ja) * 2019-10-31 2023-01-11 シーメンス・ヘルスケア・ダイアグノスティックス・インコーポレイテッド 自動診断分析システムにおいて検体のhiln決定に使用される訓練画像をハッシュおよび検索するための方法および装置
JP7458481B2 (ja) 2019-10-31 2024-03-29 シーメンス・ヘルスケア・ダイアグノスティックス・インコーポレイテッド 自動診断分析システムにおいて検体のhiln決定に使用される訓練画像をハッシュおよび検索するための方法および装置
JPWO2021186672A1 (ja) * 2020-03-19 2021-09-23
WO2021186672A1 (ja) * 2020-03-19 2021-09-23 日本電気株式会社 画像処理方法
JP7459927B2 (ja) 2020-03-19 2024-04-02 日本電気株式会社 画像処理方法
WO2022137979A1 (ja) * 2020-12-21 2022-06-30 日本電気株式会社 画像処理装置、画像処理方法およびプログラム記録媒体

Also Published As

Publication number Publication date
JP5836779B2 (ja) 2015-12-24

Similar Documents

Publication Publication Date Title
Sandoval et al. Two-stage deep learning approach to the classification of fine-art paintings
JP5836779B2 (ja) 画像処理方法、画像処理装置、撮像装置およびプログラム
Liu et al. Open-world semantic segmentation via contrasting and clustering vision-language embedding
Malisiewicz et al. Recognition by association via learning per-exemplar distances
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
Zhang et al. Sparse reconstruction for weakly supervised semantic segmentation
Li et al. Publication date estimation for printed historical documents using convolutional neural networks
Golge et al. Conceptmap: Mining noisy web data for concept learning
CN115203408A (zh) 一种多模态试验数据智能标注方法
Lin et al. Learning contour-fragment-based shape model with and-or tree representation
CN110532449A (zh) 一种业务文档的处理方法、装置、设备和存储介质
Bodapati Modified self-training based statistical models for image classification and speaker identification
Belhi et al. Deep learning and cultural heritage: the CEPROQHA project case study
Nyon et al. Durian species recognition system based on global shape representations and k-nearest neighbors
Li et al. An Object Co-occurrence Assisted Hierarchical Model for Scene Understanding.
Rubinstein et al. Joint inference in weakly-annotated image datasets via dense correspondence
Ke et al. Human attribute recognition method based on pose estimation and multiple-feature fusion
Zhang et al. Accurate object retrieval for high-resolution remote-sensing imagery using high-order topic consistency potentials
Sachdeva et al. Handwritten offline devanagari compound character recognition using machine learning
Tu et al. Featured correspondence topic model for semantic search on social image collections
Chien et al. Large-scale image annotation with image–text hybrid learning models
Liao et al. Image-matching based identification of store signage using web-crawled information
Sreenivasulu et al. Adaptive inception based on transfer learning for effective visual recognition
Nepovinnykh et al. Species-Agnostic Patterned Animal Re-identification by Aggregating Deep Local Features
Liu et al. Accumulated reconstruction error vector (AREV): a semantic representation for cross-media retrieval

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150827

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151104

R151 Written notification of patent or utility model registration

Ref document number: 5836779

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees