JP2013117860A

JP2013117860A - 画像処理方法、画像処理装置、撮像装置およびプログラム

Info

Publication number: JP2013117860A
Application number: JP2011265047A
Authority: JP
Inventors: Shunta Tachi; 俊太舘; Hirosuke Mitarai; 裕輔御手洗; Katsuhiko Mori; 克彦森
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2011-12-02
Filing date: 2011-12-02
Publication date: 2013-06-13
Anticipated expiration: 2031-12-02
Also published as: JP5836779B2

Abstract

【課題】被写体の教師データを事前に与えることなく、入力画像を被写体の種類に応じて、互いに異なる領域に分割すること。
【解決手段】入力画像を、当該入力画像中の被写体ごとの領域に分割する画像処理装置は、入力画像を被写体ごとの複数の領域の候補を表わす候補領域群に分割する分割部と、候補領域群のそれぞれの候補領域に対して類似する類似画像群を画像データベースより取得する取得部と、類似画像群の中から類似画像に共通する特徴を候補領域の特徴成分として抽出する抽出部と、抽出された特徴成分と入力画像の各画素の特徴量とを比較して、各画素が候補領域群のうちどの候補領域に属するかを同定し、領域分割の結果として出力する領域同定部と、を備える。
【選択図】図１

Description

本発明は画像処理方法、画像処理装置、撮像装置およびプログラムに関する。

従来、画像を被写体ごとに分割する手法として非特許文献１のような方法がある。非特許文献１の方法では、各被写体のカテゴリーごとにテクスチャや画素の色といった特徴量を記憶しておく。次にこの特徴量に基づいて各画素がどのカテゴリーに属するかの尤度を求め、画素間の整合性を考慮しながら画素の帰属を決定することで領域分割を行う。

ＰｕｓｈｍｅｅｔＫｏｈｌｉ，Ｌ’ｕｂｏｒＬａｄｉｃｋｙａｎｄＰｈｉｌｉｐＨ．Ｓ．Ｔｏｒｒ，Ｉｎｔ．Ｊ．ｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，８２（３），３０２−３２４，２００９. ＪｉｔｅｎｄｒａＭａｌｉｋ，ＳｅｒｇｅＢｅｌｏｎｇｉｅ，ＴｈｏｍａｓＬｅｕｎｇａｎｄＪｉａｎｂｏＳｈｉ，Ｉｎｔ．Ｊ．ｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，４３（１），７−２７，２００１．Ａ．Ｒａｂｉｎｏｖｉｃｈ，Ｔ．Ｌａｎｇｅ，Ｊ．Ｂｕｈｍａｎｎ，Ｓ．Ｂｅｌｏｎｇｉｅ，ＩＥＥＥＣｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００６．Ｊ．Ｃａｒｒｅｉｒａ，Ｃ．Ｓｍｉｎｃｈｉｓｅｓｃｕ，ＩＥＥＥＣｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２０１０．Ａ．Ｇｉｏｎｉｓ，Ｐ．Ｉｎｄｙｋ，Ｒ．Ｍｏｔｗａｎｉ，Ｐｒｏｃ．ｏｆｔｈｅ２５ｔｈＶｅｒｙＬａｒｇｅＤａｔａｂａｓｅＣｏｎｆ．，１９９９．Ｊ．Ｓｉｖｉｃ，Ｂ．Ｃ．Ｒｕｓｓｅｌｌ，Ａ．Ａ．Ｅｆｒｏｓ，Ａ．Ｚｉｓｓｅｒｍａｎ，ａｎｄＷ．Ｔ．Ｆｒｅｅｍａｎ．ＩｎＰｒｏｃ．ｏｆ１０ｔｈＩＥＥＥＩｎｔ．Ｃｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，２００５．Ａ．Ｓａｘｅｎａ，Ｓ．Ｈ．Ｃｈｕｎｇ，Ａ．Ｙ．Ｎｇ，Ｉｎｔ．Ｊ．ｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，７６（１），５３−６９，２００８．Ｊ．Ｓｉｖｉｃ，Ａ．Ｚｉｓｓｅｒｍａｎ，Ｐｒｏｃ．ｏｆｔｈｅ９ｔｈＩＥＥＥＩｎｔ．Ｃｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，２００３．Ｏ．Ｃｈｕｍ，Ｍ．Ｐｅｒｄｏｃｈ，Ｊ．Ｍａｔａｓ，ＩＥＥＥＣｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００９．Ｂ．Ｃ．Ｒｕｓｓｅｌｌ，Ｗ．Ｔ．Ｆｒｅｅｍａｎ，Ａ．Ａ．Ｅｆｒｏｓ，Ｊ．Ｓｉｖｉｃ，Ａ．Ｚｉｓｓｅｒｍａｎ，Ｐｒｏｃ．ｏｆｔｈｅＩＥＥＥＣｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００６．Ｄ．Ｂｌｅｉ，Ａ．Ｎｇ，ａｎｄＭ．Ｊｏｒｄａｎ．，Ｊ．ｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ，３：９９３．１０２２，２００３．Ｇ．Ｋｉｍ，Ａ．Ｔｏｒｒａｌｂａ，ＡｎｎｕａｌＣｏｎｆ．ｏｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ，２００９．Ｇ．Ｗａｎｇ，Ｙ．Ｚｈａｎｇ．Ｌ．Ｆｅｉ−Ｆｅｉ，Ｐｒｏｃ．ｏｆｔｈｅＩＥＥＥＣｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００６．Ｋ．Ｂａｒｎａｒｄ，Ｄ．Ｆｏｒｓｙｔｈ，Ｐｒｏｃ．ｏｆ８ｔｈＩＥＥＥＩｎｔ．Ｃｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，２００１．

非特許文献１の方法では、複数の事例画像と、事例画像中の各画素がどの被写体に属するかという教師データを用意し、被写体の特徴を事前に学習しておく必要がある。このため領域分割が可能な被写体のカテゴリーは限定され、未知の被写体に対して所望の分割結果が得られないことがある。

被写体を限定しない方法として、局所特徴の類似性などを手掛かりにして領域分割を行う非特許文献２のような方法も研究されている。しかしこの種の方法では、被写体が見え方の異なる複数の部分で構成されている場合、複数の部分に過分割されてしまうという避け難い問題がある。

本発明は、被写体の教師データを事前に与えることなく、入力画像を被写体の種類に応じて、互いに異なる領域に分割することが可能な技術を提供する。

上記の目的を達成する本発明の一つの側面に係る画像処理装置は、入力画像を、当該入力画像中の被写体ごとの領域に分割する画像処理装置であって、
前記入力画像を被写体ごとの複数の領域の候補を表わす候補領域群に分割する分割手段と、
前記候補領域群のそれぞれの候補領域に対して類似する類似画像群を画像データベースより取得する取得手段と、
前記類似画像群の中から類似画像に共通する特徴を候補領域の特徴成分として抽出する抽出手段と、
前記特徴成分と前記入力画像の各画素の特徴量とを比較して、各画素が候補領域群のうちどの候補領域に属するかを同定し、領域分割の結果として出力する領域同定手段と、を備えることを特徴とする。

本発明によれば、被写体の教師データを事前に与えることなく、入力画像を被写体の種類に応じて、互いに異なる領域に分割することができる。

第１実施形態の画像処理装置の構成を説明する図。領域成分の抽出動作の概念を説明する図。従来手法の領域成分の抽出動作と実施形態における領域成分の抽出動作との比較を説明する図。領域成分抽出部の動作を説明する図。類似領域の抽出動作の概念を説明する図。領域同定部の動作を説明する図。類似画像取得部の動作を説明する図。類似画像取得部の更に詳細な動作を説明する図。第２実施形態の画像処理装置の構成を説明する図。第２実施形態の画像処理装置の全体の動作を説明する図。第３実施形態の画像処理装置の構成を説明する図。領域ラベル同定部の動作を説明する図。第５実施形態の画像処理装置の構成を説明する図。第５実施形態の画像処理装置の全体の動作を説明する図。

（第１実施形態）
以下、図面を参照しながら本発明の実施形態に係る画像処理方法（画像の領域分割方法）、および画像処理装置１０について詳細に説明する。また、撮像装置２０は、画像を撮像する撮像部と、撮像部により撮像された画像を入力画像とし、入力画像を、入力画像中の被写体ごとの領域に分割する画像処理装置１０とを有する。なお、図面間で符号が同じものは同じ動作をするものとして説明を省略する。本発明の実施形態にかかる画像処理方法および画像処理装置は、入力画像を被写体に応じて適切に複数の領域に分割するための画像処理技術に関するものである。適切に被写体を分割することは、被写体の認識やシーンの認識、被写体に応じた画質の補正などにおいて多くの画像処理を容易にする。ここでの入力画像は静止画・動画を問わない。また被写体としては人物や犬などの生物、建物や道具などの人工物、山や空といった自然物などあらゆる対象を含む。

図１を参照して本発明の実施形態にかかる画像処理装置１０の動作を説明する。領域分割部１０１は入力画像を被写体ごとの複数の領域の候補を表わす複数の候補領域群に分割する。次に、類似画像取得部１０２は、画像データベース１０３から候補領域群のそれぞれの領域に対して複数の類似の画像（類似画像群）を取得する。領域成分抽出部１０４はこの類似画像群の中から類似画像に共通する特徴成分としてＫ個の成分を候補領域の特徴成分（領域成分）として抽出する。各領域成分は入力画像中の主要な被写体に関する成分である。領域同定部１０５は特徴成分（領域成分）の情報と入力画像の各画素の特徴量とを比較する。そして、領域同定部１０５は、比較の結果から各画素がそれぞれＫ個の領域成分のうちどの候補領域に属するか判定してラベリングして、ラベリングの結果を被写体ごとの領域分割の結果として出力する。このようにして最終的に入力画像の領域分割結果を得る。

なお本発明に係る領域分割の方法は、部分的には非特許文献１０に開示される方法に関連する。ここで本方法と非特許文献１０との共通点および機能的な差異に関して説明することは、本方法の効果を理解する上で有効であるので以下に詳しく説明する。

図３の模式図で二つの方法の相違を概念的に説明する。図３（ａ）が非特許文献１０の動作を示す図である。非特許文献１０の方法では画像データベース内の全ての画像群を対象として領域の主成分を抽出する。同方法は特定の画像を重視せずに全画像の共通の成分を抽出するため、「空」や「地面」といった、一般に画像中に広く現れる被写体の成分が上位の成分として抽出される。他方で、「牛」のように、比較的少数の画像内にのみ現れ、且つ被写体の姿勢による見え方の変動があるような被写体は、適切に抽出されないことがある。上記のような被写体の成分は剰余の成分として無視されるか、他の被写体の成分と混合して抽出されることがある。これは主成分分析において下位の成分にノイズが多く含まれることと同様にして理解できる。

これに対して本発明に係る領域分割の方法は、図３（ｂ）に示すように、１枚の入力画像に対して、領域分割を行って被写体の候補領域を抽出する。次に候補領域に類似する領域を画像データベースから取得し、入力画像と関連する画像のみに限定した画像セット（類似画像群）を生成する。次の領域成分抽出部１０４は、画像セット（類似画像群）に対して非特許文献１０の方法と同種の方法を適用することができる。ただし画像セット（類似画像群）が限定されているため、入力画像の被写体の領域に関わる成分のみをより精度高く抽出することが可能である。以上が非特許文献１０の方法と本方法との差異となる。

（領域分割部１０１）
次に本発明の実施形態に係る領域分割部１０１の動作を説明する。領域分割部１０１は入力画像から複数の領域を抽出し、画像中の被写体の領域の候補とする。領域分割部１０１は画像中でひとまとまりと考えられる領域を入力画像から複数個抽出することが可能である。この段階の領域抽出は画素の色、テクスチャ、画素の位置等、画像の局所的な特徴量の類似性を手掛かりとして行う。領域の多くは被写体の一部だけを切り出し、あるいは領域中に複数の被写体を含むことが考えられる。このような切り出しの失敗を考慮して、領域分割部１０１では十分な数のバリエーションの候補領域を抽出する。なお候補領域は多重の切り出しを許す。すなわち互いに部分的な重なりがあることを許す。

このような機能を満たす領域分割部１０１の具体的な方法としては、非特許文献３のようにクラスタリングを行う手法や非特許文献４のようなグラフカットを利用する方法がある。上記の手法は、分割するクラスターの数やグラフカットを行う中心の画素の位置といった制御可能なパラメーターを備える。上記の手法はこの制御パラメーターを変化させて複数通りの領域分割を行い、複数の候補領域を得ることができる。

（類似画像取得部１０２）
次に類似画像取得部１０２の動作を説明する。類似画像取得部１０２は、前段の処理で得られた入力画像中の候補領域に対して、類似する領域を含む画像（類似画像）を取得する。類似画像の取得は候補領域ごとに行われ、複数の検索結果の画像が類似画像群として後段の処理に送られる。

類似画像の検索技術はイメージリトリーバルと呼ばれる分野で良く研究されている。例えば、非特許文献８や非特許文献９ではロゴマークなど、特異な見え方の部分画像を画像データベースから高速に検索する手法について述べられている。類似画像取得部１０２に上記手法を用いてもよいが、上記手法は領域中の物体の姿勢変化などの見え方の変動に弱いことがある。そのため本実施形態では、以降に述べるような方法を用いることでより柔軟に類似領域の取得を行う。

以下に類似画像取得部１０２の具体的な動作を図７のフロー図を用いて説明する。まず類似画像取得部１０２は、所定の方法で各候補領域の特徴量を算出する（Ｓ７０１、Ｓ７０２）。次にこの特徴量を類似の領域を検索するための問合せのデータとして、画像データベース１０３から類似の領域を検索し、類似領域（領域サンプル）を取得する（Ｓ７０３）。ここで類似領域の検索の具体的な方法に関しては後述する。類似画像取得部１０２は検索結果から類似性（類似度）の高い順に類似領域（領域サンプル）をランキング（ソート）する（Ｓ７０４）。次に上位ランクの類似領域（領域サンプル）の画像を類似画像のセットとして出力する（Ｓ７０５）。出力する画像は所定のランク以上のものに限る。もしくは類似性（類似度）のスコアが所定の閾値以上のものか、あるいは類似性（類似度）のスコアとランクの双方の条件を満たすものに限ってもよい。

領域の特徴量としては、様々なものが考えられる。過去の画像認識技術に用いられた特徴を用いることができる。例えば、領域中の複数の特徴点からＳＩＦＴ（Scale Invariant Feature Transform）特徴を算出し、Ｂａｇ−ｏｆ−ｗｏｒｄｓ手法によって変換したヒストグラム特徴量を用いることができる。また例えば、領域の画像内の位置、領域の形状を表す２次モーメント、領域内の画素の色ヒストグラムなどを用いることもできる。また例えば、ＨＯＧ特徴量やＬＢＰ特徴量などを用いることもできる。また例えば、これら複数の特徴量のベクトルを連結した高次の特徴量などを用いることもできる。なお、候補領域の形状は一般に不定形なので、ＨＯＧ特徴量やＬＢＰ特徴量等を算出する際には、領域に外接する矩形で周辺部ごと画像を切り出し、正方形の画像に変換する必要がある。以上のような各特徴量に関する詳細は非特許文献６や非特許文献７などの多くの先行研究にて広く開示されているので、詳細についてはそれらに譲る。

（類似領域の検索方法（Ｓ７０３））
次に類似領域の検索する方法の詳細について説明する。画像データベース１０３には十万や百万といったオーダーのサンプル画像のセットがあらかじめ記憶されていると想定する。そのためここでは高速な近傍検索の一般的な手法であるハッシュを用いる。例えば具体的には非特許文献５に開示されている局所性鋭敏型ハッシュ（ＬＳＨ）と呼ばれる手法を用いる。

ＬＳＨでは高速検索のためにオフラインでデータの登録を行っておく。まず画像データベース１０３の中の画像群をあらかじめ領域分割部１０１と同様の方法で領域分割しておく。また更に分割された各領域について特徴量を算出しておく。次に特徴量を所定の関数を用いて変換し、ハッシュキーと呼ばれる元の特徴量よりも低次元の変量を得る。このハッシュキーをアドレスとして各領域のデータを登録し、ハッシュ表と呼ばれる表を作成する。ハッシュ表の一つのアドレス上には類似のデータサンプルが集まって登録される。以上の処理が画像データベース１０３にデータを登録する際の動作となる。

次に検索時の動作を、図８を用いて説明する。図８は先に図７で説明した類似画像取得部１０２の更に詳細なフロー図である。まず、類似の領域を検索するための問合せに用いる候補領域を特徴量に変換し（Ｓ８０１、Ｓ８０２）、これを更にハッシュキーに変換する（Ｓ８０３）。次に、ハッシュキーからハッシュ表を参照する。対応するアドレスのエントリーを参照して、登録されているデータがあれば類似領域として取得する（Ｓ８０４、Ｓ８０５）。ステップＳ８０５の判定処理で、類似領域が存在しない場合（Ｓ８０５−Ｎｏ）、処理をステップＳ８１２に進める。一方、ステップＳ８０５の判定処理で、類似領域が存在する場合（Ｓ８０５−Ｙｅｓ）、処理をステップＳ８０６に進めて、ハッシュキーに変換される前の元となる各類似領域について、高次元の特徴量を呼び出す（Ｓ８０６、Ｓ８０７）。特徴量に基づいて問合せの候補領域と類似領域との正確な距離を算出する（Ｓ８０８）。この処理を全ての類似領域について繰り返し実行する。そして、算出された距離を比較して、距離の近い順にサンプル（類似領域）をソートし（Ｓ８１０）、所定の閾値よりも距離の近かった類似領域を出力する（Ｓ８１１）。ここで、距離としてはユークリッド距離やカイ二乗距離などを用いればよい。この処理を全ての候補領域について繰り返し実行する（Ｓ８１２）。以上が類似画像取得部１０２の詳細な動作となる。なお、近傍探索のための精度の高いハッシュ関数の設計に関しては広く研究されており、詳細は非特許文献５に譲る。

なお、類似画像取得部１０２の別の派生的な形態として、画像の類似度のグラフ構造を用いる形態も考えられる。これにより類似画像の問合せをより柔軟に行うことが期待できる。ここでいうグラフとは、各領域をノードとし、領域間の類似性をエッジとする類似度行列で表されるグラフのことである。具体的な動作例は例えば以下のようになる。まず前述と同じくハッシュによって近傍領域を検出する。次に領域間の類似度行列を使って更に近傍領域に近接する他のデータサンプルを探索する。個々のデータサンプルについて高次の特徴量で候補領域との距離の評価を行う。このような工夫により、ハッシュのみでは反映しにくい画像の多様体としての相互の関連性を考慮しながら、類似画像の問合せを行うことができる。

また、画像データベース１０３の別の派生的な形態として、インターネット上に設置された画像検索サーバーを用いる形態も考えられる。この画像検索サーバーはエージェントをウェブサービスのネットワーク上で動作させ、新たな画像をネットワーク上で自動収集してデータベースに追加する機能を持つ。このような形態の画像データベース１０３を用いる類似画像取得部１０２、領域分割部１０１においては、与えられた入力画像中に新規な被写体が含まれていても正しく動作することが期待できる。例えば、入力画像中にある種の家電の新製品のような、未知の特定形状の被写体が写っている状況を考える。ユーザがこの被写体について何らの知識を持っていなくても、ウェブ上に十分な数の同製品の画像情報が掲示され、データベースへの収集がなされていれば、正しく領域分割することが可能であることが期待できる。

（領域成分抽出部１０４）
領域成分抽出部１０４の動作について説明する。このモジュールの動作の目的は、前段の類似画像取得部１０２によって得られた類似画像のセット（類似画像群）の中から、領域の成分を抽出することである。

本実施形態において領域の成分と呼んでいるものについて図２を用いて具体的に説明する。図２（ａ）は画像中の草地に関する領域をいくつか抽出したものである。それぞれの草地の事例画像は僅かな見え方のバリエーションがある。また領域内には牛の四肢のような余計な要素も混合している。図２（ａ）中の各領域は、図２（ｂ）のようにそれぞれ特徴量に変換される。ここでは先に説明したＳＩＦＴ特徴量とＢａｇ−ｏｆ−ｗｏｒｄｓ手法を用いてヒストグラム特徴量に変換した例を図示している。なお図中のｗ_１・・・ｗ_Ｖはコードブックの分布である。この特徴量のセットから、特徴量間に共通する図２（ｃ）のような主成分を抽出してこれを領域１、２、３の全体的な成分とする。領域の成分は草地に共通する特徴のみが分離され、コードブックの分布の上に表現されたものである。

このような成分抽出を目的とした手法は複数存在する。例えば非特許文献１０のＬａｔｅｎｔＤｉｒｉｃｈｌｅｔａｌｌｏｃａｔｉｏｎ（ＬＤＡ）の方法を用いることができる。またＬＤＡ以外ではディリクレ過程を用いたモデルなどもよく研究されている（非特許文献１３）。ここでは成分抽出の精度の高さで一定の評価のあるＬＤＡを中心に説明を行うが、本発明に係る実施形態は成分抽出の方法を特にＬＤＡに限定するものではないことに注意されたい。

ＬＤＡは自然言語処理に広く用いられる文書生成モデルの一つであり、以下の（１）式により示される。

以下にＬＤＡについて簡単に説明する。上式はＫ個のトピック（話題）を含む文書がＮ個の語彙を生成する時の確率モデルを表したものである。ここでｗは生成されたＮ個の語彙ｗ_１、・・・・、ｗ_Ｎの列を表す。Ｋ個のトピックのうち、各トピックＺ_ｋは語彙ｗ_１、・・・・、ｗ_Ｖのうちいずれの語彙を生成するかの生成確率を決める確率分布である。またＶは可能な語彙の総数である。Ｚ_ｋはβ_ｋをハイパーパラメーターとする多項分布より生成される。ｚはＮ個の確率分布ｚ_１、・・・・、ｚ_Ｎの列である。ｚ_ｎはＫ個のトピックＺ_１、・・・・、Ｚ_Ｋの混合で構成される分布で、ｎ番目の語彙の生成に関わる。混合比はパラメーターθによって決定され、θはαをハイパーパラメーターとしてディリクレ分布より生成される。学習時には与えられた事例データを用いて変分法等でハイパーパラメーターを学習する。

トピックＺ_ｋを画像の特徴量の潜在変数とし、Ｂａｇ−ｏｆ−ｗｏｒｄｓのコードブックを語彙ｗ_１、・・・、ｗ_Ｖと置くことで、ＬＤＡは画像認識に適用することが可能である。ＬＤＡによって抽出される各トピックＺ_ｋは各コードブックｗ_１、・・・・、ｗ_Ｖの生起する確率分布となる。ＬＤＡについては非特許文献１１に、その画像認識への適用の詳細に関しては非特許文献１０等に開示されているので詳細はそちらに譲る。

次にＬＤＡを適用した領域成分抽出部１０４の詳細な動作を図４のフロー図に基づいて説明する。まず領域成分抽出部１０４は類似画像取得部１０２から類似領域群と類似領域を含む類似画像群とを受け取る。次に領域成分抽出部１０４は全ての類似画像について、領域分割の結果を読み出す（Ｓ４０１、Ｓ４０２）。この領域分割の結果は先の類似画像取得部１０２の動作時に利用したものと同一である。制御パラメーターを変化させて複数通りの分割結果を得て画像データベース１０３に記憶させたものである。次に、読みだされた全ての分割領域に対して、類似領域にオーバーラップする領域を抽出する（Ｓ４０３、Ｓ４０４、Ｓ４０５）。

類似領域にオーバーラップする領域を抽出する（Ｓ４０３、Ｓ４０４、Ｓ４０５）ステップは類似領域の質を高めるために重要であるので特に図５に模式的に図示する。図５には入力画像中の候補領域５０１と、候補領域５０１に関連するとして抽出された類似領域５０２が示されている。また類似領域５０２にオーバーラップする領域５０３ａ、５０３ｂ、５０３ｃが示されている。類似領域５０２の一部と重複する領域も類似領域とともに抽出する。オーバーラップする領域５０３（５０３ａ、５０３ｂ、５０３ｃ）も抽出してデータサンプルとする工夫によって、類似領域５０２が被写体の一部分に限られていても、領域成分を抽出するためのより好適なデータを得ることが期待できる。

説明を図４に戻し、ステップＳ４０１からステップＳ４０６の処理を全類似画像について繰り返し実行する。

次に領域成分抽出部１０４はステップＳ４０３〜Ｓ４０５で得られた全ての領域の特徴量を画像データベース１０３から読み出し、これをデータサンプルとして先掲の手法であるＬＤＡを実行する（Ｓ４０７）。ＬＤＡの結果としてＫ個のトピックＺ_１、・・・・、Ｚ_Ｋを得てこれを領域成分とする（Ｓ４０８）。なお、ここでは領域成分の数として所定の数Ｋを定めたが、ある程度大きな数Ｋを決めておき、混合比のパラメーターθ_ｋが小さいトピックを削除してもよい。その場合はＫ以下の可変の数のトピックを得ることができる。

（領域同定部１０５）
次に領域同定部１０５の動作について詳しく説明する。領域同定部１０５には、領域成分抽出部１０４によって抽出されたＫ個の領域成分Ｚ_１、・・・・、Ｚ_Ｋが送られる。次に領域同定部１０５はこの領域成分に基づいて入力画像の各画素のカテゴリーの同定を行う。

具体的な動作のフローを、図６を用いて説明する。入力画像中の各画素に関してその画素を中心として領域分割を行う（Ｓ６０１〜Ｓ６０２）。各領域のＢａｇ−ｏｆ−ｗｏｒｄｓの特徴量を算出する（Ｓ６０３）。この特徴量とＫ個の領域成分Ｚ_１、・・・・、Ｚ_Ｋの間のカルバック・ライブラー距離（ＫＬ距離）を求める。Ｋ個の領域成分の全てに対してカルバック・ライブラー距離を算出する（Ｓ６０４〜Ｓ６０６）。

ステップＳ６０７の判定で、Ｋ個のうち、最小のカルバック・ライブラー距離（ＫＬ距離）が閾値以下であるか否かを判定する。ステップＳ６０７の判定で、最小のカルバック・ライブラー距離が所定の閾値以下にならない場合（Ｓ６０７−Ｎｏ）、処理をステップＳ６０８に進め、注目画素を最小のカルバック・ライブラー距離の領域成分にラベリングする。最も近かった領域成分Ｚ_ｋに注目画素が帰属するとしてｋ番目のラベルを割り当てる（Ｓ６０８）。一方、ステップＳ６０７の判定で、最小のカルバック・ライブラー距離が所定の閾値以下になる場合（Ｓ６０７−Ｙｅｓ）、処理をステップ６０９に進め、注目画素を空白領域とする。カルバック・ライブラー距離が所定の閾値以下の画素はどれにも属さない領域としてラベルを割り当てない（Ｓ６０９）。従って、ここでラベルの種類の数は帰属が未決定の領域を含めて最大でＫ＋１となる。入力画像の全画素についてステップＳ６０１からステップＳ６１０の処理を繰り返し、最終的なラベリングの結果を領域分割結果として出力する（Ｓ６１１）。なお、ここでは領域に与えられるラベルは種別の番号のみであって、「牛」や「草原」といった意味的なラベルの同定は特になされていないことに注意されたい。
以上のような処理を行うことによって、被写体の教師データを用いずに、入力画像を被写体の種類に応じて、互いに異なる領域に分割することができる。

（第２実施形態）
本発明に係る第２実施形態として、第１実施形態が行う領域分割の精度を更に向上させることのできる拡張的な方法について説明する。図９に本実施形態の画像処理装置１０のブロック図を示す。図１と符号を同じとする処理要素は同じ動作をするものとして説明を省略する。図９に示す構成では、領域同定部１０５の領域分割結果が変化しなくなるまで（所定の変化率以下になるまで）、領域分割部１０１からの処理を繰り返す。この点で、図９の構成は第１実施形態における図１の構成と相違する。

図１０の本実施形態の全体的なフローの図に基づいて本実施形態の画像処理装置１０の動作を詳細に説明する。まず、第１実施形態と同様の処理を行い、入力画像より領域分割結果を得る。領域同定部１０５から出力された領域分割の結果を候補領域群として取得する（Ｓ１００１）。領域分割部１０１（第２の分割部）は、次にステップＳ１００１の取得工程で取得された領域分割の結果の個々の候補領域に対してグラフカットアルゴリズムを適用する。具体的には各領域の画素とそれ以外の領域の画素をそれぞれ前景と背景の初期値として与え、グラフカットアルゴリズムを適用する。このとき、グラフカットアルゴリズムのパラメーターを変化させて、複数の領域分割結果を得る（Ｓ１００２〜Ｓ１００６）。領域分割部１０１（第２の分割部）は、このようにして得られた候補領域群を新たな候補領域群とする（第２の候補領域群）。新たな候補領域群（第２の候補領域群）に対して、第１実施形態と同様の処理により再び類似領域の検索を行い、領域分割の処理を行う（Ｓ１００７）。

ステップＳ１００７では、新たな候補領域群のそれぞれの候補領域に対して類似する類似画像群を画像データベースより取得する。類似画像群の中から類似画像に共通する特徴を候補領域の特徴成分として抽出する。抽出された特徴成分と入力画像の各画素の特徴量とを比較して、各画素が新たな候補領域群のうちどの候補領域に属するかを示すラベリングをして、ラベリングの結果を被写体ごとの領域分割の結果（第２の領域分割の結果）として出力する。

ステップＳ１００８では、領域分割の結果に対して第２の領域分割の結果が収束しているか否かを判定する。第２の領域分割の結果が収束していると判定された場合、領域同定工程は、第２の領域分割の結果を被写体ごとの領域分割の結果として出力する。第２の領域分割の結果が収束していないと判定される場合、領域分割の結果が変化しなくなるまで（例えば、所定の変化率以下になるまで）以上の処理を繰り返す（Ｓ１００８）。以上のような工夫を行えば、繰り返し処理が進む度に領域分割結果の精度が向上することが期待できる。

なお、ここでグラフカットを行って第一回目の領域分割結果から新たな候補領域群を生成する方法を示したが、候補領域群の生成の方法はこれに限定されない。別の実施形態として以下のようなものでもよい。例えば、第１実施形態と同様の処理を行い第一回目の分割結果を得る。次に第一回目の候補領域群のうち、第一回目の分割結果と所定の割合以上にオーバーラップしている候補領域のみを抽出する。これを第二回目の候補領域群とし、再び領域分割を行うことも可能である。

（第３実施形態）
本発明に係る第３実施形態として、第１実施形態が行う領域分割の結果に対して、「牛」や「草原」といった被写体の名称の同定（被写体認識）を行う方法について説明する。本実施形態における被写体認識方法は第１実施形態の拡張的な方法である。図１１に本実施形態の画像処理装置１０のブロック図を示す。図１１に示す画像処理装置１０は、図１に示したブロック図の構成に対して更に領域ラベル同定部１０６を備える。領域ラベル同定部１０６は、画像データベースに記憶されている各画像に対して関連づけられたタグを用いて、領域同定部１０５の領域分割の結果にアノテ−ションを設定し、入力画像における被写体の認識結果として出力する。図１１の画像データベース１０３は、各画像に対して関連づけられたタグを記憶しているとする。タグはウェブページなどから画像を自動収集する際に、ウェブページの見出しなどの関連情報から抽出されたり、Ｆｌｉｃｋｒ等のイメージデータベースのように、人手によってタグが付されていることを想定している。

本実施形態の画像処理装置１０の領域ラベル同定部１０６の動作フローを図１２に基づいて説明する。まずＫ個の候補領域のカテゴリーとその領域成分がすでに得られているとする（Ｓ１２０１）。次に各カテゴリーについて、それぞれ領域の事例データ（類似画像）を得る。そのために先ず領域成分の特徴量よりハッシュキーを作成する（Ｓ１２０２）。これは第１実施形態で説明したのと同じ方法を用いればよい。次にハッシュ表から類似領域群を得る（Ｓ１２０３）。次に類似領域群の含まれる画像の全てのタグを画像データベース１０３から読み出す（Ｓ１２０４）。次にタグのセット中に出現頻度の高い語彙を抽出し、これをアノテーションの結果とする（Ｓ１２０５）。なお、出現頻度に基づく方法は語彙の抽出の最も単純な方法であるが、ここで語彙間のオントロジー上の距離を考慮したり、語彙の出現頻度の希少さを加味すれば、より精度高くアノテーションを行うことができる。このようなアノテーションを設定する手法は古くより研究されており、本実施形態においては実現手段を特に一つに限定するものではない。ここでは非特許文献１４などの先行手法を参考の方法として挙げて詳細の説明を省く。

（第４実施形態）
本発明に係る第４実施形態として、第１実施形態で述べた領域成分抽出部１０４ならびに領域同定部１０５の動作の派生的な別の形態について説明する。本実施形態は第１実施形態と部分的に同一であり、領域成分抽出部１０４と領域同定部１０５の動作のみが異なる形態を説明する。そのため、ここでは説明の重複を避けて領域成分抽出部１０４と領域同定部１０５の動作についてのみ説明する。

本実施形態では領域成分抽出部１０４と領域同定部１０５との動作において画像の類似性のグラフ構造を利用する。非特許文献１２にはこの目的に適用可能な方法の一例であるリンク解析と呼ばれる手法が開示されている。本方法は、インターネット上の検索エンジンが、リンクの集中するウェブページを重要度の高いページとして抽出する際に用いる方法と同種のアルゴリズムである。

以下に非特許文献１２の概略を説明する。本手法はデータベースの画像群から所定の方法で領域を複数個切り出す。切り出した領域をそれぞれノードと見なし、領域間の類似性をノード間のエッジとするグラフを作成する。次に、このグラフ構造の核となっているノードを見つけ出して、画像データベースに含まれる被写体の代表的な事例画像とする。このようなノードをハブと呼ぶ。ハブは複数個存在してよい。

次に非特許文献１２の方法を領域成分抽出部１０４に適用した形態の詳細について説明する。領域成分抽出部１０４は、まず前段の処理で得られた類似画像群から領域群を切り出す。領域群を切り出す方法は領域分割部１０１と同じ方法でもよいし、非特許文献１２に述べられているようなスーパーピクセルを用いる方法でもよい。次に領域をノードとし、領域間の特徴量の距離を求めてグラフを作成する。次に同グラフのハブとなっているノードをＫ個抽出する。Ｋ個のハブをＫ個のカテゴリーの代表的な事例画像と見なすことができる。

次に領域同定部１０５について説明する。領域同定部１０５では入力画像の各画素について第１実施形態で説明したのと同様の方法で領域を一つ生成する。この領域に最も類似する類似領域を画像データベース１０３より取り出す。次に上記の類似領域がＫ個のカテゴリーのいずれに属するかを求める。具体的には、上記の類似領域から各ハブまでの測地線距離を求め、最も近いハブのカテゴリーに注目画素を割り当てる。なお、ここで類似する領域を一つではなく所定の複数の数だけ取り出し、投票によりカテゴリーの帰属を決定してもよい。

以上が画像の類似性のネットワーク構造を用いた領域分割の方法の実施形態の説明である。本実施形態では領域成分の抽出に領域間の類似性のグラフを利用することで、画像の多様体としての性質をより考慮しながら領域の成分の抽出を行うことができる。

（第５実施形態）
本発明に係る画像処理方法（領域分割方法）の別の形態として、任意の手段により求められた領域カテゴリーの成分に基づいて候補領域の領域分割を行う方法について説明する。第１実施形態では類似画像に基づいて領域の成分を求めたが、本実施形態において、領域の成分を求める構成はこれに限定するものではない。本実施形態では外部の構成によって領域の成分が得られているような場合に適用可能な別の実施形態について説明する。本実施形態の画像処理装置１０の構成例を図１３に示す。また本実施形態の画像処理装置１０の動作フローを図１４に示す。領域分割部１０１によって分割された候補領域群は、領域同定部１０５に送られる。領域同定部１０５は、Ｋ個の領域成分を領域成分データベース１０７より読み出し、次に候補領域ごとに特徴量を算出する（Ｓ１４０１、Ｓ１４０２）。Ｋ個の領域成分とのカルバック・ライブラー距離を計算する（Ｓ１４０３、Ｓ１４０４、Ｓ１４０５）。以上の処理を入力画像の全候補領域について繰り返し実行する（Ｓ１４０６）。

次に入力画像の各画素について以下の処理を行う。注目画素が含まれる候補領域を選び、そのうちいずれかの領域成分までの距離が最小となる候補領域を選択する（Ｓ１４０７、Ｓ１４０８）。このときカルバック・ライブラー距離（ＫＬ距離）が閾値以下であれば（Ｓ１４０９−Ｙｅｓ）、画素を同領域成分のカテゴリーに割り当てる（Ｓ１４１０）。一方、ステップＳ１４０９の判定で、距離が閾値より大きい場合（Ｓ１４０９−Ｎｏ）、注目画素を空白領域としてラベリングを行わない（Ｓ１４１１）。以上の処理を入力画像の全画素について繰り返し実行する（Ｓ１４１２）。そして、全画素のラベリングの結果を領域分割結果として出力して処理を終了する（Ｓ１４１３）。

（その他の実施形態）
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

入力画像を、当該入力画像中の被写体ごとの領域に分割する画像処理方法であって、
分割手段が、前記入力画像を被写体ごとの複数の領域の候補を表わす候補領域群に分割する分割工程と、
取得手段が、前記候補領域群のそれぞれの候補領域に対して類似する類似画像群を画像データベースより取得する取得工程と、
抽出手段が、前記類似画像群の中から類似画像に共通する特徴を候補領域の特徴成分として抽出する抽出工程と、
領域同定手段が、前記特徴成分と前記入力画像の各画素の特徴量とを比較して、各画素が候補領域群のうちどの候補領域に属するかを同定し、領域分割の結果として出力する領域同定工程と、
を有することを特徴とする画像処理方法。
第２の分割手段が、前記領域同定工程で出力された前記領域分割の結果を、被写体ごとの複数の領域の候補を表わす新たな候補領域群に分割する第２の分割工程を更に有し、
前記取得工程は、前記第２の分割工程で分割された新たな候補領域群のそれぞれの候補領域に対して類似する類似画像群を画像データベースより取得し、
前記抽出工程は、前記類似画像群の中から類似画像に共通する特徴を候補領域の特徴成分として抽出し、
前記領域同定工程は、前記抽出された特徴成分と入力画像の各画素の特徴量とを比較して、各画素が新たな候補領域群のうちどの候補領域に属するかを同定して、第２の領域分割の結果とすることを特徴とする請求項１に記載の画像処理方法。
前記領域同定工程は、前記領域分割の結果に対して前記第２の領域分割の結果が収束しているか否かを判定する判定工程を有し、
前記判定工程で前記第２の領域分割の結果が収束していると判定された場合、前記領域同定工程は、前記第２の領域分割の結果を被写体ごとの領域分割の結果として出力し、
前記判定工程により前記第２の領域分割の結果が収束していないと判定された場合、前記第２の分割工程は、当該第２の領域分割の結果を、被写体ごとの複数の領域の候補を表わす新たな候補領域群に分割することを特徴とする請求項２に記載の画像処理方法。
設定手段が、前記画像データベースに記憶されている各画像に対して関連づけられたタグを用いて、前記領域同定工程の領域分割の結果にアノテ−ションを設定し、前記入力画像における被写体の認識結果として出力する設定工程を更に有することを特徴とする請求項１乃至３のいずれか１項に記載の画像処理方法。
入力画像を、当該入力画像中の被写体ごとの領域に分割する画像処理装置であって、
前記入力画像を被写体ごとの複数の領域の候補を表わす候補領域群に分割する分割手段と、
前記候補領域群のそれぞれの候補領域に対して類似する類似画像群を画像データベースより取得する取得手段と、
前記類似画像群の中から類似画像に共通する特徴を候補領域の特徴成分として抽出する抽出手段と、
前記特徴成分と前記入力画像の各画素の特徴量とを比較して、各画素が候補領域群のうちどの候補領域に属するかを同定し、領域分割の結果として出力する領域同定手段と、
を備えることを特徴とする画像処理装置。
前記領域同定手段で出力された前記領域分割の結果を、被写体ごとの複数の領域の候補を表わす新たな候補領域群に分割する第２の分割手段を更に備え、
前記取得手段は、前記第２の分割手段で分割された新たな候補領域群のそれぞれの候補領域に対して類似する類似画像群を画像データベースより取得し、
前記抽出手段は、前記類似画像群の中から類似画像に共通する特徴を候補領域の特徴成分として抽出し、
前記領域同定手段は、前記抽出された特徴成分と入力画像の各画素の特徴量とを比較して、各画素が新たな候補領域群のうちどの候補領域に属するかを同定して、第２の領域分割の結果とすることを特徴とする請求項５に記載の画像処理装置。
前記領域同定手段は、前記領域分割の結果に対して前記第２の領域分割の結果が収束しているか否かを判定する判定手段を有し、
前記判定手段により前記第２の領域分割の結果が収束していると判定された場合、前記領域同定手段は、前記第２の領域分割の結果を被写体ごとの領域分割の結果として出力し、
前記判定手段により前記第２の領域分割の結果が収束していないと判定された場合、前記第２の分割手段が、当該第２の領域分割の結果を、被写体ごとの複数の領域の候補を表わす新たな候補領域群に分割することを特徴とする請求項６に記載の画像処理装置。
前記画像データベースに記憶されている各画像に対して関連づけられたタグを用いて、前記領域同定手段の領域分割の結果にアノテ−ションを設定し、前記入力画像における被写体の認識結果として出力する設定手段を更に有することを特徴とする請求項５乃至７のいずれか１項に記載の画像処理装置。
画像を撮像する撮像手段と、
前記撮像手段により撮像された前記画像を入力画像とし、当該入力画像を入力画像中の被写体ごとの領域に分割する請求項５乃至８のいずれか１項に記載の画像処理装置と、
を有することを特徴とする撮像装置。
コンピュータを、請求項５乃至８のいずれか１項に記載の画像処理装置の各手段として機能させるためのプログラム。