JP2016099835A

JP2016099835A - 画像処理装置、画像処理方法、及びプログラム

Info

Publication number: JP2016099835A
Application number: JP2014236993A
Authority: JP
Inventors: 俊太舘; Shunta Tachi; 克彦森; Katsuhiko Mori
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2014-11-21
Filing date: 2014-11-21
Publication date: 2016-05-30
Also published as: US20160148070A1; US10007678B2

Abstract

【課題】画像間の関係性のデータベースを用いて取得画像の部分領域間の関係性を推定し、この関係性に基づき取得画像における関心領域を決定する。
【解決手段】装置に備えられたカメラ等により撮像された画像を取得する画像取得部１０１、取得した画像を複数の部分領域に分割する領域分割部１０２を有する。部分領域と類似する領域を画像データ記憶部１０４に問合せる類似領域問合せ部１０３、複数の画像及び画像間の関係性の情報を格納する画像データ記憶部１０４を有する。取得した画像中の被写体の存在する領域を関心領域として決定する関心領域決定部１０５、取得した画像の各領域について被写体のカテゴリーを判別するカテゴリー判別部１０６を有する。関心領域、および関心領域以外の領域の判別結果を統合する結果統合部１０７、最終的な領域の判別結果を出力する結果出力部１０８を有する。
【選択図】図１

Description

本発明は、入力画像中の被写体の検出、および被写体ごとに領域を分割する画像処理装置、画像処理方法、及びプログラムに関する。

従来から、画像シーンの認識や被写体に応じた画質補正等の後段処理のために、被写体の検出および被写体ごとに領域を分割する処理が知られている。特許文献１には、入力画像を複数の部分領域に分割し、部分領域ごとに類似画像をデータベースに問合せ、得られた類似画像を利用して領域分割することが記載されている。

特開２０１３−１１７８６０号公報

Ｒ．Ａｃｈａｎｔａ，Ａ．Ｓｈａｊｉ，Ｋ．Ｓｍｉｔｈ，Ａ．Ｌｕｃｃｈｉ，Ｐ．Ｆｕａ，ａｎｄＳ．Ｓｕｓｓｔｒｕｎｋ，ＳＬＩＣＳｕｐｅｒｐｉｘｅｌｓＣｏｍｐａｒｅｄｔｏＳｔａｔｅ−ｏｆ−ｔｈｅ−ａｒｔＳｕｐｅｒｐｉｘｅｌＭｅｔｈｏｄｓ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ｖｏｌ．３４，ｎｕｍ．１１，ｐ．２２７４−２２８２，２０１２．Ｅ．Ｒａｈｔｕ，Ｊ．Ｋａｎｎａｌａ，Ｍ．Ｂｌａｓｃｈｋｏ，ＬｅａｒｎｉｎｇａＣａｔｅｇｏｒｙＩｎｄｅｐｅｎｄｅｎｔＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎＣａｓｃａｄｅ，ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，２０１１Ｊ．Ｓｉｖｉｃ，Ａ．Ｚｉｓｓｅｒｍａｎ，ＶｉｄｅｏＧｏｏｇｌｅ：ＡＴｅｘｔＲｅｔｒｉｅｖａｌＡｐｐｒｏａｃｈｔｏＯｂｊｅｃｔＭａｔｃｈｉｎｇｉｎＶｉｄｅｏｓ，ＩＣＣＶ２００３

しかし、特許文献１の方法は、類似画像同士の関係性を考慮せず、得られた全ての類似画像に共通する主要な領域の成分を求め、その上位の成分ごとに異なる被写体として領域を分割する。そのため、特許文献１の方法では入力画像中の主要な領域以外の被写体の検出精度が低くなるという問題があった。

上記課題を解決するために、本発明は、複数の画像データと当該複数の画像データの関係性に関する情報が記憶された記憶手段を用いて、取得した画像において関係性を有する領域を決定する画像処理装置であって、前記取得した画像を複数の部分領域に分割する領域分割手段と、前記分割した複数の部分領域それぞれについて、類似する１以上の前記画像データを前記記憶手段から抽出する抽出手段と、前記抽出手段により抽出された前記画像データと当該画像データの関係性に関する情報とに基づいて、前記取得した画像において関係性を有する領域を決定する決定手段とを有することを特徴とする。

以上の構成によれば、本発明は、入力画像中の主要領域以外においても高精度に被写体の検出ができ、精度良く被写体ごとに領域に分割することが可能となる。

第１の実施形態に関わる画像処理装置のブロック図。第１の実施形態に関わる画像認識処理のフローを説明する図。第１の実施形態において画像認識処理の結果を示す図。第１の実施形態に関わる画像データ記憶手段１０４の構成を説明する図。第１の実施形態において部分領域が連結されたグラフデータの例を示す図。第１の実施形態において類似度を模式的に説明する図。第２の実施形態に関わる画像認識処理のフローを説明する図。第２の実施形態において画像認識処理の結果を示す図。第３の実施形態に関わる画像認識学習のフローを説明する図。第３の実施形態に関わるデータベースを模式的に示す図。第３の実施形態において画像認識処理の結果を示す図。第３の実施形態に関わる画像認識処理のフローを説明する図。第４の実施形態において画像の照合を説明する図。第４の実施形態に関わる画像認識処理のフローを説明する図。第４の実施形態において部分領域間の測地距離に関する距離行列を説明する図。第４の実施形態において所定の関係を判断する他の形態を模式的に説明する図。第４の実施形態に関わる所定の関係を判断するフローを説明する図。その他の実施形態に関わる所定の関係を判断するフローを説明する図。

［第１の実施形態］
本発明の実施形態に係る画像処理装置は、取得した画像から複数の部分領域を取り出して、各部分領域に類似する類似領域を画像データベースから得るものである。画像データベースには、画像間の関係性を示す情報が併せて記憶されており、この情報に基づいて類似領域同士の関係性を調べ、関係性が強いまたは同一の関係性を有する類似領域のそれぞれに類似する部分領域同士は共通の被写体を構成していると判断する。そして、このような部分領域を結合して「関心領域」として決定し、この関心領域ごとに被写体のカテゴリーが何であるかの推定を行う。なお、本実施形態において、画像間の関連性を示す情報とは、画像領域を被写体ごとにグループ分けした情報に相当するものである。

以下、図面を参照して本発明の実施形態を詳細に説明する。

図１は本実施形態に関わる画像処理装置の構成（機能構成）を説明する図である。図１に示す各機能部は、画像処理装置が有しているＣＰＵがＲＯＭまたはＲＡＭ等の格納手段に格納されている制御プログラムを実行することにより実現される。

本実施形態の画像処理装置は、装置外から入力された若しくは装置に備えられたカメラ等により撮像された画像を取得する画像取得部１０１、取得した画像を複数の部分領域に分割する領域分割部１０２を有する。また、前記部分領域と類似する領域を画像データ記憶部１０４に問合せる類似領域問合せ部１０３、複数の画像および画像間の関係性の情報を格納する画像データ記憶部１０４を有する。さらに、取得した画像中の被写体の存在する領域を関心領域として決定する関心領域決定部１０５、取得した画像の各領域について被写体のカテゴリーを判別するカテゴリー判別部１０６を有する。またさらに、関心領域、および関心領域以外の領域の判別結果を統合する結果統合部１０７、最終的な領域の判別結果を出力する結果出力部１０８を有する。

以下、本実施形態の画像処理装置の各機能について説明する。図２は本実施形態の画像認識処理のフローを示し、図３は本実施形態における画像認識処理の結果を示している。

まず図２の処理フローのステップＳ１０１で、画像取得部１０１は、装置に設けられたカメラによって撮像された画像を取得する。図３（Ａ）は、画像取得部１０１によって取得された画像の例を示している。

次に、ステップＳ１０２では、領域分割部１０２は画像取得部１０１によって取得した画像を複数の小領域に分割する。この小領域は、非特許文献１にも開示されるように、Ｓｕｐｅｒ−ｐｉｘｅｌ（スーパーピクセル、以下、ＳＰと略す）と呼ばれる色などが似た画素をまとめたものである。画像を複数のＳＰに分割した結果を図３（Ｂ）に示す。図３（Ｂ）では、６つのＳＰに対してＳＰ_１〜ＳＰ_６の符号をつけて示している。ＳＰは色の似たサイズの小さな局所領域に過ぎないため、この領域を手掛かりに類似画像を問合せても同種の被写体に正しくマッチングする可能性は小さい。

次に、ステップＳ１０３において、上記の小領域をいくつか組み合わせて、類似の被写体を問合せるのに適した大きさの部分領域を作成する。その方法としては、例えば隣接した数個のＳＰのペアをランダムに組み合わせてもよいが、ランダムに組み合わせただけでは複数の被写体を跨いで連結する可能性もある。そこで、より物体らしさの可能性の高い領域に絞りこむことが望ましい。本実施形態では、そのための方法として、非特許文献２に開示されている物体らしさ度（Ｏｂｊｅｃｔｎｅｓｓ）推定と呼ばれる技術を用いる。Ｏｂｊｅｃｔｎｅｓｓ推定は、領域の凹凸形状や輪郭のエッジの強度など、複数の特徴を手掛かりに学習を行って領域がひとつの物体のまとまりを形成しているか否かを推定する手法である。図３（Ｃ）は、上記のＯｂｊｅｃｔｎｅｓｓ推定の方法により得られた部分領域の例を示す。同図において、５つの部分領域に対してＢＢ_１〜ＢＢ_５の符号を付している。ここで、ＢＢ_１として示した部分領域は、図３（Ｂ）のＳＰ_１、ＳＰ_２、ＳＰ_５、ＳＰ_６が組み合わさってできた部分領域である。なお、図示の簡略化のために、部分領域をその領域に外接する矩形の領域として表示しているが、部分領域は特に矩形形状に限るものではない。

続いて、ステップＳ１０４〜Ｓ１０６では、類似領域問合せ部１０３が、上述の処理で得られた部分領域ＢＢ_１〜ＢＢ_ｎの一つ一つについて類似領域を持つ画像があるかどうかを画像データ記憶部１０４に問合せる。本実施形態では、その手法として、非特許文献３に記載の方法を用いる。具体的には、まず部分領域の領域内からＳＩＦＴ特徴などの局所特徴を抽出する。次いで、似たような局所特徴の組み合わせを含む領域があるかどうか、画像データ記憶部１０４が記憶している画像データ中を探し、類似度の高い上位ｋ個の画像を抽出する。なお、ｋは１以上の整数であって、類似領域問合せ部１０３は１または複数の類似した領域を問合せる。

また、ここでは部分領域内の特徴を問合せのときの手掛かりとしているが、他の形態として、部分領域内の特徴のみならず、部分領域の周辺の領域の特徴を用いるようにしてもよい。具体的には、まず（１）部分領域から特徴を抽出する。そして、（２）部分領域を所定の幅だけ広げた領域を生成し、特徴量を抽出する。そして、（３）二つの特徴量を連結し、連結後の特徴量を用いて類似領域の問い合わせを行って上位ｋ個の画像を抽出する。

さらに他の形態として、（１）の領域内の特徴量と（２）の周囲の領域の特徴量それぞれで領域間の類似度を計算し、二つの類似度を重み付け和した値に基づいて類似領域を探索することもできる。また更に他の形態として、画像全体を周辺領域と見なし、画像全体の特徴量も用いて類似領域を探索してもよい。これらの派生形態によれば、領域内のみならず、その周囲まで含めて類似領域を探索することができる。

次に、画像データ記憶部１０４の詳細な構成について説明する。図４は、本実施形態の画像データ記憶部１０４の構成を説明するための図である。画像データ記憶部１０４は同図（Ａ）に示すように、複数の画像、および画像の被写体をいくつかのグループに分けたサブグループＳ_１〜Ｓ_ｍで構成された画像データベースを記憶している。なお、このサブグループＳ_１〜Ｓ_ｍは画像間の類似度の関係性に基づいて予め作成されたものであり、具体的な作成方法については後述する。画像データ記憶部１０４は、図４（Ｂ）に示すように各画像の領域の被写体のカテゴリーの教師情報を記憶している。図４（Ａ）には、数個の画像のみを図示しているが、実用に供するためのデータベースは数万枚以上の画像および数百個以上のサブグループを含むことが望ましい。

図４（Ｃ）は、類似領域の問合せ処理の結果を示している。同図では、部分領域と部分領域にマッチした類似領域とを黒太線の矩形で示し、マッチした領域間を矢印線で接続して示している。ここでは、ある部分領域に対してマッチした類似領域として、上位１個の結果のみを示している。以上が、類似領域の問合せの具体的な処理である。

次に、ステップＳ１０７では、関心領域決定部１０５が、類似領域の問合せ結果に基づき、取得した画像中のどの部分領域同士が関連するかを推定する。本実施形態では、各部分領域にマッチした類似領域を調べ、同一のサブグループに属する類似領域を持つ部分領域同士は関連性が高いとする。なお、サブグループは後述するように予め画像間の類似度の関係性に基づいて作成されたものである。

ステップＳ１０８では、Ｓ１０７で関連性が高いと判断された部分領域のペアのうち、領域の範囲が所定値以上にオーバーラップしているペアを抽出して統合する。オーバーラップの値ＯＶは、例えば下記の数１式により評価する。

上式の分母は部分領域ｉと部分領域ｊの和集合の画素数、分子は同じく積集合の画素数である。このオーバーラップ値が所定値以上である部分領域のペアは、同一被写体の領域である可能性が高い。本ステップでは、このような条件を満たす部分領域ペアの関係で結ばれる全ての部分領域をまとめ、これを包含するような領域の範囲を設定して関心領域とする。

図３（Ｄ）は、本実施形態において部分領域を統合して生成した関心領域の結果を示す。本実施形態では、部分領域ＢＢ_２、ＢＢ_３、ＢＢ_４が統合されて関心領域ＲＯＩ_１が生成されている。なお、ここでは図の簡略化のために関心領域ＲＯＩ_１の形状を矩形領域として示しているが、特に矩形に限るものでなく、部分領域の和集合といった不規則な形状であってもよい。

図２の画像認識処理のフローに戻ると、ステップＳ１０９〜Ｓ１１１では、各関心領域の内部の領域について、カテゴリー判別部１０６が被写体カテゴリーの判別を行う。被写体カテゴリーの判別を行うにあたって、本実施形態では、関心領域中の小領域（ＳＰ）の特徴量を入力とし、小領域のカテゴリーを出力するように学習しておいた識別器を用いる。識別器としては、ランダムフォレストやサポートベクトルマシンなどといった公知の手法を用いることができる。本実施形態では、このような識別器を予め画像データベースのサブグループごとに特化させて学習しており、サブグループの画像データを重点的に与えて学習を行っている。

関心領域が決定したら、カテゴリー判別部１０６は各関心領域に対応するサブグループの判別用の辞書を読み出し（ステップＳ１１０）、識別器で領域カテゴリーの判別を行う（ステップＳ１１１）。本実施形態では、このように関心領域を生成し、関心領域ごとに詳細な領域判別処理を行う。そのため、本実施形態は、関心領域を作成しない従来の方法よりも高い精度で領域カテゴリーを推定できる。

なお、ステップＳ１１０〜Ｓ１１１における代替手法として、識別器を用いない手法を用いることも可能である。その手順としては、まず関心領域に対応するサブグループの画像群を複数取得する。ここで、取得した画像群には領域ラベルの真値が付されている。そして、関心領域中の小領域（ＳＰ）ごとに特徴の類似する小領域を画像群からｋ個求め、最も頻度の高かったカテゴリーをその領域のカテゴリーとすることにより、各関心領域内の領域のカテゴリーを判別することもできる。

ステップＳ１１３では、カテゴリー判別部１０６が関心領域以外の領域についても領域のカテゴリーの判別を行う。これには被写体を限定せずに学習した通常の判別辞書を用いて領域カテゴリーの判別を行う。

ステップＳ１１４では、結果統合部１０７が、カテゴリーが判別された関心領域、および関心領域以外の領域の判別結果を統合して最終の結果とする。各関心領域間に重畳がなければ、各領域のカテゴリーの判別結果を最終結果とする。重畳がある部分については、それぞれのカテゴリーの尤度スコアを平均するか、最大のカテゴリーを求めて最終の検出結果とすればよい。図３（Ｅ）には、最終的な検出結果の例を示す。

ステップＳ１１５において、結果出力部１０８が、最終の検出結果を画像表示装置等に出力して動作を終了する。なお、ここでは、結果出力部１０８が関心領域および関心領域以外の領域のカテゴリーの情報も含めた最終の検出結果を出力するようにしているが、関心領域の位置のみを出力するようにしてもよい。またさらに、関連性のある部分領域のペアを特定しただけの簡単な結果を出力するようにしてもよい。以上が、本実施形態の画像認識処理フローである。

ここで、画像データ記憶部１０４が備える画像データベースの詳細および被写体のサブグループの生成方法について述べる。サブグループの作成では、まず学習用のプログラムが、画像の部分領域の関係性のグラフデータを作成する。図５は、画像中の部分領域をノードとし、類似する部分領域のノード間を連結して作成したグラフデータである。次いで、学習用のプログラムがこのグラフデータに対してクラスタリングを行い、部分領域のデータを複数のサブグループに分割する。グラフデータ作成のための学習用プログラムの詳細な処理を以下に説明する。

本実施形態では、まず画像データから部分領域を生成する。これは、取得画像に対して行った上述の方法と同様に、画像データベースの各画像について複数の部分領域を得る。そして、得られた部分領域の数と同じ数のグラフのノードを生成し、各部分領域に対応させる。次に、類似度の高い部分領域のペアがないかを探し、類似度が所定値以上となるような、類似する部分領域ペアがあれば対応するノード間にエッジを追加する。その際、本実施形態では、エッジの重みとして部分領域間の類似度の距離を与えるようにしている。

部分領域間の類似度の基準は様々に考えられるが、本実施形態では（１）部分領域の被写体カテゴリーの一致度と、（２）部分領域の見えの特徴の一致度、の二つの値の和を部分領域間の類似度とする。見えの類似度に加えて部分領域のカテゴリーの真値を用いることで、例えば水面と車のフロントガラスなど、見た目が類似していても無関係な物体の領域同士の偽の対応付けを防ぐことができる。その結果、より質の良いグラフデータを得ることができる。

本実施形態において、（１）被写体カテゴリーの一致度は以下の数式２により算出する。すなわち、各画像には図４（Ｂ）で示されるような部分領域の各画素にカテゴリーの教師値が予め付されているので、このカテゴリーラベルが部分領域間でどれだけ一致しているかを計算する。具体的には、まず二つの部分領域ＢＢ_ｉとＢＢ_ｊの縦横の長さが等しくなるよう正規化する。次に、下記数２式に従って二つの部分領域のカテゴリーの類似度の距離ｄ^Ｃａｔを求める。

ここで、｜ｘ｜と｜ｙ｜は部分領域の横と縦の画素数である。またｑ（ｘ，ｙ，ｃ）は部分領域の画素（ｘ，ｙ）のカテゴリーの教師値がｃならば１、それ以外は０の値をとるインデックス関数である。ΔｘとΔｙは、二つの領域のカテゴリーを比較するときに位置ずれを許容するための変数で、領域幅の１／４程度を目安に上下左右にずらしながら最大にマッチする位置を探索する操作を表している。カテゴリーの類似度の距離ｄ^ｃａｔは、二つの領域内のカテゴリーが完全に一致すると０、完全にカテゴリーが異なると１をとるようになっている。

本実施形態では、画素単位のカテゴリーの教師値のデータにより類似度の定義を行ったが、全画像についてこのような教師値を用意するのは手間とコストがかかる。そこで、部分領域の被写体カテゴリーの一致度の算出は、例えば、画像のシーンのカテゴリー情報を用いる形態としてもよい。予め全画像にシーンのカテゴリーの教師値を付しておき、二つの領域の属する二枚の画像が同一のシーンのカテゴリーであれば一致度の距離を０、異なるシーンの画像であれば一致度の距離を１とする。また別の形態として、予め各画像について物体検出器による画像認識を行っておき、同種類の物体が検出された領域周辺の部分領域のペアは一致度が高いとすることも可能である。

次いで、（２）領域の見えの特徴の一致度の算出には、Ｂａｇｏｆｗｏｒｄｓ手法と呼ばれる標準的な方法を用いる。具体的には、部分領域ＢＢ_ｉとＢＢ_ｊからそれぞれ格子状に複数のＳＩＦＴ特徴を抽出し、特徴のコードブック頻度ヒストグラムを作成する。そして、以下の数３式によりヒストグラム交差の値を求める。

ここで、ｆ（ｋ）はｋ番目のＳＩＦＴコードブックの頻度値であり、Σｆ（ｋ）＝１である。ｄ^ｆｅａｔは、二つの領域の特徴のベクトルが完全に一致すれば０で、全く一致しなければ１をとる値である。なお、領域の見えの特徴の一致度の算出には、ＳＩＦＴコードブックの頻度値以外に、領域の形状情報やエッジの一致度等を用いることもできる。また、部分領域の内部のみならず、周囲領域の特徴を併せて使うようにしてもよい。

このようにして求めた二種類の類似度の距離を足して、部分領域ｉとｊの類似度の距離ｄ_ｉｊとする。以下の数４式において、αは０から１の間の値を取る重みパラメータである。重みパラメータαは、本画像処理装置の最終的な認識精度が高くなるように、交差検定法等の一般的な手法を用いて予めその値が決められている。

このように類似度の基準を設定することにより、同一カテゴリーの被写体で見えの類似する部分領域が重み付きエッジで繋がったグラフが得られる。図５は、このようにして得られた、類似する部分領域同士が連結されたグラフデータを示している。このグラフに対して、スペクトルクラスタリングといった公知のグラフベースのクラスタリング手法を適用すれば、各部分領域は複数のクラスタに分割される。図５において、各クラスタにはサブグループとしての符号Ｓ_１〜Ｓ_３を付して示している。なお同図において、規模の小さなクラスタはサブグループとせず省いている。これは、小さなサブグループが多数できると認識時のノイズおよび計算量増大の原因になりやすいためである。

また、同一の画像中の部分領域の間の類似度を、見えの特徴に加えて数１式のオーバーラップ値に基づいて定義することもできる。図６は、本実施形態における類似度を模式的に説明する図である。類似度の定義として、画像Ｉ_２に存在する重畳した部分領域ＢＢ_２とＢＢ_３の間の類似度ｄ_２３を、新たに領域間でオーバーラップする値で定義する。さらに、類似度を距離の一種と見なし、画像Ｉ_１の部分領域ＢＢ_１と画像Ｉ_３の部分領域ＢＢ_４の間に類似度のエッジで辿ることのできる経路が存在する場合は、距離ｄ_１４をｄ_１４＝ｄ_１２＋ｄ_２３＋ｄ_３４と個々の距離を加算した値で定義する。ただし、グラフのノードｉからノードｊまでに複数の経路が有り得るときは、そのうちの最短の経路を距離ｄ_ｉｊとする（測地距離）。このようにすれば、人体と人物の顔や、車と車のフロントグリルのように、物体の全体の領域とその部分領域との関係（ｉｓａｐａｒｔｏｆ関係）にあるような二つの領域についても、類似度が近いと評価される。これにより、本実施形態では、物体がまとまって同一のサブグループに含まれやすくなる。

以上、本発明の第１の実施形態によれば、部分領域間の関係性を推定し、この関係性に基づき関心領域を決定することにより、被写体領域の同定、および領域カテゴリーの判別を高い精度で実現することができる。

［第２の実施形態］
次に、本発明の第２の実施形態として、画像中に存在する被写体とその範囲を同定する物体検出を行うとともに、検出された物体についてのメタ情報を取得する構成について説明を行う。本実施形態において、メタ情報とは画像全体および画像中の被写体に関する付加的な情報全般と定義する。したがって、本実施形態のメタ情報には、被写体の人物の属性（性別や職業など）やシーン情報（海辺や夕焼けシーンなど）のように、ユーザによって画像もしくは指定した局所領域に対して与えられる情報が含まれる。また、画像の撮影場所のＧＰＳデータや、カメラの焦点距離などの撮影パラメータのように、撮影機器等によって撮影時の情報などが与えられる情報も含まれるものである。以下の説明では、被写体の局所的な部位の位置およびその名称を示すアノテーション情報を取得する形態について示す。

なお、第１の実施形態において既に説明をした構成については、同一の符号を付し、その説明を省略する。本実施形態の画像処理装置も、図１に示した第１の実施形態の画像処理装置と同様の構成（機能部）を有している。また、本実施形態の画像処理装置は、第１の実施形態と同様に画像データおよび画像データ間の関係性の情報に基づいて関心領域を同定する。本実施形態では、画像の部分領域をノード、画像の部分領域の見えおよびカテゴリーの類似度をエッジとするグラフ構造の情報を、画像データ間の関係性の情報として用いる。以下、図面を参照して本実施形態を詳細に説明する。

図７は、本実施形態における画像認識処理のフローである。本実施形態でも、第１の実施形態と同様に、取得した画像より部分領域を抽出し、類似領域を問合せる構成となっている。第１の実施形態と異なる点は、ステップＳ２０４における部分領域の統合処理になる。第１の実施形態では、同じサブグループに属する類似領域を持つ部分領域同士を統合したが、本実施形態ではサブグループを使わないため、異なる方法を用いた統合処理になる。

その手順としては、ステップＳ２０１〜ステップＳ２０３において、類似領域問合せ部１０３が各部分領域の類似領域を得る。次に、ステップＳ２０４で関心領域決定部１０５が所定値以上に重畳している部分領域のペアを一つ選び、対応する類似領域同士の類似度を求める。この類似度は、第１の実施形態で述べた測地距離の方法によって算出され、類似度が所定値以上の領域ペアを統合して関心領域とする。

図８は、本実施形態における画像認識処理の結果を示している。本実施形態では、図８（Ａ）に示されるように、入力画像の人体を構成する二つの部分領域ＢＢ_１とＢＢ_４は、ＢＢ_１→ＢＢ_２→ＢＢ_３→ＢＢ_４と他の人物の類似画像を経由することで距離が計算されている。また、本実施形態のステップＳ２０２では、一つの類似領域のみを問合せて使うようにしているが、上位ｋ個の類似領域を問合せるようにしてもよい。その場合には、ｋ^２個の組み合わせの類似度のうちの最小値を距離とする。

また、ステップＳ２０４では、取得画像上で重畳している二つの部分領域を関心領域の候補となる部分領域のペアとして選び、それらに対応する類似画像が類似しているかどうかを調べて統合する。なお、候補となる部分領域ペアの選択の方法として、二つの領域が重畳しているか否かのみでなく、所定の相対位置関係にあるかどうかに基づいて選択してもよい。

次に、ステップＳ２０６において、カテゴリー判別部１０６が各関心領域のカテゴリーを決定する。ここでは、各関心領域に対応する類似領域のカテゴリーの真値を調べ、最頻値のカテゴリーを関心領域のカテゴリーとする。本実施形態の画像認識の結果、図８（Ｂ）では、検出された物体領域ＲＯＩ_１と、関心領域ＲＯＩ_１のカテゴリーである“ｂｏｄｙ”というラベルが得られている。

さらに、本実施形態では、画像データベース中の一部の画像領域に予めユーザによって物体のアノテーションが付けられているとし、取得画像の部分あるいは全体についてアノテーションラベルを得る処理を行う。例えば、図８（Ａ）の場合、ユーザによって指定されたアノテーション領域ＢＢ_６に“Ｓｔｒａｗｈａｔ”というアノテーションラベルＡ_６が付されている。

ステップＳ２０８において、類似領域問い合わせ部１０３は、関心領域の各部分領域について類似領域の問合せを行い、それぞれの類似領域を得る。本実施形態では、部分領域ＢＢ_１について類似領域の問合せを行い、類似領域ＢＢ_２を得ている。そして、測地距離を用いて所定の閾値よりも近い距離にある類似領域を全て抽出する。ここでは、部分領域ＢＢ_１の類似領域として類似領域ＢＢ_２、類似領域ＢＢ_３、類似領域ＢＢ_５が得られている。

ステップＳ２０９において、カテゴリー判別部１０６は、前段のステップＳ２０７により得られた類似領域のうちいずれかのアノテーション領域に所定閾値以上に重なった領域があれば、そのラベルを抽出して記憶する。ここでは、類似領域ＢＢ_５にアノテーション領域ＢＢ_６が重なっているので、“Ｓｔｒａｗｈａｔ”というアノテーションラベルＡ_６を記憶する。

次に、ステップＳ２１０において、結果統合部１０７は、部分領域ＢＢ_１について得られた全てのアノテーションラベルの頻度を総和する。その際、部分領域ＢＢ_１と各アノテーション領域（ここではアノテーション領域ＢＢ_６）との類似度の距離を求め、距離の近さに応じてアノテーションラベルを重み付けして総和する。アノテーションラベルの頻度を総和した結果、閾値を超えるラベルがあれば、ステップＳ２１３で結果出力部１０８が部分領域ＢＢ_１に関連づけて出力する。図８（Ｂ）は、本実施形態におけるアノテーションラベルの出力結果を示す。

なお、アノテーションラベルの候補の集計を行う際は、関心領域を同定するときよりも大きな値の閾値を用い、より広い範囲の類似領域を調べてアノテーションを集計するようにしてもよい。また、アノテーションの集計は、語彙を階層的に分類したオントロジーデータなどを使ってラベル間の関係を加味した集計を行ってもよい。例えば、一般的に語彙“Ｓｔｒａｗｈａｔ”はオントロジーデータにおいて語彙“Ｈａｔ”の下位概念として分類されている。そのため、“Ｓｔｒａｗｈａｔ”のアノテーションラベルが１つカウントされたときは、オントロジーデータを参照して上位概念である“Ｈａｔ”についても１つカウントする。そして、集計の際は語彙ごとに集計と総和を行い、閾値を超えた語彙を全て出力する。このとき、“Ｓｔｒａｗｈａｔ”と“Ｈａｔ”という意味の重なる複数の語彙が出力されるのを避けたい場合は、閾値を超えた語彙のうち最も下位の階層のラベルを出力すればよい。

また、用意するアノテーションラベルの情報は、領域を特に設定せず、画像１枚に対して１つのアノテーションラベルが対応するような形態も可能である。その場合、アノテーション領域が画像全体であると見なして先述と同様に処理すればよい。

以上、本実施形態によれば、画像データベース中のアノテーションのデータに基づいて、取得画像における部分領域のアノテーションを推定することができる。また、画像データベース上にサブグループを作らなくても関心領域を決定でき、取得画像に対してカテゴリー判別を行うことが出来る。

［第３の実施形態］
次に、本発明の第３の実施形態として、誤って選択される可能性の高い類似領域（以下、ＮＧパターンとも称す）を学習し、この誤って選択される可能性の高い類似領域を画像データベースより排除する構成について説明する。この構成によって、カテゴリーの誤判別の可能性を軽減することができる。

例えば、取得画像に自動車が大きく写っている場合、光沢のあるフロントガラスが表面の反射によって風景写真の湖面と似てしまうようなことがある。この場合、車のフロントガラスの領域の類似領域に湖面の関心領域が関連付けられ、結果的にフロントガラスが水面のカテゴリーと判別されてしまう可能性がある。このような誤判別を軽減するために、本実施形態は、画像間の関係性のデータベースを拡張して、画像の部分領域間の見えの類似度に加えて、部分領域間の誤った対応関係の情報もデータベースに追加する。

なお、第１、第２の実施形態において既に説明をした構成については、同一の符号を付し、その説明を省略する。本実施形態の画像処理装置も、図１に示した第１の実施形態の画像処理装置と同様の構成（機能部）を有している。以下、図面を参照して本実施形態の詳細を説明する。

まず初めに、本実施形態で定義される「偽対応」について説明する。偽対応とは、ガラスの領域と水面の領域のように、見えの特徴がよく一致しているが、カテゴリーの真値の一致度が低い領域ペアのことである。したがって、偽対応は数式３のｄ^ｆｅａｔ値が０に近く、数式２のｄ^Ｃａｔの値が１に近い領域ペアに相当することになる。そこで、偽対応を測る値として、上述の数式４を変更して下記の数５式を定義する。

図１０は、本実施形態のデータベースを模式的に示した図である。数５式より得られる距離の値が所定値より小さい領域のペアは、図１０（Ａ）に示すように偽対応の関係としてエッジを付ける。なお、ｄ^ｆｅａｔの見えの特徴は、類似画像の問合せを行うときに用いる特徴と同じものを用いる必要がある。

偽対応を軽減する単純な方法の一つは、画像データベース上の領域を各個に調べ、偽対応の関係を所定数以上持っている領域があれば、これをＮＧパターンとして画像データベースの関係グラフから削除する方法である。図１１（Ａ）は、この方法の概念図である。例えば、同図の左側に示されるように、画像データベース上で領域ｘが領域ｗと領域ｙに対して偽対応の関係にある場合には、このような領域ｘは類似領域問合せの結果としても信頼度が低いため、画像データベースの関係性グラフから削除する。そして、同図の右側が領域ｘを削除した後の画像データベースの模式図である。この手法によれば、テクスチャのない均一な領域等の情報量の少ない領域が画像データベースから排除される。

本実施形態では、別の方法として、学習プログラムが特定の被写体の組み合わせにおいて起こり易い偽対応のパターンを学習、判別して画像データベースから除去する方法を用いる。これは、先ほどの車のフロントガラスに対して、風景の湖面が偽対応するようなケースに対して有効な方法である。図９にこの処理フローを示す。

同図のステップＳ３１１〜Ｓ３１４は、学習プログラムが画像データベースのサブグループごとに偽対応のパターンを集計し、特定のパターンがないかを調べるステップである。ステップＳ３１２〜Ｓ３１３において、まずサブグループの特定のペアＳ_ｐとＳ_ｑの中からそれぞれ部分領域ＢＢ_ｐｉとＢＢ_ｑｊを抽出し、この領域ペアの間の測地距離を数式５より算出する。この算出した距離の値が所定値以内であれば、その領域ペアはサブグループのペアＳ_ｐｑ間に発生している偽対応の事例であるので、抽出して記憶しておく（ステップＳ３１３）。このようにして、Ｓ３１１〜Ｓ３１４において、学習プログラムは全ての部分領域ペアＢＢ_ｉｊ間で上記の処理を行う。

そして、抽出された偽対応の事例数が所定数以上であれば（ステップＳ３１５）、全ての事例を総和し、その分布形状をサブグループのペアＳ_ｐｑのＮＧパターンの事前分布として記憶する（ステップＳ３１６、Ｓ３１７）。ＮＧパターンの事前分布として、本実施形態では、サブグループｐの関心領域ＲＯＩ_ｐに対してサブグループＳ_ｑの領域が混入するときに現れるＮＧパターンｐ−ｑについて集計する。

具体的な処理の手順としては、まず（１）偽対応の事例の領域ＢＢ_ｐｉの画像を得る。これは、図１０（Ａ）ではフロントガラスに該当する。次に、（２）領域ＢＢ_ｐｉの類似領域を連結して関心領域ＲＯＩ_ｐｉを作成する。そして、（３）全事例の偽対応の関心領域ＲＯＩ_ｐｉと偽対応の部分領域ＢＢ_ｑｉがどのような位置関係に存在するか、平均して事前分布を得る。このとき、本実施形態では、図１０（Ｂ）の左側に示すように各関心領域を正方形に正規化した上で平均して分布を得る。その際、図１０（Ｂ）の右側に示すように、（４）部分領域ＢＢ_ｐｉとＢＢ_ｑｊの特徴量の分布の情報も集計して記憶する。

以上のようにして、本実施形態では、ＮＧパターンｐ−ｑを学習する。なお、ＮＧパターンｑ−ｐを集計するには、上述の処理において添え字のｐとｑを交換した処理を行う。以上の処理により、再現性の高いＮＧパターンほどはっきりしたピークの分布が学習され、認識フェーズでの判別が容易となる。

次に、本実施形態の画像処理装置の認識のフェーズの処理について説明する。図１２には、本実施形態の認識フェーズの処理フローを示す。まずステップＳ３０１において、関心領域決定部１０５が関心領域を生成する。次にステップＳ３０２において、関心領域決定部１０５は各関心領域のうち重畳のある関心領域同士でペアを作り、関心領域と部分領域の配置関係や特徴量が事前に学習したＮＧパターンの事前分布に当てはまるかどうかを調べる。ステップＳ３０３では、ＮＧパターンの尤度の高い関心領域を削除する。その後の処理は第１の実施形態と同様であり、カテゴリー判別部１０６によって関心領域中の領域のカテゴリーが判別される。

本実施形態では、予め学習フェーズを設けてＮＧパターンを集計したが、認識フェーズにおいて探索を行うことにより、類似領域問合せ結果が偽対応か否かを判断する形態でもよい。図１１（Ｂ）は、この方法を概念的に説明するための図である。

同図において、取得画像中の領域ａ（例：フロントガラス）は画像データベース上の領域ｘ（例：湖面）およびｙ（例：別の車のフロントガラス）の両方に類似している。さらに取得画像中の領域ｂ（例：車体）は画像データベース上の領域ｚ（例：別の車体）に類似関係がある。また、ここでは、画像データベースに格納されたカテゴリーの真値により、予め領域ｘ（湖面）と領域ｙ（別の車のフロントガラス）は偽対応であることが分かっている。そのため、領域ａ、ｘ、ｙが同じ被写体に属する場合には矛盾となるため、ａ→ｘとａ→ｙのどちらかの問合せ結果は誤りと判断される。一方で、領域ｙ（別の車のフロントガラス）とｚ（別の車体）の類似度が高く、同一の被写体を構成しているので、対応する領域ａとｂは同一の被写体に属する可能性が高いと判断される。

そこで、本実施形態では、領域ａ→ｘの対応関係が偽対応の関係である場合と、領域ａ→ｙの対応関係が偽対応である場合とを仮定する。そして、仮定した場合ごとに関心領域を生成し、より整合性の高い結果が得られた方を正しいパターンと判断し選択する。ここでの整合性は、カテゴリーの異なる関心領域が互いに重畳しているほど、その整合性は低いと判断されるような基準とする。すなわち、車と湖面の関心領域が大きく重なっている場合には、整合性は低いと判断される。このような整合性を用いた判断の結果、本実施形態では、図１１（Ｂ）右側の模式図に示すように、領域ａとｂに対応する領域ｙとｚが同一の関心領域（車体）に属するという正しい結果を得ることができる。

以上、本実施形態では、画像データベースの部分領域間の偽対応情報に基づいて、関心領域を決定し領域カテゴリーの判別を行うことにより、カテゴリーの誤判別の可能性を軽減することができる。なお、本実施形態の構成は、領域間の真の対応と偽の対応の関係情報を用いて判別する手法に広く適用可能である。また、図１１を用いて説明したように、本実施形態は、偽対応を削除する方法として複数の形態をとることが可能である。

［第４の実施形態］
次に、本発明の第４の実施形態として、画像間で被写体の照合を行う構成について説明を行う。なお、上述の実施形態において既に説明をした構成については、同一の符号を付し、その説明を省略する。本実施形態の画像処理装置も、図１に示した第１の実施形態の画像処理装置と同様の構成（機能部）を有している。

図１３は、本実施形態における画像の照合を説明する図である。照合とは、複数の画像Ｉ_{ｉｎｐｕｔ１}とＩ_{ｉｎｐｕｔ２}を入力（取得）すると、これらの画像に共通する被写体の領域を自動的に抽出するような処理のことである。図１３（Ａ）では、二枚の画像に共通する被写体として、人体の領域である関心領域ＲＯＩ_１とＲＯＩ_２がそれぞれ抽出される例を示している。以下に、図１３の照合処理を説明する概念図と、図１４の本実施形態の画像認識処理フローとを参照して、本実施形態の処理の詳細について説明する。

図１４において、ステップＳ４０１〜ステップＳ４０２では、領域分割部１０２が取得した二枚の画像それぞれを、第１の実施形態と同様の手順により、複数の部分領域に分割する。ステップＳ４０３〜ステップＳ４０５において、類似領域問い合わせ部１０３は、生成された各部分領域について画像の問合せを行い、各部分領域に対して類似領域を得る。ただし、以降の説明の簡略化のために、一つの部分領域に複数の類似領域が該当する場合は、その中で最も類似度のスコアの高かった類似領域を一つ選択するものとする。

次に、ステップＳ４０７〜ステップＳ４１５では、関心領域決定部１０５が二枚の取得画像間で対応関係のある部分領域のペアを抽出する。具体的には、共通の領域を類似領域として持つ、二つの部分領域が画像間に存在していないかどうかを全ての部分領域のペアについて調べる（ステップＳ４０８〜４１０）。以上のステップにおいて、共通の領域を類似領域として持つ部分領域ペアがあれば、これを対応関係のある部分領域ペアとして抽出して記憶する（ステップＳ４１３）。図１３（Ｂ）には、以上の処理により得られた部分領域の抽出結果を示す。同図では、画像問合せの参照元の部分領域と、問合せ結果の類似領域を矢印でつないで示している。ここでは、部分領域ＢＢ_１と部分領域ＢＢ_５が部分領域ＢＢ_３を共通の類似領域として持っているので、対応関係のある部分領域ペアとして抽出されている。領域ＢＢ_２と部分領域ＢＢ_６も部分領域ＢＢ_３を共通の類似領域として持っているので同様に抽出されている。

次に、ステップＳ４１１で、関心領域決定部１０５は、画像間で類似度の高い領域ペアがあるかどうかを調べ、もしあればステップＳ４１３において対応関係のある領域として抽出する。この処理において、判断基準となる類似度の距離には、第２の実施例と同様に画像の関係グラフに基づいた測地距離を用いる。図１３（Ｃ）は、本実施形態における類似度の高い部分領域ペアの抽出結果を示す。同図では、部分領域ＢＢ_１と部分領域ＢＢ_５の類似度を、類似領域ＢＢ_３と類似領域ＢＢ_７を経由する測地距離として求めたことを模式的に示している。ここでは、その測地距離が所定の閾値よりも小さかったと判定し、部分領域ＢＢ_１と部分領域ＢＢ_５は対応関係のあるペアとして抽出されている。

ステップＳ４１６〜Ｓ４１８では、関心領域決定部１０５が、以上の処理により得られた部分領域ペアを調べ、各部分領域ペアが他の部分領域ペアと所定の関係にあるか否かを判定する。「所定の関係」とは、部分領域ペアを構成する各部分領域がそれぞれの画像上で所定の閾値以上に互いに重なっている状態である。図１３（Ｄ）の場合、入力画像Ｉ_{Ｉｎｐｕｔ１}上のＢＢ_１とＢＢ_２、入力画像Ｉ_{Ｉｎｐｕｔ２}中のＢＢ_５とＢＢ_６が所定値以上に重なっていれば所定の関係の条件を満たすと判定する。本実施形態において、部分領域ペアの重なりは、上述した数１式により判定を行う。

ステップＳ４１９〜Ｓ４２１では、関心領域決定部１０５が、上述した所定の関係を満たす部分領域のペアを連結して関心領域を生成する。図１３（Ｄ）では、画像Ｉ_{Ｉｎｐｕｔ１}と画像Ｉ_{Ｉｎｐｕｔ２}の両方において各部分領域が連結され、関心領域ＲＯＩ_１および関心領域ＲＯＩ_２が生成されている。

本実施形態の画像処理装置によれば、以上のように画像間で被写体を照合することにより、被写体の見えや姿勢のバリエーションに対してロバストに被写体の照合を行うことができる。

また、本実施形態の変形例として、例えば、（１）一方の画像の上に関心領域を手動で設定し、他方の画像から対応する関心領域があるかどうかを照合する、といった形態が可能である。また、別の変形例として、（２）２枚の画像の上に関心領域を手動で設定し、画像間で２つの関心領域が対応するかどうかを照合する、といった形態も可能である。

また、上述のステップＳ４０４では各部分領域に対して類似領域を一つのみ抽出することとしたが、一つの部分領域に対して複数の類似領域を抽出するようにしてもよい。この場合、複数の類似領域それぞれについて対応関係の認められる複数の部分領域のペアを抽出し、抽出された全ペアを使って関心領域を抽出すればよい。

また、上述のステップＳ４１１では部分領域間の類似度を算出する際に、画像間の関係性のグラフによる測地距離をその都度求めたが、他の構成を採用することもできる。例えば、画像間の関係性のグラフ情報を保持するのでなく、予め全ての部分領域間の測地距離を求めておき、距離行列として保持しておくことも可能である。図１５は、部分領域間の測地距離に関する距離行列の例を示す。同図では、関係性のグラフ上の経路が存在しない領域間の類似度の距離を無限大とし、記号ｉｎｆとして示している。このように、画像間の関係性のグラフのデータに基づいて得られる情報の表現形態は種々考えられる。例えば、第１の実施形態で説明した画像のサブグループも、画像間の関係性のグラフに基づく情報表現の形態の一つである。本発明は画像間の関係性の情報を利用するが、その形態は様々であり一つに限定されない。

更には、上述のステップＳ４１８では部分領域ペアが「所定の関係」を満たすか否かの判断のために、部分領域ペアの重なりを調べたが、重なり以外の基準によって「所定の関係」を満たすか否かを判定するようにしてもよい。図１６は、「所定の関係」の充足を判断する他の形態を模式的に説明する図面である。同図において、画像ａの中に二つの領域ａ１と領域ａ２、画像ｂの中に二つの領域ｂ１と領域ｂ２がある。このとき、本実施形態は、領域ａ１と領域ａ２の相対的な位置関係が、領域ｂ１と領域ｂ２の位置関係と類似しているかどうかを以下の数６式により判定することで、この領域ペアが「所定の関係」を満たすか否かを判定するようにしてもよい。

ここで、Δｘ_ａとΔｙ_ａは領域ａ１と領域ａ２の重心位置のｘ方向とｙ方向のオフセット量である。また、ｗ_ａ１とｈ_ａ１は領域ａ１の幅と高さであり、オフセット量をサイズで正規化するものである。θは所定の閾値である。

以上の方法を用いた場合の処理フローを図１７に示す。ステップＳ５１６、Ｓ５１７において、部分領域ペアｐ、ｑを抽出する。ステップＳ５１８で、上述の数６式に基づき、部分領域ｐとｑの位置関係が類似しているかどうかを判定する。類似していると判定されれば、ステップＳ５１９〜Ｓ５２０において、関心領域決定部１０５が部分領域ペアｐ、ｑに対応する領域を統合して関心領域とする。なお、上述の説明では、部分領域のペアが類似した関係にあるかを判定するようにしたが、３以上の部分領域の関係性が類似しているか否かを調べる形態としてもよい。また、関心領域を得る処理では、図６で示した測地距離を用いる方法により、画像間の類似関係を複数跨ぐようにして取得する構成であってもよい。

［その他の実施形態］
上述した第４の実施形態では、取得画像上の部分領域のペアの位置関係が他の画像上の部分領域のペアの位置関係と所定の関係（類似）があるかを調べて、関心領域を決定するようにしている。この手法は、他の実施形態にも応用可能な方法である。例えば、第２の実施形態では、図７のステップＳ２０４において、２つの部分領域の関係性を調べ、関連性があると判断されれば、これら部分領域を統合して関心領域とする処理としていた。図１８は、第２の実施形態において、ステップＳ２０４に代えて第４の実施形態で説明した関心領域の決定方法を採用した場合の処理フローを示す図である。

まず、第２の実施形態では、図８（Ａ）に示すように入力画像Ｉ_{ｉｎｐｕｔ}に部分領域ＢＢ_１とＢＢ_４が作成される。図１８の処理フローでは、ステップＳ２０４１〜Ｓ２０４２において、ＢＢ_１とＢＢ_４にそれぞれ対応する類似領域が一枚の類似画像上に存在していないかどうかを調べる。ここでは、一枚の類似画像Ｉ_１上に類似領域ＢＢ_２とＢＢ_３が存在していると判断される。

次に、ステップＳ２０４３では、領域ＢＢ_１とＢＢ_４を領域ａ１とａ２、領域ＢＢ_２とＢＢ_３を領域ｂ１とｂ２として、これら４つの領域の相対位置関係が数式６の条件を満たすかどうかを調べる。そして、数式６の条件を満たす場合には、関心領域決定部１０５は、領域ＢＢ_１とＢＢ_４が所定の関係にあると見なし、ステップＳ２０４４で領域ＢＢ_１とＢＢ_４を関心領域として統合する。このようにして、第４の実施形態で説明した関心領域の決定方法は他の実施形態にも適用可能である。

また、上述の各実施形態では、画像処理装置が画像データ記憶手段を備える構成としたが、この画像データ記憶手段は画像処理装置とは別体として設けられた構成であってもよい。

また、本発明は、上記実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（又はＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。また、本発明は、複数の機器から構成されるシステムに適用しても、１つの機器からなる装置に適用してもよい。本発明は上記実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形（各実施例の有機的な組合せを含む）が可能であり、それらを本発明の範囲から除外するものではない。即ち、上述した各実施例及びその変形例を組み合わせた構成も全て本発明に含まれるものである。

１０１画像取得部
１０２領域分割部
１０３類似領域問合せ部
１０４画像データ記憶部
１０５関心領域決定部
１０６カテゴリー判別部
１０７結果統合部
１０８結果出力部

Claims

複数の画像データと当該複数の画像データの関係性に関する情報が記憶された記憶手段を用いて、取得した画像において関係性を有する領域を決定する画像処理装置であって、
前記取得した画像を複数の部分領域に分割する領域分割手段と、
前記分割した複数の部分領域それぞれについて、類似する１以上の前記画像データを前記記憶手段から抽出する抽出手段と、
前記抽出手段により抽出された前記画像データと当該画像データの関係性に関する情報とに基づいて、前記取得した画像において関係性を有する領域を決定する決定手段とを有することを特徴とする画像処理装置。
前記画像処理装置が、前記記憶手段を有することを特徴とする請求項１に記載の画像処理装置。
前記取得した画像について、前記関係性を有する領域に関する情報を出力する出力手段を更に有することを特徴とする請求項１または２に記載の画像処理装置。
前記複数の画像データの関係性に関する情報は、前記複数の部分領域間の対応関係を定めるための情報を含むことを特徴とする請求項１から３のいずれか１項に記載の画像処理装置。
前記複数の画像データの関係性に関する情報は、前記複数の画像データを分割してなる部分領域をノード、当該領域間の対応関係をエッジとしたグラフデータに関する情報を含むことを特徴とする請求項４に記載の画像処理装置。
前記グラフデータは、前記複数の画像データにおける部分領域の類似度に基づいて重み付けされたエッジによって構成されることを特徴とする請求項５に記載の画像処理装置。
前記重み付けされたエッジは、前記複数の画像データにおける被写体のカテゴリーに関する教師値に基づいて得られることを特徴とする請求項６に記載の画像処理装置。
前記複数の画像データの関係性に関する情報は、前記グラフデータに基づいて前記複数の画像データをクラスタリングして得られるサブグループの情報であることを特徴とする請求項５から７のいずれか１項に記載の画像処理装置。
前記サブグループの情報に基づいて、前記関係性を有する領域のカテゴリーを判別する判別手段を更に有することを特徴とする請求項８に記載の画像処理装置。
前記判別手段は、学習された判別用の辞書をさらに用いて前記関係性を有する領域のカテゴリーを判別することを特徴とする請求項９に記載の画像処理装置。
前記複数の画像データの関係性に関する情報は、前記複数の部分領域間の誤った対応関係を定めるための情報を含むことを特徴とする請求項５から１０のいずれか１項に記載の画像処理装置。
前記複数の画像データの関係性に関する情報は、当該複数の画像データにおける画像のメタ情報を含み、
前記画像のメタ情報に基づいて、前記関係性を有する領域のカテゴリーを判別する判別手段を更に有することを特徴とする請求項１から３のいずれか１項に記載の画像処理装置。
前記メタ情報は、前記複数の画像データにおける被写体または前記被写体の部位に関するアノテーションラベルであることを特徴とする請求項１２に記載の画像処理装置。
前記複数の画像データの関係性に関する情報は、前記複数の部分領域間の相対位置関係を定めるための情報であることを特徴とする請求項１から３のいずれか１項に記載の画像処理装置。
前記相対位置関係を定めるための情報に基づいて、複数の前記取得した画像における前記関係性を有する領域が互いに関連するか否かを照合する照合手段を更に有することを特徴とする請求項１４に記載の画像処理装置。
複数の画像データと当該複数の画像データの関係性に関する情報が記憶された記憶手段を用いて、取得した画像において関係性を有する領域を決定する画像処理方法であって、
前記取得した画像を複数の部分領域に分割するステップと、
前記分割した複数の部分領域それぞれについて、類似する１以上の前記画像データを前記記憶手段から抽出するステップと、
前記抽出された前記画像データと当該画像データの関係性に関する情報とに基づいて、前記取得した画像において関係性を有する領域を決定するステップとを有することを特徴とする画像処理方法。
コンピュータを、請求項１から１５のいずれか１項に記載の画像処理装置として機能させるためのプログラム。