JP5673624B2

JP5673624B2 - オブジェクト検索装置、方法、およびプログラム

Info

Publication number: JP5673624B2
Application number: JP2012163860A
Authority: JP
Inventors: 道大二瓶; 松永　和久; 和久松永; 雅行広浜; 浩一中込
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2012-07-24
Filing date: 2012-07-24
Publication date: 2015-02-18
Anticipated expiration: 2032-07-24
Also published as: CN103577520A; JP2014027355A; US20140029806A1

Description

本発明は、撮像した画像データから主要オブジェクトの領域を切り抜いてその主要オブジェクトの種類を検索する装置、方法、およびプログラムに関する。

野山や道端で見かけた花の名前を知りたくなることがある。そこで、撮影等により得た花のディジタル画像より、クラスタリング法を用いて対象物である花の画像を抽出し、その抽出された花の画像より得られる情報を特徴量とする。単数または複数の特徴量を求め、その求められた特徴量と、あらかじめデータベースに登録してある各種の花の特徴量とを統計的手法を用いて解析して花の種類を判別する技術が提案されている（例えば特許文献１に記載の技術）。

また、花などの主要オブジェクトを含む画像をＧｒａｐｈＣｕｔｓ法を用いて主要オブジェクト領域と背景領域とを分割して主要オブジェクトの領域を切り抜く従来技術が知られている（例えば非特許文献１、特許文献２に記載の技術）。切抜きを行う場合，主要オブジェクトと背景の関係によりその境界が不明確な部分が存在する可能性があり，最適な領域分割を行う必要がある。そこで、この従来技術では、領域分割をエネルギーの最小化問題としてとらえ、その最小化手法を提案している。この従来技術では，領域分割に適合するようにグラフを作成し、そのグラフの最小カットを求めることにより、エネルギー関数の最小化を行う。この最小カットは、最大フローアルゴリズムを用いることにより、効率的な領域分割計算を実現している。

特開２００２−２０３２４２号公報特開２０１１−３５６３６号公報

Ｙ．ＢｏｙｋｏｖａｎｄＧ．Ｆｕｎｋａ−Ｌｅａ："ＩｎｔｅｒａｃｔｉｖｅＧｒａｐｈＣｕｔｓｆｏｒＯｐｔｉｍａｌＢｏｕｎｄａｒｙ＆ＲｅｇｉｏｎＳｅｇｍｅｎｔａｔｉｏｎｏｆＯｂｊｅｃｔｓｉｎＮ−ＤＩｍａｇｅｓ"，Ｐｒｏｃｅｅｄｉｎｇｓｏｆ "ＩｎｔｅｒｎａｔｉｏｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ"，Ｖａｎｃｏｕｖｅｒ，Ｃａｎａｄａ，ｖｏｌ．Ｉ，ｐ．１０５−１１２，Ｊｕｌｙ２００１．

しかしながら、大きさが識別ポイントになっている複数の花などの主要オブジェクトを特定する場合、画像の特徴だけで検索を行った場合には、特徴データが同じになることがあり、違いを自動で識別し特定することができない場合があるという問題点を有していた。

本発明は、主要オブジェクトの検索精度を向上させることを目的とする。

前記課題を解決するため、本発明のオブジェクト検索装置は、画像データを取得する撮像手段と、前記画像データの各画素に付与する主要オブジェクトまたは背景を示す領域ラベル値を更新しながら、該領域ラベル値と前記各画素の画素値とに基づいて、前記主要オブジェクトらしさまたは前記背景らしさと隣接画素間の前記画素値の変化を評価するエネルギー関数の最小化処理により、前記画像データ内で前記主要オブジェクトと前記背景を領域分割して前記主要オブジェクトを切り抜く切抜き手段と、前記切抜き手段により切り抜かれた前記主要オブジェクトの実サイズを算出する実サイズ算出手段と、前記切抜き手段により切り抜かれた前記主要オブジェクトに対応する画像データに、前記実サイズの情報を付加して主要オブジェクトのデータベースにアクセスすることにより前記主要オブジェクトの種類を検索する検索手段と、を備え、前記切抜き手段は、前記背景に存在する前記主要オブジェクトと同じ色の前記画素値については、前記背景を示す領域ラベル値が更新されないようにすることを特徴とする。

本発明によれば、主要オブジェクトの検索精度を向上させることが可能となる。

本発明の一実施形態に係る複数画像を利用したオブジェクト検索装置のハードウェア構成例を示すブロック図である。図１のデジタルカメラ１０１が実現する複数画像を利用したオブジェクト検索装置の機能的構成を示す機能ブロック図である。本実施形態による複数画像を利用したオブジェクト検索処理の全体動作を示すフローチャートである。本実施形態によるデプス（距離）算出処理の説明図である。本実施形態による実サイズ算出処理の説明図である。本実施形態によるグラフカット処理の全体動作を示すフローチャートである。重み付き有向グラフの説明図である。ヒストグラムθの説明図である。ｈ_uv（Ｘ_u,Ｘ_v）の特性図である。ｔ−ｌｉｎｋとｎ−ｌｉｎｋを有するグラフと、領域ラベルベクトルＸおよびグラフカットとの関係を、模式的に示した図である。領域分割処理を示すフローチャートである。

以下、本発明を実施するための形態について図面を参照しながら詳細に説明する。

図１は、本発明の一実施形態に係る複数画像を利用したオブジェクト検索装置を実現するデジタルカメラ１０１のハードウェア構成例を示すブロック図である。

デジタルカメラ１０１は、撮像レンズ１０２、補正レンズ１０３、レンズ駆動ブロック１０４、絞り兼用シャッタ１０５、ＣＣＤ１０６、垂直ドライバ１０７、ＴＧ（ＴｉｍｉｎｇＧｅｎｅｒａｔｏｒ：タイミング発生回路）１０８、ユニット回路１０９、ＤＭＡコントローラ（以下、ＤＭＡという）１１０、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：中央演算処理装置）１１１、キー入力部１１２、メモリ１１３、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１１４、通信部１１５、ブレ検出部１１７、ＤＭＡ（ＤｉｒｅｃｔＭｅｍｏｒｙＡｃｃｅｓｓ）１１８、画像生成部１１９、ＤＭＡ１２０、ＤＭＡ１２１、表示部１２２、ＤＭＡ１２３、圧縮伸張部１２４、ＤＭＡ１２５、フラッシュメモリ１２６、バス１２７を備えている。

デジタルカメラ１０１の外部または内部には、花データベース１１６が備えられる。
花データベース１１６は、それがデジタルカメラ１０１の外部に設けられる場合、例えばインターネットによって接続されるサーバコンピュータ上に実装される。そして、デジタルカメラ１０１のＣＰＵ１１１が、通信部１１５を用いインターネットを経由して、サーバコンピュータ上の花データベース１１６にアクセスする。
花データベース１１６は、それがデジタルカメラ１０１の内部に設けられる場合、例えばＤＲＡＭ１１４上に実装される。そして、ＣＰＵ１１１が、ＤＲＡＭ１１４上の花データベース１１６にアクセスする。

撮像レンズ１０２は、複数のレンズ群から構成されるフォーカスレンズ、ズームレンズを含む。
なお、レンズ駆動ブロック１０４は、図示しない駆動回路を含み、駆動回路はＣＰＵ１１１からの制御信号に従ってフォーカスレンズ、ズームレンズをそれぞれ光軸方向に移動させる。

補正レンズ１０３は、手ぶれによる像のブレを補正するためのレンズであり、補正レンズ１０３には、レンズ駆動ブロック１０４が接続されている。
レンズ駆動ブロック１０４は、Ｙａｗ（ヨー）方向及びＰｉｔｃｈ（ピッチ）方向に補正レンズ１０３を移動させることにより手ぶれを補正する。このレンズ駆動ブロック１０４には、ヨー方向及びピッチ方向に補正レンズ１０３を移動させるモータ、及びそのモータを駆動させるモータドライバから構成されている。

絞り兼用シャッタ１０５は、図示しない駆動回路を含み、駆動回路はＣＰＵ１１１から送られてくる制御信号に従って絞り兼用シャッタ１０５を動作させる。この絞り兼用シャッタ１０５は、絞り、シャッタとして機能する。
絞りとは、ＣＣＤ１０６に入射される光の量を制御する機構のことをいい、シャッタとは、ＣＣＤ１０６に光を当てる時間を制御する機構のことをいい、ＣＣＤ１０６に光を当てる時間（露光時間）は、シャッタ速度によって変わってくる。
露出量は、この絞り値（絞りの度合い）とシャッタ速度によって定められる。

ＣＣＤ１０６は、垂直ドライバ７によって走査駆動され、一定周期毎に被写体像のＲＧＢ（赤緑青）値の各色の光の強さを光電変換して撮像信号としてユニット回路１０９に出力する。この垂直ドライバ１０７、ユニット回路１０９の動作タイミングはＴＧ１０８を介してＣＰＵ１１１によって制御される。

ユニット回路１０９には、ＴＧ１０８が接続されており、ＣＣＤ１０６から出力される撮像信号を相関二重サンプリングして保持するＣＤＳ（ＣｏｒｒｅｌａｔｅｄＤｏｕｂｌｅＳａｍｐｌｉｎｇ）回路、そのサンプリング後の撮像信号の自動利得調整を行なうＡＧＣ（ＡｕｔｏｍａｔｉｃＧａｉｎＣｏｎｔｒｏｌ）回路、その自動利得調整後のアナログ信号をデジタル信号に変換するＡ／Ｄ（アナログ／デジタル）変換器から構成されており、ＣＣＤ１０６によって得られた撮像信号は、ユニット回路１０９を経た後、ＤＭＡ１１０によってベイヤーデータの状態でバッファメモリ（ＤＲＡＭ１１４）に記憶される。

ＣＰＵ１１１は、ＡＥ（ＡｕｔｏｍａｔｉｃＥｘｐｏｓｕｒｅ：自動露出）処理、ＡＦ（ＡｕｔｏｍａｔｉｃＦｏｃｕｓ：自動焦点）処理などを行う機能を有すると共に、デジタルカメラ１０１の各部を制御するワンチップマイコンである。

特に、本実施形態では、ＣＰＵ１１１は、１０２から１１０の部分で構成される撮像手段に対して、被写体に対して光軸が移動した複数枚の画像データを取得させ、それらに基づいて、次の各処理を実行する。まず、ＣＰＵ１１１は、被写体までの距離を算出する距離算出処理を実行する。次に、ＣＰＵ１１１は、被写体中の主要オブジェクトの領域を切り抜くグラフカット（切り抜き）処理を実行する。続いて、ＣＰＵ１１１は、撮像レンズ１０２から被写体までの距離と撮像レンズ１０２の焦点距離とから、主要オブジェクトの実サイズを算出する実サイズ算出処理を実行する。そして、ＣＰＵ１１１は、実サイズの情報を付加して主要オブジェクトのデータベース１１６にアクセスすることにより、主要オブジェクトの種類を検索する検索処理を実行する。

キー入力部１１２は、半押し操作全押し操作可能なシャッタボタン、モード切替キー、十字キー、ＳＥＴキー等の複数の操作キーや、タッチパネルを含み、ユーザのキー操作に応じた操作信号をＣＰＵ１１１に出力する。
メモリ１１３には、ＣＰＵ１１１がデジタルカメラ１０1の各部を制御するのに必要な制御プログラム、及び必要なデータが記録されており、ＣＰＵ１１１は、それらの制御プログラムに従い動作する。

ＤＲＡＭ１１４は、ＣＣＤ１０６によって撮像された画像データを一時記憶するバッファメモリとして使用されるとともに、ＣＰＵ１１１のワーキングメモリとしても使用される。

ブレ検出部１１７は、図示しないジャイロセンサなどの角速度センサを備えており、撮影者の手振れ量を検出するものである。
なお、ブレ検出部１１７は、Ｙａｗ（ヨー）方向のブレ量を検出するジャイロセンサと、Ｐｉｔｃｈ（ピッチ）方向のブレ量を検出するジャイロセンサとを備えている。
このブレ検出部１１７によって検出されたブレ量は、ＣＰＵ１１１に送られる。

ＤＭＡ１１８は、バッファメモリに記憶されたベイヤーデータの画像データを読み出して画像生成部１１９に出力するものである。
画像生成部１１９は、ＤＭＡ１１８から送られてきた画像データに対して、画素補間処理、γ補正処理、ホワイトバランス処理などの処理を施すとともに、輝度色差信号（ＹＵＶデータ）の生成も行なう。つまり、画像処理を行うる部分である。
ＤＭＡ１２０は、画像生成部１１９で画像処理が行われた輝度色差信号の画像データ（ＹＵＶデータ）をバッファメモリに記憶させるものである。

ＤＭＡ１２１は、バッファメモリに記憶されているＹＵＶデータの画像データを表示部１２２に出力するものである。
表示部１２２は、カラーＬＣＤとその駆動回路を含み、ＤＭＡ１２１から出力された画像データの画像を表示させる。

ＤＭＡ１２３は、バッファメモリに記憶されているＹＵＶデータの画像データや圧縮された画像データを圧縮伸張部１２４に出力したり、圧縮伸張部１２４により圧縮された画像データや、伸張された画像データをバッファメモリに記憶させたりするものである。
圧縮伸張部１２４は、画像データの圧縮・伸張（例えば、ＪＰＥＧやＭＰＥＧ形式の圧縮・伸張）を行なう部分である。
ＤＭＡ１２５は、バッファッメモリに記憶されている圧縮画像データを読み出してフラッシュメモリ１２６に記録させたり、フラッシュメモリ１２６に記録された圧縮画像データをバッファメモリに記憶させるものである。

図２は、図１のデジタルカメラ１０１が実現する複数画像を利用したオブジェクト検索装置の機能的構成を示す機能ブロック図である。

撮像手段２０１は、被写体２０６に対して光軸が移動した複数枚の画像データ２０７を取得する。この撮像手段２０１は例えば、光軸を移動させることにより手ぶれを補正する補正レンズを備え、その補正レンズの光軸を移動させながら複数枚の画像データ２０７を取得する。

距離算出手段２０２は、複数枚の画像データ２０７に基づいて、撮像手段２０１から被写体２０６までのデプス（距離）２０８を算出する。

切抜き手段２０３は、画像データ２０７のうちの例えば１枚から被写体２０６中の主要オブジェクト２０９の領域を切り抜く。この切抜き手段２０３は例えば、画像データ２０７の各画素に付与する主要オブジェクトまたは背景を示す領域ラベル値を更新しながら、その領域ラベル値と各画素の画素値とに基づいて、主要オブジェクトらしさまたは背景らしさと隣接画素間の画素値の変化を評価する例えばＧｒａｐｈＣｕｔｓ法によるエネルギー関数の最小化処理により、画像データ２０７内で主要オブジェクトと背景を領域分割して主要オブジェクト２０９を切り抜く。

実サイズ算出手段２０４は、切り抜いた主要オブジェクト２０９の画像データ２０７上での大きさと撮像手段２０１から被写体２０６までのデプス（距離）２０８と撮像手段２０１の焦点距離２１０とから主要オブジェクト２０８の実サイズ２１１を算出する。

検索手段２０５は、実サイズ２１１の情報を付加して主要オブジェクトのデータベース１１６（図１参照）にアクセスすることにより主要オブジェクト２０９の種類を検索する。

図２に示されるデジタルカメラ１０１が実現する複数画像を利用したオブジェクト検索装置の機能構成により、被写体２０６に対して光軸が移動した複数枚の画像データ２０７を取得する撮像手段２０１からの情報に基づいて、主要オブジェクト２０９の実サイズ２１１を算出してその情報を付加することにより、主要オブジェクト２０９の検索精度を向上させることが可能となる。

図３は、本実施形態による複数画像を利用したオブジェクト検索処理の制御動作を示すフローチャートである。このフローチャートの処理は、図６および図１１のフローチャートの処理とともに、図１のデジタルカメラ１０１内のＣＰＵ１１１が、メモリ１１３に記憶された制御プログラムを、ＤＲＡＭ１１４をワークメモリとして使用しながら実行する処理として実現される。

まず、図１の補正レンズ１０３がその光軸に対して垂直な方向に一方に寄せられて被写体２０６（図２参照）の撮影が実施され、画像データ２０７（図２参照）として画像Ａが、図１のＤＲＡＭ１１４に取得される（図３のステップＳ３０１）。同様に、図１の補正レンズ１０３がその光軸に対して垂直な方向に反対側に寄せられて被写体２０６の撮影が実施され、画像データ２０７として画像Ｂが、図１のＤＲＡＭ１１４に取得される（図３のステップＳ３０２）。上述のステップＳ３０１とＳ３０２の処理は、図２の撮像手段２０１の機能を実現する。

次に、ＤＲＡＭ１１４に得られた画像Ａおよび画像Ｂより、図１の撮像レンズ１０２のレンズ面から被写体２０６までのデプス（距離）ｄが算出される（図３のステップＳ３０３）。図４は、本実施形態によるデプス（距離）算出処理の説明図である。

図４において、説明を簡単にするために、補正レンズ１０３を含む撮像レンズ１０２がレンズ位置＃１（複数で構成される撮像レンズ１０２の仮想的なレンズ面Ｈと光軸＃１が交わる点）にあり、点光源Ｌがその光軸＃１上にあった場合を考える。この場合、点光源Ｌは図１のＣＣＤ１０６上の撮像面Ｉの撮像点Ｐ１に像を結ぶ。そこから、レンズ駆動ブロック１０４を介して補正レンズ１０３が制御されることにより、補正レンズ１０３を含む撮像レンズ１０２のレンズ位置が、光軸＃１に対応するレンズ位置＃１から光軸＃２に対応するレンズ位置＃２（レンズ面Ｈと光軸＃２が交わる点）に、距離Ｓだけシフト(移動)させられる。この結果、点光源Ｌは図１のＣＣＤ１０６上の撮像面Ｉの撮像点Ｐ２に像を結ぶ。このとき、点光源Ｌとレンズ位置＃１およびレンズ位置＃２を結ぶ三角形と、レンズ位置＃２と撮像点Ｐ２と光軸＃２が撮像面Ｉと交わる点を結ぶ三角形は相似形となる。このため、補正レンズ１０３の移動量Ｓとレンズ面Ｈから点光源Ｌが位置する物体面Ｏまでのデプス（距離）ｄ（図２の距離２０８に対応する）との間には、次の関係が成り立つ。

従って、上記数１式より、次式によりデプス（距離）ｄを算出できる。

ここで、ｆはレンズ面Ｈから撮像Ｉまでの焦点距離２１０（図２参照）、Ｓは光軸＃１から光軸＃２までのシフト量、Ｓ’は光軸＃２が撮像面Ｉと交わる点から撮像点Ｐ２までの距離である。なお、Ｓ’は図１のＣＣＤ１０６の撮像面Ｉ上の距離であるので、撮影された画像から算出する場合は、撮像面Ｉのドット数（ｐｉｘｅｌ＿ｃｏｕｎｔ）に撮像素子の画素ピッチ寸法（ｓｉｚｅ＿ｐｅｒ＿ｐｉｘｅｌ）を掛けたものとなる。すなわち、

である。

上述の計算式は、説明を簡単にするために、補正レンズ１０３を含む撮像レンズ１０２のレンズ位置＃１が、最初点光源Ｌを通る光軸＃１にあるものとして説明したが、任意の２点のレンズ位置に対しても、同様な比例関係が成り立つ。

以上の原理に基づいて実行される図３のステップＳ３０３が、図２の距離算出手段２０２の機能を実現する。

次に、グラフカット処理により、ステップＳ３０１で算出されている画像Ａ（ステップＳ３０２で算出されている画像Ｂでもよい）から、グラフカット処理により主要オブジェクト２０９（図２参照）である花領域が切り出される（図３のステップＳ３０４）。この処理の詳細については、後述する。このステップＳ３０４の処理が、図２の切抜き手段２０３の機能を実現する。

次に、ステップＳ３０４で切り出されたＣＣＤ１０６（図１）の撮像面Ｉ上の主要オブジェクト２０９である花領域の幅ｈｗ’と、ステップＳ３０３で算出されたデプス（距離）ｄと、図１の補正レンズ１０３および撮像レンズ１０２を含むレンズ全体の焦点距離ｆより、花領域の実サイズｈｗが算出される（図３のステップＳ３０５）。図５は、本実施形態による実サイズ算出処理の説明図である。

図５より、焦点距離ｆとデプス（距離）ｄ、およびＣＣＤ１０６（図１）の撮像面Ｉ上の主要オブジェクト２０９である花領域の幅ｈｗ’と主要オブジェクト２０９の実際の花の被写体の幅の実サイズｈｗは、三角形の相似形の関係より、次式の関係にある。

従って、実際の花の幅の実サイズｈｗは、次式により算出できる。

なお、ｈｗ’は図１のＣＣＤ１０６の撮像素子面Ｉ上の距離であるので、撮影された画像から算出する場合は、撮像面Ｉ上での主要オブジェクト２０９である花の領域の幅ドット数（ｆｌｏｗｅｒ＿ｐｉｘｅｌ＿ｃｏｕｎｔ）に撮像素子の画素ピッチ寸法（ｓｉｚｅ＿ｐｅｒ＿ｐｉｘｅｌ）を掛けたものとなる。すなわち、

である。

以上の原理に基づいて実行される図３のステップＳ３０５が、図２の実サイズ算出手段２０４の機能を実現する。

以上のようにして主要オブジェクト２０９である花の実サイズ２１１＝ｈｗが算出された後、図３のステップＳ３０４で切り出された主要オブジェクト２０９である花領域の画像データから、画像特徴量が抽出される（図３のステップＳ３０６）。

次に、ステップＳ３０６で抽出された画像特徴量を用いて花識別器が構成され、図１の主要オブジェクトのデータベース１１６中の花の種類のデータベースが参照される。この結果、データベースから、花の種類の候補リストとして、花を識別する識別子（ＩＤ）のリストが取得される（図３のステップＳ３０７）。

次に、主要オブジェクトのデータベース１１６中の花の各識別子（ＩＤ）ごとに実サイズＨＷを記憶したデータベースが参照される。そして、ＩＤｎ（ｎ＝１，２，・・・）ごとの実サイズＨＷ（ＩＤｎ．ＨＷ）が、ステップＳ３０５で算出された花の実サイズ２１１＝ｈｗと、一定の誤差の範囲内で一致するか否かが判定される（図３のステップＳ３０８）。

実サイズが一致せずステップＳ３０８の判定がＮＯならば、次のＩＤｎについてステップＳ３０８の判定が繰り返される。

実サイズが一致してステップＳ３０８の判定がＹＥＳになると、そのＩＤｎが、ステップＳ３０７で算出されている候補リスト中の花と同じ花であるか否かが判定される（図３のステップＳ３０９）。

ステップＳ３０９の判定がＮＯならば、次のＩＤｎについてステップＳ３０８の判定が繰り返される。

ステップＳ３０９の判定がＹＥＳになると、その花が、検索結果として出力されて、花の検索処理を終了する。

以上のステップＳ３０６からＳ３０９までの一連の処理が、図２の検索手段２０５の機能を実現する。

以上の図３に示される複数画像を利用したオブジェクト検索処理により、主要オブジェクト２０９である花の実サイズ２１１を算出してその情報を付加することにより、主要オブジェクト２０９である花の検索精度を向上させることが可能となる。この場合、デジタルカメラ１０１に元々備わっている例えば手ぶれ補正用の補正レンズ１０３の制御によって、主要オブジェクト２０９の実サイズ２１１を効率的に算出することが可能となる。

図６は、図３のステップＳ３０４のグラフカット処理を示すフローチャートである。

まず、矩形枠決定処理が実行される（図６のステップＳ６０１）。この処理では、ユーザが、例えば図１の撮像手段１０２〜１１０にて撮像して得た画像データ２０７（図２参照）のうちの１枚（例えば図３の画像Ａ）を、例えば図１の表示部１２２に表示させる。そして、その表示画像上で、認識したい物体（本実施形態では例えば花）が存在するおおよその領域に対して、例えばタッチパネル等の入力装置１１２を用いて、矩形枠を指定する。例えば、タッチパネル上での、指によるスライド動作である。

次に、画像範囲内の各画素に対して、主要オブジェクトと前記背景を領域分割する領域分割処理（グラフカット処理）が実行される（図６のステップＳ６０２）。この処理の詳細については、後述する。

一度領域分割処理が終了した後、収束判定が行われる（図６のステップＳ６０３）。この収束判定は、以下のいずれかが満たされたときに、ＹＥＳの判定結果となる。
・繰り返し回数が一定以上になった
・前回主要オブジェクトとされた領域面積と今回主要オブジェクトとされた領域面積の差が一定以下

ステップＳ６０３の判定で収束せず、その判定がＮＯであった場合、前回の領域分割処理の状況に応じて、ユーザが指定した矩形枠内の後述するコスト関数ｇ_v(Ｘ_v)が、次のようにして修正されてデータ更新される（図６のステップＳ６０４）。ステップＳ６０２の領域分割処理によって主要オブジェクトと判定された領域のヒストグラムと、事前に用意されている後述するヒストグラムθ（ｃ，０）が、カラー画素値ｃごとに混合（加算）される。これにより、新たな主要オブジェクトらしさを示すヒストグラムθ（ｃ，０）が生成され、それに基づいて新たなコスト関数ｇ_v(Ｘ_v)が計算される（後述する数１２式等を参照）。同様に、ステップＳ６０２の領域分割処理によって背景と判定された領域のヒストグラムと、事前に用意されている後述するヒストグラムθ（ｃ，１）が、カラー画素値ｃごとに例えば一定割合で混合（加算）される。これにより、新たな背景らしさを示すヒストグラムθ（ｃ，１）が生成され、それに基づいて新たなコスト関数ｇ_v(Ｘ_v)が計算される（後述する数１３式等を参照）。

ステップＳ６０３の判定が収束し、その判定がＹＥＳになると、図６のフローチャートで示される領域分割処理は終了とし、現在得られている主要オブジェクト領域が最終結果である主要オブジェクト２０９（図２参照）として出力される。

以下に、図６のステップＳ６０２の領域分割処理について、説明する。
いま、
を、要素Ｘ_vが画像Ｖにおける画素ｖに対する領域ラベルを示す領域ラベルベクトルであるとする。この領域ラベルベクトルは、例えば、画素ｖが主要オブジェクト領域内にあれば要素Ｘ_v＝０、背景領域内にあれば要素Ｘ_v＝１となるバイナリベクトルである。すなわち、
である。

本実施形態において実行される領域分割処理は、画像Ｖにおいて、次式で定義されるエネルギー関数Ｅ（Ｘ）を最小にするような数７式の領域ラベルベクトルＸを求める処理である。
エネルギー最小化処理が実行される結果、領域ラベルベクトルＸ上で領域ラベル値Ｘ_v＝０となる画素ｖの集合として、主要オブジェクト領域が得られる。本実施形態の例でいえば、矩形枠内の花の領域である。なお、領域ラベルベクトルＸ上で領域ラベル値Ｘ_v＝１となる画素ｖの集合が、背景領域（矩形枠外も含む）となる。

数９式のエネルギーを最小化するために、次式および図７で示される重み付き有向グラフ（以下「グラフ」と略す）を定義する。
ここで、Ｖはノード（ｎｏｄｅ）、Ｅはエッジ（ｅｄｇｅ）である。このグラフが画像の領域分割に適用される場合は、画像の各画素が各ノードＶに対応する。また、画素以外のノードとして、次式および図７中に示される、
と呼ばれる特殊なターミナルが追加される。このソースｓを主要オブジェクト領域、シンクｔを背景領域に対応付けて考える。また、エッジＥは、ノードＶ間の関係を表現している。周辺の画素との関係を表したエッジＥをｎ−ｌｉｎｋ、各画素とソースｓ（主要オブジェクト領域に対応）またはシンクｔ（背景領域に対応）との関係を表したエッジＥをｔ−ｌｉｎｋと呼ぶ。

いま、ソースｓと各画素に対応するノードとを結ぶ各ｔ−ｌｉｎｋを、各画素がどの程度主要オブジェクト領域らしいかを示す関係ととらえる。そして、その主要オブジェクト領域らしさを示すコスト値を、数９式第１項に対応付けて、
と定義する。ここで、θ（ｃ、０）は、学習用に用意した複数枚（数百枚程度）の主要オブジェクト領域画像から算出したカラー画素値ｃごとのヒストグラム（出現回数）を示す関数データであり、例えば図８（ａ）に示されるように予め得られている。なお、θ（ｃ、０）の全カラー画素値ｃにわたる総和は１になるように正規化されているものとする。また、Ｉ（ｖ）は、入力画像の各画素ｖにおけるカラー（ＲＧＢ）画素値である。実際には、カラー（ＲＧＢ）画素値を輝度値に変換した値の場合もあるが、特に言及の必要がなければ、以下では説明の簡単のために「カラー（ＲＧＢ）画素値」または「カラー画素値」と記載する。数１２式において、θ（Ｉ（ｖ）、０）の値が大きいほど、コスト値は小さくなる。これは、予め得られている主要オブジェクト領域のカラー画素値の中で出現回数が多いものほど、数１２式で得られるコスト値が小さくなって、画素ｖが主要オブジェクト領域中の画素らしいことを意味し、数９式のエネルギー関数Ｅ（Ｘ）の値を押し下げる結果となる。

次に、シンクｔと各画素に対応するノードとを結ぶ各ｔ−ｌｉｎｋを、各画素がどの程度背景領域らしいかを示す関係ととらえる。そして、その背景領域らしさを示すコスト値を、数９式第１項に対応付けて、
と定義する。ここで、θ（ｃ、1）は、学習用に用意した複数枚（数百枚程度）の背景領域画像から算出したカラー画素値ｃごとのヒストグラム（出現度数）を示す関数データであり、例えば図８（ｂ）に示されるように予め得られている。なお、θ（ｃ、１）の全カラー画素値ｃにわたる総和は１になるように正規化されているものとする。Ｉ（ｖ）は、数１２式の場合と同様に、入力画像の各画素ｖにおけるカラー（ＲＧＢ）画素値である。数１２式において、θ（Ｉ（ｖ）、１）の値が大きいほど、コスト値は小さくなる。これは、予め得られている背景領域のカラー画素値の中で出現回数が多いものほど、数１３式で得られるコスト値が小さくなって、画素ｖが背景領域中の画素らしいことを意味し、数９式のエネルギー関数Ｅ（Ｘ）の値を押し下げる結果となる。

次に、各画素に対応するノードとその周辺画素との関係を示すｎ−ｌｉｎｋのコスト値を、数９式第２項に対応付けて、
と定義する。ここで、ｄｉｓｔ（ｕ，ｖ）は、画素ｖとその周辺画素ｕのユークリッド距離を示しており、κは所定の係数である。また、Ｉ（ｕ）およびＩ（ｖ）は、入力画像の各画素ｕおよびｖにおける各カラー（ＲＧＢ）画素値である。実際には前述したように、カラー（ＲＧＢ）画素値を輝度値に変換した値であってもよい。画素ｖおよびその周辺画素ｕの各領域ラベル値Ｘ_uおよびＸ_vが同一（Ｘ_u＝Ｘ_v）となるように選択された場合における数１４式のコスト値は０とされて、エネルギーＥ（Ｘ）の計算には影響しなくなる。一方、画素ｖとその周辺画素ｕの各領域ラベル値Ｘ_uおよびＸ_vが異なる（Ｘ_u≠Ｘ_v）ように選択された場合における数１４式のコスト値は、例えば図９に示される特性を有する関数特性となる。すなわち、画素ｖおよびその周辺画素ｕの各領域ラベル値Ｘ_uおよびＸ_vが異なっていて、かつ画素ｖおよびその周辺画素ｕのカラー画素値（輝度値）の差Ｉ（ｕ）−Ｉ（ｖ）が小さい場合には、数１４式で得られるコスト値が大きくなる。この場合には、数９式のエネルギー関数Ｅ（Ｘ）の値が押し上げられる結果となる。言い換えれば、近傍画素間で、カラー画素値（輝度値）の差が小さい場合には、それらの画素の各領域ラベル値は、互いに異なるようには選択されない。すなわち、その場合には、近傍画素間では領域ラベル値はなるべく同じになって主要オブジェクト領域または背景領域はなるべく変化しないように、制御される。一方、画素ｖおよびその周辺画素ｕの各領域ラベル値Ｘ_uおよびＸ_vが異なっていて、かつ画素ｖおよびその周辺画素ｕのカラー画素値（輝度値）の差Ｉ（ｕ）−Ｉ（ｖ）が大きい場合には、数１４式で得られるコスト値が小さくなる。この場合には、数９式のエネルギー関数Ｅ（Ｘ）の値が押し下げられる結果となる。言い換えれば、近傍画素間で、カラー画素値（輝度値）の差が大きい場合には、主要オブジェクト領域と背景領域の境界らしいことを意味し、画素ｖとその周辺画素ｕとで、領域ラベル値が異なる方向に制御される
。

以上の定義を用いて、入力画像の各画素ｖごとに、数１２式によって、ソースｓと各画素ｖとを結ぶｔ−ｌｉｎｋのコスト値（主要オブジェクト領域らしさ）が算出される。また、数１３式によって、シンクｔと各画素ｖとを結ぶｔ−ｌｉｎｋのコスト値（背景領域らしさ）が算出される。さらに、入力画像の各画素ｖごとに、数１４式によって、画素ｖとその周辺例えば８方向の各８画素とを結ぶ８本のｎ−ｌｉｎｋのコスト値（境界らしさ）が算出される。

そして、理論的には、数７式の領域ラベルベクトルＸの全ての領域ラベル値の０または１の組合せごとに、各領域ラベル値に応じて上記数１２式、数１３式、および数１４式の計算結果が選択されながら数９式のエネルギー関数Ｅ（Ｘ）が計算される。そして、全ての組合せの中でエネルギー関数Ｅ（Ｘ）の値が最小となる領域ラベルベクトルＸを選択することにより、領域ラベルベクトルＸ上で領域ラベル値Ｘ_v＝０となる画素ｖの集合として、主要オブジェクト領域を得ることができる。

しかし実際には、領域ラベルベクトルＸの全ての領域ラベル値の０または１の組合せ数は、２の画素数乗通りあるため、現実的な時間でエネルギー関数Ｅ（Ｘ）の最小化処理を計算することができない。

そこで、ＧｒａｐｈＣｕｔｓ法では、次のようなアルゴリズムを実行することにより、エネルギー関数Ｅ（Ｘ）の最小化処理を現実的な時間で計算することを可能にする。
図１０は、上述した数１２式、数１３式で定義されるｔ−ｌｉｎｋと数１４式で定義されるｎ−ｌｉｎｋを有するグラフと、領域ラベルベクトルＸおよびグラフカットとの関係を、模式的に示した図である。図１０では、理解の容易化のために、画素ｖは一次元的に示されている。

数９式のエネルギー関数Ｅ（Ｘ）の第１項の計算で、領域ラベルベクトルＸ中の領域ラベル値が０となるべき主要オブジェクト領域中の画素では、数１２式と数１３式のうち、主要オブジェクト領域中の画素らしい場合により小さな値となる数１２式のコスト値のほうが小さくなる。従って、ある画素において、ソースｓ側のｔ−ｌｉｎｋが選択されシンクｔ側のｔ−ｌｉｎｋがカットされて（図１０の１００２のケース）、数１２式を用いて数９式のＥ（Ｘ）の第１項が計算された場合に、その計算結果が小さくなれば、その画素の領域ラベル値としては０が選択される。そして、そのグラフカット状態が採用される。計算結果が小さくならなければ、そのグラフカット状態は採用されず、他のリンクの探索およびグラフカットが試みられる。

逆に、領域ラベルベクトルＸ中の領域ラベル値が１となるべき背景領域中の画素では、数１２式と数１３式のうち、背景領域中の画素らしい場合により小さな値となる数１３式のコスト値のほうが小さくなる。従って、ある画素において、シンクｔ側のｔ−ｌｉｎｋが選択されソースｓ側のｔ−ｌｉｎｋはカットされて（図１０の１００３のケース）、数１３式を用いて数９式のＥ（Ｘ）の第１項が計算された場合に、その計算結果が小さくなれば、その画素の領域ラベル値としては１が選択される。そして、そのグラフカット状態が採用される。計算結果が小さくならなければ、そのグラフカット状態は採用されず、他のリンクの探索およびグラフカットが試みられる。

一方、数９式のエネルギー関数Ｅ（Ｘ）の第１項の計算に係る上記領域分割（グラフカット）処理により、領域ラベルベクトルＸ中の領域ラベル値が０または１で連続すべき主要オブジェクト領域内部または背景領域内部の画素間では、数１４式のコスト値が０となる。従って、数１４式の計算結果は、エネルギー関数Ｅ（Ｘ）の第２項のコスト値の計算には影響しない。また、その画素間のｎ−ｌｉｎｋは、数１４式がコスト値０を出力するように、カットされずに維持される。

ところが、エネルギー関数Ｅ（Ｘ）の第１項の計算に係る上記領域分割（グラフカット）処理により、近傍画素間で、領域ラベル値が０と１の間で変化した場合に、それらの画素間のカラー画素値（輝度値）の差が小さければ、数１４式のコスト値が大きくなる。この結果、数９式のエネルギー関数Ｅ（Ｘ）の値が押し上げられる。このようなケースは、同一領域内で第１項の値による領域ラベル値の判定がたまたま反転するような場合に相当する。従って、このようなケースでは、エネルギー関数Ｅ（Ｘ）の値が大きくなって、そのような領域ラベル値の反転は選択されない結果となる。また、この場合には、数１４式の計算結果が、上記結果を維持するように、それらの画素間のｎ−ｌｉｎｋは、カットされずに維持される。

これに対して、エネルギー関数Ｅ（Ｘ）の第１項の計算に係る上記領域分割（グラフカット）処理により、近傍画素間で、領域ラベル値が０と１の間で変化した場合に、それらの画素間のカラー画素値（輝度値）の差が大きければ、数１４式のコスト値が小さくなる。この結果、数９式のエネルギー関数Ｅ（Ｘ）の値が押し下げられる。このようなケースは、それらの画素部分が主要オブジェクト領域と背景領域の境界らしいことを意味している。従って、このようなケースでは、これらの画素間で領域ラベル値を異ならせて、主要オブジェクト領域と背景領域の境界を形成する方向に制御される。また、この場合には、境界の形成状態を安定化するために、それらの画素間のｎ−ｌｉｎｋがカットされて、数９式の第２項のコスト値が０にされる（図１０の１００４のケース）。

以上の判定制御処理が、ソースｓのノードを起点にして、順次各画素のノードをたどりながら繰り返されることにより、図１０の１００１で示されるようなグラフカットが実行され、エネルギー関数Ｅ（Ｘ）の最小化処理が現実的な時間で計算される。この処理の具体的な手法としては、例えば、非特許文献１に記載されている手法を採用することができる。

そして、各画素ごとに、ソースｓ側のｔ−ｌｉｎｋが残っていれば、その画素の領域ラベル値として０、すなわち主要オブジェクト領域の画素を示すラベルが付与される。逆に、シンクｔ側のｔ−ｌｉｎｋが残っていれば、その画素の領域ラベル値として１、すなわち背景領域の画素を示すラベルが付与される。最終的に、領域ラベル値が０となる画素の集合として、主要オブジェクト領域が得られる。

図１１は、上述した動作原理に基づく図６のステップＳ６０２の領域分割処理を示すフローチャートである。

まず、１枚分の画像データ２０７から、カラー画素値Ｉ（Ｖ）が１つずつ読み込まれる（図１１のステップＳ１１０１）。

次に、ステップＳ１１０１で読み込まれた画素が、ユーザによって指定された矩形枠内の画素であるか否かが判定される（図１１のステップＳ１１０２）。

ステップＳ１１０２の判定がＹＥＳの場合には、前述した数１２式、数１３式、および数１４式に基づいて、主要オブジェクト領域らしさを示すコスト値、背景領域らしさを示すコスト値、および境界らしさを示すコスト値が、それぞれ算出される（図１１のステップＳ１１０３、Ｓ１１０４、およびＳ１１０５）。なお、θ（ｃ、０）の初期値は、学習用に用意した複数枚（数百枚程度）の主要オブジェクトの領域から算出される。同様に、θ（ｃ、１）の初期値は、学習用に用意した複数枚（数百枚程度）の背景の領域から算出される。

一方、ステップＳ１１０２の判定がＮＯの場合には、矩形の枠外には主要オブジェクト領域はないため、そこが主要オブジェクト領域と判定されないようにするために、主要オブジェクト領域らしさを示すコスト値ｇ_v(Ｘ_v)が、次式のように一定の大きな値Ｋとされる。
ここで、Ｋは、次式に示されるように、任意のピクセルの平滑化項の総和よりも大きい値を設定しておく（以上、図１１のステップＳ１１０６）。

また、矩形の枠外が必ず背景領域と判定されるようにするために、背景領域らしさを示すコスト値ｇ_v(Ｘ_v)が、次式のように０とされる（図１１のステップＳ１１０７）。

さらに、矩形の枠外は全て背景領域であるため、ｈ_uv（Ｘ_u,Ｘ_v）の値は０とされる（図１１のステップＳ１１０８）。

以上の処理の後、画像内に処理すべき画素が残っているか否かが判定される（図１１のステップＳ１１０９）。

処理すべき画素がありステップＳ１１０９の判定がＹＥＳならば、ステップＳ１１０１の処理に戻って、上記処理が繰り返される。

処理すべき画素がなくなりステップＳ１１０９の判定がＮＯになると、画像内の全ての画素について求まったコスト値を用いて、数９式のエネルギー関数Ｅ（Ｘ）が計算されながら、ＧｒａｐｈＣｕｔｓアルゴリズムが実行され、主要オブジェクト２０９（図２参照）と背景が領域分割される（ステップＳ１１１０）。

以上のようにして、本実施形態では、背景領域内に存在する主要オブジェクト２０９の花等と同じ色の特定画素値ｃ_mについては、背景のヒストグラムが更新されないように抑制される。これにより、次回以降、領域分割手段２０１における領域分割処理において、誤ったヒストグラムデータを用いて領域分割が行われることがなくなり、背景領域と主要オブジェクト領域とで誤認識をする割合が減少し、領域分割の精度を向上させることが可能となる。

以上の実施形態の説明では、主要オブジェクト２０９（図２）が花である場合を例に説明したが、主要オブジェクト２０９としては、花に限られず、様々なオブジェクトを採用することができる。

以上の実施形態に関して、更に以下の付記を開示する。
（付記１）
被写体に対して光軸が移動した複数枚の画像データを取得する撮像手段と、
前記複数枚の画像データに基づいて、前記撮像手段から前記被写体までの距離を算出する距離算出手段と、
前記画像データから前記被写体中の主要オブジェクトの領域を切り抜く切抜き手段と、
前記切り抜いた主要オブジェクトの前記画像データ上での大きさと前記撮像手段から被写体までの距離と前記撮像手段の焦点距離とから前記主要オブジェクトの実サイズを算出する実サイズ算出手段と、
前記実サイズの情報を付加して主要オブジェクトのデータベースにアクセスすることにより前記主要オブジェクトの種類を検索する検索手段と、
を備えることを特徴とする複数画像を利用したオブジェクト検索装置。
（付記２）
前記撮像手段は、光軸を移動させることにより手ぶれを補正する補正レンズを備え、該補正レンズの光軸を移動させながら前記複数枚の画像データを取得する、
ことを特徴とする付記１に記載の複数画像を利用したオブジェクト検索装置。
（付記３）
前記切抜き手段は、前記画像データの各画素に付与する前記主要オブジェクトまたは前記背景を示す領域ラベル値を更新しながら、該領域ラベル値と前記各画素の画素値とに基づいて、前記主要オブジェクトらしさまたは前記背景らしさと隣接画素間の前記画素値の変化を評価するエネルギー関数の最小化処理により、前記画像データ内で前記主要オブジェクトと前記背景を領域分割して前記主要オブジェクトを切り抜く、
ことを特徴とする付記１または２のいずれかに記載の複数画像を利用したオブジェクト検索装置。
（付記４）
前記切抜き手段は、ＧｒａｐｈＣｕｔｓ法により前記エネルギー関数の最小化処理を実行する、
ことを特徴とする付記３に記載の複数画像を利用したオブジェクト検索装置。
（付記５）
被写体に対して光軸が移動した複数枚の画像データを取得する撮像ステップと、
前記複数枚の画像データに基づいて、前記撮像手段から前記被写体までの距離を算出する距離算出ステップと、
前記画像データから前記被写体中の主要オブジェクトの領域を切り抜く切抜きステップと、
前記切り抜いた主要オブジェクトの前記画像データ上での大きさと前記撮像手段から被写体までの距離と前記撮像手段の焦点距離とから前記主要オブジェクトの実サイズを算出する実サイズ算出ステップと、
前記実サイズの情報を付加して主要オブジェクトのデータベースにアクセスすることにより前記主要オブジェクトの種類を検索する検索ステップと、
を備えることを特徴とする複数画像を利用したオブジェクト検索方法。
（付記６）
被写体に対して光軸が移動した複数枚の画像データを取得する撮像ステップと、
前記複数枚の画像データに基づいて、前記撮像手段から前記被写体までの距離を算出する距離算出ステップと、
前記画像データから前記被写体中の主要オブジェクトの領域を切り抜く切抜きステップと、
前記切り抜いた主要オブジェクトの前記画像データ上での大きさと前記撮像手段から被写体までの距離と前記撮像手段の焦点距離とから前記主要オブジェクトの実サイズを算出する実サイズ算出ステップと、
前記実サイズの情報を付加して主要オブジェクトのデータベースにアクセスすることにより前記主要オブジェクトの種類を検索する検索ステップと、
をコンピュータに実行させるためのプログラム。

１０１デジタルカメラ
１０２撮像レンズ
１０３補正レンズ
１０４レンズ駆動ブロック
１０５絞り兼用シャッタ
１０６ＣＣＤ
１０７垂直ドライバ
１０８ＴＧ（ＴｉｍｉｎｇＧｅｎｅｒａｔｏｒ：タイミング発生回路）
１０９ユニット回路
１１０、１１８、１２０、１２１、１２３、１２５ＤＭＡ（ＤｉｒｅｃｔＭｅｍｏｒｙＡｃｃｅｓｓ）コントローラ
１１１ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：中央演算処理装置）
１１２キー入力部
１１３メモリ
１１４ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）
１１５通信部
１１６主要オブジェクトのデータベース
１１７ブレ検出部
１１９画像生成部
１２２表示部
１２４圧縮伸張部
１２６フラッシュメモリ
１２７バス
２０１撮像手段
２０２距離算出手段
２０３切抜き手段
２０４実サイズ算出手段
２０５検索手段
２０６被写体
２０７画像データ
２０８距離
２０９主要オブジェクト
２１０焦点距離
２１１実サイズ

Claims

画像データを取得する撮像手段と、
前記画像データの各画素に付与する主要オブジェクトまたは背景を示す領域ラベル値を更新しながら、該領域ラベル値と前記各画素の画素値とに基づいて、前記主要オブジェクトらしさまたは前記背景らしさと隣接画素間の前記画素値の変化を評価するエネルギー関数の最小化処理により、前記画像データ内で前記主要オブジェクトと前記背景を領域分割して前記主要オブジェクトを切り抜く切抜き手段と、
前記切抜き手段により切り抜かれた前記主要オブジェクトの実サイズを算出する実サイズ算出手段と、
前記切抜き手段により切り抜かれた前記主要オブジェクトに対応する画像データに、前記実サイズの情報を付加して主要オブジェクトのデータベースにアクセスすることにより前記主要オブジェクトの種類を検索する検索手段と、を備え、
前記切抜き手段は、前記背景に存在する前記主要オブジェクトと同じ色の前記画素値については、前記背景を示す領域ラベル値が更新されないようにすることを特徴とするオブジェクト検索装置。
前記撮像手段は、被写体に対して光軸が移動した複数枚の画像データを取得し、
前記複数枚の画像データに基づいて、前記撮像手段から前記被写体までの距離を算出する距離算出手段を更に備え、
前記実サイズ算出手段は、前記複数枚の画像データの何れか一つの画像データに存在する被写体中の主要オブジェクトの前記画像データ上での大きさと前記撮像手段から被写体までの距離と前記撮像手段の焦点距離とから前記主要オブジェクトの実サイズを算出することを特徴とする請求項１に記載のオブジェクト検索装置。
前記撮像手段は、光軸を移動させることにより手ぶれを補正する補正レンズを備え、該補正レンズの光軸を移動させながら前記複数枚の画像データを取得する、
ことを特徴とする請求項２に記載のオブジェクト検索装置。
画像データを取得する撮像ステップと、
前記画像データの各画素に付与する主要オブジェクトまたは背景を示す領域ラベル値を更新しながら、該領域ラベル値と前記各画素の画素値とに基づいて、前記主要オブジェクトらしさまたは前記背景らしさと隣接画素間の前記画素値の変化を評価するエネルギー関数の最小化処理により、前記画像データ内で前記主要オブジェクトと前記背景を領域分割して前記主要オブジェクトを切り抜く切抜きステップと、
前記切抜きステップにより切り抜かれた前記主要オブジェクトの実サイズを算出する実サイズ算出ステップと、
前記切抜きステップにより切り抜かれた前記主要オブジェクトに対応する画像データに、前記実サイズの情報を付加して主要オブジェクトのデータベースにアクセスすることにより前記主要オブジェクトの種類を検索する検索ステップと、を含み、
前記切抜きステップは、前記背景に存在する前記主要オブジェクトと同じ色の前記画素値については、前記背景を示す領域ラベル値が更新されないようにすることを特徴とするオブジェクト検索方法。
オブジェクト検索を実行するコンピュータに、
画像データを取得する撮像手段、
前記画像データの各画素に付与する主要オブジェクトまたは背景を示す領域ラベル値を更新しながら、該領域ラベル値と前記各画素の画素値とに基づいて、前記主要オブジェクトらしさまたは前記背景らしさと隣接画素間の前記画素値の変化を評価するエネルギー関数の最小化処理により、前記画像データ内で前記主要オブジェクトと前記背景を領域分割して前記主要オブジェクトを切り抜く切抜き手段、
前記切抜き手段により切り抜かれた前記主要オブジェクトの実サイズを算出する実サイズ算出手段、
前記切抜き手段により切り抜かれた前記主要オブジェクトに対応する画像データに、前記実サイズの情報を付加して主要オブジェクトのデータベースにアクセスすることにより前記主要オブジェクトの種類を検索する検索手段、として実行させ、
前記切抜き手段は、前記背景に存在する前記主要オブジェクトと同じ色の前記画素値については、前記背景を示す領域ラベル値が更新されないようにすることを特徴とするプログラム。