JP2014041560A

JP2014041560A - 画像処理装置、画像処理方法

Info

Publication number: JP2014041560A
Application number: JP2012184572A
Authority: JP
Inventors: Hirotaka Shiiyama; 弘隆椎山
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2012-08-23
Filing date: 2012-08-23
Publication date: 2014-03-06
Anticipated expiration: 2032-08-23
Also published as: JP5963609B2

Abstract

【課題】局所特徴量を用いた検索の対象となるオブジェクトを選ばない性質と、画像認識の誤りが比較的少ない性質とを併せ持った画像検索を実現する技術を提供すること。
【解決手段】クエリ画像に対して画像認識処理を行うことで該クエリ画像中のオブジェクトの属性を取得し、該取得した属性と関連付けて前記データベースが管理している画像を特定する。特定した画像と関連づけてデータベースが管理している認識尤度を、クエリ画像に対する該特定した画像の類似度とし、該特定した画像に関する情報と、該類似度と、を画像検索結果として出力する。
【選択図】図２

Description

本発明は、局所特徴を用いたオブジェクト単位での画像検索のための画像処理技術に関するものである。

画像の局所的な特徴量（局所特徴量）を用いて類似画像を検索する方法が提案されている。この方法では、まず、画像から特徴的な点（局所特徴点）を抽出する（非特許文献１）。そして、該局所特徴点とその周辺の画素群とに基づいて、該局所特徴点に対応する特徴量（局所特徴量）を計算する（非特許文献２）。画像の検索は、局所特徴量同士のマッチングによって行う。

従来の検索結果の表示方法は、多くの場合、クエリ画像と検索先画像（サンプル画像）との間の類似度を局所特徴量のマッチングにより算出し、類似度順にサムネール画像を表示する。

他方、局所特徴量を用いて機械学習を行う画像認識技術も提案されている（非特許文献３）。これは、複数の学習画像を用意して機械学習することにより、共通に存在するオブジェクトを検出する技術であり、デジタルスチルカメラ等における顔検出技術等で実用化されている。上記、局所特徴量を用いた画像検索に比べ、機械学習による効果により、誤って認識される割合が比較的少ないという特性を持つ。しかしながら、画像認識技術は前述の様に、予め機械学習を行う必要があり、万物に対応する事は非現実的である。

画像認識技術と画像特徴量検索を併用して認識精度の向上を行う提案もなされている（特許文献１）。これは、再生した画像データから顔画像を検出し、検出した顔画像から個人識別情報を抽出することを、通常の顔画像、サングラスをかけた顔画像、帽子を被った顔画像の夫々について行う。そして、それらが同一人物のものであるとしてそれらを相互に関連付けて記憶する。その後、撮像した画像から顔を検出し、顔画像の特徴点付近に動きがあった場合、動きのあった位置と、動きの方向とに基づいて個人識別情報を切り替える。そして、帽子やサングラスの部分を含めて個人の識別を行う。したがって、個人の識別精度や、顔の追従精度を高めることができる。

C.Harris and M.J. Stephens,"A combined corner and edge detector," In Alvey Vision Conference,pages 147-152, 1988. David G. Lowe, "Distinctive Image Features from Scale-Invariant Keypoints," International Journal of Computer Vision, 60, 2 (2004), pp.91-110. 柳井, "一般物体認識の現状と今後," 情報処理学会論文誌：コンピュータビジョンとイメージメディア Nov.2007, Vol.48 No.SIG 16(CVIM 19)

特開2011-76439号公報

特許文献1では、顔検出結果とその近傍の画像特徴を含めて同一のものであると判断しており、検索処理ではないものの、顔検出結果とその他の部分の画像特徴量を合わせてマッチングをしている。しかし、顔は器官検出ベースの特徴点特徴量、顔の近傍の帽子などは形状と色特徴でそれぞれ異なる特徴であり、顔検出に用いる特徴量と画像特徴量検索に用いる画像特徴量の共通化の概念は無く、画像認識と画像特徴量比較が独立した処理となっている。

局所特徴量を用いた検索の対象となるオブジェクトを選ばない性質と、画像認識の対象画像オブジェクトが限られるが誤った検出が比較的少ないという性質を持ち合わせた、良好な検索結果をもたらす画像検索を実現できていない。画像から抽出した局所特徴量を画像認識に流用して効率化することも行っていない。

画像認識技術は、ある認識ターゲットに対して多量の学習データを用いて機械学習を行う事で、画像特徴の検索に比べ精度の高い検索が期待できる。しかし、学習画像はアピアランスの異なるものを与える事が通常であり、認識尤度は即、クエリ画像との類似性を示すものでは無いので、画像認識の結果を用いた検索だけでは不十分である。

更に、画像認識の対象は時間が経つとともに増加するので、過去に登録した画像に対して新しい画像認識結果を適応する場合には、通常、再登録処理を行う必要があり、又、当然画像データが参照できる環境で無ければならない。反対に、局所特徴量を用いた検索では、機械的に見て特徴量が類似している検索結果を出してしまうので、その検索結果を人間が見ると全く違うオブジェクトであることがある。

本発明は、上記の課題に鑑みてなされたものであり、局所特徴量を用いた検索の対象となるオブジェクトを選ばない性質と、画像認識の誤りが比較的少ない性質とを併せ持った画像検索を実現する技術を提供することを目的とする。

本発明の目的を達成するために、例えば、本発明の画像処理装置は、それぞれの画像について、該画像に対する画像認識処理によって得られた該画像中の１以上のオブジェクトのそれぞれの属性及び認識尤度を、該画像と関連付けて管理しているデータベースにアクセス可能な画像処理装置であって、クエリ画像に対して画像認識処理を行うことで該クエリ画像中のオブジェクトの属性を取得し、該取得した属性と関連付けて前記データベースが管理している画像を特定する特定手段と、前記特定手段が特定した画像と関連づけて前記データベースが管理している認識尤度を、前記クエリ画像に対する該特定した画像の類似度とし、該特定した画像に関する情報と、該類似度と、を画像検索結果として出力する出力手段とを備えることを特徴とする。

本発明の構成によれば、局所特徴量を用いた検索の対象となるオブジェクトを選ばない性質と、画像認識の誤りが比較的少ない性質とを併せ持った画像検索を実現することができる。

画像処理装置のハードウェア構成例を示すブロック図。画像処理装置の機能構成例を示すブロック図。画像特徴抽出・認識処理部２０２（２０２’）の機能構成例を示すブロック図。特徴点／局所特徴量算出部３０３が行う処理のフローチャート。スケールスペースを説明する図。画像登録処理のフローチャート。ＤＢ２０４内のインデックススキーマを示す図。登録画像及びクエリ画像を示す図。ＤＢ２０４に登録される各インデックスを示す図。画像検索処理のフローチャート。画像検索処理のフローチャート。画像検索処理のフローチャート。ＤＢインデックスを更新する処理のフローチャート。

以下、添付図面を参照し、本発明の好適な実施形態について説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載の構成の具体的な実施例の１つである。

＜はじめに＞
第１の実施形態の説明の前に、各実施形態で述べる概要を説明する。登録画像より特徴点を検出しその特徴点の局所特徴量を抽出し、更に画像認識処理し、画像中の認識対象のメタデータを抽出するとともに、これらを合わせて記憶する。予め、画像認識の準備として、認識対象を含んだ画像、含まない画像を学習用に準備し、機械学習を行っておく。

そして、画像認識処理を行った結果の認識対象のメタデータには少なくとも認識対象の属性を含む。更にメタデータには、認識対象の領域情報と、認識尤度の少なくともいずれか１つを記憶しておく。尚、局所特徴には特徴点の位置情報を含む事とする。検索時は、クエリ画像を登録時と同様、画像認識処理し画像中の認識対象のメタデータを抽出する。

画像認識処理で用いる局所特徴量を、画像検索処理で用いる局所特徴量と共通化することにより、局所特徴量の類似度の比較結果と画像認識の結果が大きく異ならないようにする。例えば、局所特徴量が輝度情報から得られるもので、画像認識が色情報を用いたものであると、それぞれでヒットする画像の見かけが大きく異なるものとなってしまう。

クエリ画像に対して画像認識処理を行い、認識対象のメタデータが得られた場合に、認識対象のメタデータ及び認識対象の領域の局所特徴量の少なくとも片方を用いてマッチングするが、認識対象が無かった場合に局所特徴のみを用いてマッチングする。これにより、画像認識の誤検出の少なさを生かしながらも、画像認識の対象が有限である影響を画像特徴量検索処理で緩和した画像検索処理が可能となる。

また、クエリ画像に対して画像認識処理を行って認識対象のメタデータが得られた場合に、同じ認識対象の属性を持つ画像に絞り込み、認識対象の領域中の局所特徴比較を行い、認識対象が無かった場合に局所特徴を用いて画像特徴量比較処理する方法も有る。

このメリットとしては、登録画像とクエリ画像の認識領域中の局所特徴量を比較することにより、認識尤度だけでは解決できなかったクエリとの類似性を反映しつつ、認識結果を絞り込みに使用した効率の良い検索処理を行う事が可能になる。

更に次のような方法もある。即ち、クエリ画像に対して画像認識処理を行い、認識対象のメタデータが得られた場合、認識対象の属性を用いてマッチングし、認識尤度を得て更に局所特徴を用いて画像特徴量比較を行って類似度を得て認識尤度と類似度の重み付け和で総合類似度を算出する。そして、認識対象が無かった場合に局所特徴を用いて画像特徴量検索処理する。これにより、処理コストは増えるものの、画像認識が失敗した時にも、検索漏れを減らす事が可能となる。

なお、クエリ画像で認識率の低い認識対象が検出された場合には、認識尤度への重みを低くし、認識率が高い認識対象の場合には高い値の重みとすると良好な結果が得られる。更に、類似度の重みが零の場合には局所特徴を用いた画像特徴比較処理を行わないと、無駄な処理を防ぐ事が出来る。

ところで、メタデータを用いてマッチングを行う際、認識メタデータの比較は同一属性であるかを判断し、尤度をその類似度へ換算する事が最も簡便な方法である。また、局所特徴を用いてマッチングを行う際、画像認識領域に含まれる局所特徴量のマッチングで求めた類似度を用いることで、真にクエリ画像の対応する領域との類似性で比較を行う事が可能となる。

もちろん、尤度と画像全体の特徴点に対する局所特徴量のマッチングで求めた類似度を統合した類似度を算出しても良い。このメリットは、画像認識で得た尤度を緩やかに検索結果に反映する事が可能となり、画像認識の失敗の影響を緩和し、よりロバストな検索が可能である事である。

ところで、画像認識処理と画像特徴検索処理において共通の局所特徴を用いる事により、画像認識の対象が増えた場合でも既に抽出した局所特徴を用いる事により、登録済みの画像を再解析を行う事無く画像認識を行う事が可能となる。その結果得たメタデータを追加記憶する事が可能となる。

これにより、画像認識対象が増えた場合に、過去に登録した画像を最初から解析する事無く、安価な処理コストで増えた画像認識対象を反映した画像検索用のＤＢを更新する事が可能となる。

［第１の実施形態］
先ず、本実施形態に係る画像処理装置のハードウェア構成例について、図１のブロック図を用いて説明する。なお、図１に示した構成はあくまでも一例であり、画像処理装置が行うものとして後述する各処理を実行可能な構成であれば、如何なる構成を採用しても良い。例えば、画像を撮像して本装置に入力するためのディジタルカメラを本装置に接続するようにしても良い。また、本装置で検索結果として得た情報を外部の機器に対して出力可能な構成を加えても良い。

ＣＰＵ１０１は、ＲＡＭ１０５やＲＯＭ１０６に格納されているコンピュータプログラムやデータを用いて処理を実行することで、画像処理装置全体の動作制御を行うと共に、画像処理装置が行うものとして後述する各処理を実行する。

入力装置１０２は、アルファベットキー、ひらがなキー、カタカナキー、句点等の文字記号入力キー、カーソル移動を指示するカーソル移動キー等のような、各種の機能キーを有するキーボードや、マウス、スティックポインタなどにより構成されている。ユーザはこの入力装置１０２を操作することで各種の指示をＣＰＵ１０１に対して入力することができる。

出力装置１０３は、ＣＲＴや液晶画面等により構成されている表示装置であり、ＣＰＵ１０１による処理結果を画像や文字などでもって表示することができる。

記憶装置１０４には、ＯＳ（オペレーティングシステム）や、後述するデータベース、画像処理装置が行うものとして後述する各処理をＣＰＵ１０１に実行させるためのコンピュータプログラムやデータが保存されている。また、既知の情報として後述する各情報も、この記憶装置１０４に保存されている。記憶装置１０４に保存されているコンピュータプログラムやデータは、ＣＰＵ１０１による制御に従って適宜ＲＡＭ１０５にロードされ、ＣＰＵ１０１による処理対象となる。なお、この記憶装置１０４には、ハードディスク、CD-ROM、DVD-ROM、フラッシュメモリ等を用いることができる。

ＲＡＭ１０５は、記憶装置１０４からロードされたコンピュータプログラムやデータを一時的に記憶するためのエリア、ＣＰＵ１０１が各種の処理を実行する際に用いるワークエリア、等を有する。即ち、ＲＡＭ１０５は、各種のエリアを適宜提供することができる。ＲＯＭ１０６には、画像処理装置の設定データやブートプログラムなどが格納されている。上記の各部はバス（ＢＵＳ）１０７に接続されている。

次に、本画像処理装置への画像登録処理と、登録した画像から目的の画像をクエリ画像に基づいて検索する画像検索処理と、について説明する。画像登録処理及び画像検索処理の為に使用する画像処理装置の機能の構成例について図２のブロック図を用いて説明する。

画像特徴抽出・認識処理部２０２は、記憶装置１０４からロードされた、若しくは外部機器から入力された登録画像２０１から特徴点（局所特徴点）とその特徴量（局所特徴量）を抽出し、抽出した特徴量を用いて登録画像２０１に対する画像認識処理を行う。そして画像特徴抽出・認識処理部２０２は、この画像認識処理の結果をメタデータとして出力する。このメタデータには、登録画像２０１中における特徴点の座標位置と該特徴点における特徴量、登録画像２０１中で認識できたオブジェクトの属性を示す属性情報、画像認識尤度、該オブジェクトの領域を示す領域情報、が含まれている。画像特徴抽出・認識処理部２０２の詳細については、図３を用いて後述する。

本実施形態では、局所特徴量を共通化する事により、局所特徴量の比較結果と画像認識の結果が大きく異ならないようにする。それぞれの結果が大きく異なってしまう例としては、局所特徴量が輝度情報から得られるもので、画像認識で色情報を用いると、これらをハイブリッドした場合にそれぞれでヒットする画像の見かけが大きく異なり不自然に結果となってしまう。

画像特徴・認識結果登録処理部２０３は、画像特徴抽出・認識処理部２０２が出力したメタデータを、このメタデータの生成元である登録画像２０１と関連付けてデータベース（ＤＢ）２０４に登録する。このように、画像処理装置２００は、登録画像２０１が入力されるたびに、該登録画像２０１から上記のメタデータを生成し、該生成したメタデータを該登録画像２０１と関連付けてＤＢ２０４に登録する、いわゆる画像登録処理を行う。

画像特徴抽出・認識処理部２０２’は、受け付ける画像が画像特徴抽出・認識処理部２０２と異なるだけで、画像特徴抽出・認識処理部２０２と同様の構成を有し且つ同様の動作を行うものである。画像特徴抽出・認識処理部２０２’は、記憶装置１０４からロードされた、若しくは外部機器から入力されたクエリ画像２０５から特徴点とその特徴量を抽出し、抽出した特徴量を用いて該クエリ画像２０５に対する画像認識処理を行う。そして画像特徴抽出・認識処理部２０２’は、この画像認識処理の結果をメタデータとして出力する。このメタデータには、クエリ画像２０５中における特徴点の座標位置と該特徴点における特徴量、クエリ画像２０５中で認識できたオブジェクトの属性を示す属性情報、画像認識尤度、該オブジェクトの領域を示す領域情報、が含まれている。画像特徴抽出・認識処理部２０２’の詳細については、図３を用いて後述する。

画像比較処理部２０６は、画像特徴抽出・認識処理部２０２’によってクエリ画像２０５から生成されたメタデータを用いてＤＢ２０４から画像検索を行い、画像検索結果（検索処理結果）２０７を出力する。ここでいう検索は、局所特徴量同士を比較する検索ではなく、画像認識結果のメタデータが一致または類似するかどうか比較する検索である。画像比較処理部２０６の詳細については後述する。

ＤＢ２０４は、画像処理装置内に備えることに限るものではなく、画像処理装置がアクセス可能に該画像処理装置に直接的若しくは間接的に接続されていれば、その接続形態は特定の接続形態に限るものではない。

なお、図２に示した各部はハードウェアで構成しても良いが、本実施形態では、ＤＢ２０４を除く各部（認識辞書３０５は除く）はコンピュータプログラムで実装し、ＤＢ２０４及び認識辞書３０５は記憶装置１０４で実装する。また、以下の説明では、図２の各部を動作の主体として説明するが、実際には、ＣＰＵ１０１が対応する機能部のコンピュータプログラムを実行することで対応する動作が実行される。

次に、画像特徴抽出・認識処理部２０２（２０２’）の機能構成例について、図３のブロック図を用いて説明する。

画像入力部３０２は、入力画像３０１（画像特徴抽出・認識処理部２０２の場合は登録画像２０１、画像特徴抽出・認識処理部２０２’の場合はクエリ画像２０５に相当する）を受けると、この入力画像３０１を特徴点／局所特徴量算出部３０３に転送する。

特徴点／局所特徴量算出部３０３は、画像入力部３０２から転送された入力画像３０１から、特徴点とその特徴量を算出する。特徴点／局所特徴量算出部３０３の動作の詳細については後述する。

画像認識処理部３０４は、認識辞書３０５を参照しながら、特徴点／局所特徴量算出部３０３が求めた特徴点とその特徴量を用いて、入力画像３０１に対する画像認識処理を行う。認識辞書３０５には複数の画像認識対象の情報が登録されている。そして画像認識処理部３０４は、画像認識処理の結果として上記のメタデータを局所特徴量及び画像認識結果３０６として出力する。

次に、特徴点／局所特徴量算出部３０３についてより詳細に説明する。従来技術として説明したように、画像の局所的な特徴量（局所特徴量）を用いたマッチングにより類似画像を検索する方法、画像特徴量検索が提案されている。

局所特徴量を利用する手法においては、局所特徴量を回転不変、拡大・縮小不変となる複数の要素で構成される情報として定義する。これにより、画像を回転させたり、拡大又は縮小させたりした場合であっても、検索を可能にする。

局所特徴量は一般的にベクトルとして表現される。ただし、局所特徴量が回転不変、拡大・縮小不変であることは理論上の話であり、実際のデジタル画像においては、線形補間をするので、画像の回転や拡大・縮小処理前の局所特徴量と処理後の対応する局所特徴量との間に若干の変動が生じる。

回転不変の局所特徴量を算出するために、たとえば非特許文献２では、局所特徴点周辺の局所領域の画素パターンから主方向を算出し、局所特徴量算出時に主方向を基準に局所領域を回転させて方向の正規化を行う。

また、拡大・縮小不変の局所特徴量を算出するために、異なるスケールの画像を内部で生成し、各スケールの画像からそれぞれ局所特徴点の抽出と局所特徴量の算出を行う。ここで、内部で生成した一連の異なるスケールの画像集合は一般的にスケールスペースと呼ばれ、図５にその概要を示す。各特徴点の特徴量は、方向の正規化の際の回転角度および特徴量を算出したスケールスペースも記憶する。

次に、特徴点／局所特徴量算出部３０３が行う処理について、同処理のフローチャートを示す図４を用いて説明する。ステップＳ４０１では、画像入力部３０２から転送された入力画像３０１を受け取り、ステップＳ４０２では、この入力画像３０１の輝度画像を生成する。

ステップＳ４０３では、ステップＳ４０２で生成した輝度画像の縮小画像を生成し、ステップＳ４０４では、この縮小画像から特徴点を抽出し、ステップＳ４０５では、この特徴点における特徴量を抽出する。

次に、画像比較処理部２０６の詳細について説明する。特徴点／局所特徴量の比較に基づく画像の照合方法にはいろいろあるが、ここでは以下の文献で説明がなされているＲＡＮＳＡＣを利用した方法を説明する。

Ｍ．Ａ．ＦｉｓｃｈｌｅｒａｎｄＲ．Ｃ．Ｂｏｌｌｅｓ， “Ｒａｎｄｏｍｓａｍｐｌｅｃｏｎｓｅｎｓｕｓ：Ａｐａｒａｄｉｇｍｆｏｒｍｏｄｅｌｆｉｔｔｉｎｇｗｉｔｈａｐｐｌｉｃａｔｉｏｎｓｔｏｉｍａｇｅａｎａｌｙｓｉｓａｎｄａｕｔｏｍａｔｅｄｃａｒｔｏｇｒａｐｈｙ，” Ｃｏｍｍｕｎ．ＡＣＭ，ｎｏ．２４，ｖｏｌ．６，ｐｐ．３８１−３９５，Ｊｕｎｅ１９８１．
クエリ画像の各特徴点に対し、ＤＢ２０４が管理しているそれぞれの登録画像の特徴点で、特徴間距離が最小となるものをペアで記述する。次に、クエリ画像から３個の特徴点をランダムに選択し、それぞれの特徴間距離が最小となる登録画像の特徴点群との間で、その座標の対応からアフィン変換行列を求める。このアフィン変換行列を用い、クエリ画像の残りの特徴点の座標を登録画像の座標に変換し、その近傍に上記特徴間距離が最小となるペアの特徴点が存在するかを確認し、存在すれば１票投票し、存在しなければ投票しない。最終的に、この投票数が所定の値に達した場合には、クエリ画像と登録画像は部分一致する領域が存在すると判断し、その投票数が多いほど一致する領域が大きいと考える。

他方、投票数が所定の値に達しない場合には、新たにクエリ画像から３個の特徴点をランダムに選択し、アフィン変換行列を求める処理から再度処理を行うが、この再処理は定められた反復カウント数以内で繰り返す。もし、反復カウント数に達しても投票数が所定の値を超えなければ、部分一致する領域が存在しないと判断して比較の処理を終了する。そして、部分一致する領域が存在する場合、上記求めたアフィン変換行列と特徴間距離が最小となるもののペアを用い、クエリ画像中の着目した特徴点と対応する特徴点を求めることが出来る。

更に、その特徴点を求める際の方向の正規化の際の回転角度からクエリ画像と登録画像の回転角度関係を求めることが出来る。また更に、その特徴点を求める際のスケールスペースを用いて、クエリ画像と登録画像の拡縮関係を知る事が出来る。

また、上記の通り、非特許文献３には、一般物体認識技術として次の様な技術が記されている。ある認識対象カテゴリに属する画像群から特徴量を算出したものを学習データとする。その分布モデルを学習データを用いて最尤推定で推定し、未知のデータに対して分布モデルを利用して事後確立を計算する。そして、事後確率最大化（Maximum A Posteriori, MAP）推定によってどのカテゴリに属すかを決定し、これを認識結果とする。その他、様々なモデルや機械学習方式を組み合わせた方法が数多く存在し、本実施形態で用いる画像認識処理は、局所特徴量を用いて行うものであればその機械学習方法を問わない。

次に、画像処理装置２００が行う画像登録処理について、同処理のフローチャートを示す図６を用いて説明する。ステップＳ６０１では、画像入力部３０２は、記憶装置１０４からロードされた、若しくは外部機器から入力された登録画像２０１を取得する。ステップＳ６０２では、特徴点／局所特徴量算出部３０３は、ステップＳ６０１で取得した登録画像２０１から特徴点とその特徴量を抽出する。

ステップＳ６０３では、画像認識処理部３０４は、ステップＳ６０２で抽出した特徴量を用いて、登録画像２０１に対する画像認識処理を行う。画像認識処理には機械学習済みの検出器を用いる。画像認識対象が複数種ある場合には、それに合わせて検出器も複数種用意しておく必要がある。

各検出器については、事前に正解画像として認識したいカテゴリの様々なアピアランスの画像を用意し、また非正解画像としてカテゴリ外の画像を用意し、機械学習を行う。ＳＩＦＴの様な回転／拡縮不変の局所特徴量を用いる事により、回転、拡大や縮小した認識対象のオブジェクトの有る画像を認識する事が可能である。

更に、その画像中のどこにオブジェクトが存在するかに関しては、オブジェクトが存在すると判断した画像に対し、マスク領域を設定して画像内をスキャンさせ、マスクサイズを小さくしていって検出器に入力し、その認識尤度を求める。そして、認識尤度が予め定めた閾値よりも高くなったマスク領域に、認識対象となるオブジェクトが存在すると推定する。

そしてステップＳ６０４では、画像特徴・認識結果登録処理部２０３は、ステップＳ６０３で行った画像認識処理の結果をメタデータとして、登録画像２０１と関連付けてＤＢ２０４に登録する。

上記の画像登録処理によってＤＢ２０４に登録された情報について、即ち、ＤＢ２０４内のインデックススキーマについて、図７を用いて説明する。図７（ａ）は、画像管理インデックスの構成例を示しており、これは登録画像ごとにＤＢ２０４に登録されているものである。

「画像ＩＤ」のフィールドには、登録画像２０１に固有のＩＤが登録され、このＩＤは例えば登録画像２０１に固有の整数値である。後述する検索の結果は、画像ＩＤと類似度とのセットで表される。

「画像データファイル名」のフィールドには、登録画像２０１が登録されている登録先（例えばＤＢ２０４）における該登録画像２０１のパス名が登録される。もちろん、登録画像２０１の登録先はＤＢ２０４に限るものではなく、他の装置であっても良い。

「認識結果」のフィールドには、登録画像２０１に対する画像認識処理により認識された各オブジェクトのＩＤ（認識ＩＤ）が登録される。認識ＩＤは、図７（ｂ）に示す認識結果管理インデックスへのリンク情報でもある。「認識結果」のフィールドは、即ち可変長のフィールドになる。

「画像特徴量」のフィールドには、登録画像２０１から抽出された特徴量のＩＤ（画像特徴ＩＤ）が登録される。画像特徴ＩＤは、図７（ｃ）に示す画像特徴インデックスへのリンク情報でもある。「画像特徴量」のフィールドは、即ち可変長のフィールドに成る。

次に、認識結果管理インデックスの構成例について、図７（ｂ）を用いて説明する。認識結果管理インデックスは、認識されたオブジェクトごとにＤＢ２０４に登録されるものである。

「認識ＩＤ」のフィールドには、登録画像２０１から認識されたオブジェクトに固有のＩＤが登録され、このＩＤは例えば、このオブジェクトに固有の整数値である。

「認識属性」のフィールドには、登録画像２０１から認識されたオブジェクトの属性を示す属性値が登録される。図７では、オブジェクトの属性が「人体」であれば属性値は「１」、オブジェクトの属性が「車」であれば属性値は「２」となっている。属性の種類や数はこれに限るものではなく、属性がＮ種類あれば、属性値は１〜Ｎの範囲を取る。

「認識尤度」のフィールドには、登録画像２０１から認識されたオブジェクトの認識尤度が登録され、例えば０〜１００（％）の範囲の数値で表される。もちろん、認識尤度の表現方法はこれに限るものではない。

「認識領域」のフィールドには、ステップＳ６０３で行った画像認識処理で求めた認識尤度が予め定めた閾値よりも高くなったマスク領域（＝認識領域）を示す領域情報が登録されている。ここではマスク領域の左上隅の頂点及び右下隅の頂点のそれぞれの座標位置が登録されている。もちろん、領域情報の表現方法はこれに限るものではない。

「認識領域中の画像特徴量」のフィールドには、「認識領域」のフィールドで定義している領域情報が示す領域（認識領域）内のそれぞれの特徴点の特徴量の画像特徴ＩＤが登録されている。「認識領域中の画像特徴量」のフィールドに登録されている情報は第１の実施形態では用いず、第２の実施形態で用いるので、このフィールドに登録されている情報については第２の実施形態で詳しく説明する。

次に、画像特徴インデックスの構成例について、図７（ｃ）を用いて説明する。画像特徴インデックスは、特徴点の特徴量ごとにＤＢ２０４に登録されるもので、１つの特徴点に対する特徴量を１レコードで記憶する。

「画像特徴ＩＤ」のフィールドには、特徴量に固有のＩＤが登録される。「画像ＩＤ」のフィールドには、該特徴量が抽出された登録画像の画像ＩＤが登録される。「特徴点座標」のフィールドには、登録画像上における該特徴点の座標位置が登録される。「局所特徴量」のフィールドには、ベクトル表現で表現される特徴量が登録される。

ここで、図８（ａ）〜（ｃ）のそれぞれに示す登録画像（登録画像１〜３）を対象にして画像特徴抽出・認識処理部２０２及び画像特徴・認識結果登録処理部２０３を動作させた場合に、ＤＢ２０４に登録される各インデックスを図９（ａ）〜（ｃ）に示す。

図８（ａ）に示した登録画像１（画像ＩＤ＝１の登録画像）には、車のオブジェクト８０１〜８０３と、バイクのオブジェクト８０４が含まれている。ここで、本実施形態では、画像認識において、様々な種類の画像を学習し、これら３つの車の画像が認識されるものとし、バイクは画像認識対象とせず、認識されないものとする。図８（ｂ）、（ｃ）のそれぞれに示した登録画像２，３（それぞれ画像ＩＤ＝２，３の登録画像）には、車のオブジェクト８０５，人のオブジェクト８０６が含まれている。

このとき、図９（ａ）に示す如く、ＤＢ２０４に登録される画像管理インデックスにおいて、「画像ＩＤ」のフィールドには、それぞれの登録画像の画像ＩＤ（１〜３）が登録されている。

画像ＩＤ＝１が登録されている行（レコード）における「画像データファイル名」のフィールドには、画像ＩＤ＝１の登録画像のパス名が登録されている。また、同行の「認識結果」のフィールドには、オブジェクト８０１〜８０３のそれぞれのＩＤ（認識ＩＤ）が登録されており、同行の「画像特徴量」のフィールドには、画像ＩＤ＝１の登録画像から抽出された特徴量のＩＤが登録されている。なお、上記の取り、オブジェクト８０４については画像認識は行われないが、その特徴量のＩＤは「画像特徴量」のフィールドに登録されている。図９では、登録画像１から抽出した全特徴点に対する局所特徴量が８００個検出されたとしているため、画像特徴ＩＤを１〜８００の間で付与する。

画像ＩＤ＝２が登録されている行における「画像データファイル名」のフィールドには、画像ＩＤ＝２の登録画像のパス名が登録されている。また、同行の「認識結果」のフィールドには、オブジェクト８０５のＩＤ（認識ＩＤ）が登録されており、同行の「画像特徴量」のフィールドには、画像ＩＤ＝２の登録画像から抽出された特徴量のＩＤが登録されている。図９では、登録画像２から抽出した全特徴点に対する局所特徴量が２００個検出されたとしているため、画像特徴ＩＤを８０１〜１０００の間で付与する。

画像ＩＤ＝３が登録されている行における「画像データファイル名」のフィールドには、画像ＩＤ＝３の登録画像のパス名が登録されている。また、同行の「認識結果」のフィールドには、オブジェクト８０６のＩＤ（認識ＩＤ）が登録されており、同行の「画像特徴量」のフィールドには、画像ＩＤ＝３の登録画像から抽出された特徴量のＩＤが登録されている。図９では、登録画像３から抽出した全特徴点に対する局所特徴量が２００個検出されたとしているため、画像特徴ＩＤを１００１〜１２００の間で付与する。

また、図９（ｂ）に示す如く、ＤＢ２０４に登録される認識結果管理インデックスにおいて、「認識ＩＤ」のフィールドには、オブジェクト８０１〜８０３、８０５〜８０６のそれぞれのＩＤ、即ち、１〜５が登録されている。図９（ｂ）に示す如く、登録画像１から認識した結果が認識ＩＤ＝１〜３のレコードに登録されており、登録画像２から認識した結果が認識ＩＤ＝４のレコードに登録されており、登録画像３から認識した結果が認識ＩＤ＝５のレコードに登録されている。

認識ＩＤ＝１が登録されている行における「認識属性」のフィールドには、認識ＩＤ＝１のオブジェクト、即ち車のオブジェクト８０１の属性を示す属性値が登録されている。また、同行の「画像ＩＤ」のフィールドには、このオブジェクト８０１の認識元である登録画像１のＩＤが登録されており、同行の「認識尤度」のフィールドには、登録画像１からオブジェクト８０１を画像認識した際の認識尤度が登録されている。また、同行の「認識領域」のフィールドには、オブジェクト８０１について画像認識処理で求めた認識尤度が予め定めた閾値よりも高くなったマスク領域を示す領域情報が登録されている。また、同行の「認識領域中の画像特徴量」のフィールドには、オブジェクト８０１について画像認識処理で求めた認識尤度が予め定めた閾値よりも高くなったマスク領域内のそれぞれの特徴点の特徴量の画像特徴ＩＤが登録されている。認識ＩＤ＝２〜５のそれぞれのレコードも同様の構成を有している。

今回、車を学習するに当たり、ピックアップトラックの画像を学習に多めに用いたので、ピックアップトラックのオブジェクト８０２に対する認識尤度が最も高く90％となっている。また、スポーツカーのオブジェクト８０１に対する認識尤度は85％、バスのオブジェクト８０３に対する認識尤度は80％となっている。他方、スポーツカーのオブジェクト８０５に対する認識尤度は87%、人体のオブジェクト８０６に対する認識尤度は90％の尤度となっている。

認識領域に関しては、各認識ＩＤに対応するオブジェクト８０１〜８０３、オブジェクト８０５〜８０６のそれぞれについて、登録画像１〜３のうち該当する画像中の位置を記憶する。

また、図９（ｃ）に示す如く、画像特徴ＩＤ＝１〜１２００のそれぞれに対し、画像特徴インデックスが生成される。画像特徴ＩＤ＝１が登録されている行における「画像ＩＤ」のフィールドには、画像特徴ＩＤ＝１の特徴量の抽出元である登録画像のＩＤが登録されている。同行の「特徴点座標」のフィールドには、画像特徴ＩＤ＝１の特徴点の登録画像１上の座標位置が登録されている。同行の「局所特徴量」のフィールドには、画像特徴ＩＤ＝１に対応する特徴量のベクトルが登録されている。画像特徴ＩＤ＝２〜１２００のそれぞれのレコードも同様の構成を有している。

ところで、「認識領域中の画像特徴量」のフィールドに関しては上記の通り、第２の実施形態で使用するものであるが、上記認識領域中に含まれる特徴点を画像特徴ＩＤ群で記憶する。

次に、図８（ｄ）に示したクエリ画像に類似する画像をＤＢ２０４から検索する画像検索処理について、同処理のフローチャートを示す図１０を用いて説明する。なお、この処理を拡張すれば、入力されたクエリ画像中のオブジェクト毎に、該オブジェクトをクエリとして類似するオブジェクトを含む画像を検索することもできる。

ステップＳ１００１では、画像入力部３０２は、記憶装置１０４からロードされた、若しくは外部機器から入力された図８（ｄ）のクエリ画像を取得し、特徴点／局所特徴量算出部３０３に転送する。なお、画像入力部３０２は、取得したクエリ画像を出力装置１０３の画面に表示させた後、ユーザが入力装置１０２を用いて指定したオブジェクト領域内の画像を、改めてクエリ画像として特徴点／局所特徴量算出部３０３に転送するようにしても良い。

ステップＳ１００２では、特徴点／局所特徴量算出部３０３は、ステップＳ１００１で取得したクエリ画像から特徴点とその特徴量を抽出する。ステップＳ１００３では、画像認識処理部３０４は、ステップＳ１００２で抽出した特徴量を用いて、クエリ画像に対する画像認識処理を行う。

ステップＳ１００４では、画像認識処理部３０４は、クエリ画像中のオブジェクトに対する画像認識処理が成功したか否か（例えば属性が特定可能なオブジェクトが１以上あったか否か）を判断する。この判断の結果、画像認識が成功したオブジェクトがあった場合には、処理はステップＳ１００５に進み、無かった場合には、処理はステップＳ１００６に進む。

ステップＳ１００５では、画像比較処理部２０６は先ず、ステップＳ１００３における画像認識処理で求めたオブジェクトの属性値と同じ属性値が登録されたレコードを、ＤＢ２０４内の認識結果管理インデックスから特定する。ここでは図８（ｄ）に示す車が写っている画像をクエリ画像としている。そのため、この車が画像認識されてその結果、オブジェクトの属性値は「２」であるため、この場合、認識結果管理インデックスからは、属性値「２」が登録されているレコード、即ち、認識ＩＤ＝１〜４のレコードが特定される。ここで、認識ＩＤ＝１〜３は何れも登録画像１に対するものであるため、認識ＩＤ＝１〜３のレコードに登録されている認識尤度のうち、最も大きい認識尤度を、登録画像１に対する認識尤度とする。従って、ここでは、クエリ画像に対する類似度が９０％の検索結果画像が登録画像１、クエリ画像に対する類似度が８７％である検索結果画像が登録画像２、として、検索結果を得る。

そして画像比較処理部２０６は、認識尤度の高い順、即ち、登録画像１、登録画像２、の順番で画像ＩＤと類似度と、を出力する。この場合（画像ＩＤ、類似度）＝（１，９０）、（２，８７）の順に出力する。なお、認識尤度が0から100％で表されない場合には、0から100％に成る様に換算して類似度とする。これにより、画像特徴の比較処理無く高速に検索可能である。

一方、クエリ画像として図８（ｅ）の画像を用いた場合、ステップＳ１００４では、画像認識処理部３０４は、クエリ画像中のオブジェクトに対する画像認識処理が成功していないと判断し、処理はステップＳ１００６に進む。

ステップＳ１００６では、画像比較処理部２０６は、図９（ａ）の画像管理インデックスに登録されている各画像ＩＤのレコードを順次参照する。そして画像比較処理部２０６は、該参照したレコード中の各画像特徴ＩＤの画像特徴インデックス中の「局所特徴量」のフィールドに登録されているベクトルと、クエリ画像から求めた特徴量と、を用いて上記のRANSACを用いたマッチングを行う。そして、クエリ画像から求めた特徴量と類似する順に、画像ＩＤとその類似度と、を検索結果として出力する。

このような処理により、特徴量を用いた画像検索のオブジェクトを選ばない性質と、画像認識の対象オブジェクトを選ぶが誤った検出が比較的少ないという性質を組み合わせる事ができた。その効果として、画像認識可能なオブジェクトがクエリ画像の場合には、極めて高速かつ、ノイズの少ない良好な検索結果をもたらすことができた。

［第２の実施形態］
第１の実施形態では、クエリ画像が認識可能な場合には、上記のような処理を行うことで、高速に類似画像検索が可能である。しかし、第１の実施形態によれば、最も類似度が高いオブジェクトは画像認識尤度が最も高い、登録画像１中のオブジェクト８０２となる。これは、クエリ画像にアピアランスが似ているは登録画像２中のオブジェクト８０５と思う多くのユーザの期待とは異なる結果である。本実施形態では、このような課題を解決するものである。

本実施形態は、画像登録処理は第１の実施形態と同様であるが、画像検索処理において以下の点が第１の実施形態と異なる。以下に、第１の実施形態との差分のみについて説明し、以下で特に触れない限りは、第１の実施形態と同様であるものとする。本実施形態に係る画像検索処理について、同処理のフローチャートを示す図１１を用いて説明する。

ステップＳ１１０１では、画像入力部３０２は、記憶装置１０４からロードされた、若しくは外部機器から入力された図８（ｄ）のクエリ画像を取得し、特徴点／局所特徴量算出部３０３に転送する。なお、画像入力部３０２は、取得したクエリ画像を出力装置１０３の画面に表示させた後、ユーザが入力装置１０２を用いて指定したオブジェクト領域内の画像を、改めてクエリ画像として特徴点／局所特徴量算出部３０３に転送するようにしても良い。

ステップＳ１１０２では、特徴点／局所特徴量算出部３０３は、ステップＳ１１０１で取得したクエリ画像から特徴点とその特徴量を抽出する。ステップＳ１１０３では、画像認識処理部３０４は、ステップＳ１１０２で抽出した特徴量を用いて、クエリ画像に対する画像認識処理を行う。

ステップＳ１１０４では、画像認識処理部３０４は、クエリ画像中のオブジェクトに対する画像認識処理が成功したか否か（例えば属性が特定可能なオブジェクトがあったか否か）を判断する。この判断の結果、画像認識が成功したオブジェクトがあった場合には、処理はステップＳ１１０５に進み、無かった場合には、処理はステップＳ１１０７に進む。

ステップＳ１１０５では画像比較処理部２０６は上記のステップＳ１００５と同様にして、ステップＳ１１０３における画像認識処理で求めたオブジェクトの属性値と同じ属性値が登録されたレコードを、ＤＢ２０４内の認識結果管理インデックスから特定する。ここでは図８（ｄ）に示す車が写っている画像をクエリ画像としている。そのため、この車が画像認識されてその結果、オブジェクトの属性値は「２」であるため、この場合、認識結果管理インデックスからは、属性値「２」が登録されているレコード、即ち、認識ＩＤ＝１〜４のレコードが特定される。なお、認識ＩＤ＝１〜４のレコードのうち、認識尤度が閾値以上のレコードのみを以降の対象としても良い。

ステップＳ１１０６で画像比較処理部２０６は、ステップＳ１１０５で特定した各レコードについて、次のような処理を行う。即ち、該レコード中の画像特徴ＩＤに対応する画像特徴インデックス内の特徴量と、該レコード内の「認識領域」のフィールドで定義されている領域に対応するクエリ画像内の領域中の特徴量と、のマッチングを行って類似度を求める。これにより、局所特徴量を比較する画像およびその領域を絞り込む事が出来、比較処理のコストを大幅に低減可能である。マッチングに関しては、上記のＲＡＮＳＡＣ法を用いる事が可能である。

或いは、マッチングに関しては多次元の、ＳＩＦＴで言えば128次元の局所特徴量をクラスタリングし、各クラスに属す特徴点個数のヒストグラムを作成し、ヒストグラムの正規化相関か或いはインターセクションを用いる事で、類似度の算出が可能である。

そして画像比較処理部２０６は、第１の実施形態と同様にして、より高い類似度を求めたレコード順に、該レコード内の画像ＩＤと、この類似度と、を検索結果として出力する。

このように、登録画像とクエリ画像の認識領域中の局所特徴量を比較する事により、認識尤度だけでは解決できなかったクエリとの類似性を反映しつつ、認識結果を絞り込みに使用した効率の良い検索処理を行う事が可能になる。

一方、クエリ画像として図８（ｅ）の画像を用いた場合、ステップＳ１００４では、画像認識処理部３０４は、クエリ画像中のオブジェクトに対する画像認識処理が成功していないと判断し、処理はステップＳ１１０７に進む。

ステップＳ１１０７では、画像比較処理部２０６は、図９（ａ）の画像管理インデックスに登録されている各画像ＩＤのレコードを順次参照する。そして画像比較処理部２０６は、該参照したレコード中の各画像特徴ＩＤの画像特徴インデックス中の「局所特徴量」のフィールドに登録されているベクトルと、クエリ画像から求めた特徴量と、を用いて上記のRANSACを用いたマッチングを行う。そして、クエリ画像から求めた特徴量と類似する順に、画像ＩＤとその類似度と、を検索結果として出力する。

［第３の実施形態］
本実施形態では、第１の実施形態及び第２の実施形態において、クエリ画像、登録画像のどちらか一方において画像認識がうまく機能せず、結果として検索漏れを起こすという課題を解決する。

本実施形態は、画像登録処理は第１の実施形態と同様であるが、画像検索処理において以下の点が第１の実施形態と異なる。以下に、第１の実施形態との差分のみについて説明し、以下で特に触れない限りは、第１の実施形態と同様であるものとする。

本実施形態に係る画像検索処理について、同処理のフローチャートを示す図１２を用いて説明する。なお、ステップＳ１２０１〜Ｓ１２０４，Ｓ１２０８はそれぞれ、図１０のステップＳ１００１〜Ｓ１００４，Ｓ１００６と同じ処理ステップであり、ステップＳ１００５の代わりにステップＳ１２０５〜Ｓ１２０７を行う点が第１の実施形態と異なる。

ステップＳ１２０５では、画像比較処理部２０６は先ず、ステップＳ１２０３における画像認識処理で求めたオブジェクトの属性値と同じ属性値が登録されたレコードを、ＤＢ２０４内の認識結果管理インデックスから特定する。そして画像比較処理部２０６は、特定したレコードから認識尤度を読み出す。

ステップＳ１２０６では、画像比較処理部２０６は、ステップＳ１２０５で特定した各レコードについて次のような処理を行う。即ち、該レコード中の画像ＩＤに対応する画像管理インデックスから「画像特徴量」のフィールド中の画像特徴ＩＤを読み出し、該画像特徴ＩＤに対応する特徴量を画像特徴インデックスから読み出し、クエリ画像中の特徴量とのマッチングを行う。このマッチングには、上記のRANSACを用い、これにより特徴量間の類似度を求める。

ステップＳ１２０７では、画像比較処理部２０６は、ステップＳ１２０５で特定した各レコードについて次のような処理を行う。即ち、該レコードについてステップＳ１２０５読み出した認識尤度ＬＨと、該レコードについてステップＳ１２０６で求めた類似度Ｓｉｍと、をそれぞれに対する重みｗ１，ｗ２を用いて重み付け加算を行うことで総合類似度を求める。この重み付け加算の式を以下に示す。

総合類似度 Sim total ＝w1 × LH + w2 × Sim, 但しw1 + w2 =1
そして、類似度の代わりに総合類似度を適用してステップＳ１００５の処理を行うことで、画像認識で失敗した画像についても、局所特徴量比較で高いスコアを出した画像で有れば検索結果に反映する事が可能となる。

また、ｗ１は認識対象毎に変えても良く、例えば、クエリで認識率の低い認識対象が検出された場合には低い値のw1を、認識率が高い認識対象の場合には高い値のw1を用いると良い。画像認識が可能なオブジェクトを持つ画像に対して、認識尤度が緩やかに効く様に画像認識尤度と類似度の重み付け和で総合評価を得る。

このように、本実施形態によれば、局所特徴量を用いた画像検索のオブジェクトを選ばない性質と、画像認識の対象画像オブジェクトを選ぶが誤った検出が比較的少ないという性質を見合わせた、良好な検索結果をもたらす画像検索を実現する。

また、上記処理により、第１の実施形態よりは処理コストが高くなるものの、より検索漏れの少なく且つ画像認識結果を緩やかに反映したロバストな検索が可能となる。

［第４の実施形態］
画像認識の対象は時間が経過すると共に増加するので、登録済みの画像に対しても新しい画像認識結果を適応する事が好ましい。もちろん、新たな画像認識対象で学習した検出器を用い、最初から画像を登録する方法も有るが、登録済みの画像数が膨大で有る場合、それは現実的で無い。また、ＤＢと画像を別個に管理している場合には、登録画像の参照が困難な場合も有る。

そこで、本実施形態では、画像認識対象の増加を反映したＤＢインデックスの更新を登録済みの画像を再解析する事無く、ＤＢ内で閉じた処理で効率的に画像認識対象の増加を反映する方法について説明する。各登録画像について、ＤＢインデックスを更新するために行う処理について、同処理のフローチャートを示す図１３を用いて説明する。

ステップＳ１３０１で画像特徴・認識結果登録処理部２０３は、登録済みの登録画像のうちの１つに着目し、該着目した登録画像の画像管理インデックス中の画像特徴ＩＤを用いて対応する画像特徴インデックスから、特徴点の座標位置やその特徴量を読み出す。

ステップＳ１３０２では、画像特徴・認識結果登録処理部２０３は、ステップＳ１３０１で読み出した情報を用いて、上記着目した登録画像に対する画像認識処理を行う。このとき画像認識に用いる検出器は、以前よりも新たなオブジェクトの認識が可能なようになっている。

ステップＳ１３０３では、画像特徴・認識結果登録処理部２０３は、上記着目した登録画像からこれまでに認識した何れのオブジェクトとも異なる位置から新たなオブジェクトを認識したか否かを判断する。この判断の結果、新たなオブジェクトを認識していない場合には、本処理を終了するが、新たなオブジェクトを認識した場合には、処理はステップＳ１３０４に進む。

ステップＳ１３０４では、画像特徴・認識結果登録処理部２０３は、上記着目した登録画像の画像管理インデックス中の「認識結果」のフィールドに、現在の最大認識ＩＤに１を加えた認識ＩＤを追加登録する。

また、画像特徴・認識結果登録処理部２０３は、認識結果管理インデックスに１つレコードを追加し、この追加したレコードに以下に列挙する情報を登録する。即ち、ステップＳ１３０４で追加登録した認識ＩＤ、新たなオブジェクトの属性値、上記着目した登録画像の画像ＩＤ、新たなオブジェクトの認識尤度、新たなオブジェクトの認識領域の座標、新たなオブジェクトの認識用特徴量の画像特徴ＩＤ、を登録する。このように、本実施形態によれば、ＤＢ内で閉じた処理で、安価な処理コストで新たに追加した画像認識対象を反映したＤＢに更新する事が可能となる。

［第５の実施形態］
上記の各実施形態では、特徴量としてＳＩＦＴを用いたが、画像認識と画像特徴量検索とで共有可能な局所特徴量であれば、その種類は問わない。また、画像認識においては、ＭＡＰ推定を用いた機械学習により説明したが、当然、生成モデルに基づく方法としてＥＭアルゴリズムを利用し反復学習する方法や、判別モデルに基づく方法でSVMを用いても良い。また、登録画像の局所特徴量に対して複数の画像認識処理を行い更新する処理も可能である。

（その他の実施例）
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

それぞれの画像について、該画像に対する画像認識処理によって得られた該画像中の１以上のオブジェクトのそれぞれの属性及び認識尤度を、該画像と関連付けて管理しているデータベースにアクセス可能な画像処理装置であって、
クエリ画像に対して画像認識処理を行うことで該クエリ画像中のオブジェクトの属性を取得し、該取得した属性と関連付けて前記データベースが管理している画像を特定する特定手段と、
前記特定手段が特定した画像と関連づけて前記データベースが管理している認識尤度を、前記クエリ画像に対する該特定した画像の類似度とし、該特定した画像に関する情報と、該類似度と、を画像検索結果として出力する出力手段と
を備えることを特徴とする画像処理装置。
前記出力手段は、前記特定した画像に関する情報と、前記類似度と、のセットを、類似度が高い順で出力することを特徴とする請求項１に記載の画像処理装置。
前記出力手段は、
前記クエリ画像に対する画像認識処理の結果、画像認識できたオブジェクトが１つも存在しなかった場合には、前記データベースが管理する画像のうち、前記クエリ画像に対する画像認識処理により得られた前記クエリ画像の特徴量と類似する特徴量を有する画像に関する情報を出力することを特徴とする請求項１又は２に記載の画像処理装置。
それぞれの画像について、該画像に対する画像認識処理によって得られた該画像中の１以上のオブジェクトのそれぞれの属性及び領域を、該画像と関連付けて管理しているデータベースにアクセス可能な画像処理装置であって、
クエリ画像に対して画像認識処理を行うことで該クエリ画像中のオブジェクトの属性を取得し、該取得した属性と関連付けて前記データベースが管理している領域を特定する特定手段と、
前記特定手段が特定した領域について画像認識処理で得られた特徴量と、前記クエリ画像において該領域に対応する領域について画像認識処理で得られた特徴量と、の類似度を求める手段と、
前記特定手段が特定した領域と関連付けて前記データベースが管理している画像に関する情報と、前記類似度と、を画像検索結果として出力する出力手段と
を備えることを特徴とする画像処理装置。
それぞれの画像について、該画像に対する画像認識処理によって得られた該画像中の１以上のオブジェクトのそれぞれの属性及び認識尤度を、該画像と関連付けて管理しているデータベースにアクセス可能な画像処理装置であって、
クエリ画像に対して画像認識処理を行うことで該クエリ画像中のオブジェクトの属性を取得し、該取得した属性と関連付けて前記データベースが管理している画像を特定する特定手段と、
前記クエリ画像に対する画像認識処理で得られる特徴量と、前記特定手段が特定した画像に対する画像認識処理で得られる特徴量と、の類似度を求める手段と、
前記特定手段が特定した画像と関連づけて前記データベースが管理している認識尤度と、前記類似度と、の重み付け加算により得られる総合類似度を、前記クエリ画像に対する該特定した画像の類似度とし、該特定した画像に関する情報と、該類似度と、を画像検索結果として出力する出力手段と
を備えることを特徴とする画像処理装置。
それぞれの画像について、該画像に対する画像認識処理によって得られた該画像中の１以上のオブジェクトのそれぞれの属性及び認識尤度を、該画像と関連付けて管理しているデータベースにアクセス可能な画像処理装置が行う画像処理方法であって、
前記画像処理装置の特定手段が、クエリ画像に対して画像認識処理を行うことで該クエリ画像中のオブジェクトの属性を取得し、該取得した属性と関連付けて前記データベースが管理している画像を特定する特定工程と、
前記画像処理装置の出力手段が、前記特定工程で特定した画像と関連づけて前記データベースが管理している認識尤度を、前記クエリ画像に対する該特定した画像の類似度とし、該特定した画像に関する情報と、該類似度と、を画像検索結果として出力する出力工程と
を備えることを特徴とする画像処理方法。
それぞれの画像について、該画像に対する画像認識処理によって得られた該画像中の１以上のオブジェクトのそれぞれの属性及び領域を、該画像と関連付けて管理しているデータベースにアクセス可能な画像処理装置が行う画像処理方法であって、
前記画像処理装置の特定手段が、クエリ画像に対して画像認識処理を行うことで該クエリ画像中のオブジェクトの属性を取得し、該取得した属性と関連付けて前記データベースが管理している領域を特定する特定工程と、
前記画像処理装置の類似度を求める手段が、前記特定工程で特定した領域について画像認識処理で得られた特徴量と、前記クエリ画像において該領域に対応する領域について画像認識処理で得られた特徴量と、の類似度を求める工程と、
前記画像処理装置の出力手段が、前記特定工程で特定した領域と関連付けて前記データベースが管理している画像に関する情報と、前記類似度と、を画像検索結果として出力する出力工程と
を備えることを特徴とする画像処理方法。
それぞれの画像について、該画像に対する画像認識処理によって得られた該画像中の１以上のオブジェクトのそれぞれの属性及び認識尤度を、該画像と関連付けて管理しているデータベースにアクセス可能な画像処理装置が行う画像処理方法であって、
前記画像処理装置の特定手段が、クエリ画像に対して画像認識処理を行うことで該クエリ画像中のオブジェクトの属性を取得し、該取得した属性と関連付けて前記データベースが管理している画像を特定する特定工程と、
前記画像処理装置の類似度を求める手段が、前記クエリ画像に対する画像認識処理で得られる特徴量と、前記特定工程で特定した画像に対する画像認識処理で得られる特徴量と、の類似度を求める工程と、
前記画像処理装置の出力手段が、前記特定工程で特定した画像と関連づけて前記データベースが管理している認識尤度と、前記類似度と、の重み付け加算により得られる総合類似度を、前記クエリ画像に対する該特定した画像の類似度とし、該特定した画像に関する情報と、該類似度と、を画像検索結果として出力する出力工程と
を備えることを特徴とする画像処理方法。
コンピュータを、請求項１乃至５の何れか１項に記載の画像処理装置の各手段として機能させるためのコンピュータプログラム。