JP6789175B2

JP6789175B2 - 画像認識装置、方法、及びプログラム

Info

Publication number: JP6789175B2
Application number: JP2017096592A
Authority: JP
Inventors: 之人渡邉; 周平田良島; 隆行黒住; 杵渕　哲也; 哲也杵渕
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc
Current assignee: Nippon Telegraph and Telephone Corp; NTT Inc
Priority date: 2017-05-15
Filing date: 2017-05-15
Publication date: 2020-11-25
Anticipated expiration: 2037-05-15
Also published as: JP2018194956A

Description

本発明は、画像認識装置、方法、及びプログラムに係り、特に、クエリ画像と同一の物体を含む参照画像を検索するための画像認識装置、方法、及びプログラムに関する。

デジタルカメラ、スマートフォン等の携帯撮影デバイスの普及により、一個人が撮影するデジタル写真の枚数が急速に増大した。それに伴い、画像を利用したコミュニケーションが発達し、ＷＷＷ（World Wide Web）上には大量の画像が蓄積されている。例えば、あるソーシャルメディアサイトでは、毎月２５億の画像がアップロードされているとの報告がある。

ユーザはこのような豊富な画像を見て楽しむことができる一方で、画像中の未知の物体に興味を持っても、その情報を取得することが困難であるという問題が存在する。例えば、画像中のある商品に興味を持っても、ユーザがその商品名、外見等の知識を持っていない場合には、その商品に関する情報を取得することは困難である。これを解決するためには、画像がいったい何を写しているのかといった情報を画像から特定する画像認識技術が必要となる。

このような画像認識技術は、従来より、種々の技術が発明され、開示されている。例えば非特許文献１では、キーポイントのマッチングに基づく方法が開示されている。これは、名称が既知の物体を含む画像（以下参照画像と呼ぶ）によりあらかじめ参照画像データベースを構築し、これを用いて新たに入力された画像（以下クエリ画像と呼ぶ）に含まれる物体の名称を推定する。まずクエリ画像、及び参照画像それぞれの画像中から、特徴的であるような微小な領域としてキーポイントを検出し、キーポイント毎にＳＩＦＴ特徴量を算出する。次に、クエリ画像と参照画像の間で、得られたそれぞれのＳＩＦＴ特徴量間の距離を計算し、その距離が一定値以下となるキーポイントの個数（マッチング数）を算出する。このマッチング数が多いほど、クエリ画像に対応した参照画像である（類似度が高い）ことになる。こうして得られた類似度が高い参照画像に含まれる物体の名称を認識結果として出力する。

しかしながら、前述した従来技術によれば、図４に示す商品１、及び商品２のような、外見が非常に類似する商品に関する参照画像がある場合には、正しく参照画像を発見することができない。これは、全体が類似する参照画像を含む場合には、異なる物体であっても多数の局所特徴量間の距離が近くなるため、両者の局所特徴量の大多数が一致し、見分けが付きにくくなるためである。全体が類似するが、相互に別の物体であるようなものを見分けるためには、これら物体の差異を捉えることが必要となる。

このような問題を解決するべく、物体画像間の差異を捉え見分ける技術に関する取り組みがなされてきた。従来いくつかの発明がなされ、開示されてきている。

特許文献１に開示されている技術では、Ｗｅｂページのキーワード検索でよく用いられるＢＭ２５（Best Match 25）と呼ばれるランキング手法を応用し、ＢＭ２５におけるキーワードの重要度を示す指標であるＩＤＦ（Inverse Document Frequency）をキーポイントの重要度とみなし、重要度が高いキーポイントを多く含む画像を検索するための指標とする。参照画像に共通して多く現れるキーポイントの影響を抑制し、出現頻度の低いキーポイントを強調することで、よりレアなキーポイントを重要視した精度のよい認識が実現されている。

非特許文献２に開示されている技術では、参照画像群の中から、その特徴量に基づき、全体が類似する参照画像を発見する。全体が類似する参照画像間で特徴量を比較し、距離の遠い特徴量を、差異となるキーポイントとして選択する。例え全体が類似した物体であっても、差異となるキーポイントを用いることで、精度のよい認識が実現されている。

特許文献２に開示されている技術では、認識対象画像に対してテンプレート画像を移動させながら各々のピクセル値に基づく類似度を算出し、類似する領域を高速に検索する。細かい画素間隔でテンプレート画像を移動させ探索することで精細な差異を捉えることができる。

特開２０１４−９９１１０号公報特開２０１３−１０９６５８号公報

D.G. Lowe: Distinctive Image Features from Scale-Invariant Keypoints. International Journal of Computer Vision, 2004 渡邉之人, 入江豪, 新井啓之, 谷口行信: 類似する物体画像群からの特定物体検索に関する一検討, 映像情報メディア学会技術報告, 38(43), 69-73, 2014.

特許文献１の技術は、出現頻度の低いキーポイントを強調することが可能である。そのため、全ての参照画像が同様に類似するデータベースにおいては、差異となるキーポイントの出現頻度は低くなり見分けることが可能である。

また、非特許文献２の技術は全体が類似する物体の差異となるキーポイントのみを用いることで、類似した異なる物体を高精度に見分けることが可能である。

しかし、特許文献１、及び非特許文献２の技術はいずれも、差異となるようなキーポイントを用いて類似した異なる物体を見分けるものであり、画像中の差異となるような部分からキーポイントが検出されなかった場合、見分けることができない。

特許文献２の技術は、画像のピクセルを直接比較することで、キーポイントが検出されないような差異を捉えて見分けることが可能である。しかし、比較する画像間で撮影角度が異なるような場合には、画像中の物体の見え方が大きく異なってしまうため、物体中の差異のみを捉えることが困難となる。

また、上記技術を単純に組み合わせて、例えば、マッチしたキーポイントの座標に基づいてクエリ画像と参照画像の幾何変換情報を求め、物体の見え方が揃うよう画像を変換した上で画像のピクセルを直接比較すると、物体の見え方の違いによる影響を低減することは可能だが、背景などの物体以外の領域などが異なる場合、依然として物体の差異のみを捉えることは難しい。

本発明は、上記問題点を解決するために成されたものであり、精度よく、かつ、高速にクエリ画像と同一の物体を含む参照画像を検索することができる画像認識装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る画像認識装置は、クエリ画像と同一の物体を含む参照画像を検索する画像認識装置であって、前記参照画像を前記クエリ画像に対応させて変換する変換部と、前記クエリ画像の物体領域を推定する領域推定部と、前記物体領域における、前記クエリ画像と変換された前記参照画像との差異領域を推定する差異領域推定部と、前記推定された前記差異領域に基づいて、前記クエリ画像と同一の物体を含む参照画像の検索結果を算出して出力する差異照合部と、を含んで構成されている。

また、第１の発明に係る画像認識装置において、前記領域推定部は、前記クエリ画像と複数の参照画像のうち２枚以上の変換された参照画像の各々とに共通する領域を前記クエリ画像の物体領域として算出するようにしてもよい。

また、第１の発明に係る画像認識装置において、前記領域推定部は、前記物体領域を算出し、前記算出された前記物体領域に外接する多角形を前記物体領域として推定するようにしてもよい。

また、第１の発明に係る画像認識装置において、前記差異領域推定部は、前記クエリ画像の物体領域に含まれるピクセルと、前記クエリ画像の物体領域に対応する、変換された前記参照画像の領域に含まれるピクセルを比較することで前記差異領域を推定するようにしてもよい。

また、第１の発明に係る画像認識装置において、前記クエリ画像及び前記参照画像の各々について、局所特徴量及び座標を出力する照合部を更に含み、前記変換部は、前記クエリ画像及び前記参照画像の間で、前記局所特徴量が対応する座標のペアに基づいて、前記参照画像を前記クエリ画像に対応させて変換するための幾何変換行列を求め、前記求めた幾何変換行列を前記参照画像に適用して変換するようにしてもよい。

第２の発明に係る画像認識方法は、クエリ画像と同一の物体を含む参照画像を検索する画像認識装置における画像認識方法であって、変換部が、前記参照画像を前記クエリ画像に対応させて変換するステップと、領域推定部が、前記クエリ画像の物体領域を推定するステップと、差異領域推定部が、前記物体領域における、前記クエリ画像と変換された前記参照画像との差異領域を推定するステップと、差異照合部が、前記推定された前記差異領域に基づいて、前記クエリ画像と同一の物体を含む参照画像の検索結果を算出して出力するステップと、を含んで実行することを特徴とする。

また、第２の発明に係る画像認識方法において、前記領域推定部が推定するステップは、前記クエリ画像と複数の参照画像のうち２枚以上の変換された参照画像の各々とに共通する領域を前記クエリ画像の物体領域として算出するようにしてもよい。

第３の発明に係るプログラムは、コンピュータを、第１の発明に係る画像認識装置の各部として機能させるためのプログラムである。

本発明の画像認識装置、方法、及びプログラムによれば、参照画像をクエリ画像に対応させて変換し、クエリ画像の物体領域を推定し、物体領域における、クエリ画像と変換された参照画像との差異領域を推定し、推定された差異領域に基づいて、クエリ画像と同一の物体を含む参照画像の検索結果を算出して出力することにより、精度よく、かつ、高速にクエリ画像と同一の物体を含む参照画像を検索することができる、という効果が得られる。

本発明の実施の形態に係る画像認識装置の構成を示すブロック図である。クエリ画像、参照画像についての各部の処理の一例を示す図である。本発明の実施の形態に係る画像認識装置における画像認識処理ルーチンを示すフローチャートである。外見が類似する商品の一例を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態に係る画像認識装置の構成＞

次に、本発明の実施の形態に係る画像認識装置の構成について説明する。図１に示すように、本発明の実施の形態に係る画像認識装置１００は、ＣＰＵと、ＲＡＭと、後述する画像認識処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この画像認識装置１００は、機能的には図１に示すように入力部１０と、演算部２０と、出力部５０とを備えている。

画像認識装置１００は、クエリ画像と同一の物体を含む参照画像を検索する装置である。画像認識装置１００は、データベース２と通信手段を介して相互に情報通信し、任意の参照画像の情報をデータベース２に登録したり、読み出したりすることができる構成を採る。参照画像の情報とは、少なくとも参照画像を含むものとし、さらに、当該参照画像の特徴量、ラベルなどを含んでもよい。ラベルとは、参照画像がどのような物体を含んでいるかを表すものであり、同一物体を写した参照画像に対しては同一の物体ラベルが付与されるものとする。

データベース２には、参照画像集合４が格納されている。データベース２に格納される参照画像集合４は、認識対象となる物体を撮影した２枚以上の参照画像から構成される。

データベース２は、例えば、一般的な汎用コンピュータに実装されているファイルシステムによって構成できる。各参照画像にはそれぞれを一意に識別可能な識別子（例えば、通し番号によるＩＤやユニークな画像ファイル名等）を与えるものとし、さらに、当該参照画像に規定された特徴量、あるいはラベルも、当該参照画像の識別子と関連づけて記憶しているものとする。あるいは、同様にＲＤＢＭＳ(Relational Database Management System)などで実装、構成されていても構わない。その他、メタデータとして、例えば参照画像の内容を表現するもの（参照画像のタイトル、概要文、又はキーワード等）、参照画像のフォーマットに関するもの（参照画像のデータ量、サムネイル等のサイズ）などを含んでいても構わないが、本発明の実施の形態においては必須ではない。

また、データベース２は、画像認識装置１００の内部にあっても外部にあっても構わず、通信手段は任意の公知ものを用いることができるが、本実施の形態においては、外部にあるものとする。外部にある場合には、通信手段は、インターネット、ＴＣＰ／ＩＰ等のネットワーク（図示省略）により通信するよう接続されるものとする。

また、画像認識装置１００が備える各部及びデータベース２は、演算処理装置、記憶装置等を備えたコンピュータやサーバ等により構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは画像認識装置１００が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。もちろん、その他いかなる構成要素についても、単一のコンピュータやサーバによって実現しなければならないものではなく、ネットワークによって接続された複数のコンピュータに分散して実現しても構わない。

入力部１０は、クエリ画像３（以下、単にクエリ画像と記載する）を受け付ける。クエリ画像は、認識を行うための画像である。

出力部５０に出力される出力結果５は、クエリ画像を認識した結果であり、クエリ画像と同一の物体を含む参照画像である。また認識結果として参照画像を出力する必要はなく、例えば、当該参照画像のラベル、あるいは、メタデータ等を認識結果として出力してもよい。

演算部２０は、照合部１１と、変換部１２と、領域推定部１３と、差異領域推定部１４と、差異照合部１５とを含んで構成されている。

照合部１１は、入力部１０で受け付けたクエリ画像と、データベース２の参照画像の各々との類似度を算出する。類似度の算出には公知の方法を用いることができる。例えば、非特許文献３に記載されている局所特徴量のマッチングに基づく方法や、非特許文献４に記載されている学習に基づく方法などを用いればよい。

また、類似度の算出方法に合わせて、事前に参照画像の特徴量、インデクス、及び識別器などを求めておき、データベース２に記憶しておいたものを用いることもできる。

［非特許文献３］J. Philbin, O. Chum, M. Isard, J. Sivic, and A. Zisserman, Object retrieval with large vocabularies and fast spatial matching, In CVPR, 2007.

［非特許文献４］G. Tolias, R. Sicre, and H. Jegou, Particular object retrieval with integral max-pooling of CNN activations, In ICLR, 2016

非特許文献３のように、局所特徴量のマッチングに基づく方法を用いる場合、クエリ画像と各参照画像との類似度に加えて、クエリ画像の局所特徴量と対応する参照画像の局所特徴量との、局所特徴量が対応する座標のペアも変換部１２に伝達することもできる。また、これらの情報は必ずしも全ての参照画像について伝達する必要はなく、例えば、類似度の高い上位Ｄ枚の参照画像について伝達することもできる。Ｄは２以上参照画像枚数以下の整数である。

変換部１２は、参照画像をクエリ画像に対応させて変換する。ここでは、クエリ画像と類似する参照画像を変換の対象とする。クエリ画像と類似する参照画像の決定は、照合部１１から伝達された類似度を用いて行えばよく、例えば、類似度の高いＮ枚を用いればよい。Ｎは２以上Ｄ以下の整数である。また、ラベル毎に最も類似度の高い参照画像を抜き出した上で、それらの中で類似度の高い参照画像を対象としてもよい。あるいは、類似度の高いＮ枚の参照画像と同一ラベルを持つ全参照画像を対象としてもよい。

また、例えば、照合部１１から伝達されたクエリ画像と参照画像との間で対応した局所特徴量の座標ペアを用いて、参照画像からクエリ画像へのホモグラフィ変換の幾何変換行列を求め、参照画像に適用して変換してもよい。座標ペアを用いたホモグラフィ変換の幾何変換行列は、非特許文献５の方法で求めることができる。

［非特許文献５］R. Hartley and A. Zisserman, Multiple View Geometry in Computer Vision Second Edition, Cambridge University Press, pp.88~91, March, 2004.

あるいは、非特許文献６の方法のように、対応する局所特徴量の座標ペアを利用せず、クエリ画像と参照画像のペアから直接ホモグラフィ変換の幾何変換行列を求めても構わない。その場合、照合部１１から局所特徴量の座標ペアを伝達する必要はない。

［非特許文献６］D. DeTone, T. Malisiewicz, A. Rabinovich, Deep Image Homography Estimation, arXiv preprint 1606.03798, 2016.

また、非特許文献７や非特許文献８の方法のように、画像間の画素の密な対応付けを行い、参照画像の画素を対応に基づいてワーピングすることで変換してもよい。

［非特許文献７］C. Liu, J. Yuen and A. Torralba, SIFT Flow: Dense Correspondence across Scenes and its Applications, TPAMI, 33(5), 2011.

［非特許文献８］C. A. Glasbey and K. V. Mardia, A review of image-warping methods, J. Applied Statistics, vol. 25, no. 2, pp. 155-171, 1998.

領域推定部１３は、クエリ画像の物体領域を推定する。

画像中の物体領域を推定できる公知の方法を適用すればよいが、ここでは、非特許文献９の方法のように、クエリ画像を入力としたセグメンテーションを行うことで求める。

［非特許文献９］M. Tang et al., GrabCut in One Cut, In ICCV, 2013.

また、必ずしもクエリ画像を入力としたセグメンテーションを行う必要はなく、例えば、各参照画像を入力としたセグメンテーションによって、各参照画像の物体領域を求め、各参照画像の物体領域座標に対して変換部１２と同様の変換を施し、クエリ画像の物体領域としてもよい。この場合、参照画像から求めた物体領域の数だけクエリ画像の物体領域が求まるため、Non Maximum Suppressionなど公知の方法によって、複数の物体領域から単一の物体領域を求め、クエリ画像の物体領域とすればよい。このように参照画像の物体領域を変換してクエリ画像の物体領域とする場合には、クエリ画像を受け付ける前に参照画像の物体領域をデータベース２に記憶しておき、それをデータベース２から読み出して用いることもできる。

あるいは、以下のように、クエリ画像と複数の参照画像のうち２枚以上の変換された参照画像の各々とに共通する領域をクエリ画像の物体領域として算出するようにしてもよい。

変換の対象とした参照画像がクエリ画像との類似度が高い参照画像群である場合、各参照画像はクエリ画像と同一物体、あるいは、外見が非常に類似する物体を含んでいることが期待されるため、非特許文献１０の方法のように、クエリ画像と、変換した参照画像群とを入力としたコセグメンテーションを行い、物体領域を求めてもよい。

［非特許文献１０］A. Joulin et al., Multi-Class Cosegmentation, In CVPR, 2012.

他にも、クエリ画像のピクセル値と、変換した各参照画像の同一座標のピクセル値の距離を算出し、座標毎に平均値、最小値、あるいは、最大値等を求め、その値が任意の閾値以下のピクセルを物体領域とすることもできる。ピクセル間の距離は任意の方法で算出すればよいが、例えば、ＲＧＢ(Red, Green, Blue)やＨＳＶ(Hue, Saturation, Value)の任意の組み合わせに対するユークリッド距離などを用いればよい。また、同一座標のピクセル値との比較に加えて、同一座標の任意の範囲の近傍ピクセルとの距離を算出し、その最小値等を用いてもよい。

あるいは、クエリ画像に認識対象の物体のみが含まれるような場合には、クエリ画像全体を物体領域としてもよい。

また、物体領域を推定する前に、コントラストの正規化、ホワイトニング、ガンマ補正、ガウスぼかし等、クエリ画像または変換された参照画像に対する公知の前処理を実施してもよい。

算出した物体領域は、そのまま出力してもよいし、図２のように領域を囲む四角形等の多角形として出力しても構わない。前者の場合は、物体領域を１、それ以外の領域を０としたマスク画像として表現すれば良く、後者の場合は、マスク画像あるいは四角形の四隅の座標で表現できる。

差異領域推定部１４は、変換された参照画像の各々に対し、物体領域における、クエリ画像と変換された参照画像との差異領域を推定する。ここでは、クエリ画像の物体領域に含まれるピクセルと、クエリ画像の物体領域に対応する、変換された参照画像の領域に含まれるピクセルを比較することで差異領域を推定する。差異領域は、クエリ画像の物体領域内のピクセル値と、変換した各参照画像の同一座標のピクセル値の距離を算出し、その値が任意の閾値以上のピクセルを差異領域とすることで求めることができる。ピクセル間の距離は任意の方法で算出すればよいが、例えば、ＲＧＢ(Red, Green, Blue)やＨＳＶ(Hue, Saturation, Value)の任意の組み合わせに対するユークリッド距離などを用いればよい。また、同一座標のピクセル値との比較に加えて、同一座標の任意の範囲の近傍ピクセルとの距離を算出し、その最小値等を用いてもよい。

また、差異領域推定部１４では、領域推定部１３と同様に、差異領域を推定する前に、クエリ画像または変換された参照画像に対する公知の前処理を実施してもよい。

差異照合部１５は、差異領域推定部１４で参照画像ごとに推定された差異領域に基づいて、クエリ画像と同一の物体を含む参照画像の検索結果を算出して出力する。ここでは、差異が少ない参照画像を検索結果として出力する。差異が少ない参照画像としては、例えば、差異領域のピクセル数が最も少ない参照画像を検索結果として出力すればよい。あるいは、参照画像のピクセル数、または、物体領域のピクセル数に対する差異領域のピクセル数の割合が任意の閾値以下の参照画像を全て検索結果として出力することもできる。他にも、最も差異領域のピクセル数が少ない参照画像の差異領域ピクセル数に対する、２番目に差異領域のピクセル数が少ない参照画像の差異領域ピクセル数の割合が閾値以上の場合に最も差異領域のピクセル数が少ない参照画像を検索結果としても構わない。

また、検索結果は差異領域のピクセル数によってのみ決定する必要はなく、例えば、差異領域に該当するクエリ画像のピクセルと、変換された参照画像の同一座標のピクセルについて距離を算出し、その平均値等に基づいて検索結果を決定し出力してもよい。

＜本発明の実施の形態に係る画像認識装置の作用＞

次に、本発明の実施の形態に係る画像認識装置１００の作用について説明する。入力部１０においてクエリ画像を受け付けると、画像認識装置１００は、図３に示す画像認識処理ルーチンを実行する。

まず、ステップＳ１００では、照合部１１が、入力部１０において受け付けたクエリ画像と、データベース２の参照画像の各々との類似度を算出する。

次に、ステップＳ１０２では、変換部１２が、照合部１１で算出した類似度に基づいてクエリ画像と類似する参照画像を決定し、決定された参照画像の各々について、当該参照画像をクエリ画像に合わせて変換する。

次に、ステップＳ１０４では、領域推定部１３が、クエリ画像に含まれる物体領域を推定する。

次に、ステップＳ１０６では、差異領域推定部１４が、ステップＳ１０２で変換された参照画像ごとに、ステップＳ１０４で推定されたクエリ画像の物体領域に含まれるピクセルと、当該参照画像の同じ位置のピクセルとを比較し、差異領域を推定する。

次に、ステップＳ１０８では、差異照合部１５が、ステップＳ１０６で参照画像ごとに推定された差異領域に基づいて、クエリ画像と同一の物体を含む参照画像の検索結果を算出して出力する。

以上説明したように、本発明の実施の形態に係る画像認識装置によれば、参照画像をクエリ画像に対応させて変換し、クエリ画像の物体領域を推定し、物体領域における、クエリ画像と変換された参照画像との差異領域を推定し、推定された差異領域に基づいて、クエリ画像と同一の物体を含む参照画像の検索結果を算出して出力することにより、精度よく、かつ、高速にクエリ画像と同一の物体を含む参照画像を検索することができる。

また、本発明の実施の形態の手法を用いることで、例えば、カメラ付き携帯電話やスマートフォン等で撮影した商品を他の類似する商品と見分け、商品の名称、ＷＷＷ上の販売ページを提示するサービス、撮影した周囲の情景画像から、撮影地点及び目的地までのルートを提示するサービス、等に利用できる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

２データベース
３クエリ画像
４参照画像集合
５出力結果
１０入力部
１１照合部
１２変換部
１３領域推定部
１４差異領域推定部
１５差異照合部
２０演算部
５０出力部
１００画像認識装置

Claims

クエリ画像と同一の物体を含む参照画像を検索する画像認識装置であって、
前記参照画像を前記クエリ画像に対応させて変換する変換部と、
前記クエリ画像と複数の参照画像のうち２枚以上の変換された参照画像の各々とに共通する領域を前記クエリ画像の物体領域として推定する領域推定部と、
前記物体領域における、前記クエリ画像と変換された前記参照画像との差異領域を推定する差異領域推定部と、
前記推定された前記差異領域に基づいて、前記クエリ画像と同一の物体を含む参照画像の検索結果を算出して出力する差異照合部と、
を含む画像認識装置。
前記変換部は、前記クエリ画像と前記参照画像との画像間で対応した局所特徴量の座標ペアを用いて幾何変換行列求める手法、前記画像間のペアから幾何変換行列を求める手法、又は前記画像間の画素の対応付けを用いた手法により前記参照画像を変換する請求項１に記載の画像認識装置。
前記領域推定部は、前記物体領域を算出し、前記算出された前記物体領域に外接する多角形を前記物体領域として推定する請求項１又は請求項２に記載の画像認識装置。
前記差異領域推定部は、前記クエリ画像の物体領域に含まれるピクセルと、前記クエリ画像の物体領域に対応する、変換された前記参照画像の領域に含まれるピクセルを比較することで前記差異領域を推定する請求項１〜請求項３の何れか１項に記載の画像認識装置。
前記クエリ画像及び前記参照画像の各々について、局所特徴量及び座標を出力する照合部を更に含み、
前記変換部は、前記クエリ画像及び前記参照画像の間で、前記局所特徴量が対応する座標のペアに基づいて、前記参照画像を前記クエリ画像に対応させて変換するための幾何変換行列を求め、前記求めた幾何変換行列を前記参照画像に適用して変換する請求項１〜請求項４の何れか１項に記載の画像認識装置。
クエリ画像と同一の物体を含む参照画像を検索する画像認識装置における画像認識方法であって、
変換部が、前記参照画像を前記クエリ画像に対応させて変換するステップと、
領域推定部が、前記クエリ画像と複数の参照画像のうち２枚以上の変換された参照画像の各々とに共通する領域を前記クエリ画像の物体領域として推定するステップと、
差異領域推定部が、前記物体領域における、前記クエリ画像と変換された前記参照画像との差異領域を推定するステップと、
差異照合部が、前記推定された前記差異領域に基づいて、前記クエリ画像と同一の物体を含む参照画像の検索結果を算出して出力するステップと、
を含む画像認識方法。
前記変換部が変換するステップは、前記クエリ画像と前記参照画像との画像間で対応した局所特徴量の座標ペアを用いて幾何変換行列求める手法、前記画像間のペアから幾何変換行列を求める手法、又は前記画像間の画素の対応付けを用いた手法により前記参照画像を変換する請求項６に記載の画像認識方法。
コンピュータを、請求項１〜請求項５のいずれか１項に記載の画像認識装置の各部として機能させるためのプログラム。