JP6789175B2 - 画像認識装置、方法、及びプログラム - Google Patents

画像認識装置、方法、及びプログラム Download PDF

Info

Publication number
JP6789175B2
JP6789175B2 JP2017096592A JP2017096592A JP6789175B2 JP 6789175 B2 JP6789175 B2 JP 6789175B2 JP 2017096592 A JP2017096592 A JP 2017096592A JP 2017096592 A JP2017096592 A JP 2017096592A JP 6789175 B2 JP6789175 B2 JP 6789175B2
Authority
JP
Japan
Prior art keywords
image
reference image
query
query image
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017096592A
Other languages
English (en)
Other versions
JP2018194956A (ja
Inventor
之人 渡邉
之人 渡邉
周平 田良島
周平 田良島
隆行 黒住
隆行 黒住
杵渕 哲也
哲也 杵渕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017096592A priority Critical patent/JP6789175B2/ja
Publication of JP2018194956A publication Critical patent/JP2018194956A/ja
Application granted granted Critical
Publication of JP6789175B2 publication Critical patent/JP6789175B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像認識装置、方法、及びプログラムに係り、特に、クエリ画像と同一の物体を含む参照画像を検索するための画像認識装置、方法、及びプログラムに関する。
デジタルカメラ、スマートフォン等の携帯撮影デバイスの普及により、一個人が撮影するデジタル写真の枚数が急速に増大した。それに伴い、画像を利用したコミュニケーションが発達し、WWW(World Wide Web)上には大量の画像が蓄積されている。例えば、あるソーシャルメディアサイトでは、毎月25億の画像がアップロードされているとの報告がある。
ユーザはこのような豊富な画像を見て楽しむことができる一方で、画像中の未知の物体に興味を持っても、その情報を取得することが困難であるという問題が存在する。例えば、画像中のある商品に興味を持っても、ユーザがその商品名、外見等の知識を持っていない場合には、その商品に関する情報を取得することは困難である。これを解決するためには、画像がいったい何を写しているのかといった情報を画像から特定する画像認識技術が必要となる。
このような画像認識技術は、従来より、種々の技術が発明され、開示されている。例えば非特許文献1では、キーポイントのマッチングに基づく方法が開示されている。これは、名称が既知の物体を含む画像(以下参照画像と呼ぶ)によりあらかじめ参照画像データベースを構築し、これを用いて新たに入力された画像(以下クエリ画像と呼ぶ)に含まれる物体の名称を推定する。まずクエリ画像、及び参照画像それぞれの画像中から、特徴的であるような微小な領域としてキーポイントを検出し、キーポイント毎にSIFT特徴量を算出する。次に、クエリ画像と参照画像の間で、得られたそれぞれのSIFT特徴量間の距離を計算し、その距離が一定値以下となるキーポイントの個数(マッチング数)を算出する。このマッチング数が多いほど、クエリ画像に対応した参照画像である(類似度が高い)ことになる。こうして得られた類似度が高い参照画像に含まれる物体の名称を認識結果として出力する。
しかしながら、前述した従来技術によれば、図4に示す商品1、及び商品2のような、外見が非常に類似する商品に関する参照画像がある場合には、正しく参照画像を発見することができない。これは、全体が類似する参照画像を含む場合には、異なる物体であっても多数の局所特徴量間の距離が近くなるため、両者の局所特徴量の大多数が一致し、見分けが付きにくくなるためである。全体が類似するが、相互に別の物体であるようなものを見分けるためには、これら物体の差異を捉えることが必要となる。
このような問題を解決するべく、物体画像間の差異を捉え見分ける技術に関する取り組みがなされてきた。従来いくつかの発明がなされ、開示されてきている。
特許文献1に開示されている技術では、Webページのキーワード検索でよく用いられるBM25(Best Match 25)と呼ばれるランキング手法を応用し、BM25におけるキーワードの重要度を示す指標であるIDF(Inverse Document Frequency)をキーポイントの重要度とみなし、重要度が高いキーポイントを多く含む画像を検索するための指標とする。参照画像に共通して多く現れるキーポイントの影響を抑制し、出現頻度の低いキーポイントを強調することで、よりレアなキーポイントを重要視した精度のよい認識が実現されている。
非特許文献2に開示されている技術では、参照画像群の中から、その特徴量に基づき、全体が類似する参照画像を発見する。全体が類似する参照画像間で特徴量を比較し、距離の遠い特徴量を、差異となるキーポイントとして選択する。例え全体が類似した物体であっても、差異となるキーポイントを用いることで、精度のよい認識が実現されている。
特許文献2に開示されている技術では、認識対象画像に対してテンプレート画像を移動させながら各々のピクセル値に基づく類似度を算出し、類似する領域を高速に検索する。細かい画素間隔でテンプレート画像を移動させ探索することで精細な差異を捉えることができる。
特開2014−99110号公報 特開2013−109658号公報
D.G. Lowe: Distinctive Image Features from Scale-Invariant Keypoints. International Journal of Computer Vision, 2004 渡邉之人, 入江豪, 新井啓之, 谷口行信: 類似する物体画像群からの特定物体検索に関する一検討, 映像情報メディア学会技術報告, 38(43), 69-73, 2014.
特許文献1の技術は、出現頻度の低いキーポイントを強調することが可能である。そのため、全ての参照画像が同様に類似するデータベースにおいては、差異となるキーポイントの出現頻度は低くなり見分けることが可能である。
また、非特許文献2の技術は全体が類似する物体の差異となるキーポイントのみを用いることで、類似した異なる物体を高精度に見分けることが可能である。
しかし、特許文献1、及び非特許文献2の技術はいずれも、差異となるようなキーポイントを用いて類似した異なる物体を見分けるものであり、画像中の差異となるような部分からキーポイントが検出されなかった場合、見分けることができない。
特許文献2の技術は、画像のピクセルを直接比較することで、キーポイントが検出されないような差異を捉えて見分けることが可能である。しかし、比較する画像間で撮影角度が異なるような場合には、画像中の物体の見え方が大きく異なってしまうため、物体中の差異のみを捉えることが困難となる。
また、上記技術を単純に組み合わせて、例えば、マッチしたキーポイントの座標に基づいてクエリ画像と参照画像の幾何変換情報を求め、物体の見え方が揃うよう画像を変換した上で画像のピクセルを直接比較すると、物体の見え方の違いによる影響を低減することは可能だが、背景などの物体以外の領域などが異なる場合、依然として物体の差異のみを捉えることは難しい。
本発明は、上記問題点を解決するために成されたものであり、精度よく、かつ、高速にクエリ画像と同一の物体を含む参照画像を検索することができる画像認識装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る画像認識装置は、クエリ画像と同一の物体を含む参照画像を検索する画像認識装置であって、前記参照画像を前記クエリ画像に対応させて変換する変換部と、前記クエリ画像の物体領域を推定する領域推定部と、前記物体領域における、前記クエリ画像と変換された前記参照画像との差異領域を推定する差異領域推定部と、前記推定された前記差異領域に基づいて、前記クエリ画像と同一の物体を含む参照画像の検索結果を算出して出力する差異照合部と、を含んで構成されている。
また、第1の発明に係る画像認識装置において、前記領域推定部は、前記クエリ画像と複数の参照画像のうち2枚以上の変換された参照画像の各々とに共通する領域を前記クエリ画像の物体領域として算出するようにしてもよい。
また、第1の発明に係る画像認識装置において、前記領域推定部は、前記物体領域を算出し、前記算出された前記物体領域に外接する多角形を前記物体領域として推定するようにしてもよい。
また、第1の発明に係る画像認識装置において、前記差異領域推定部は、前記クエリ画像の物体領域に含まれるピクセルと、前記クエリ画像の物体領域に対応する、変換された前記参照画像の領域に含まれるピクセルを比較することで前記差異領域を推定するようにしてもよい。
また、第1の発明に係る画像認識装置において、前記クエリ画像及び前記参照画像の各々について、局所特徴量及び座標を出力する照合部を更に含み、前記変換部は、前記クエリ画像及び前記参照画像の間で、前記局所特徴量が対応する座標のペアに基づいて、前記参照画像を前記クエリ画像に対応させて変換するための幾何変換行列を求め、前記求めた幾何変換行列を前記参照画像に適用して変換するようにしてもよい。
第2の発明に係る画像認識方法は、クエリ画像と同一の物体を含む参照画像を検索する画像認識装置における画像認識方法であって、変換部が、前記参照画像を前記クエリ画像に対応させて変換するステップと、領域推定部が、前記クエリ画像の物体領域を推定するステップと、差異領域推定部が、前記物体領域における、前記クエリ画像と変換された前記参照画像との差異領域を推定するステップと、差異照合部が、前記推定された前記差異領域に基づいて、前記クエリ画像と同一の物体を含む参照画像の検索結果を算出して出力するステップと、を含んで実行することを特徴とする。
また、第2の発明に係る画像認識方法において、前記領域推定部が推定するステップは、前記クエリ画像と複数の参照画像のうち2枚以上の変換された参照画像の各々とに共通する領域を前記クエリ画像の物体領域として算出するようにしてもよい。
第3の発明に係るプログラムは、コンピュータを、第1の発明に係る画像認識装置の各部として機能させるためのプログラムである。
本発明の画像認識装置、方法、及びプログラムによれば、参照画像をクエリ画像に対応させて変換し、クエリ画像の物体領域を推定し、物体領域における、クエリ画像と変換された参照画像との差異領域を推定し、推定された差異領域に基づいて、クエリ画像と同一の物体を含む参照画像の検索結果を算出して出力することにより、精度よく、かつ、高速にクエリ画像と同一の物体を含む参照画像を検索することができる、という効果が得られる。
本発明の実施の形態に係る画像認識装置の構成を示すブロック図である。 クエリ画像、参照画像についての各部の処理の一例を示す図である。 本発明の実施の形態に係る画像認識装置における画像認識処理ルーチンを示すフローチャートである。 外見が類似する商品の一例を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る画像認識装置の構成>
次に、本発明の実施の形態に係る画像認識装置の構成について説明する。図1に示すように、本発明の実施の形態に係る画像認識装置100は、CPUと、RAMと、後述する画像認識処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この画像認識装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部50とを備えている。
画像認識装置100は、クエリ画像と同一の物体を含む参照画像を検索する装置である。画像認識装置100は、データベース2と通信手段を介して相互に情報通信し、任意の参照画像の情報をデータベース2に登録したり、読み出したりすることができる構成を採る。参照画像の情報とは、少なくとも参照画像を含むものとし、さらに、当該参照画像の特徴量、ラベルなどを含んでもよい。ラベルとは、参照画像がどのような物体を含んでいるかを表すものであり、同一物体を写した参照画像に対しては同一の物体ラベルが付与されるものとする。
データベース2には、参照画像集合4が格納されている。データベース2に格納される参照画像集合4は、認識対象となる物体を撮影した2枚以上の参照画像から構成される。
データベース2は、例えば、一般的な汎用コンピュータに実装されているファイルシステムによって構成できる。各参照画像にはそれぞれを一意に識別可能な識別子(例えば、通し番号によるIDやユニークな画像ファイル名等)を与えるものとし、さらに、当該参照画像に規定された特徴量、あるいはラベルも、当該参照画像の識別子と関連づけて記憶しているものとする。あるいは、同様にRDBMS(Relational Database Management System)などで実装、構成されていても構わない。その他、メタデータとして、例えば参照画像の内容を表現するもの(参照画像のタイトル、概要文、又はキーワード等)、参照画像のフォーマットに関するもの(参照画像のデータ量、サムネイル等のサイズ)などを含んでいても構わないが、本発明の実施の形態においては必須ではない。
また、データベース2は、画像認識装置100の内部にあっても外部にあっても構わず、通信手段は任意の公知ものを用いることができるが、本実施の形態においては、外部にあるものとする。外部にある場合には、通信手段は、インターネット、TCP/IP等のネットワーク(図示省略)により通信するよう接続されるものとする。
また、画像認識装置100が備える各部及びデータベース2は、演算処理装置、記憶装置等を備えたコンピュータやサーバ等により構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは画像認識装置100が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。もちろん、その他いかなる構成要素についても、単一のコンピュータやサーバによって実現しなければならないものではなく、ネットワークによって接続された複数のコンピュータに分散して実現しても構わない。
入力部10は、クエリ画像3(以下、単にクエリ画像と記載する)を受け付ける。クエリ画像は、認識を行うための画像である。
出力部50に出力される出力結果5は、クエリ画像を認識した結果であり、クエリ画像と同一の物体を含む参照画像である。また認識結果として参照画像を出力する必要はなく、例えば、当該参照画像のラベル、あるいは、メタデータ等を認識結果として出力してもよい。
演算部20は、照合部11と、変換部12と、領域推定部13と、差異領域推定部14と、差異照合部15とを含んで構成されている。
照合部11は、入力部10で受け付けたクエリ画像と、データベース2の参照画像の各々との類似度を算出する。類似度の算出には公知の方法を用いることができる。例えば、非特許文献3に記載されている局所特徴量のマッチングに基づく方法や、非特許文献4に記載されている学習に基づく方法などを用いればよい。
また、類似度の算出方法に合わせて、事前に参照画像の特徴量、インデクス、及び識別器などを求めておき、データベース2に記憶しておいたものを用いることもできる。
[非特許文献3]J. Philbin, O. Chum, M. Isard, J. Sivic, and A. Zisserman, Object retrieval with large vocabularies and fast spatial matching, In CVPR, 2007.
[非特許文献4]G. Tolias, R. Sicre, and H. Jegou, Particular object retrieval with integral max-pooling of CNN activations, In ICLR, 2016
非特許文献3のように、局所特徴量のマッチングに基づく方法を用いる場合、クエリ画像と各参照画像との類似度に加えて、クエリ画像の局所特徴量と対応する参照画像の局所特徴量との、局所特徴量が対応する座標のペアも変換部12に伝達することもできる。また、これらの情報は必ずしも全ての参照画像について伝達する必要はなく、例えば、類似度の高い上位D枚の参照画像について伝達することもできる。Dは2以上参照画像枚数以下の整数である。
変換部12は、参照画像をクエリ画像に対応させて変換する。ここでは、クエリ画像と類似する参照画像を変換の対象とする。クエリ画像と類似する参照画像の決定は、照合部11から伝達された類似度を用いて行えばよく、例えば、類似度の高いN枚を用いればよい。Nは2以上D以下の整数である。また、ラベル毎に最も類似度の高い参照画像を抜き出した上で、それらの中で類似度の高い参照画像を対象としてもよい。あるいは、類似度の高いN枚の参照画像と同一ラベルを持つ全参照画像を対象としてもよい。
また、例えば、照合部11から伝達されたクエリ画像と参照画像との間で対応した局所特徴量の座標ペアを用いて、参照画像からクエリ画像へのホモグラフィ変換の幾何変換行列を求め、参照画像に適用して変換してもよい。座標ペアを用いたホモグラフィ変換の幾何変換行列は、非特許文献5の方法で求めることができる。
[非特許文献5]R. Hartley and A. Zisserman, Multiple View Geometry in Computer Vision Second Edition, Cambridge University Press, pp.88~91, March, 2004.
あるいは、非特許文献6の方法のように、対応する局所特徴量の座標ペアを利用せず、クエリ画像と参照画像のペアから直接ホモグラフィ変換の幾何変換行列を求めても構わない。その場合、照合部11から局所特徴量の座標ペアを伝達する必要はない。
[非特許文献6]D. DeTone, T. Malisiewicz, A. Rabinovich, Deep Image Homography Estimation, arXiv preprint 1606.03798, 2016.
また、非特許文献7や非特許文献8の方法のように、画像間の画素の密な対応付けを行い、参照画像の画素を対応に基づいてワーピングすることで変換してもよい。
[非特許文献7]C. Liu, J. Yuen and A. Torralba, SIFT Flow: Dense Correspondence across Scenes and its Applications, TPAMI, 33(5), 2011.
[非特許文献8]C. A. Glasbey and K. V. Mardia, A review of image-warping methods, J. Applied Statistics, vol. 25, no. 2, pp. 155-171, 1998.
領域推定部13は、クエリ画像の物体領域を推定する。
画像中の物体領域を推定できる公知の方法を適用すればよいが、ここでは、非特許文献9の方法のように、クエリ画像を入力としたセグメンテーションを行うことで求める。
[非特許文献9]M. Tang et al., GrabCut in One Cut, In ICCV, 2013.
また、必ずしもクエリ画像を入力としたセグメンテーションを行う必要はなく、例えば、各参照画像を入力としたセグメンテーションによって、各参照画像の物体領域を求め、各参照画像の物体領域座標に対して変換部12と同様の変換を施し、クエリ画像の物体領域としてもよい。この場合、参照画像から求めた物体領域の数だけクエリ画像の物体領域が求まるため、Non Maximum Suppressionなど公知の方法によって、複数の物体領域から単一の物体領域を求め、クエリ画像の物体領域とすればよい。このように参照画像の物体領域を変換してクエリ画像の物体領域とする場合には、クエリ画像を受け付ける前に参照画像の物体領域をデータベース2に記憶しておき、それをデータベース2から読み出して用いることもできる。
あるいは、以下のように、クエリ画像と複数の参照画像のうち2枚以上の変換された参照画像の各々とに共通する領域をクエリ画像の物体領域として算出するようにしてもよい。
変換の対象とした参照画像がクエリ画像との類似度が高い参照画像群である場合、各参照画像はクエリ画像と同一物体、あるいは、外見が非常に類似する物体を含んでいることが期待されるため、非特許文献10の方法のように、クエリ画像と、変換した参照画像群とを入力としたコセグメンテーションを行い、物体領域を求めてもよい。
[非特許文献10]A. Joulin et al., Multi-Class Cosegmentation, In CVPR, 2012.
他にも、クエリ画像のピクセル値と、変換した各参照画像の同一座標のピクセル値の距離を算出し、座標毎に平均値、最小値、あるいは、最大値等を求め、その値が任意の閾値以下のピクセルを物体領域とすることもできる。ピクセル間の距離は任意の方法で算出すればよいが、例えば、RGB(Red, Green, Blue)やHSV(Hue, Saturation, Value)の任意の組み合わせに対するユークリッド距離などを用いればよい。また、同一座標のピクセル値との比較に加えて、同一座標の任意の範囲の近傍ピクセルとの距離を算出し、その最小値等を用いてもよい。
あるいは、クエリ画像に認識対象の物体のみが含まれるような場合には、クエリ画像全体を物体領域としてもよい。
また、物体領域を推定する前に、コントラストの正規化、ホワイトニング、ガンマ補正、ガウスぼかし等、クエリ画像または変換された参照画像に対する公知の前処理を実施してもよい。
算出した物体領域は、そのまま出力してもよいし、図2のように領域を囲む四角形等の多角形として出力しても構わない。前者の場合は、物体領域を1、それ以外の領域を0としたマスク画像として表現すれば良く、後者の場合は、マスク画像あるいは四角形の四隅の座標で表現できる。
差異領域推定部14は、変換された参照画像の各々に対し、物体領域における、クエリ画像と変換された参照画像との差異領域を推定する。ここでは、クエリ画像の物体領域に含まれるピクセルと、クエリ画像の物体領域に対応する、変換された参照画像の領域に含まれるピクセルを比較することで差異領域を推定する。差異領域は、クエリ画像の物体領域内のピクセル値と、変換した各参照画像の同一座標のピクセル値の距離を算出し、その値が任意の閾値以上のピクセルを差異領域とすることで求めることができる。ピクセル間の距離は任意の方法で算出すればよいが、例えば、RGB(Red, Green, Blue)やHSV(Hue, Saturation, Value)の任意の組み合わせに対するユークリッド距離などを用いればよい。また、同一座標のピクセル値との比較に加えて、同一座標の任意の範囲の近傍ピクセルとの距離を算出し、その最小値等を用いてもよい。
また、差異領域推定部14では、領域推定部13と同様に、差異領域を推定する前に、クエリ画像または変換された参照画像に対する公知の前処理を実施してもよい。
差異照合部15は、差異領域推定部14で参照画像ごとに推定された差異領域に基づいて、クエリ画像と同一の物体を含む参照画像の検索結果を算出して出力する。ここでは、差異が少ない参照画像を検索結果として出力する。差異が少ない参照画像としては、例えば、差異領域のピクセル数が最も少ない参照画像を検索結果として出力すればよい。あるいは、参照画像のピクセル数、または、物体領域のピクセル数に対する差異領域のピクセル数の割合が任意の閾値以下の参照画像を全て検索結果として出力することもできる。他にも、最も差異領域のピクセル数が少ない参照画像の差異領域ピクセル数に対する、2番目に差異領域のピクセル数が少ない参照画像の差異領域ピクセル数の割合が閾値以上の場合に最も差異領域のピクセル数が少ない参照画像を検索結果としても構わない。
また、検索結果は差異領域のピクセル数によってのみ決定する必要はなく、例えば、差異領域に該当するクエリ画像のピクセルと、変換された参照画像の同一座標のピクセルについて距離を算出し、その平均値等に基づいて検索結果を決定し出力してもよい。
<本発明の実施の形態に係る画像認識装置の作用>
次に、本発明の実施の形態に係る画像認識装置100の作用について説明する。入力部10においてクエリ画像を受け付けると、画像認識装置100は、図3に示す画像認識処理ルーチンを実行する。
まず、ステップS100では、照合部11が、入力部10において受け付けたクエリ画像と、データベース2の参照画像の各々との類似度を算出する。
次に、ステップS102では、変換部12が、照合部11で算出した類似度に基づいてクエリ画像と類似する参照画像を決定し、決定された参照画像の各々について、当該参照画像をクエリ画像に合わせて変換する。
次に、ステップS104では、領域推定部13が、クエリ画像に含まれる物体領域を推定する。
次に、ステップS106では、差異領域推定部14が、ステップS102で変換された参照画像ごとに、ステップS104で推定されたクエリ画像の物体領域に含まれるピクセルと、当該参照画像の同じ位置のピクセルとを比較し、差異領域を推定する。
次に、ステップS108では、差異照合部15が、ステップS106で参照画像ごとに推定された差異領域に基づいて、クエリ画像と同一の物体を含む参照画像の検索結果を算出して出力する。
以上説明したように、本発明の実施の形態に係る画像認識装置によれば、参照画像をクエリ画像に対応させて変換し、クエリ画像の物体領域を推定し、物体領域における、クエリ画像と変換された参照画像との差異領域を推定し、推定された差異領域に基づいて、クエリ画像と同一の物体を含む参照画像の検索結果を算出して出力することにより、精度よく、かつ、高速にクエリ画像と同一の物体を含む参照画像を検索することができる。
また、本発明の実施の形態の手法を用いることで、例えば、カメラ付き携帯電話やスマートフォン等で撮影した商品を他の類似する商品と見分け、商品の名称、WWW上の販売ページを提示するサービス、撮影した周囲の情景画像から、撮影地点及び目的地までのルートを提示するサービス、等に利用できる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
2 データベース
3 クエリ画像
4 参照画像集合
5 出力結果
10 入力部
11 照合部
12 変換部
13 領域推定部
14 差異領域推定部
15 差異照合部
20 演算部
50 出力部
100 画像認識装置

Claims (8)

  1. クエリ画像と同一の物体を含む参照画像を検索する画像認識装置であって、
    前記参照画像を前記クエリ画像に対応させて変換する変換部と、
    前記クエリ画像と複数の参照画像のうち2枚以上の変換された参照画像の各々とに共通する領域を前記クエリ画像の物体領域として推定する領域推定部と、
    前記物体領域における、前記クエリ画像と変換された前記参照画像との差異領域を推定する差異領域推定部と、
    前記推定された前記差異領域に基づいて、前記クエリ画像と同一の物体を含む参照画像の検索結果を算出して出力する差異照合部と、
    を含む画像認識装置。
  2. 前記変換部は、前記クエリ画像と前記参照画像との画像間で対応した局所特徴量の座標ペアを用いて幾何変換行列求める手法、前記画像間のペアから幾何変換行列を求める手法、又は前記画像間の画素の対応付けを用いた手法により前記参照画像を変換する請求項1に記載の画像認識装置。
  3. 前記領域推定部は、前記物体領域を算出し、前記算出された前記物体領域に外接する多角形を前記物体領域として推定する請求項1又は請求項2に記載の画像認識装置。
  4. 前記差異領域推定部は、前記クエリ画像の物体領域に含まれるピクセルと、前記クエリ画像の物体領域に対応する、変換された前記参照画像の領域に含まれるピクセルを比較することで前記差異領域を推定する請求項1〜請求項3の何れか1項に記載の画像認識装置。
  5. 前記クエリ画像及び前記参照画像の各々について、局所特徴量及び座標を出力する照合部を更に含み、
    前記変換部は、前記クエリ画像及び前記参照画像の間で、前記局所特徴量が対応する座標のペアに基づいて、前記参照画像を前記クエリ画像に対応させて変換するための幾何変換行列を求め、前記求めた幾何変換行列を前記参照画像に適用して変換する請求項1〜請求項4の何れか1項に記載の画像認識装置。
  6. クエリ画像と同一の物体を含む参照画像を検索する画像認識装置における画像認識方法であって、
    変換部が、前記参照画像を前記クエリ画像に対応させて変換するステップと、
    領域推定部が、前記クエリ画像と複数の参照画像のうち2枚以上の変換された参照画像の各々とに共通する領域を前記クエリ画像の物体領域として推定するステップと、
    差異領域推定部が、前記物体領域における、前記クエリ画像と変換された前記参照画像との差異領域を推定するステップと、
    差異照合部が、前記推定された前記差異領域に基づいて、前記クエリ画像と同一の物体を含む参照画像の検索結果を算出して出力するステップと、
    を含む画像認識方法。
  7. 前記変換部が変換するステップは、前記クエリ画像と前記参照画像との画像間で対応した局所特徴量の座標ペアを用いて幾何変換行列求める手法、前記画像間のペアから幾何変換行列を求める手法、又は前記画像間の画素の対応付けを用いた手法により前記参照画像を変換する請求項6に記載の画像認識方法。
  8. コンピュータを、請求項1〜請求項5のいずれか1項に記載の画像認識装置の各部として機能させるためのプログラム。
JP2017096592A 2017-05-15 2017-05-15 画像認識装置、方法、及びプログラム Active JP6789175B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017096592A JP6789175B2 (ja) 2017-05-15 2017-05-15 画像認識装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017096592A JP6789175B2 (ja) 2017-05-15 2017-05-15 画像認識装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018194956A JP2018194956A (ja) 2018-12-06
JP6789175B2 true JP6789175B2 (ja) 2020-11-25

Family

ID=64570590

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017096592A Active JP6789175B2 (ja) 2017-05-15 2017-05-15 画像認識装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6789175B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7438702B2 (ja) * 2019-09-25 2024-02-27 株式会社東芝 類似領域検出装置、類似領域検出方法およびプログラム
JPWO2022264370A1 (ja) * 2021-06-17 2022-12-22

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7228006B2 (en) * 2002-11-25 2007-06-05 Eastman Kodak Company Method and system for detecting a geometrically transformed copy of an image
JP4366318B2 (ja) * 2005-01-11 2009-11-18 キヤノン株式会社 画像処理装置及びその方法、プログラム
JP2015001756A (ja) * 2013-06-13 2015-01-05 株式会社日立製作所 状態変化管理システム、状態変化管理サーバ及び状態変化管理端末
JP2015060421A (ja) * 2013-09-19 2015-03-30 株式会社バッファロー 類似画像検索方法及び類似画像検索装置

Also Published As

Publication number Publication date
JP2018194956A (ja) 2018-12-06

Similar Documents

Publication Publication Date Title
JP7317919B2 (ja) 外観検索のシステムおよび方法
US10846554B2 (en) Hash-based appearance search
Parkhi et al. Deep face recognition
RU2628192C2 (ru) Устройство для семантической классификации и поиска в архивах оцифрованных киноматериалов
WO2020206850A1 (zh) 基于高维图像的图像标注方法和装置
US20170024384A1 (en) System and method for analyzing and searching imagery
WO2012073421A1 (ja) 画像分類装置、画像分類方法、プログラム、記録媒体、集積回路、モデル作成装置
CN105184238A (zh) 一种人脸识别方法及系统
JP2007206920A (ja) 画像処理装置および方法、検索装置および方法、プログラム、並びに記録媒体
US9430718B1 (en) Efficient local feature descriptor filtering
Giraldo-Zuluaga et al. Camera-trap images segmentation using multi-layer robust principal component analysis
Asha et al. Content based video retrieval using SURF descriptor
JP6789175B2 (ja) 画像認識装置、方法、及びプログラム
Zheng et al. Exif as language: Learning cross-modal associations between images and camera metadata
Naveen Kumar et al. High performance algorithm for content-based video retrieval using multiple features
AU2019303730B2 (en) Hash-based appearance search
CN107506735A (zh) 照片归类方法以及归类系统
JP6109118B2 (ja) 画像処理装置および方法、情報処理装置および方法、並びにプログラム
JP2014225168A (ja) 特徴点集合で表される画像間の類似度を算出するプログラム、装置及び方法
WO2016117039A1 (ja) 画像検索装置、画像検索方法、および情報記憶媒体
CN111178409A (zh) 基于大数据矩阵稳定性分析的图像匹配与识别系统
JP2014072620A (ja) 画像処理プログラム、画像処理方法、画像処理装置、及び撮像装置
Daga Content based video retrieval using color feature: an integration approach
Henderson et al. Feature correspondence in low quality CCTV videos
Sahay et al. Visually classified & tagged video repository

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190626

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200825

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201013

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201027

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201102

R150 Certificate of patent or registration of utility model

Ref document number: 6789175

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150