JP5527554B2 - 画像検索方法、画像検索プログラム及び画像登録方法 - Google Patents

画像検索方法、画像検索プログラム及び画像登録方法 Download PDF

Info

Publication number
JP5527554B2
JP5527554B2 JP2011502783A JP2011502783A JP5527554B2 JP 5527554 B2 JP5527554 B2 JP 5527554B2 JP 2011502783 A JP2011502783 A JP 2011502783A JP 2011502783 A JP2011502783 A JP 2011502783A JP 5527554 B2 JP5527554 B2 JP 5527554B2
Authority
JP
Japan
Prior art keywords
image
feature vector
search
images
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011502783A
Other languages
English (en)
Other versions
JPWO2010101186A1 (ja
Inventor
和人 野口
浩一 黄瀬
雅一 岩村
幸人 古橋
泰治 峯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Olympus Corp
Osaka Prefecture University
Original Assignee
Olympus Corp
Osaka Prefecture University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympus Corp, Osaka Prefecture University filed Critical Olympus Corp
Priority to JP2011502783A priority Critical patent/JP5527554B2/ja
Publication of JPWO2010101186A1 publication Critical patent/JPWO2010101186A1/ja
Application granted granted Critical
Publication of JP5527554B2 publication Critical patent/JP5527554B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features

Description

この発明は、画像検索方法、画像検索プログラム及び画像登録方法に関し、特にカメラ付き携帯電話など身近な画像入力装置を用いて撮影された画像を検索質問(クエリ)とする画像検索方法、画像検索プログラム及び画像登録方法に関する。
カメラ付き携帯電話の普及に伴って、単に写真を撮るだけでなく、カメラを入力デバイスとして利用するサービスの要求が高まっている。例えば、雑誌やカタログなどに掲載された商品を撮影することによって、商品の注文や関連情報の提示などを行うサービスがある。このような目的のためには、画像中の物体を高速かつ高精度に認識する必要がある。
発明者らはすでに、大規模な画像データベースから高速かつ高精度に画像を認識する手法を提案している(例えば、特許文献1、非特許文献2、3参照)。この手法は、画像の局所的特徴を表す局所特徴量としてPCA-SIFT(例えば、非特許文献1参照)を用い、画像データベースと検索質問の特徴量同士を近似最近傍探索によって照合し、最も近いとされた画像を認識結果とするものである。なお、PCA-SIFTがそうであるように、局所特徴量は通常ベクトル量として表される。前記特許文献1及び非特許文献2の手法の特徴は、検索質問画像に応じて近似の程度を適宜調節することによって処理を高速化する多段階化にあり、また、非特許文献3の手法の特徴は、スカラー量子化によるメモリ使用量の削減にある。
国際公開第WO2008/026414号パンフレット
Y. Ke and R. Sukthankar, PCA-SIFT: A more distinctive representation for local image descriptors, Proc. of CVPR2004, Vol. 2, pp.506-513, 2004. 野口和人,黄瀬浩一,岩村雅一,"近似最近傍探索の多段階化による物体の高速認識,"画像の認識・理解シンポジウム(MIRU2007)論文集,pp.111-118,July,2007. 野口和人,黄瀬浩一,岩村雅一,"局所記述子に基づく物体認識のためのメモリ削減の実験的検討,"画像の認識・理解シンポジウム(MIRU2008)論文集,pp.251-258,July,2008.
しかし、この手法をカメラ付き携帯電話で撮影した検索質問に適用すると、十分な認識率が得られないという問題が生じる。その原因は、カメラ付き携帯電話でカタログなどを接写したときに起こるブレやボケなどの劣化により、撮影された画像から抽出される局所特徴量が変化してしまうためであると考えられる。ここで、ブレとボケは、いずれも撮影の対象(被写体)の輪郭が不鮮明になる点で共通するが、その原因が異なる。ブレは、撮影の瞬間にカメラが静止していないために生じる。ボケは、被写体にピントがあっていなかったりカメラの解像力が不足したりするために生じる。
このような劣化を受けた画像の認識率を改善するには、(1)検索質問の画像の劣化を修復する、(2)画像の劣化にロバストな特徴量を利用する、(3)原画像に劣化を加えて生成した画像を学習するという3つのアプローチが考えられる。前記(1)の画像の劣化を修復する方法は、認識時に修復処理を行う必要があり、処理時間の問題がある。前記(2)の、劣化に不変な特徴量については、この発明の手法に好適な特徴量として後述の実験にも利用するPCA-SIFTは、技術文献によるとボケには比較的強いとされており(例えば、K. Mikolajczyk and C. Schmid, "A performance evaluation of local descriptors," IEEE Transactions on Pattern Analysis & Machine Intelligence, vol.27, no.10, pp.1615-1630, 2005.参照)、さらなる改善は容易でないと考えられる。即ち、PCA-SIFTや、その基礎とされたSIFTは、画像の局所的な特徴を示す特徴点とその特徴点に対応する局所特徴量を抽出する手法である。そして、その抽出手順は、ガウシアンフィルタのスケールを一定の割合で拡大させながら原画に順次適用して平滑化画像を生成し(スケールスペースあるいは尺度空間)、隣り合うスケールとの差分の画像から、極値を検出し特徴点およびスケールを決定するプロセスを含む。従って、特徴量の抽出過程で既にボケへの対応が考慮されていると考えられる。また、スケールスペースを用いるために画像のスケール変化に対して頑強(ロバスト)である。
そこで、発明者らは、原画像から生成した劣化画像を学習する方法に着目した。この方法は生成型学習と呼ばれ、文字認識などの分野で使われている(例えば、石田皓之,高橋友和,井手一郎,目加田慶人,村瀬洋,"手ブレ情報を利用したカメラ入力型低品質文字の認識法,"画像の認識・理解シンポジウム(MIRU2006)論文集,pp.180-186,July,2006.参照)。局所特徴量による画像認識の分野でも、局所領域に対して数千種類のランダムな変換を加えたものを学習することで、高い精度を得る手法が提案されている(例えば、M. Ozuysal, M. Calonder, V. Lepetit and P. Fua, "Fast keypoint recognition using random ferns," IEEE Transactions on Pattern Analysis and Machine Intelligence. to appear.)。しかし、この文献では数千枚程度の画像データベースでしか実証されておらず、この発明が目指す大規模な画像データベースでの認識では有効性が確認されていない。
そもそも局所特徴量を用いた画像認識は、部分的な隠れ、幾何学的変換の歪みに強いとされ、そのうちスケールスペースを用いて抽出された局所特徴量は、特に、ボケ、照明条件の変化に強いことが知られている。しかし、局所特徴量を用いた画像認識は、多数の局所特徴量を記憶し処理する必要があるため、主としてデータ量および処理時間の削減を目指した検討がなされてきた。これに対し、生成型学習は、原画像から学習パターンを生成するため画像データベースに登録するデータ量を増大させることになる。つまり、局所特徴量を用いた画像認識技術の指向と生成型学習の指向は、相容れないものである。しかし、発明者らはあえて両者を組み合わせて見たところ、意外にも、多少の処理時間の増加を許容すれば大きな認識率の向上が得られることを見出した。
しかも、前述の非特許文献2、3による処理時間の短縮手法および記憶容量の削減手法と組み合わせることにより、生成型学習のデメリットを抑えつつ高い認識率を実現することがでることが判明した。
この発明は、以上のような事情を考慮してなされたものであって、特にカメラ付き携帯電話など身近な画像入力装置を用いて撮影された画像を検索質問とする画像検索、即ち、画像認識を高い精度で実現できる手法を画像検索方法として提供するものである。併せて、前記画像検索用の画像データベースを生成する画像登録方法を提供するものである。さらに、前記画像検索方法をコンピュータの処理により実現するための画像検索プログラムを提供するものである。
この発明ではブレやボケの問題を生成型学習によって解決する手法を提供する。具体的には、登録する画像からブレやボケの加わった画像を複数生成し、特徴量を得ることで、検索質問の特徴量の近傍に登録した特徴量が存在する確率を高めている。このとき生じる、メモリ量や処理時間の増加という問題は、前記非特許文献2に係る多段階化の手法と前記非特許文献3に係るスカラー量子化の手法との組合せによって解決可能である。
即ち、この発明は、検索対象が撮影された検索質問画像からその検索質問画像の局所的特徴を表す少なくとも一つのクエリ特徴ベクトルを抽出する工程と、複数の参照画像と、各参照画像から生成される学習画像と、前記参照画像および前記学習画像の局所的特徴を表す複数の参照特徴ベクトルとがそれぞれ関連付けて予め登録された画像データベースにアクセスする工程と、前記クエリ特徴ベクトルと各参照画像に関連付けられた参照特徴ベクトルとを近似最近傍探索により照合し、前記クエリ特徴ベクトルに対し略最近傍の参照特徴ベクトルを見出す照合工程と、見出された各参照特徴ベクトルと関連付けられた参照画像を検索結果として選択する選択工程とを備え、前記学習画像は、前記検索対象の撮影の際に生じ得るボケおよび/またはブレを模した画像処理を各参照画像に施して生成され、各参照特徴ベクトルは、尺度空間の手法を用いて各参照画像およびその参照画像に対応する学習画像からそれぞれ抽出され、前記クエリ特徴ベクトルは、前記尺度空間の手法を用いて前記検索質問画像から抽出され、各工程がコンピュータにより実行される画像検索方法を提供する。
また、異なる観点から、この発明は、検索対象が撮影された検索質問画像からその検索質問画像の局所的特徴を表す少なくとも一つのクエリ特徴ベクトルを抽出するステップと、複数の参照画像と、各参照画像から生成される学習画像と、前記参照画像および前記学習画像の局所的特徴を表す複数の参照特徴ベクトルとがそれぞれ関連付けて予め登録された画像データベースにアクセスするステップと、前記クエリ特徴ベクトルと各参照画像に関連付けられた参照特徴ベクトルとを近似最近傍探索により照合し、前記クエリ特徴ベクトルに対し略最近傍の参照特徴ベクトルを見出すステップと、見出された各参照特徴ベクトルと関連付けられた参照画像を検索結果として選択するステップとをコンピュータに実行させ、前記学習画像は、前記検索対象の撮影の際に生じ得るボケおよび/またはブレを模した画像処理を各参照画像に施して生成され、各参照特徴ベクトルは、尺度空間の手法を用いて各参照画像およびその参照画像に対応する学習画像からそれぞれ抽出され、前記クエリ特徴ベクトルは、前記尺度空間の手法を用いて前記検索質問画像から抽出される画像検索プログラムを提供する。
また、この発明は、画像検索において参照されるべき参照画像を格納する画像データベースに新たな参照画像を登録するにあたり、検索質問画像を得るため検索対象を撮影するときに生じ得るボケおよび/またはブレを模した画像処理を、登録すべき参照画像に施して学習画像を生成する工程と、前記参照画像および前記学習画像から局所的特徴を表す少なくとも一つの参照特徴ベクトルをそれぞれ抽出する工程と、前記参照特徴ベクトルおよび前記学習画像を対応する参照画像に関連付けて前記画像データベースに登録する工程とを備え、前記参照特徴ベクトルは、尺度空間の手法を用いて前記参照画像および前記学習画像からそれぞれ抽出され、前記画像検索は、前記参照特徴ベクトルを抽出する手順と同様に前記検索質問画像から少なくとも一つのクエリ特徴ベクトルを抽出し、前記クエリ特徴ベクトルと前記画像データベースに登録された参照特徴ベクトルとを近似最近傍探索により照合して前記クエリ特徴ベクトルに対し略最近傍の参照特徴ベクトルを見出し、見出された各参照特徴ベクトルと関連付けられた前記特定の参照画像を選択する手順により行われ、各工程がコンピュータにより実行される画像データベースへの画像登録方法を提供する。
この発明の画像検索方法において、前記学習画像は、ボケおよび/またはブレを模した画像処理を各参照画像に施して生成され、各参照特徴ベクトルは、尺度空間の手法を用いて各参照画像およびその参照画像に対応する学習画像からそれぞれ抽出され、前記クエリ特徴ベクトルは、前記尺度空間の手法を用いて前記検索質問画像から抽出されるので、特にカメラ付き携帯電話など身近な小型軽量の画像入力装置を用いて撮影された画像を検索質問として高い精度の画像認識を実現することができる。
この発明による画像検索プログラムは前述の画像検索方法と同様の利点を有する。また、前述の画像検索方法に用いる画像データベースは、この発明による画像登録方法によって生成することができる。
この発明による画像検索方法及び画像登録方法の各工程は、例えば、パーソナルコンピュータやサーバのCPUにより実行される。この他にも、例えば、携帯端末や携帯電話等の機器のCPUあるいはマイクロコンピュータにより実行されてもよい。この発明による画像検索プログラムは、前記CPUあるいは前記マイクロコンピュータが処理を実行するためのプログラムの側面から発明を捉えたものである。
画像から局所特徴量を抽出するアルゴリズムとして、SIFTやPCA-SIFTなど幾つかの手法が知られており、後述する実施形態においては、PCA-SIFTを用いている。ただし、この発明はPCA-SIFTに限定されるものでない。この発明において、検索質問画像の特徴は、それから抽出された複数のクエリ特徴ベクトルによって表現される。参照画像の特徴は、それから抽出された複数の参照特徴ベクトルによって表現される。画像検索は、クエリ特徴ベクトルと参照特徴ベクトルを照合し略最近傍の参照特徴ベクトルを見出す処理に基づく。
参照特徴ベクトルは、参照画像に関連付けられて予め画像データベースに登録されている。この発明の特徴的な一側面は、参照画像から直接的に抽出された参照特徴ベクトルのみならず、参照画像にボケおよび/またはブレを模した画像処理を加え、尺度空間の手法を適用して生成された学習画像から抽出される局所特徴量に含めて照合する点にある。
なお、学習画像から抽出された参照特徴ベクトルを単純に加えると画像データベースに要するメモリ容量が増大しかつより多数の参照特徴ベクトルの照合のために処理時間が増大する。そこで好ましい態様としては、さらに、メモリ容量を節約するためにスカラー量子化の手法を組み合わせることができ、処理時間を節約するために多段階化の手法と組み合わせることができる。
この発明に係る多段階化された識別器の構成を示す説明図である。 この発明に係る原画像とそれから生成された学習画像の一例を示す説明図である。 この発明に係る生成型学習の有効性を示す例として、携帯電話に付属のカメラで撮影した画像(左)と各学習セット(右)との対応する特徴点の数と対応の様子を示す第1の説明図である。 この発明に係る生成型学習の有効性を示す例として、携帯電話に付属のカメラで撮影した画像(左)と各学習セット(右)との対応する特徴点の数と対応の様子を示す第2の説明図である。 この発明に係る生成型学習の有効性を示す例として、携帯電話に付属のカメラで撮影した画像(左)と各学習セット(右)との対応する特徴点の数と対応の様子を示す第3の説明図である。 この発明に係る登録画像の一例を示す説明図である。 この発明の実験例において、学習セットCで認識に成功した検索質問の例を示す説明図である。 この発明の実験例として、識別器の多段階化ありの構成となしの構成の場合における登録画像数と認識率の関係を示すグラフである。 この発明の実験例として、スカラー量子化ありの構成となしの構成の場合における登録画像数と処理時間の関係を示すグラフである。
以下、この発明の好ましい態様について説明する。
この発明による画像検索方法において、前記照合工程は、処理負荷が軽い方から重い方の順であって近似の程度が大きい方から小さい方の順に多段階の近似を用いて前記クエリ特徴ベクトルと各参照特徴ベクトルの照合を繰り返し、前記選択工程は、前記検索結果を決定する根拠が得られるまで前記照合工程に前記照合を繰り返させてもよい。即ち、多段階化の手法と組み合わせてもよい。このようにすれば、前記照合工程は、処理量の少ない大幅な(荒い)近似の程度から照合を開始して次第に小幅な(細かい)近似の程度へ段階を進め、検索結果を決定するに足る根拠が得られた段階で検索を終了するので、識別し易い検索質問画像の照合処理は初期の段階、即ち、大幅な近似の早い段階で処理が完了する。一方、より認識し難い検索質問画像の照合処理は、それよりも多い繰り返しの後に検索結果が決定される。従って、検索質問画像の識別のし易さに応じた繰り返し回数、即ち処理時間で照合が終了する。
如何なる検索質問画像に対しても一律に近似の程度を設定して照合を行う場合と比べると、多様な検索質問画像に対する平均的な照合の処理時間を大幅に短縮することができる。何故ならば、一律に近似の程度を設定し、かつ多段階化の手法と同等の認識性能を得ようとすれば、最も認識し難い検索質問画像を基準に近似の程度を定める必要がある。すると、認識し易い検索質問画像に対して必要以上に近似の程度を小幅にし、時間をかけて照合を行うことになる。ここで、多段階化の手法と組み合わせた照合を行う本願発明において、段階を進めるに際し、前の段階の結果を利用した累積的な照合ができるように構成すれば、最も識別し難い検索質問画像についても一律に近似の程度を設定に比べて処理時間が大きく増えることはない。このような累積的な照合は可能である(非特許文献2参照)。従って、生成型学習の導入により増大する処理時間の問題を解決することができる。
また、各参照特徴ベクトルのベクトル次元を所定ビット数に量子化するスカラー量子化工程をさらに備えていてもよい。即ち、前記スカラー量子化の手法と組み合わせてもよい。この場合、各参照特徴ベクトルのスカラー量子化と組み合わせない手法に比べ、認識率をほぼ維持しつつ画像の登録に必要な記憶容量を削減することができる。従って、生成型学習の導入により増大する記憶容量の問題を解決することができる。
さらに、前記スカラー量子化工程は、各ベクトル次元を2ビット以下に量子化してもよい。各ベクトル次元を2ビット以下として大幅な記憶容量削減を行っても認識率が大幅に落ち込むことはないことを後述する実験により実証したからである。
前記学習画像は、水平方向および/または垂直方向にのみブレを模した画像処理を施して生成されてもよい。即ち、水平方向および/または垂直方向にのみブレを模した画像処理を施した画像で学習セットを構成することにより、さらに斜め方向にブレを模した画像処理を加えた学習画像も生成する場合に比べて生成型学習の導入に伴う処理時間および記憶容量の増大を最小限に留めつつ最大の効果を得ることができる。
ここで示した種々の好ましい態様は、それら複数を組み合わせることもできる。
以下、図面を用いてこの発明をさらに詳述する。なお、以下の説明は、すべての点で例示であって、この発明を限定するものと解されるべきではない。
まず、この実施形態の前提となる近似最近傍探索による物体認識手法の基本的な手順について述べる。そのあと、生成型学習による学習データの作成について述べる。
1. 近似最近傍探索による物体認識手法(前提となる手法)
この発明に好適な物体認識手法は、多段階化による高速な認識とスカラー量子化によるメモリ削減の処理を含む近似最近傍探索である。その近似最近傍探索につき画像データベースへの登録、画像の検索に共通のハッシュ関数について説明する。そのあと、登録、検索の順に説明する。
1.1. ハッシュ関数、特徴ベクトルの抽出
まず近似最近傍探索の基本となるハッシュ関数について説明する。ハッシュ表及びハッシュ関数は検索の分野で周知の手法である。ここでは、この発明に係る局所特徴量をハッシュ表に登録する具体的手順に焦点をあてて説明する。なお、局所特徴量はPCA-SIFTによって抽出されるものとする。即ち、クエリ特徴ベクトルを抽出する工程、参照特徴ベクトルを抽出する工程は、PCA-SIFTの手法を用いて実行される。PCA-SIFTによって得られる36次元の特徴ベクトルxは、主成分分析の結果であり、低次の方が固有値が大きいという性質がある。そこで、xの第1次元から第d次元(d≦36)までをとり、
とする。次に、
を用いて次元ごとに2値化を行いビットベクトル
を作成する。ここでμj は、対象となる画像すべてのxj の平均値である。そして、
によってハッシュ値を求める。ここでmod は剰余演算、Hsizeは,ハッシュ表のサイズである。
1.2. 参照画像及び参照特徴ベクトルの画像データベースへの登録
前述のハッシュ関数を用いて参照特徴ベクトルをハッシュ表に登録する。ハッシュ表には、参照画像のIDとともにスカラー量子化によってデータ量を削減した特徴ベクトルを登録するものとする。登録時に衝突が生じた場合は、複数の特徴ベクトルをリンクドリスト(以下、単にリストという)として登録する。このとき、リストが長くなりすぎると、検索の際に距離計算のコストがかかりすぎるという問題が生じる。そこでこの実施形態においては、リスト長nに対する上限cを設け、n>cを満たすとリスト全体をハッシュ表から削除する。同じハッシュ値を持つ特徴ベクトルが多いということは、その参照特徴ベクトルが画像の識別にあまり寄与しないことを意味する。従って、削除しても影響は比較的少ないと考えられる。
以上の処理を、画像データベースに登録する全ての特徴ベクトルに対して施すことにより、画像データベースへの参照画像に係るデータの登録は完了する。
1.3. 画像データベースの多段階化手法による検索(照合)
検索(照合)では、図1に示す多段階化の手法によって高速な処理を実現する。
図1は、この発明に係る多段階化手法の構成を示す説明図である。図1で、0からbの数字が付けられた矩形は各段階の検索処理をその処理を実行する識別器として表したものである。数字が若い識別器ほど大幅な(荒い)近似で検索を行う。各識別器は、検索質問の特徴を表すクエリ特徴ベクトルと画像データベース11中の特徴点を表す参照特徴ベクトルとを近似最近傍探索によって照合し、各クエリ特徴ベクトルについて略最近傍の参照特徴ベクトルを得、各参照特徴ベクトルが抽出された参照画像のIDを得る。各クエリ特徴ベクトルに対応する参照画像のIDにつき投票処理を行い、最も多く対応づいた参照画像を検索の回答とする。
検索質問の画像から得られたクエリ特徴ベクトルの集合は、まず第1段の識別器によって検索が実行され認識される。この段階で後述する十分な証拠が得られれば、認識処理を打ち切って結果を回答する。一方、証拠が不十分ならば、前記クエリ特徴ベクトルの集合を、次段階の、より小幅な近似の識別器にかけて再度認識する。
大幅な近似は照合すべきデータ量が少ないために照合処理が軽く、小幅な近似は照合処理が重い。図1の多段階化の態様によれば、大幅な近似から小幅な近似へ次第に近似の程度を変えていくが、小幅な近似での検索は一部の処理(検索対象)が前段階のより大幅な近似と重複する。この点に着目し、前段階と重複する処理については前段階で得られた結果を用いることとし、前段階との差分を新たに検索するように各識別器を構成することができる。
各段階の検索を繰り返し、最終段階(b+1段目)まで到達しても十分な証拠が得られない場合には、最大得票数のものを回答するか、その画像についてはリジェクトするかのいずれかをとる。以上の処理によって、早い段階で処理が打ち切られる画像については大幅な効率化が期待できると共に、必要に応じて時間をかけた認識が可能となる。
認識誤りを引き起こす画像には、そもそも得票数が少ない、得票数がある程度得られる場合でも第2位の候補と得票数に開きが殆どない、という性質がある。これらの点に着目すると、証拠が十分であるか否かは次のように判定できる。1位の得票数をV1、2位の得票数をV2とすると、V1>t, rV1>V2を同時に満たすならば、処理を打ち切って1位得票の画像を回答とする。ここで、tは得票数の閾値、rは1位と2位の得票数の比の閾値である。
1.4. 各識別器の処理(各段階での照合、選択)
各段階の識別器の処理を説明する。各識別器は、検索質問の画像から得た各クエリ特徴ベクトルqに対して、ハッシュ表から最近傍と判断する参照特徴ベクトルを探索する。ただし、近似最近傍探索の手法により求められた結果は、近似を含むために略最近傍ではあっても最近傍である保証はない。探索精度が処理時間とトレードオフされているためである。しかし、トレードオフされた探索精度は後述する投票処理によって補償される。ここで得られた参照特徴ベクトルの集合をXとする。次に、qをスカラー量子化したベクトルと、Xに含まれるベクトルとのユークリッド距離を計算し、最近傍となる参照特徴ベクトルX*を求める。
そして、X*に対応する参照画像IDに投票する。最近傍と判断する参照特徴ベクトルが複数ある場合には、それらすべてに対して参照画像IDを投票し最多得票の参照画像を決定する投票処理を行えばよい。検索質問のすべてのクエリ特徴ベクトルに対してこの投票処理を行い、最終的に最も得票数の多い参照画像を回答(検索結果)として選択する。
この処理において、近似の程度を決定するのは、各クエリ特徴ベクトルqに対する参照特徴ベクトルの集合Xを検索する部分である。最も近似する場合(第1段階)では、登録時と同様にqに対してビットベクトルを求め、ハッシュ関数によって同じハッシュ値を持つ特徴ベクトルを求める。
近似の程度を大幅にする場合には、特徴ベクトルの各次元の値が撮影条件によって変動することを考慮し、変動を考慮した探索を行う。具体的には、値の変動幅eをパラメータとして、変動への次の対処を施す。
とするとき、
を満たす次元jに対しては、ujだけではなく
も用いて、参照特徴ベクトルを検索する。この処理を特徴ベクトルの高次の方から行っていき、多段階化の段階が進むごと、即ち、より小幅な近似になるごとに、処理の対象となるクリエ特徴ベクトル及び参照特徴ベクトルの次元を増加させる。最終段階(第b段階)まで到達した場合には2b個のビットベクトルを試すことになる。このとき、前の段階で既に試したビットベクトルとの差分のみを容易に検索することができるため(前記非特許文献2参照)、多段階化による処理の増加は最小限に抑えることができる。
2. 尺度空間の手法を用いた学習画像の生成(生成型学習)
次に、学習画像の生成について説明する。本や写真といった平面物体を撮影した際におこる劣化の原因はいくつか考えられるが、この発明ではボケとブレが最も大きい要因であると考え対策する。
ボケやブレに対処する最も単純で効果的な方法は、生成型学習によるものであろう。これは、元の画像に様々なボケやブレを与えた学習画像を生成し、学習画像からも特徴ベクトルを抽出して認識に用いる手法である。抽出された特徴ベクトルは、学習データとして元の画像から抽出された特徴ベクトルと共に各識別器の処理に供される。
この発明は、局所特徴量の最近傍探索によって認識しているため、学習データの増加は、必要なメモリ量と処理時間の増加につながる。そこで、学習データをできるだけ少なくするために、ブレについて以下のように仮定する。撮影対象である本や写真が移動することは考えづらいので、ブレは画像の撮影時に撮影ボタンを押すことで起こる。そのためブレの方向は垂直または水平のみであると仮定する。
この実施形態によれば、元の画像(原画像)とその画像から生成された学習画像のセット(学習セット)の各画像から局所特徴量を抽出する。
図2は、原画像とそれにボケやブレを与えた学習画像から構成される学習セットの一例を示す説明図である。画像データベース11中の画像に対し、カーネルサイズを変えつつガウシアンフィルタによってぼかした学習画像を生成する。ボケ及びブレの程度及び種類に応じて図2に枠線で示す画像の集合、学習セットAからDを作成する。カーネルサイズは縦横それぞれ1,7,13,9[画素]の組み合わせについて試す。ガウシアンフィルタのカーネルサイズが縦と横で異なるものは、ブレに対応している。なお、実験に用いる画像データベース11はほぼQVGAサイズ(320×240)である。
ところで、PCA-SIFTはボケの程度を変えた複数枚の画像によりスケールスペースを構築し特徴点を求めることでスケール不変を実現している。そのため、カーネルサイズが縦と横で異なるブレに対応した画像では、原画像と異なる特徴量が得られても不思議ではない。一方、カーネルサイズが縦横同じになるボケに対応した画像からは、原画像と同じ特徴点しか得られず、そのような画像を学習セットに加えても認識率はあまり向上しないのではないかとも考えられる。
ところが、意外にも、カーネルサイズが縦横同じになるボケを学習セットに加えると、認識率が向上することが判明し、この発明の有効性が実証された。その理由は、PCA-SIFTの手法でスケールスペースを構築する際は、ガウシアンフィルタのスケールを離散的に拡大させる点に関連すると思われる。即ち,検索質問のボケの程度がその離散的なスケールの間にあれば、もとの画像と異なる特徴点が得られるためと考えられる。これを検証するために、学習セットDに含まれる画像のうちカーネルサイズの縦横のサイズが同じもの(図2の対角成分)のみを抜き出した学習セットDdiagを作成した。
図3〜5は、この発明に係る学習セットA、B、C、D及びDdiagの各画像から得られた局所特徴量と、原画像を携帯電話で撮影した撮影画像の局所特徴量の一対一対応の様子を示す説明図である。左画像(撮影画像)の特徴点(局所特徴量が得られた箇所)の数は134である。また、説明の都合上、右画像はすべて同一の画像(学習セットAの画像)であるが、局所特徴量は各々の学習セットから得られたものを表示している。
具体的には、撮影画像の局所特徴量に最も類似した(特徴ベクトル間の距離が最小となる)学習セット中の局所特徴量を発見し、その距離が閾値以下の場合に対応が取れたとする。図3(a)に示す様に、Aでは、9個の局所特徴量について一対一の対応がとれた。図3(b)に示す様に、Bでは、31個の局所特徴量について対応がとれた。Bは、Aで対応のとれた9個の局所特徴量を含む。よって、AからBにしたことによって、22個の新たな局所特徴量の対応が得られたことになる。図4(a)に示す様に、CではBよりさらに5個多い36個の局所特徴量について対応がとれ、図4(b)に示す様に、DではCと同数の36個の局所特徴量について対応がとれた。
図3−5の各点は特徴点、線は対応を表している。ぼかした画像の枚数が多いほど対応の数が増加していることがわかる。図5に示すDdiagでもぼかしのないAより多くの対応が得られており、効果があることがわかる。
これらのことから、生成型学習により、携帯電話で撮影した画像の特徴点と学習セット中の特徴点とがよく対応するようになること、即ち、検索質問画像から抽出されるクエリ特徴ベクトルにより近い参照特徴ベクトルが見出されていることがうかがえる。これは、検索質問と学習セットの画像がよく似ていること、つまり、検索質問の画像にブレ、ボケが含まれていることを示している。なお、ここでの「対応」は共通の対応する画像のみを対象として処理した結果であるため、多数の画像を登録した場合の認識結果については実験で取り扱う。
3. 実験
3.1. 実験条件
この発明の有効性を実証するために以下の実験を行った。実験には以下に述べる画像データベース、検索質問画像を用いた。局所特徴量としては、PCA-SIFT(http://www.cs.cmu.edu/yke/pcasift/で提供されている)を用いた。ハッシュ表のサイズは
とした。以下に示す処理時間は、検索質問の画像1枚あたりの認識に要した時間を表す。
ただし、特徴ベクトルの抽出に必要な時間は含めていない。使用計算機は、CPUがAMD Opteron(登録商標) 2.8GHz、メモリ64GBのものである。
3.1.1. 画像データベース
実験に用いた画像について説明する。画像データベースは、写真共有サイトのflickrにおいて"animal"、"birthday"、"food"、"japan"などのタグにより収集した10万枚の画像からなる。主に図6に示すような物体や自然の写真、人物の写真などを含む。なお、画像の長辺が320 pixel以下になるように縮小した。
2節で述べた各学習セットを作成した時の特徴点数を表1に示す。画像から得られるPCA-SIFT特徴点の数は画像がボケているほど少ないため、画像の枚数ほど特徴点数は増加していない。
実験では、スカラー量子化の閾値はどの枚数のデータベースを用いる場合でも、1万枚の画像データベースから得たものを用いた。
3.1.2. 検索質問画像
検索質問としては、表2に示すように認識用とリジェクト用の2種類を作成した。認識用の検索質問は画像データベースから無作為に選択した1000枚を撮影したものである。具体的な作成手順は以下の通りである。まず、A4用紙1枚に画像を4枚または16枚並べて印刷した。印刷には、カラーレーザープリンタを用いた。撮影者ごとに別の携帯電話を用い、各々の画像全体が写るように撮影した。このとき、画像サイズはQVGA(320×240)とし、マクロモードは表2のように設定した。リジェクト用の検索質問としては、画像データベースに含まれない画像1000枚を印刷したものを類似の手法で撮影して用いた。画像1枚あたりの平均特徴点数を表2に示す。
3.2. リジェクトなしの実験
3.2.1. 学習セット
まず、生成型学習が認識率に与える影響について調べた。登録画像数は1万枚とし、認識率に悪影響を与える可能性のある多段階化、量子化は行わなかった(すなわち、特徴量は各次元16bitのベクトルで表現した)。処理のパラメータは、b=10, c=100, d=28, e=400とした。結果を表3に示す。8人の撮影者に撮影を行ってもらった。学習セットを図2のA,B,C,Dと変えるにつれ認識率が向上し、Dを用いた場合には認識率93.3%とA(原画像)の81.0%から12.3%向上している。撮影者ごとに比較すると、撮影者3が最も効果が大きく、認識率57.0%であったのが88.7%と31.7%向上した。次に効果があったのは、撮影者4であった。撮影者3と4は、表2に示すように、A4用紙1枚に16枚の画像を印刷し、マクロモードなしで撮影したものである。そのため、他の検索質問に比べボケの程度が大きく、この発明による手法の効果が高かったと考えられる。学習セットDdiagを見ると、認識率はDには劣るもののAから10%向上した。Ddiagでは、ブレへの対処は行っていないため、ボケのみへの対処でもある程度の効果が得られることがわかる。
一方、処理時間について見ると、学習セット中の特徴点の増加にともなって、増加していることがわかる。例えば、学習セットCはAの約5倍の特徴点が含まれ、処理時間は2倍程度かかっている。特徴ベクトル以外の部分やオーバーヘッドも含む実際に使用しているメモリ量は、学習セットAから順に2.5GB、3.5GB、4.3GB、4.5GBと増加していた。このように、学習セット内の画像の増加による認識率の向上は、処理時間やメモリ量を犠牲にすることで成立している。
図7に学習セットAでは認識に失敗したが、学習セットCでは認識に成功した画像を示す。図7からブレやボケの激しい画像でも認識できることがわかる。
3.2.2. スケーラビリティ
ここまでの実験で、学習セット中の特徴点数を増加させることで認識率を改善できることがわかった。しかし、ハッシュ表に登録する特徴点数の増加によって、この発明による手法のスケーラビリティに悪影響を与えることが考えられる。そこで、本節では学習セットCを用い登録画像数を10万枚まで増加させ、認識率、処理時間、メモリ量の3点について調べた。パラメータはb=400, c=100, d=28, e=400, t=4, r=0.4、多段階化はありとなし、スカラー量子化における次元あたりのbit数は2, 16(量子化なし)とした。
認識率を図8に示す。量子化なしの場合には、登録画像数を10万枚まで増加させた場合でも、認識率は92.5%とほぼ一定であった。各次元を2bitで量子化した場合には、認識率が最大で1%ほど低下することがわかる。一方、多段階化による認識率の低下は、ほとんど見られなかった。
処理時間を図9に示す。多段階化により処理時間を1/10程度に削減できることがわかる。量子化ありの場合は、検索質問の特徴ベクトルを量子化する処理のために、時間が余分に必要であった。
10万枚を登録した場合のメモリ量は、量子化なしの場合に22.6GB、各次元2bitで量子化した場合に6.7GBと約1/3になった。1万枚の場合には2bitで量子化すると認識率92.4%、処理時間1.7ms、メモリ量2.7GBとなった。1節で述べた学習セットAを用いた場合、すなわち生成型学習なしの場合には、認識率81.0%、処理時間7.7ms、メモリ量2.5GBであったので、多段階化と量子化を組み合わせることにより、ほぼ同じメモリ量でより高速かつ高精度な認識を実現できたといえる。
3.3. リジェクトありの実験
最後に、登録画像数を1万枚とし学習セットCを用いたリジェクトをする場合の実験結果について述べる。結果の評価尺度を次の様に定める。まず、対応する画像のある検索質問に対しては、認識率C1、誤認識率E1、リジェクト率R1 (ただし、C1+E1+R1 = 1)とする。対応する画像のない検索質問に対しては、誤認識率E2、リジェクト率R2 (ただし、E2+R2 = 1)とする。実験には、10-fold cross validationを用いた。学習サンプルに対して、表4の3通りの基準を用いてパラメータを求め、テストサンプルに適用した。パラメータについては、b=5, 10,15, c=2, 5, 10, 100, d=20, 24, 28, e=200, 400, 600, r=0.2, 0.4, 0.6, t=4, 8, 12のすべての組み合わせについて試した。結果を表4に示す。処理時間については、リジェクト用検索質問の方が長くなっている。これは、リジェクトとして回答するためには最終段階まで到達する必要があるためである。処理時間を10ms、リジェクト率R1を10%程度許容すると、誤認識率が1%以下という誤りにくい認識を実現できた。
4. まとめ
この発明では、局所特徴量の最近傍探索による画像認識手法において、カメラ付き携帯電話を画像入力デバイスとして利用すると問題となるブレやボケを生成型学習により解決した。1万枚の画像を用いた実験の結果、認識率が12.3%改善することがわかった。
前述した実施の形態の他にも、この発明について種々の変形例があり得る。それらの変形例は、この発明の範囲に属さないと解されるべきものではない。この発明には、請求の範囲と均等の意味および前記範囲内でのすべての変形とが含まれるべきである。
この発明によれば、カメラ付き携帯電話などを検索質問としての画像の入力デバイスとする画像認識において、前記入力デバイスでの撮影に伴うボケやブレの影響による認識精度の低下を抑えることができ、高い認識率で画像認識を行うことができる。
生成型学習を導入するにあたって問題となるのは、学習データの増加にともなって最近傍探索に必要なメモリ量と処理時間が増大することである。これは、特に大規模な画像データベースを用いた場合に顕著な問題となる。しかし、この問題については、発明者らがすでに提案した多段階化とスカラー量子化の手法を適用することが有効な解決手段になり得ることが判明した。
11:画像データベース
A、B、C、D:学習セット

Claims (6)

  1. カメラで検索対象が撮影された検索質問画像からその検索質問画像の局所的特徴を表す少なくとも一つのクエリ特徴ベクトルを抽出する工程と、
    複数の参照画像と、各参照画像から生成される複数の学習画像と、前記参照画像および前記学習画像の局所的特徴を表す複数の参照特徴ベクトルとがそれぞれ関連付けて予め登録されたメモリ上の画像データベースにアクセスする工程と、
    前記クエリ特徴ベクトルと各参照画像に関連付けられた参照特徴ベクトルとを近似最近傍探索により照合し、前記クエリ特徴ベクトルに対し最近傍の参照特徴ベクトルを見出す照合工程と、
    見出された各参照特徴ベクトルと関連付けられた参照画像を検索結果として選択する選択工程とを備え、
    各参照特徴ベクトルは、各参照画像およびその参照画像に対応する学習画像をそれぞれ原画像として、各原画像にガウシアンフィルタのスケールを予め定められた割合で拡大させながら順次適用して複数の平滑化画像からなる尺度空間を生成し、隣り合うスケールの平滑化画像の差分を用いてそれぞれ抽出され、
    前記クエリ特徴ベクトルは、前記検索質問画像を原画像として尺度空間を生成し、隣り合うスケールの平滑化画像の差分を用いて抽出され、
    前記学習画像は、各参照画像にカーネルサイズが異なるガウシアンフィルタをそれぞれ適用することにより撮影の際に生じ得るボケおよび/またはブレを模して複数生成され、かつ前記カーネルサイズは前記尺度空間の生成に適用されるガウシアンフィルタのスケールと異なるように設定され、
    前記照合工程は、近似の程度が大きい方から小さい方の順に多段階の近似を用いて前記クエリ特徴ベクトルと各参照特徴ベクトルの照合を繰り返し、
    前記選択工程は、前記検索結果得られるまで前記照合工程での照合が繰り返されるようにし、
    各工程がコンピュータにより実行される画像検索方法。
  2. 前記画像データベースは、少なくとも1万〜10万の範囲で参照画像を登録し得るように構成され、
    前記学習画像は、異なるカーネルサイズの3〜15種類のガウシアンフィルタを各参照画像にそれぞれ適用して生成されるものである請求項1に記載の画像検索方法。
  3. ベクトルの各次元に対応する要素のビット数を削減するスカラー量子化工程をさらに備える請求項1に記載の画像検索方法。
  4. 前記スカラー量子化工程は、各次元に対応する要素のビット数を2ビット以下に量子化する請求項3に記載の画像検索方法。
  5. 画像検索において参照されるべき参照画像を格納するメモリ上の画像データベースに新たな参照画像を登録するにあたり、検索質問画像を得るため検索対象をカメラで撮影するときに生じ得るボケおよび/またはブレを模した複数の学習画像を生成する工程と、
    前記参照画像および前記学習画像から局所的特徴を表す少なくとも一つの参照特徴ベクトルをそれぞれ抽出する工程と、
    前記参照特徴ベクトルおよび前記学習画像を対応する参照画像に関連付けて前記画像データベースに登録する工程とを備え
    前記画像検索は、前記参照特徴ベクトルを抽出する手順と同様に前記検索質問画像から少なくとも一つのクエリ特徴ベクトルを抽出し、前記クエリ特徴ベクトルと前記画像データベースに登録された参照特徴ベクトルとを近似最近傍探索により照合して前記クエリ特徴ベクトルに対し最近傍の参照特徴ベクトルを見出し、見出された各参照特徴ベクトルと関連付けられた前記特定の参照画像を選択する手順により行われ、かつ、前記照合は、近似の程度が大きい方から小さい方の順に多段階の近似を用いて前記クエリ特徴ベクトルと各参照特徴ベクトルの照合を繰り返し、かつ、検索結果得られるまで繰り返され、
    各参照特徴ベクトルは、各参照画像およびその参照画像に対応する学習画像をそれぞれ原画像として、各原画像にガウシアンフィルタのスケールを予め定められた割合で拡大させながら順次適用して複数の平滑化画像からなる尺度空間を生成し、隣り合うスケールの平滑化画像の差分を用いてそれぞれ抽出され、
    前記クエリ特徴ベクトルは、前記検索質問画像を原画像として尺度空間を生成し、隣り合うスケールの平滑化画像の差分を用いて抽出され、
    前記学習画像は、各参照画像にカーネルサイズが異なるガウシアンフィルタをそれぞれ適用することにより撮影の際に生じ得るボケおよび/またはブレを模して複数生成され、かつ前記カーネルサイズは前記尺度空間の生成に適用されるガウシアンフィルタのスケールと異なるように設定され、
    各工程がコンピュータにより実行される画像データベースへの画像登録方法。
  6. カメラで検索対象が撮影された検索質問画像からその検索質問画像の局所的特徴を表す少なくとも一つのクエリ特徴ベクトルを抽出するステップと、
    複数の参照画像と、各参照画像から生成される複数の学習画像と、前記参照画像および前記学習画像の局所的特徴を表す複数の参照特徴ベクトルとがそれぞれ関連付けて予め登録されたメモリ上の画像データベースにアクセスするステップと、
    前記クエリ特徴ベクトルと各参照画像に関連付けられた参照特徴ベクトルとを近似最近傍探索により照合し、前記クエリ特徴ベクトルに対し最近傍の参照特徴ベクトルを見出す照合ステップと、
    見出された各参照特徴ベクトルと関連付けられた参照画像を検索結果として選択する選択ステップとをコンピュータに実行させ、
    各参照特徴ベクトルは、各参照画像およびその参照画像に対応する学習画像をそれぞれ原画像として、各原画像にガウシアンフィルタのスケールを予め定められた割合で拡大させながら順次適用して複数の平滑化画像からなる尺度空間を生成し、隣り合うスケールの平滑化画像の差分を用いてそれぞれ抽出され、
    前記クエリ特徴ベクトルは、前記検索質問画像を原画像として尺度空間を生成し、隣り合うスケールの平滑化画像の差分を用いて抽出され、
    前記学習画像は、各参照画像にカーネルサイズが異なるガウシアンフィルタをそれぞれ適用することにより撮影の際に生じ得るボケおよび/またはブレを模して複数生成され、かつ前記カーネルサイズは前記尺度空間の生成に適用されるガウシアンフィルタのスケールと異なるように設定され、
    前記照合ステップは、近似の程度が大きい方から小さい方の順に多段階の近似を用いて前記クエリ特徴ベクトルと各参照特徴ベクトルの照合を繰り返し、
    前記選択ステップは、前記検索結果得られるまで前記照合ステップでの照合が繰り返されるようにする画像検索プログラム。
JP2011502783A 2009-03-04 2010-03-03 画像検索方法、画像検索プログラム及び画像登録方法 Expired - Fee Related JP5527554B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011502783A JP5527554B2 (ja) 2009-03-04 2010-03-03 画像検索方法、画像検索プログラム及び画像登録方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009050630 2009-03-04
JP2009050630 2009-03-04
JP2011502783A JP5527554B2 (ja) 2009-03-04 2010-03-03 画像検索方法、画像検索プログラム及び画像登録方法
PCT/JP2010/053446 WO2010101186A1 (ja) 2009-03-04 2010-03-03 画像検索方法、画像検索プログラム及び画像登録方法

Publications (2)

Publication Number Publication Date
JPWO2010101186A1 JPWO2010101186A1 (ja) 2012-09-10
JP5527554B2 true JP5527554B2 (ja) 2014-06-18

Family

ID=42709741

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011502783A Expired - Fee Related JP5527554B2 (ja) 2009-03-04 2010-03-03 画像検索方法、画像検索プログラム及び画像登録方法

Country Status (6)

Country Link
US (1) US8818103B2 (ja)
EP (1) EP2405391A4 (ja)
JP (1) JP5527554B2 (ja)
CN (1) CN102422319B (ja)
HK (1) HK1164516A1 (ja)
WO (1) WO2010101186A1 (ja)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120011142A1 (en) * 2010-07-08 2012-01-12 Qualcomm Incorporated Feedback to improve object recognition
US20120109993A1 (en) * 2010-10-28 2012-05-03 Qualcomm Incorporated Performing Visual Search in a Network
US9036925B2 (en) 2011-04-14 2015-05-19 Qualcomm Incorporated Robust feature matching for visual search
US8452792B2 (en) * 2011-10-28 2013-05-28 Microsoft Corporation De-focusing over big data for extraction of unknown value
US9239850B2 (en) 2011-11-18 2016-01-19 Nec Corporation Feature descriptor encoding apparatus, feature descriptor encoding method, and program
US9165187B2 (en) 2012-01-12 2015-10-20 Kofax, Inc. Systems and methods for mobile image capture and processing
US11321772B2 (en) 2012-01-12 2022-05-03 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
CN103020321B (zh) * 2013-01-11 2015-08-19 广东图图搜网络科技有限公司 近邻搜索方法与系统
US10127636B2 (en) 2013-09-27 2018-11-13 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
US9152874B2 (en) 2013-03-13 2015-10-06 Qualcomm Incorporated Motion blur aware visual pose tracking
US10783615B2 (en) * 2013-03-13 2020-09-22 Kofax, Inc. Content-based object detection, 3D reconstruction, and data extraction from digital images
IL226219A (en) * 2013-05-07 2016-10-31 Picscout (Israel) Ltd Efficient comparison of images for large groups of images
JP5808371B2 (ja) * 2013-08-28 2015-11-10 ヤフー株式会社 画像認識装置、画像認識方法及び画像認識プログラム
CN103488701A (zh) * 2013-09-05 2014-01-01 成都理想境界科技有限公司 图像样本训练方法及图像检索系统
CN103678660B (zh) * 2013-12-24 2017-01-11 北京邮电大学 一种图像检索方法
JP6433187B2 (ja) 2014-08-07 2018-12-05 キヤノン株式会社 情報処理装置、その制御方法およびコンピュータプログラム
JP6168022B2 (ja) * 2014-09-30 2017-07-26 株式会社デンソー 画像認識装置
CN104572910A (zh) * 2014-12-26 2015-04-29 天津大学 一种基于向量模型的气相色谱质谱谱图检索方法
US10467465B2 (en) 2015-07-20 2019-11-05 Kofax, Inc. Range and/or polarity-based thresholding for improved data extraction
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
US10489712B2 (en) * 2016-02-26 2019-11-26 Oath Inc. Quality-based scoring and inhibiting of user-generated content
CN105912611B (zh) * 2016-04-05 2019-04-26 中国科学技术大学 一种基于cnn的快速图像检索方法
WO2018100676A1 (ja) 2016-11-30 2018-06-07 株式会社オプティム カメラ制御システム、カメラ制御方法、およびプログラム
US20210089571A1 (en) * 2017-04-10 2021-03-25 Hewlett-Packard Development Company, L.P. Machine learning image search
CN111183334B (zh) * 2017-08-31 2022-03-15 株式会社OPTiM 图像解析距离信息提供系统、方法以及记录介质
WO2019103912A2 (en) * 2017-11-22 2019-05-31 Arterys Inc. Content based image retrieval for lesion analysis
US11062176B2 (en) 2017-11-30 2021-07-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
CN108021693A (zh) * 2017-12-18 2018-05-11 北京奇艺世纪科技有限公司 一种图像检索方法和装置
CN108763266B (zh) * 2018-04-03 2022-04-29 南昌奇眸科技有限公司 一种基于图像特征提取的商标检索方法
US11449484B2 (en) 2018-06-25 2022-09-20 Ebay Inc. Data indexing and searching using permutation indexes
CN110134804B (zh) * 2019-05-20 2021-09-17 北京达佳互联信息技术有限公司 图像检索方法、装置及存储介质
US10665011B1 (en) * 2019-05-31 2020-05-26 Adobe Inc. Dynamically estimating lighting parameters for positions within augmented-reality scenes based on global and local features
CN110390352A (zh) * 2019-06-26 2019-10-29 华中科技大学 一种基于相似性哈希的图像暗数据价值评估方法
CN111930983B (zh) * 2020-08-18 2023-09-22 创新奇智(成都)科技有限公司 一种图像检索方法、装置、电子设备及存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7489821B2 (en) * 2003-04-08 2009-02-10 International Business Machines Corporation Method, system and program product for representing a perceptual organization of an image
US7382897B2 (en) * 2004-04-27 2008-06-03 Microsoft Corporation Multi-image feature matching using multi-scale oriented patches
US7702673B2 (en) * 2004-10-01 2010-04-20 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment
US7594177B2 (en) * 2004-12-08 2009-09-22 Microsoft Corporation System and method for video browsing using a cluster index
US7475071B1 (en) * 2005-11-12 2009-01-06 Google Inc. Performing a parallel nearest-neighbor matching operation using a parallel hybrid spill tree
US7813561B2 (en) * 2006-08-14 2010-10-12 Microsoft Corporation Automatic classification of objects within images
WO2008026414A1 (fr) 2006-08-31 2008-03-06 Osaka Prefecture University Public Corporation Procédé de reconnaissance d'image, dispositif de reconnaissance d'image et programme de reconnaissance d'image
CN100530222C (zh) * 2007-10-18 2009-08-19 清华大学 图像匹配方法
US8150098B2 (en) * 2007-12-20 2012-04-03 Eastman Kodak Company Grouping images by location
CN100578508C (zh) * 2008-01-14 2010-01-06 上海博康智能信息技术有限公司 交互式图像搜索系统和方法
CN101669117A (zh) * 2008-05-09 2010-03-10 韩国外国语大学校研究产学协力团 用形状描述符匹配图像
US8139860B2 (en) * 2008-07-31 2012-03-20 Fuji Xerox Co., Ltd. Retrieving and sharing electronic documents using paper
US8489627B1 (en) * 2008-08-28 2013-07-16 Adobe Systems Incorporated Combined semantic description and visual attribute search
US8363973B2 (en) * 2008-10-01 2013-01-29 Fuji Xerox Co., Ltd. Descriptor for image corresponding point matching
US8611677B2 (en) * 2008-11-19 2013-12-17 Intellectual Ventures Fund 83 Llc Method for event-based semantic classification
US8254697B2 (en) * 2009-02-02 2012-08-28 Microsoft Corporation Scalable near duplicate image search with geometric constraints

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200701123017; 野口和人ほか: '近似最近傍探索を用いた物体認識のための多段階化とその効果' 電子情報通信学会技術研究報告 第107巻 第115号, 20070621, 99-104頁, 社団法人電子情報通信学会 *
CSNG200800913005; 野田雅文ほか: '生成型学習法を用いた車載カメラ画像からの路面標示認識' 電子情報通信学会技術研究報告 第108巻 第263号, 20081016, 31-36頁, 社団法人電子情報通信学会 *
JPN6013053226; 野口和人ほか: '近似最近傍探索を用いた物体認識のための多段階化とその効果' 電子情報通信学会技術研究報告 第107巻 第115号, 20070621, 99-104頁, 社団法人電子情報通信学会 *
JPN6013053227; 野田雅文ほか: '生成型学習法を用いた車載カメラ画像からの路面標示認識' 電子情報通信学会技術研究報告 第108巻 第263号, 20081016, 31-36頁, 社団法人電子情報通信学会 *

Also Published As

Publication number Publication date
CN102422319B (zh) 2014-04-30
US8818103B2 (en) 2014-08-26
CN102422319A (zh) 2012-04-18
WO2010101186A1 (ja) 2010-09-10
EP2405391A4 (en) 2014-11-19
JPWO2010101186A1 (ja) 2012-09-10
US20120051628A1 (en) 2012-03-01
EP2405391A1 (en) 2012-01-11
HK1164516A1 (en) 2012-09-21

Similar Documents

Publication Publication Date Title
JP5527554B2 (ja) 画像検索方法、画像検索プログラム及び画像登録方法
JP4883649B2 (ja) 画像認識方法、画像認識装置および画像認識プログラム
JP4332556B2 (ja) 文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置
Gatos et al. Segmentation-free word spotting in historical printed documents
US9626555B2 (en) Content-based document image classification
JP5522408B2 (ja) パターン認識装置
Kumar et al. A dataset for quality assessment of camera captured document images
JP5096776B2 (ja) 画像処理装置及び画像検索方法
US10095957B2 (en) Method and system for unsupervised word image clustering
US20190180094A1 (en) Document image marking generation for a training set
CN105760488B (zh) 基于多层次特征融合的图像表达方法和装置
US20120084305A1 (en) Compiling method, compiling apparatus, and compiling program of image database used for object recognition
Rasyidi et al. Batik pattern recognition using convolutional neural network
Zepeda et al. Exemplar SVMs as visual feature encoders
CN112329679A (zh) 一种人脸识别方法、系统、电子设备及存储介质
US11574492B2 (en) Efficient location and identification of documents in images
CN110490190A (zh) 一种结构化图像文字识别方法及系统
Ferreira et al. An inception-based data-driven ensemble approach to camera model identification
JP2016170677A (ja) 文書画像処理用のプログラムおよびこのプログラムを用いた画像処理装置ならびに文字認識装置
Amato et al. Aggregating binary local descriptors for image retrieval
CN112559791A (zh) 一种基于深度学习的布匹分类检索方法
Guruprasad et al. Multimodal recognition framework: an accurate and powerful Nandinagari handwritten character recognition model
CN110796134A (zh) 一种强噪声复杂背景图像中的汉字组词方法
US20220027662A1 (en) Optical character recognition using specialized confidence functions
CN109766939B (zh) 一种基于照片的镀锌钢和低碳钢分类方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131029

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140304

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140401

R150 Certificate of patent or registration of utility model

Ref document number: 5527554

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees