JP5791666B2 - ビジュアルキーワードの動的生成装置 - Google Patents

ビジュアルキーワードの動的生成装置 Download PDF

Info

Publication number
JP5791666B2
JP5791666B2 JP2013149362A JP2013149362A JP5791666B2 JP 5791666 B2 JP5791666 B2 JP 5791666B2 JP 2013149362 A JP2013149362 A JP 2013149362A JP 2013149362 A JP2013149362 A JP 2013149362A JP 5791666 B2 JP5791666 B2 JP 5791666B2
Authority
JP
Japan
Prior art keywords
visual
visual keyword
unit
keyword
local feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013149362A
Other languages
English (en)
Other versions
JP2015022466A (ja
Inventor
岩崎 雅二郎
雅二郎 岩崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2013149362A priority Critical patent/JP5791666B2/ja
Publication of JP2015022466A publication Critical patent/JP2015022466A/ja
Application granted granted Critical
Publication of JP5791666B2 publication Critical patent/JP5791666B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、画像検索に用いられるビジュアルキーワードを動的に生成するための技術に関するものである。
下記特許文献1に示されるように、局所特徴量を用いた画像照合手法が知られている。なお、画像照合は画像認識と呼ばれることがある。この文献の手法では、画像を複数の部分に分割し、各部分に対応して局所特徴量を抽出し、この局所特徴量を用いて類似画像検索を行うことができる。これらの局所特徴量は、画像の特徴を精度良く表すために、通常、多次元のベクトルデータとされている。
ところで、下記特許文献1にも示されているように、局所特徴量を用いた類似画像検索では、計算量が膨大となる傾向がある。
そこで、局所特徴量を高速に検索するために、ビジュアルキーワードあるいはBoF(Bag of Features)という手法が提案されている(下記特許文献2参照)。この手法では、実際の学習段階の前に、多数の局所特徴量をクラスタリングすることにより、クラスタを代表する局所特徴量(つまりビジュアルキーワード)を算出する。さらに、各クラスタにIDを付す。これにより、各局所特徴量を、それが属するクラスタのIDに紐付けることができる。
ついで、実際の学習段階では、学習画像における各局所特徴量について、各ビジュアルキーワードとの距離を計算し、既定値以内のビジュアルキーワードを特定する。これにより、各局所特徴量と、それに近いビジュアルキーワードのIDとを紐づけることができる。すると、1枚の学習画像における局所特徴量の集合は、クラスタIDのヒストグラム(集合ということもできる)により置き換えることができる。このクラスタIDのヒストグラムを、BoF表現あるいは単にBoFと呼ぶ。一枚の画像に対応して、一つのBoF表現を得ることができる。この作業を、必要枚数の学習画像について行う。
ついで、認識段階では、認識対象の画像(対象画像)における各局所特徴量について、前記と同様にビジュアルキーワードを検索することにより、対象画像に対応するBoF表現を生成する。対象画像のBoF表現と学習画像のBoF表現との距離に基づいて、対象画像に近いと推定される学習画像を特定することができる。
ここで、BoF表現は、多次元データではあるが極めて疎なデータ(つまりほとんどの次元における値が0)なので、転置ファイルによって検索できる。なお、BoF表現を「特徴ベクトル」と称することがあるが、本明細書では、画像の特徴量を示す特徴ベクトルとの混同を避けるため、BoF表現という用語を用いる。
BoF表現を用いることにより、局所特徴量を量子化して、データ量を減らすことができる。しかも、BoF表現の検索には転置ファイルを利用できるので、局所特徴量自体を用いるよりも高速な類似画像検索(つまり画像認識)が可能となる。
ところで、BoF表現を用いた画像検索(このような検索を以下「BoF検索」と称することがある)を実施する場合には、実際の学習段階の前に、多数の局所特徴量をクラスタリングすることにより、ビジュアルキーワードを生成しておく必要がある。つまり、この手法では、認識工程の前の学習段階として、ビジュアルキーワードの生成と実際の学習という二つの処理を実施しなければならず、煩雑であるという問題がある。
また、前記したBoF検索における検索精度は、ビジュアルキーワードの生成精度に依存する。ここで、クラスタリングにおけるクラスタ半径を狭くすると、同一対象物についての局所特徴量であっても、撮影条件が異なるだけで、異なるクラスタに属する可能性が高くなる。一方で、クラスタ半径を大きくすれば、異質な(画像的に類似性の低い対象物についての)局所特徴量が同じクラスタに属する可能性が高くなる。このため、適切なクラスタリング手法を決定することが難しいという問題もある。
特開2011−128773号公報(0003〜0005段落) 特開2012−22419号公報
本発明は、前記した状況に鑑みてなされたものである。本発明の主な目的は、学習段階の実施と並行して、ビジュアルキーワードを動的に生成できる技術を提供することである。本発明の他の目的は、ビジュアルキーワードの生成の際に、局所特徴量のクラスタリングを省略することが可能な技術を提供することである。
本発明は、以下のいずれかの項目に記載の構成とされている。
(項目1)
学習画像におけるビジュアルキーワードを、前記学習画像自体の学習過程において動的に生成するための装置であって、
前記学習画像における局所特徴量を取得する局所特徴量取得部と、
ビジュアルキーワードを登録するための語彙DBと、
取得された前記局所特徴量に基づいて、前記語彙DBに登録されているビジュアルキーワードを検索する、ビジュアルキーワード検索部と、
前記ビジュアルキーワード検索部により前記ビジュアルキーワードを検索できなかった場合に、前記局所特徴量を新たなビジュアルキーワードとして前記語彙DBに登録する、ビジュアルキーワード登録部と
を備えることを特徴とする、ビジュアルキーワードの動的生成装置。
本発明では、学習画像についてのBoF表現を生成するためにビジュアルキーワードを検索しながら、並行して、ビジュアルキーワードを生成することができる。ビジュアルキーワードに付されたIDを用いてBoF表現を生成することができる。
(項目2)
前記ビジュアルキーワード検索部は、前記ビジュアルキーワードの検索を、前記局所特徴量と、前記語彙DBに登録されているビジュアルキーワードとの距離が既定値以下であることを基準として行う構成となっている
項目1に記載のビジュアルキーワードの動的生成装置。
(項目3)
前記ビジュアルキーワード登録部は、前記語彙DBに既に登録されている前記ビジュアルキーワードの数が既定値以上である場合には、前記新たなビジュアルキーワードの登録を実行しない構成となっている
項目1又は2に記載のビジュアルキーワードの動的生成装置。
(項目4)
項目1〜3のいずれか1項の動的生成装置を用いた、BoF表現生成用の学習装置であって、さらにBoF表現生成部を備えており、
前記ビジュアルキーワード登録部は、前記新たなビジュアルキーワードを登録する場合に、前記ビジュアルキーワードに対応するIDを生成して、前記BoF表現部に送る構成となっており、
前記語彙DBは、前記ビジュアルキーワードと前記IDとを対応して登録できる構成となっており、
前記ビジュアルキーワード検索部は、前記語彙DBから前記ビジュアルキーワードを検索できた場合には、前記ビジュアルキーワードに対応するIDを特定して、前記BoF表現部に送る構成となっており、
前記BoF表現生成部は、前記ビジュアルキーワード登録部又は前記ビジュアルキーワード検索部により送られた前記IDを用いて、学習画像に対応するBoF表現を生成する構成となっている
BoF表現生成用の学習装置。
(項目5)
項目4に記載の学習装置と、対象画像の認識を行うための認識部とを備えており、
前記認識部は、
前記対象画像に対応するBoF表現を、前記学習画像に対応するBoF表現から検索することによって、前記対象画像の認識を行う構成となっている
画像認識装置。
(項目6)
局所特徴量取得部と、語彙DBと、ビジュアルキーワード検索部と、ビジュアルキーワード登録部とを備えたビジュアルキーワードの動的生成装置を用いて、学習画像におけるビジュアルキーワードを、前記学習画像自体の学習過程において動的に生成するための方法であって、
前記局所特徴量取得部が、前記学習画像における局所特徴量を取得するステップと、
前記ビジュアルキーワード検索部が、取得された前記局所特徴量に基づいて、前記語彙DBに登録されているビジュアルキーワードを検索するステップと、
前記ビジュアルキーワード検索部により前記ビジュアルキーワードを検索できなかった場合に、前記ビジュアルキーワード登録部が、前記局所特徴量を新たなビジュアルキーワードとして前記語彙DBに登録するステップと
を備えることを特徴とする方法。
(項目7)
項目6に記載の各ステップをコンピュータに実行させるためのコンピュータプログラム。
このコンピュータプログラムは、適宜な記録媒体(例えばCD−ROMやDVDディスクのような光学的な記録媒体、ハードディスクやフレキシブルディスクのような磁気的記録媒体、あるいはMOディスクのような光磁気記録媒体)に格納することができる。このコンピュータプログラムは、インターネットなどの通信回線を介して伝送されることができる。
本発明によれば、BoF検索のための学習段階の実施と並行して、ビジュアルキーワードを動的に生成することが可能となる。さらに、本発明によれば、ビジュアルキーワードの生成の際に、局所特徴量のクラスタリングを省略して、学習段階での処理を簡略化することが可能となる。
本発明の一実施形態に係る画像認識装置の全体的な構成を示す概略的なブロック図である。 図1の装置を用いた学習工程の一例を説明するためのフローチャートである。 図1の装置を用いた認識工程の一例を説明するためのフローチャートである。
本発明の一実施形態に係る画像認識装置を、図1を参照しながら説明する。図1の画像認識装置は、本発明に係るビジュアルキーワードの動的生成装置及びBoF表現生成用の学習装置の実装例を含むものである。
(本実施形態の構成)
本実施形態の画像認識装置は、学習部1と認識部2とを備えている。さらに、この装置は、語彙DB3と、転置インデックスDB4と、特徴点座標DB5とを備えている。
(学習部の構成)
学習部1は、局所特徴量取得部11と、ビジュアルキーワード検索部12と、ビジュアルキーワード登録部13と、BoF表現生成部14とを備えている。さらに追加的に、本例の学習部1は、転置インデックス登録部15と、特徴点座標登録部16とを備えている。
局所特徴量取得部11は、学習画像10における局所特徴量を取得する構成となっている。学習画像とは、通常、何らかのオブジェクト(例えば商品や人物や風景)を含む画像である。ただし、学習画像に含まれるオブジェクトの種類や個数についての制約はない。画像から局所特徴量を取得する手順は、通常、以下の通りである:
・画像における特徴領域を特定する;
・特徴領域における特徴量を算出し、これを局所特徴量とする。
これらの処理の手法としては、例えば前記特許文献2に記載されたものを用いることができるので、これ以上詳しい説明は省略する。
ビジュアルキーワード検索部12は、取得された局所特徴量に基づいて、語彙DB3に登録されているビジュアルキーワードを検索する構成となっている。本例のビジュアルキーワード検索部12は、ビジュアルキーワードの検索を、局所特徴量と、語彙DBに登録されているビジュアルキーワードとの距離が既定値以下であることを基準として行う構成となっている。既定値は、実験的に決定することが可能である。規定値≒0とすれば、ほぼ同一のビジュアルキーワードがない限り、局所特徴量が新規のビジュアルキーワードとして登録されることになる。また、本実施形態の説明において「既定値以上」「既定値以下」「既定値より大」「既定値より小」という記載がある場合、既定値を含むかどうかに本質的な意味はなく、何らかの閾値との大小関係が判定できればよいものとする。
さらに、本例のビジュアルキーワード検索部12は、語彙DB3からビジュアルキーワードを検索できた場合には、当該ビジュアルキーワードに対応するIDを特定して、BoF表現生成部14に送る構成となっている。詳しい検索手法は後述する。
ビジュアルキーワード登録部13は、ビジュアルキーワード検索部12によりビジュアルキーワードを検索できなかった場合に、当該局所特徴量を新たなビジュアルキーワードとして語彙DB3に登録する構成となっている。本例のビジュアルキーワード登録部13は、語彙DB3に既に登録されているビジュアルキーワードの数が既定値以上である場合には、新たなビジュアルキーワードの登録を実行しない構成となっている。さらに、本例のビジュアルキーワード登録部13は、新たなビジュアルキーワードを登録する場合に、ビジュアルキーワードに対応するIDを生成して、BoF表現生成部14に送る構成となっている。ここでIDは、一意に識別可能な何らかの記号、符号あるいは数字である。詳しい登録手法についても後述する。
BoF表現生成部14は、ビジュアルキーワード検索部12又はビジュアルキーワード登録部13により送られたIDを用いて、学習画像10に対応するBoF表現を生成する構成となっている。
転置インデックス登録部15は、生成されたBoF表現を検索するための転置インデックスを生成して、転置インデックスDB4に登録する構成となっている。
特徴点座標登録部16は、各学習画像における特徴点(局所特徴量の、画像空間中における位置)の座標を、特徴点座標DB5に登録する構成となっている。特徴点の座標としては、局所特徴量取得部11で取得した局所特徴量についての座標情報を用いることができる。
(認識部の構成)
認識部2は、認識対象の画像(対象画像)20に対応するBoF表現を、学習画像10に対応するBoF表現から検索することによって、対象画像20の認識(照合)を行うものである。具体的には、本実施形態の認識部2は、対象画像用の局所特徴量取得部21と、ビジュアルキーワード検索部22と、BoF表現生成部23と、転置インデックス検索部24と、特徴点座標照合部25とを備えている。
認識部2における局所特徴量取得部21は、対象画像20における局所特徴量を取得する構成となっている。この局所特徴量取得部21の構成は、学習部1の局所特徴量取得部11と同様とすることができるので、これについての詳しい説明は省略する。また、局所特徴量取得部11を実装するためのモジュールを、局所特徴量取得部21の実装のために兼用することも可能である。
認識部2におけるビジュアルキーワード検索部22は、対象画像20における局所特徴量に対応するビジュアルキーワードを語彙DB3から検索する構成となっている。このビジュアルキーワード検索部22についても、学習部1のビジュアルキーワード検索部12と同様に構成することができるので、これについての詳しい説明は省略する。二つのビジュアルキーワード検索部の実装のために一つのモジュールを兼用することも可能である。もちろん、ビジュアルキーワード検索部22を、ビジュアルキーワード検索部12と異なる構成とすることも可能である。例えば、「検索において取得すべきビジュアルキーワードとの距離の既定値」や、「検索で取得するビジュアルキーワードの個数の上限値」について、両検索部において異なる条件を採用することができる。
認識部2におけるBoF表現生成部23は、検索されたビジュアルキーワードのIDに基づいて、対象画像20に対応するBoF表現を生成する構成となっている。このBoF表現生成部23についても、学習部1のBoF表現生成部14と同様に構成することができる。
転置インデックス検索部24は、対象画像20に対応して生成されたBoF表現を用いて、転置インデックスDB4を検索し、所定距離内のBoF表現を特定する構成となっている。
特徴点座標照合部25は、検索によって転置インデックスDB4から取得されたBoF表現に対応する学習画像における特徴点の座標を、特徴点座標DB5から取得する構成とされている。さらに、特徴点座標照合部25は、対象画像20の特徴点座標も局所特徴量取得部21から取得するようになっている。
さらに、特徴点座標照合部25は、座標点照合を行い、それに合格した学習画像を、認識結果30として出力できるようになっている。座標点照合については後述する。
認識部2における前記以外の構成は、既存のBoF検索の場合と同様とすることができるので、これ以上詳しい説明は省略する。
語彙DB3は、ビジュアルキーワードとIDとを対応して登録できる構成となっている。
転置インデックスDB4は、生成されたBoF表現についての転置インデックスを登録できる構成となっている。
特徴点座標DB5は、学習画像の特徴点についての、画像空間中での座標を登録できる構成となっている。
本実施形態では、局所特徴量取得部11と、語彙DB3と、ビジュアルキーワード検索部12と、ビジュアルキーワード登録部13とが、本発明におけるビジュアルキーワードの動的生成装置の具体例に対応している。さらに、本実施形態では、このビジュアルキーワードの動的生成装置とBoF表現生成部14とが、本発明におけるBoF表現生成用の学習装置の具体例に対応している。
(本実施形態の動作)
つぎに、前記した本実施形態の画像認識装置を用いた画像認識方法を、図2及び図3をさらに参照しながら説明する。ここで、図2は学習段階、図3は認識段階を示している。
(学習段階)
(図2のステップSA−1)
以下の説明の前提として、本実施形態では、複数枚の学習画像を、適宜な手法により取得して用いるものとする。学習画像は、例えば予め学習画像DB(図示せず)に格納されたもの、実物(例えば商品)をスキャンして取得されたもの、あるいは、ネットワーク上から取得されたものであるが、その入手経路や内容に特に制約はない。学習において用いる学習画像の枚数は、必要に応じて適宜に変更可能である。また、以下の説明では、1枚の学習画像ごとに処理を進めることを仮定するが、複数枚の学習画像について並行して学習工程を進めることは可能である。本実施形態の学習段階では、まず、局所特徴量取得部11が、学習画像10における局所特徴量と、この局所特徴量についての画像空間中での座標を取得する。前記した通り、局所特徴量の取得方法としては、既存の技術を利用できるので、これについての詳しい説明は省略する。
(図2のステップSA−2〜SA−4)
ついで、ビジュアルキーワード検索部12が、取得された局所特徴量に基づいて、語彙DB3に登録されているビジュアルキーワードを検索する(ステップSA−2)。この検索においては、一般的な多次元空間インデックスを利用することができる。検索によりビジュアルキーワードを得られた場合(つまり既定距離内のビジュアルキーワードを見つけられた場合)には、得られたビジュアルキーワードを特定するIDを、ビジュアルキーワード検索部12がBoF表現生成部14に送る(ステップSA−3)。もし複数のIDが検索された場合(つまり既定距離内に複数のビジュアルキーワードがあった場合)は、これら複数のIDを送ることもできる。もちろん、検索するIDの数を、例えば距離に基づいて一つに制限することもできる。
ビジュアルキーワード検索部12は、当該学習画像について、他に処理すべき局所特徴量があるかを確認する(ステップSA−4)。あればステップSA−2に戻り、なければ、後述のステップSA−7に進む。なお、ステップSA−1において、学習画像における全ての局所特徴量を取得していない場合は、ステップSA−4からステップSA−1に戻ってもよい。
(図2のステップSA−5〜SA−6)
ステップSA−2において、既定距離内のビジュアルキーワードを取得できなかった場合(つまりステップSA−3での判定がNoのとき)は、語彙DB3に登録されているビジュアルキーワードの数が既定数以内かどうかを、ビジュアルキーワード登録部13が確認する(ステップSA−5)。既定数以内であれば、ビジュアルキーワード登録部13は、当該の局所特徴量を新たなビジュアルキーワードとして語彙DB3に登録する(ステップSA−6)。この処理により、本実施形態では、新たなビジュアルキーワードを生成して登録することができる。もし、語彙DB3に格納されているビジュアルキーワードが存在しない場合(例えば最初の局所特徴量に基づいて検索するとき)は、基本的に、取得した局所特徴量をビジュアルキーワードとして特定して登録することができる。なお、本例では、初期状態において語彙DB3に登録されているビジュアルキーワードが存在しないと仮定しているが、存在していても特に問題はない。
ビジュアルキーワード登録部13は、新たなビジュアルキーワードを登録する際には、そのビジュアルキーワードに対応する一意のIDも生成して、語彙DB3に登録し、さらに、当該IDをBoF表現生成部14に送る。
ステップSA−6の処理が完了した場合、あるいはステップSA−5での判断がNo(つまり語彙数が既定値を超えた場合)である場合は、既に述べたステップSA−4に進む。
従来のBoF表現生成においては、学習に先立って、多数の局所特徴量をクラスタリングし、ビジュアルキーワードを生成しておく必要があった。このため、BoF表現生成のために、ビジュアルキーワードの生成作業と実際の学習作業という二工程が必要となっていたという問題があった。
これに対して、本実施形態の手法によれば、学習過程を実施しながら、つまり学習と同時にビジュアルキーワードを動的に生成できるので、事前準備としてのビジュアルキーワード生成作業を省略できる。このため、本例の手法によれば、BoF表現生成処理を簡略化できるという利点がある。
また、本実施形態では、クラスタを生成せずにビジュアルキーワードを生成できるので、煩雑なクラスタ生成処理を省略することができるという実際上の利点もある。
前記したステップSA−4は、原則として、一枚の学習画像10に属する全ての局所特徴量が処理されたかどうかに基づいて判断される。ただし、何らかの規則により、一部の局所特徴量についてのみ、前記した処理を行う構成とすることは可能である。
前記のように、本実施形態では、語彙DB3に登録されたビジュアルキーワードが既定数を超えた場合には、新たなビジュアルキーワードの登録処理を行わないものとしている(ステップSA−5参照)。ここで、ビジュアルキーワードの登録個数の上限は、実験的に決定することができる。ビジュアルキーワードの個数が多すぎると、主観的には類似する局所特徴量が、別のビジュアルキーワードにそれぞれ紐づいてしまうことがある。つまり、ビジュアルキーワードの登録個数が多すぎても、BoF表現を用いた画像照合においては、照合精度の向上に寄与しない場合がある。本実施形態では、ビジュアルキーワードの登録個数の上限を設定することにより、ビジュアルキーワード検索におけるシステム上の負担を軽減することができる。しかも、前記したように、上限値を実験的に適切に決定することによって、照合精度の低下も防止できるという利点がある。
(図2のステップSA−7)
ついで、BoF表現生成部14は、ビジュアルキーワード登録部13又はビジュアルキーワード検索部12により送られたIDを用いて、学習画像10に対応するBoF表現を生成する。
(図2のステップSA−8)
ついで、転置インデックス登録部15は、生成されたBoF表現を検索するための転置インデックスを生成して、転置インデックスDB4に登録する。
(図2のステップSA−9)
ついで、特徴点座標登録部16は、前記処理が行われた学習画像についての局所特徴量の位置(つまり特徴点)を示す座標を、特徴点座標DB5に登録する。
全ての学習画像について前記の処理が終われば、学習段階を終了させることができる。もちろん、認識と並行して学習段階を実施することは可能であるし、対象画像20を学習画像とみなして学習処理を実行してもよい。なお、本実施形態において、予め準備した全ての学習画像について学習処理を行うことは必須ではなく、適宜な条件を満たしたとき(例えば語彙DB3に登録されたビジュアルキーワードの数が既定値を超えたとき)に、以降の学習画像についての学習処理を省略することも可能である。
(認識段階)
次に、対象画像20を認識する手法を、図3をさらに参照しながら説明する。
(図3のステップSB−1)
まず、局所特徴量取得部21は、対象画像20における局所特徴量を取得する。局所特徴量を取得する手法としては、前記した学習画像についての局所特徴量の取得手法と同様に、既存手法を利用できるので、詳しい説明は省略する。
(図3のステップSB−2)
ついで、ビジュアルキーワード検索部22は、前記のステップSB−1で取得された各局所特徴量にもっとも近い一つのビジュアルキーワードを、語彙DB3から検索し、当該ビジュアルキーワードのIDを取得する。ここで、ビジュアルキーワードの検索においては、局所特徴量からの距離が既定値より遠いビジュアルキーワードを除外する(つまり、類似度が既定値より大きいビジュアルキーワードのみを検索する)ことができる。また、ビジュアルキーワードの検索においては、ある局所特徴量からの距離が既定値以内の複数のビジュアルキーワードを取得する構成とすることもできる。このようにすれば、一つの局所特徴量に複数のIDを紐づけることができる。ここで、ビジュアルキーワードの検索は、語彙DB3に登録されたビジュアルキーワードが既定数を越える前であっても行うことができる。つまり、本実施形態での認識は、語彙DB3の完成を待たずに実行可能である。このことは、実際の画像照合における運用の簡素化や効率化を図る上で重要である。
(図3のステップSB−3)
処理すべき全ての局所特徴量に対応するビジュアルキーワードのIDを、前記ステップSB−2において特定した後、BoF表現生成部23は、そのIDを用いてBoF表現を生成することができる。このBoF表現は、1枚の対象画像を量子化して表現するものとなる。
(図3のステップSB−4)
ついで、転置インデックス検索部24は、前記のステップSB−3で得られたBoF表現(つまり対象画像のBoF表現)に最も近いBoF表現を、転置インデックスDB4に格納された転置インデックスを用いて検索する。対象画像のBoF表現と、検索で得られたBoF表現(つまり学習画像のBoF表現)との距離が既定値以上であった場合には、その時点で照合失敗と判定することもできる。
(図3のステップSB−5)
ついで、特徴点座標照合部25は、検索で得られたBoF表現に対応する学習画像の特徴点の座標を、特徴点座標DB5から取得する。ついで、特徴点座標照合部25は、取得された学習画像の特徴点座標と、認識画像の特徴点座標との照合を行う。以下、特徴点座標を照合する手法の一例について説明する。
(特徴点座標照合の具体例)
以下において説明する特徴点座標の照合とは、BoF表現の検索で得られた候補画像(学習画像)と認識対象画像との間における類似性あるいは同一性の確信度を検証するための手法である。
既に述べたように、学習画像と認識対象画像とは、いずれも、複数の局所特徴量を含んでいる。これらの局所特徴量は、同じビジュアルキーワードに紐づいている場合、類似性が高いと推定することができる。例えば、候補として得られた学習画像Aの局所特徴量aiと対象画像Bの局所特徴量bjとが同じビジュアルキーワードvkに紐づいている場合、これらの特徴量aiとbjとは類似性が高いと考えることができる。つまり、これらの特徴量aiとbjとは、特徴量の類似性(距離)により対応付けられた特徴点ペアと把握できる。そこで、この類似性による対応関係を用いて各特徴点の座標位置の照合を行う。
この照合においては、特徴量の類似性(距離)により対応付けられた特徴点ペア(前記の例であればaiとbj)を2組選択する。ついで、画像の座標系において、一方の画像(例えば画像A)上の点(つまりaiの位置)から他方の画像(例えば画像B)上の点(つまりbjの位置)に座標変換するためのアフィン変換の係数を求める。求めたアフィン変換係数を用いて、一方の画像(例えば画像A)における、その他の点(例えばai'の位置)を座標変換する。変換して得られた点と、画像B上における対応点(例えばbj'の位置)との距離を比較し、既定範囲内であれば一致数(適合数)をカウントアップする。得られた一致数の合計を一致確信度とする。この一致確信度と既定値とを比較し、一致確信度が既定値よりも高い場合、照合成功とすることができる。なお、特徴点座標照合手段としては、他の既存の手法を用いることも可能であり、前記の手法には制約されない。
照合が成功した場合、当該学習画像、あるいはこの画像を特定するための情報を、認識結果30として出力することができる。
画像認識における前記以外の手法は、既存のものと同様でよいので、これ以上の説明は省略する。
ここで、従来のBoF検索手法では、ビジュアルキーワードをクラスタリングにより生成しているので、採用するクラスタリング手法によって、BoF検索における照合精度が左右されやすいという問題があった。これに対して、本例の手法では、前記したように、ビジュアルキーワード生成のためのクラスタリングを省略しているので、ビジュアルキーワード生成が、クラスタリング手法に影響されない。したがって、本例の手法によれば、BoF検索における照合精度の安定化あるいは向上を期待することができる。
なお、本発明の内容は、前記実施形態に限定されるものではない。本発明は、特許請求の範囲に記載された範囲内において、具体的な構成に対して種々の変更を加えうるものである。
例えば、前記した各構成要素は、機能ブロックとして存在していればよく、独立したハードウエアとして存在しなくても良い。また、実装方法としては、ハードウエアを用いてもコンピュータソフトウエアを用いても良い。さらに、本発明における一つの機能要素が複数の機能要素の集合によって実現されても良く、本発明における複数の機能要素が一つの機能要素により実現されても良い。
また、機能要素は、物理的に離間した位置に配置されていてもよい。この場合、機能要素どうしがネットワークにより接続されていても良い。グリッドコンピューティング又はクラウドコンピューティングにより機能を実現し、あるいは機能要素を構成することも可能である。
1 学習部
11 局所特徴量取得部
12 ビジュアルキーワード検索部
13 ビジュアルキーワード登録部
14 BoF表現生成部
15 転置インデックス登録部
16 特徴点座標登録部
2 認識部
21 局所特徴量取得部
22 ビジュアルキーワード検索部
23 BoF表現生成部
24 転置インデックス検索部
25 特徴点座標照合部
3 語彙DB
4 転置インデックスDB
5 特徴点座標DB
10 学習画像
20 対象画像
30 認識結果

Claims (7)

  1. 学習画像におけるBoF表現生成用のビジュアルキーワードを、前記学習画像自体の学習過程において動的に生成するための装置であって、
    ここで、前記ビジュアルキーワードは、前記学習画像から生成された局所特徴量であるベクトルデータで構成されており、
    さらに、
    前記学習画像における局所特徴量を取得する局所特徴量取得部と、
    ビジュアルキーワードと当該ビジュアルキーワードに対応するIDとを登録するための語彙DBと、
    前記学習画像における前記局所特徴量に基づいて、前記語彙DBに登録されているビジュアルキーワードを、ベクトル空間上での距離に基づいて検索するための、ビジュアルキーワード検索部と、
    前記ビジュアルキーワード検索部により、前記ベクトル空間上において前記取得された局所特徴量の近傍にある前記ビジュアルキーワードを検索できなかった場合に、前記局所特徴量を、BoF表現生成用の新たなビジュアルキーワードとして、対応して生成した新たなIDを付して前記語彙DBに登録する、ビジュアルキーワード登録部と
    を備えており、
    さらに、前記ビジュアルキーワード登録部は、前記学習画像を用いた前記学習過程において、前記新たなビジュアルキーワードに対応するIDを、前記学習画像自体に対応するBoF表現を生成するためのBoF表現生成部に送る構成となってい
    ことを特徴とする、ビジュアルキーワードの動的生成装置。
  2. 前記ビジュアルキーワード検索部は、前記ビジュアルキーワードの検索を、前記局所特徴量と、前記語彙DBに登録されているビジュアルキーワードとの距離が既定値以下であることを基準として行う構成となっている
    請求項1に記載のビジュアルキーワードの動的生成装置。
  3. 前記ビジュアルキーワード登録部は、前記語彙DBに既に登録されている前記ビジュアルキーワードの数が既定値以上である場合には、前記新たなビジュアルキーワードの登録を実行しない構成となっている
    請求項1又は2に記載のビジュアルキーワードの動的生成装置。
  4. 請求項1〜3のいずれか1項の動的生成装置を用いた、BoF表現生成用の学習装置であって、前記BoF表現生成部を備えており
    前記ビジュアルキーワード検索部は、前記語彙DBから前記ビジュアルキーワードを検索できた場合には、前記ビジュアルキーワードに対応するIDを特定して、前記BoF表現部に送る構成となっており、
    前記BoF表現生成部は、前記ビジュアルキーワード登録部又は前記ビジュアルキーワード検索部により送られた前記IDを用いて、学習画像に対応するBoF表現を生成する構成となっている
    BoF表現生成用の学習装置。
  5. 請求項4に記載の学習装置と、対象画像の認識を行うための認識部とを備えており、
    前記認識部は、
    前記対象画像に対応するBoF表現を、前記学習画像に対応するBoF表現から検索することによって、前記対象画像の認識を行う構成となっている
    画像認識装置。
  6. 局所特徴量取得部と、語彙DBと、ビジュアルキーワード検索部と、ビジュアルキーワード登録部とを備えたビジュアルキーワードの動的生成装置を用いて、学習画像におけるBoF表現生成用のビジュアルキーワードを、前記学習画像自体の学習過程において動的に生成するための方法であって、
    ここで、前記ビジュアルキーワードは、前記学習画像から生成された局所特徴量であるベクトルデータで構成されており、
    さらに、
    前記局所特徴量取得部が、前記学習画像における局所特徴量を取得するステップと、
    前記ビジュアルキーワード検索部が、前記学習画像における前記局所特徴量に基づいて、前記語彙DBにIDと対応して登録されているビジュアルキーワードを、ベクトル空間上での距離に基づいて検索するステップと、
    前記ビジュアルキーワード検索部により、前記ベクトル空間上において前記取得された局所特徴量の近傍にある前記ビジュアルキーワードを検索できなかった場合に、前記ビジュアルキーワード登録部が、前記局所特徴量を、BoF表現生成用の新たなビジュアルキーワードとして、対応して生成した新たなIDを付して前記語彙DBに登録するステップと
    前記ビジュアルキーワード登録部が、前記学習画像を用いた前記学習過程において、前記新たなビジュアルキーワードに対応するIDを、前記学習画像自体に対応するBoF表現を生成するためのBoF表現生成部に送るステップと
    を備えることを特徴とする方法。
  7. 請求項6に記載の各ステップをコンピュータに実行させるためのコンピュータプログラム。
JP2013149362A 2013-07-18 2013-07-18 ビジュアルキーワードの動的生成装置 Active JP5791666B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013149362A JP5791666B2 (ja) 2013-07-18 2013-07-18 ビジュアルキーワードの動的生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013149362A JP5791666B2 (ja) 2013-07-18 2013-07-18 ビジュアルキーワードの動的生成装置

Publications (2)

Publication Number Publication Date
JP2015022466A JP2015022466A (ja) 2015-02-02
JP5791666B2 true JP5791666B2 (ja) 2015-10-07

Family

ID=52486871

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013149362A Active JP5791666B2 (ja) 2013-07-18 2013-07-18 ビジュアルキーワードの動的生成装置

Country Status (1)

Country Link
JP (1) JP5791666B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6368688B2 (ja) * 2015-06-19 2018-08-01 日本電信電話株式会社 画像認識装置、画像認識方法、及び画像認識プログラム
JP6678445B2 (ja) * 2015-12-18 2020-04-08 ヤフー株式会社 量子化装置及び量子化装置の動作方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3472032B2 (ja) * 1995-04-24 2003-12-02 株式会社東芝 情報フィルタ装置及び情報フィルタ方法

Also Published As

Publication number Publication date
JP2015022466A (ja) 2015-02-02

Similar Documents

Publication Publication Date Title
Li et al. Universal perturbation attack against image retrieval
US11048966B2 (en) Method and device for comparing similarities of high dimensional features of images
Wu et al. Scalable face image retrieval with identity-based quantization and multireference reranking
JP6226802B2 (ja) ユーザーの指紋から得られるバイオメトリックデータを認証する方法及びシステム、および、バイオメトリック認証システム
JP3689455B2 (ja) 情報処理方法及び装置
CN104615676B (zh) 一种基于最大相似度匹配的图片检索方法
WO2019080411A1 (zh) 电子装置、人脸图像聚类搜索方法和计算机可读存储介质
KR101191223B1 (ko) 이미지 검색 방법, 장치, 및 이 방법을 실행하기 위한 컴퓨터 판독 가능한 기록 매체
JP2017162306A (ja) 情報処理装置、類似検索プログラム、及び類似検索方法
JP5862413B2 (ja) 情報変換規則生成プログラム、情報変換規則生成装置および情報変換規則生成方法
JP2006252333A (ja) データ処理方法、データ処理装置およびそのプログラム
JP6004015B2 (ja) 学習方法、情報処理装置および学習プログラム
KR102367859B1 (ko) 특징 벡터를 이용하여 데이터를 분류하는 장치 및 방법
JP5520353B2 (ja) BoF表現生成装置及びBoF表現生成方法
US8370390B1 (en) Method and apparatus for identifying near-duplicate documents
CN114528421A (zh) 内容审核方法、装置、电子设备及存储介质
JP5791666B2 (ja) ビジュアルキーワードの動的生成装置
Du et al. Large-scale signature matching using multi-stage hashing
JP6017277B2 (ja) 特徴ベクトルの集合で表されるコンテンツ間の類似度を算出するプログラム、装置及び方法
JP2014225168A (ja) 特徴点集合で表される画像間の類似度を算出するプログラム、装置及び方法
JP2017162230A (ja) 情報処理装置、類似データ検索方法、及び類似データ検索プログラム
JP5865043B2 (ja) 情報処理装置、情報処理方法
JP5490859B2 (ja) ビジュアルキーワード抽出装置、これを用いたBoF表現生成装置、及びビジュアルキーワード抽出方法
JP5646664B2 (ja) 画像照合装置及び画像照合方法
JP6453618B2 (ja) 算出装置、方法及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150619

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150707

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150804

R150 Certificate of patent or registration of utility model

Ref document number: 5791666

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250