JP5791666B2

JP5791666B2 - ビジュアルキーワードの動的生成装置

Info

Publication number: JP5791666B2
Application number: JP2013149362A
Authority: JP
Inventors: 岩崎　雅二郎; 雅二郎岩崎
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2013-07-18
Filing date: 2013-07-18
Publication date: 2015-10-07
Anticipated expiration: 2033-07-18
Also published as: JP2015022466A

Description

本発明は、画像検索に用いられるビジュアルキーワードを動的に生成するための技術に関するものである。

下記特許文献１に示されるように、局所特徴量を用いた画像照合手法が知られている。なお、画像照合は画像認識と呼ばれることがある。この文献の手法では、画像を複数の部分に分割し、各部分に対応して局所特徴量を抽出し、この局所特徴量を用いて類似画像検索を行うことができる。これらの局所特徴量は、画像の特徴を精度良く表すために、通常、多次元のベクトルデータとされている。

ところで、下記特許文献１にも示されているように、局所特徴量を用いた類似画像検索では、計算量が膨大となる傾向がある。

そこで、局所特徴量を高速に検索するために、ビジュアルキーワードあるいはＢｏＦ（Bag of Features）という手法が提案されている（下記特許文献２参照）。この手法では、実際の学習段階の前に、多数の局所特徴量をクラスタリングすることにより、クラスタを代表する局所特徴量（つまりビジュアルキーワード）を算出する。さらに、各クラスタにＩＤを付す。これにより、各局所特徴量を、それが属するクラスタのＩＤに紐付けることができる。

ついで、実際の学習段階では、学習画像における各局所特徴量について、各ビジュアルキーワードとの距離を計算し、既定値以内のビジュアルキーワードを特定する。これにより、各局所特徴量と、それに近いビジュアルキーワードのＩＤとを紐づけることができる。すると、１枚の学習画像における局所特徴量の集合は、クラスタＩＤのヒストグラム（集合ということもできる）により置き換えることができる。このクラスタＩＤのヒストグラムを、ＢｏＦ表現あるいは単にＢｏＦと呼ぶ。一枚の画像に対応して、一つのＢｏＦ表現を得ることができる。この作業を、必要枚数の学習画像について行う。

ついで、認識段階では、認識対象の画像（対象画像）における各局所特徴量について、前記と同様にビジュアルキーワードを検索することにより、対象画像に対応するＢｏＦ表現を生成する。対象画像のＢｏＦ表現と学習画像のＢｏＦ表現との距離に基づいて、対象画像に近いと推定される学習画像を特定することができる。

ここで、ＢｏＦ表現は、多次元データではあるが極めて疎なデータ（つまりほとんどの次元における値が０）なので、転置ファイルによって検索できる。なお、ＢｏＦ表現を「特徴ベクトル」と称することがあるが、本明細書では、画像の特徴量を示す特徴ベクトルとの混同を避けるため、ＢｏＦ表現という用語を用いる。

ＢｏＦ表現を用いることにより、局所特徴量を量子化して、データ量を減らすことができる。しかも、ＢｏＦ表現の検索には転置ファイルを利用できるので、局所特徴量自体を用いるよりも高速な類似画像検索（つまり画像認識）が可能となる。

ところで、ＢｏＦ表現を用いた画像検索（このような検索を以下「ＢｏＦ検索」と称することがある）を実施する場合には、実際の学習段階の前に、多数の局所特徴量をクラスタリングすることにより、ビジュアルキーワードを生成しておく必要がある。つまり、この手法では、認識工程の前の学習段階として、ビジュアルキーワードの生成と実際の学習という二つの処理を実施しなければならず、煩雑であるという問題がある。

また、前記したＢｏＦ検索における検索精度は、ビジュアルキーワードの生成精度に依存する。ここで、クラスタリングにおけるクラスタ半径を狭くすると、同一対象物についての局所特徴量であっても、撮影条件が異なるだけで、異なるクラスタに属する可能性が高くなる。一方で、クラスタ半径を大きくすれば、異質な（画像的に類似性の低い対象物についての）局所特徴量が同じクラスタに属する可能性が高くなる。このため、適切なクラスタリング手法を決定することが難しいという問題もある。

特開２０１１−１２８７７３号公報（０００３〜０００５段落）特開２０１２−２２４１９号公報

本発明は、前記した状況に鑑みてなされたものである。本発明の主な目的は、学習段階の実施と並行して、ビジュアルキーワードを動的に生成できる技術を提供することである。本発明の他の目的は、ビジュアルキーワードの生成の際に、局所特徴量のクラスタリングを省略することが可能な技術を提供することである。

本発明は、以下のいずれかの項目に記載の構成とされている。

（項目１）
学習画像におけるビジュアルキーワードを、前記学習画像自体の学習過程において動的に生成するための装置であって、
前記学習画像における局所特徴量を取得する局所特徴量取得部と、
ビジュアルキーワードを登録するための語彙ＤＢと、
取得された前記局所特徴量に基づいて、前記語彙ＤＢに登録されているビジュアルキーワードを検索する、ビジュアルキーワード検索部と、
前記ビジュアルキーワード検索部により前記ビジュアルキーワードを検索できなかった場合に、前記局所特徴量を新たなビジュアルキーワードとして前記語彙ＤＢに登録する、ビジュアルキーワード登録部と
を備えることを特徴とする、ビジュアルキーワードの動的生成装置。

本発明では、学習画像についてのＢｏＦ表現を生成するためにビジュアルキーワードを検索しながら、並行して、ビジュアルキーワードを生成することができる。ビジュアルキーワードに付されたＩＤを用いてＢｏＦ表現を生成することができる。

（項目２）
前記ビジュアルキーワード検索部は、前記ビジュアルキーワードの検索を、前記局所特徴量と、前記語彙ＤＢに登録されているビジュアルキーワードとの距離が既定値以下であることを基準として行う構成となっている
項目１に記載のビジュアルキーワードの動的生成装置。

（項目３）
前記ビジュアルキーワード登録部は、前記語彙ＤＢに既に登録されている前記ビジュアルキーワードの数が既定値以上である場合には、前記新たなビジュアルキーワードの登録を実行しない構成となっている
項目１又は２に記載のビジュアルキーワードの動的生成装置。

（項目４）
項目１〜３のいずれか１項の動的生成装置を用いた、ＢｏＦ表現生成用の学習装置であって、さらにＢｏＦ表現生成部を備えており、
前記ビジュアルキーワード登録部は、前記新たなビジュアルキーワードを登録する場合に、前記ビジュアルキーワードに対応するＩＤを生成して、前記ＢｏＦ表現部に送る構成となっており、
前記語彙ＤＢは、前記ビジュアルキーワードと前記ＩＤとを対応して登録できる構成となっており、
前記ビジュアルキーワード検索部は、前記語彙ＤＢから前記ビジュアルキーワードを検索できた場合には、前記ビジュアルキーワードに対応するＩＤを特定して、前記ＢｏＦ表現部に送る構成となっており、
前記ＢｏＦ表現生成部は、前記ビジュアルキーワード登録部又は前記ビジュアルキーワード検索部により送られた前記ＩＤを用いて、学習画像に対応するＢｏＦ表現を生成する構成となっている
ＢｏＦ表現生成用の学習装置。

（項目５）
項目４に記載の学習装置と、対象画像の認識を行うための認識部とを備えており、
前記認識部は、
前記対象画像に対応するＢｏＦ表現を、前記学習画像に対応するＢｏＦ表現から検索することによって、前記対象画像の認識を行う構成となっている
画像認識装置。

（項目６）
局所特徴量取得部と、語彙ＤＢと、ビジュアルキーワード検索部と、ビジュアルキーワード登録部とを備えたビジュアルキーワードの動的生成装置を用いて、学習画像におけるビジュアルキーワードを、前記学習画像自体の学習過程において動的に生成するための方法であって、
前記局所特徴量取得部が、前記学習画像における局所特徴量を取得するステップと、
前記ビジュアルキーワード検索部が、取得された前記局所特徴量に基づいて、前記語彙ＤＢに登録されているビジュアルキーワードを検索するステップと、
前記ビジュアルキーワード検索部により前記ビジュアルキーワードを検索できなかった場合に、前記ビジュアルキーワード登録部が、前記局所特徴量を新たなビジュアルキーワードとして前記語彙ＤＢに登録するステップと
を備えることを特徴とする方法。

（項目７）
項目６に記載の各ステップをコンピュータに実行させるためのコンピュータプログラム。

このコンピュータプログラムは、適宜な記録媒体（例えばＣＤ−ＲＯＭやＤＶＤディスクのような光学的な記録媒体、ハードディスクやフレキシブルディスクのような磁気的記録媒体、あるいはＭＯディスクのような光磁気記録媒体）に格納することができる。このコンピュータプログラムは、インターネットなどの通信回線を介して伝送されることができる。

本発明によれば、ＢｏＦ検索のための学習段階の実施と並行して、ビジュアルキーワードを動的に生成することが可能となる。さらに、本発明によれば、ビジュアルキーワードの生成の際に、局所特徴量のクラスタリングを省略して、学習段階での処理を簡略化することが可能となる。

本発明の一実施形態に係る画像認識装置の全体的な構成を示す概略的なブロック図である。図１の装置を用いた学習工程の一例を説明するためのフローチャートである。図１の装置を用いた認識工程の一例を説明するためのフローチャートである。

本発明の一実施形態に係る画像認識装置を、図１を参照しながら説明する。図１の画像認識装置は、本発明に係るビジュアルキーワードの動的生成装置及びＢｏＦ表現生成用の学習装置の実装例を含むものである。

（本実施形態の構成）
本実施形態の画像認識装置は、学習部１と認識部２とを備えている。さらに、この装置は、語彙ＤＢ３と、転置インデックスＤＢ４と、特徴点座標ＤＢ５とを備えている。

（学習部の構成）
学習部１は、局所特徴量取得部１１と、ビジュアルキーワード検索部１２と、ビジュアルキーワード登録部１３と、ＢｏＦ表現生成部１４とを備えている。さらに追加的に、本例の学習部１は、転置インデックス登録部１５と、特徴点座標登録部１６とを備えている。

局所特徴量取得部１１は、学習画像１０における局所特徴量を取得する構成となっている。学習画像とは、通常、何らかのオブジェクト（例えば商品や人物や風景）を含む画像である。ただし、学習画像に含まれるオブジェクトの種類や個数についての制約はない。画像から局所特徴量を取得する手順は、通常、以下の通りである：
・画像における特徴領域を特定する；
・特徴領域における特徴量を算出し、これを局所特徴量とする。

これらの処理の手法としては、例えば前記特許文献２に記載されたものを用いることができるので、これ以上詳しい説明は省略する。

ビジュアルキーワード検索部１２は、取得された局所特徴量に基づいて、語彙ＤＢ３に登録されているビジュアルキーワードを検索する構成となっている。本例のビジュアルキーワード検索部１２は、ビジュアルキーワードの検索を、局所特徴量と、語彙ＤＢに登録されているビジュアルキーワードとの距離が既定値以下であることを基準として行う構成となっている。既定値は、実験的に決定することが可能である。規定値≒０とすれば、ほぼ同一のビジュアルキーワードがない限り、局所特徴量が新規のビジュアルキーワードとして登録されることになる。また、本実施形態の説明において「既定値以上」「既定値以下」「既定値より大」「既定値より小」という記載がある場合、既定値を含むかどうかに本質的な意味はなく、何らかの閾値との大小関係が判定できればよいものとする。

さらに、本例のビジュアルキーワード検索部１２は、語彙ＤＢ３からビジュアルキーワードを検索できた場合には、当該ビジュアルキーワードに対応するＩＤを特定して、ＢｏＦ表現生成部１４に送る構成となっている。詳しい検索手法は後述する。

ビジュアルキーワード登録部１３は、ビジュアルキーワード検索部１２によりビジュアルキーワードを検索できなかった場合に、当該局所特徴量を新たなビジュアルキーワードとして語彙ＤＢ３に登録する構成となっている。本例のビジュアルキーワード登録部１３は、語彙ＤＢ３に既に登録されているビジュアルキーワードの数が既定値以上である場合には、新たなビジュアルキーワードの登録を実行しない構成となっている。さらに、本例のビジュアルキーワード登録部１３は、新たなビジュアルキーワードを登録する場合に、ビジュアルキーワードに対応するＩＤを生成して、ＢｏＦ表現生成部１４に送る構成となっている。ここでＩＤは、一意に識別可能な何らかの記号、符号あるいは数字である。詳しい登録手法についても後述する。

ＢｏＦ表現生成部１４は、ビジュアルキーワード検索部１２又はビジュアルキーワード登録部１３により送られたＩＤを用いて、学習画像１０に対応するＢｏＦ表現を生成する構成となっている。

転置インデックス登録部１５は、生成されたＢｏＦ表現を検索するための転置インデックスを生成して、転置インデックスＤＢ４に登録する構成となっている。

特徴点座標登録部１６は、各学習画像における特徴点（局所特徴量の、画像空間中における位置）の座標を、特徴点座標ＤＢ５に登録する構成となっている。特徴点の座標としては、局所特徴量取得部１１で取得した局所特徴量についての座標情報を用いることができる。

（認識部の構成）
認識部２は、認識対象の画像（対象画像）２０に対応するＢｏＦ表現を、学習画像１０に対応するＢｏＦ表現から検索することによって、対象画像２０の認識（照合）を行うものである。具体的には、本実施形態の認識部２は、対象画像用の局所特徴量取得部２１と、ビジュアルキーワード検索部２２と、ＢｏＦ表現生成部２３と、転置インデックス検索部２４と、特徴点座標照合部２５とを備えている。

認識部２における局所特徴量取得部２１は、対象画像２０における局所特徴量を取得する構成となっている。この局所特徴量取得部２１の構成は、学習部１の局所特徴量取得部１１と同様とすることができるので、これについての詳しい説明は省略する。また、局所特徴量取得部１１を実装するためのモジュールを、局所特徴量取得部２１の実装のために兼用することも可能である。

認識部２におけるビジュアルキーワード検索部２２は、対象画像２０における局所特徴量に対応するビジュアルキーワードを語彙ＤＢ３から検索する構成となっている。このビジュアルキーワード検索部２２についても、学習部１のビジュアルキーワード検索部１２と同様に構成することができるので、これについての詳しい説明は省略する。二つのビジュアルキーワード検索部の実装のために一つのモジュールを兼用することも可能である。もちろん、ビジュアルキーワード検索部２２を、ビジュアルキーワード検索部１２と異なる構成とすることも可能である。例えば、「検索において取得すべきビジュアルキーワードとの距離の既定値」や、「検索で取得するビジュアルキーワードの個数の上限値」について、両検索部において異なる条件を採用することができる。

認識部２におけるＢｏＦ表現生成部２３は、検索されたビジュアルキーワードのＩＤに基づいて、対象画像２０に対応するＢｏＦ表現を生成する構成となっている。このＢｏＦ表現生成部２３についても、学習部１のＢｏＦ表現生成部１４と同様に構成することができる。

転置インデックス検索部２４は、対象画像２０に対応して生成されたＢｏＦ表現を用いて、転置インデックスＤＢ４を検索し、所定距離内のＢｏＦ表現を特定する構成となっている。

特徴点座標照合部２５は、検索によって転置インデックスＤＢ４から取得されたＢｏＦ表現に対応する学習画像における特徴点の座標を、特徴点座標ＤＢ５から取得する構成とされている。さらに、特徴点座標照合部２５は、対象画像２０の特徴点座標も局所特徴量取得部２１から取得するようになっている。

さらに、特徴点座標照合部２５は、座標点照合を行い、それに合格した学習画像を、認識結果３０として出力できるようになっている。座標点照合については後述する。

認識部２における前記以外の構成は、既存のＢｏＦ検索の場合と同様とすることができるので、これ以上詳しい説明は省略する。

語彙ＤＢ３は、ビジュアルキーワードとＩＤとを対応して登録できる構成となっている。

転置インデックスＤＢ４は、生成されたＢｏＦ表現についての転置インデックスを登録できる構成となっている。

特徴点座標ＤＢ５は、学習画像の特徴点についての、画像空間中での座標を登録できる構成となっている。

本実施形態では、局所特徴量取得部１１と、語彙ＤＢ３と、ビジュアルキーワード検索部１２と、ビジュアルキーワード登録部１３とが、本発明におけるビジュアルキーワードの動的生成装置の具体例に対応している。さらに、本実施形態では、このビジュアルキーワードの動的生成装置とＢｏＦ表現生成部１４とが、本発明におけるＢｏＦ表現生成用の学習装置の具体例に対応している。

（本実施形態の動作）
つぎに、前記した本実施形態の画像認識装置を用いた画像認識方法を、図２及び図３をさらに参照しながら説明する。ここで、図２は学習段階、図３は認識段階を示している。

（学習段階）
（図２のステップＳＡ−１）
以下の説明の前提として、本実施形態では、複数枚の学習画像を、適宜な手法により取得して用いるものとする。学習画像は、例えば予め学習画像ＤＢ（図示せず）に格納されたもの、実物（例えば商品）をスキャンして取得されたもの、あるいは、ネットワーク上から取得されたものであるが、その入手経路や内容に特に制約はない。学習において用いる学習画像の枚数は、必要に応じて適宜に変更可能である。また、以下の説明では、１枚の学習画像ごとに処理を進めることを仮定するが、複数枚の学習画像について並行して学習工程を進めることは可能である。本実施形態の学習段階では、まず、局所特徴量取得部１１が、学習画像１０における局所特徴量と、この局所特徴量についての画像空間中での座標を取得する。前記した通り、局所特徴量の取得方法としては、既存の技術を利用できるので、これについての詳しい説明は省略する。

（図２のステップＳＡ−２〜ＳＡ−４）
ついで、ビジュアルキーワード検索部１２が、取得された局所特徴量に基づいて、語彙ＤＢ３に登録されているビジュアルキーワードを検索する（ステップＳＡ−２）。この検索においては、一般的な多次元空間インデックスを利用することができる。検索によりビジュアルキーワードを得られた場合（つまり既定距離内のビジュアルキーワードを見つけられた場合）には、得られたビジュアルキーワードを特定するＩＤを、ビジュアルキーワード検索部１２がＢｏＦ表現生成部１４に送る（ステップＳＡ−３）。もし複数のＩＤが検索された場合（つまり既定距離内に複数のビジュアルキーワードがあった場合）は、これら複数のＩＤを送ることもできる。もちろん、検索するＩＤの数を、例えば距離に基づいて一つに制限することもできる。

ビジュアルキーワード検索部１２は、当該学習画像について、他に処理すべき局所特徴量があるかを確認する（ステップＳＡ−４）。あればステップＳＡ−２に戻り、なければ、後述のステップＳＡ−７に進む。なお、ステップＳＡ−１において、学習画像における全ての局所特徴量を取得していない場合は、ステップＳＡ−４からステップＳＡ−１に戻ってもよい。

（図２のステップＳＡ−５〜ＳＡ−６）
ステップＳＡ−２において、既定距離内のビジュアルキーワードを取得できなかった場合（つまりステップＳＡ−３での判定がＮｏのとき）は、語彙ＤＢ３に登録されているビジュアルキーワードの数が既定数以内かどうかを、ビジュアルキーワード登録部１３が確認する（ステップＳＡ−５）。既定数以内であれば、ビジュアルキーワード登録部１３は、当該の局所特徴量を新たなビジュアルキーワードとして語彙ＤＢ３に登録する（ステップＳＡ−６）。この処理により、本実施形態では、新たなビジュアルキーワードを生成して登録することができる。もし、語彙ＤＢ３に格納されているビジュアルキーワードが存在しない場合（例えば最初の局所特徴量に基づいて検索するとき）は、基本的に、取得した局所特徴量をビジュアルキーワードとして特定して登録することができる。なお、本例では、初期状態において語彙ＤＢ３に登録されているビジュアルキーワードが存在しないと仮定しているが、存在していても特に問題はない。

ビジュアルキーワード登録部１３は、新たなビジュアルキーワードを登録する際には、そのビジュアルキーワードに対応する一意のＩＤも生成して、語彙ＤＢ３に登録し、さらに、当該ＩＤをＢｏＦ表現生成部１４に送る。

ステップＳＡ−６の処理が完了した場合、あるいはステップＳＡ−５での判断がＮｏ（つまり語彙数が既定値を超えた場合）である場合は、既に述べたステップＳＡ−４に進む。

従来のＢｏＦ表現生成においては、学習に先立って、多数の局所特徴量をクラスタリングし、ビジュアルキーワードを生成しておく必要があった。このため、ＢｏＦ表現生成のために、ビジュアルキーワードの生成作業と実際の学習作業という二工程が必要となっていたという問題があった。

これに対して、本実施形態の手法によれば、学習過程を実施しながら、つまり学習と同時にビジュアルキーワードを動的に生成できるので、事前準備としてのビジュアルキーワード生成作業を省略できる。このため、本例の手法によれば、ＢｏＦ表現生成処理を簡略化できるという利点がある。

また、本実施形態では、クラスタを生成せずにビジュアルキーワードを生成できるので、煩雑なクラスタ生成処理を省略することができるという実際上の利点もある。

前記したステップＳＡ−４は、原則として、一枚の学習画像１０に属する全ての局所特徴量が処理されたかどうかに基づいて判断される。ただし、何らかの規則により、一部の局所特徴量についてのみ、前記した処理を行う構成とすることは可能である。

前記のように、本実施形態では、語彙ＤＢ３に登録されたビジュアルキーワードが既定数を超えた場合には、新たなビジュアルキーワードの登録処理を行わないものとしている（ステップＳＡ−５参照）。ここで、ビジュアルキーワードの登録個数の上限は、実験的に決定することができる。ビジュアルキーワードの個数が多すぎると、主観的には類似する局所特徴量が、別のビジュアルキーワードにそれぞれ紐づいてしまうことがある。つまり、ビジュアルキーワードの登録個数が多すぎても、ＢｏＦ表現を用いた画像照合においては、照合精度の向上に寄与しない場合がある。本実施形態では、ビジュアルキーワードの登録個数の上限を設定することにより、ビジュアルキーワード検索におけるシステム上の負担を軽減することができる。しかも、前記したように、上限値を実験的に適切に決定することによって、照合精度の低下も防止できるという利点がある。

（図２のステップＳＡ−７）
ついで、ＢｏＦ表現生成部１４は、ビジュアルキーワード登録部１３又はビジュアルキーワード検索部１２により送られたＩＤを用いて、学習画像１０に対応するＢｏＦ表現を生成する。

（図２のステップＳＡ−８）
ついで、転置インデックス登録部１５は、生成されたＢｏＦ表現を検索するための転置インデックスを生成して、転置インデックスＤＢ４に登録する。

（図２のステップＳＡ−９）
ついで、特徴点座標登録部１６は、前記処理が行われた学習画像についての局所特徴量の位置（つまり特徴点）を示す座標を、特徴点座標ＤＢ５に登録する。

全ての学習画像について前記の処理が終われば、学習段階を終了させることができる。もちろん、認識と並行して学習段階を実施することは可能であるし、対象画像２０を学習画像とみなして学習処理を実行してもよい。なお、本実施形態において、予め準備した全ての学習画像について学習処理を行うことは必須ではなく、適宜な条件を満たしたとき（例えば語彙ＤＢ３に登録されたビジュアルキーワードの数が既定値を超えたとき）に、以降の学習画像についての学習処理を省略することも可能である。

（認識段階）
次に、対象画像２０を認識する手法を、図３をさらに参照しながら説明する。

（図３のステップＳＢ−１）
まず、局所特徴量取得部２１は、対象画像２０における局所特徴量を取得する。局所特徴量を取得する手法としては、前記した学習画像についての局所特徴量の取得手法と同様に、既存手法を利用できるので、詳しい説明は省略する。

（図３のステップＳＢ−２）
ついで、ビジュアルキーワード検索部２２は、前記のステップＳＢ−１で取得された各局所特徴量にもっとも近い一つのビジュアルキーワードを、語彙ＤＢ３から検索し、当該ビジュアルキーワードのＩＤを取得する。ここで、ビジュアルキーワードの検索においては、局所特徴量からの距離が既定値より遠いビジュアルキーワードを除外する（つまり、類似度が既定値より大きいビジュアルキーワードのみを検索する）ことができる。また、ビジュアルキーワードの検索においては、ある局所特徴量からの距離が既定値以内の複数のビジュアルキーワードを取得する構成とすることもできる。このようにすれば、一つの局所特徴量に複数のＩＤを紐づけることができる。ここで、ビジュアルキーワードの検索は、語彙ＤＢ３に登録されたビジュアルキーワードが既定数を越える前であっても行うことができる。つまり、本実施形態での認識は、語彙ＤＢ３の完成を待たずに実行可能である。このことは、実際の画像照合における運用の簡素化や効率化を図る上で重要である。

（図３のステップＳＢ−３）
処理すべき全ての局所特徴量に対応するビジュアルキーワードのＩＤを、前記ステップＳＢ−２において特定した後、ＢｏＦ表現生成部２３は、そのＩＤを用いてＢｏＦ表現を生成することができる。このＢｏＦ表現は、１枚の対象画像を量子化して表現するものとなる。

（図３のステップＳＢ−４）
ついで、転置インデックス検索部２４は、前記のステップＳＢ−３で得られたＢｏＦ表現（つまり対象画像のＢｏＦ表現）に最も近いＢｏＦ表現を、転置インデックスＤＢ４に格納された転置インデックスを用いて検索する。対象画像のＢｏＦ表現と、検索で得られたＢｏＦ表現（つまり学習画像のＢｏＦ表現）との距離が既定値以上であった場合には、その時点で照合失敗と判定することもできる。

（図３のステップＳＢ−５）
ついで、特徴点座標照合部２５は、検索で得られたＢｏＦ表現に対応する学習画像の特徴点の座標を、特徴点座標ＤＢ５から取得する。ついで、特徴点座標照合部２５は、取得された学習画像の特徴点座標と、認識画像の特徴点座標との照合を行う。以下、特徴点座標を照合する手法の一例について説明する。

（特徴点座標照合の具体例）
以下において説明する特徴点座標の照合とは、ＢｏＦ表現の検索で得られた候補画像（学習画像）と認識対象画像との間における類似性あるいは同一性の確信度を検証するための手法である。

既に述べたように、学習画像と認識対象画像とは、いずれも、複数の局所特徴量を含んでいる。これらの局所特徴量は、同じビジュアルキーワードに紐づいている場合、類似性が高いと推定することができる。例えば、候補として得られた学習画像Ａの局所特徴量ａｉと対象画像Ｂの局所特徴量ｂｊとが同じビジュアルキーワードｖｋに紐づいている場合、これらの特徴量ａｉとｂｊとは類似性が高いと考えることができる。つまり、これらの特徴量ａｉとｂｊとは、特徴量の類似性（距離）により対応付けられた特徴点ペアと把握できる。そこで、この類似性による対応関係を用いて各特徴点の座標位置の照合を行う。

この照合においては、特徴量の類似性（距離）により対応付けられた特徴点ペア（前記の例であればａｉとｂｊ）を２組選択する。ついで、画像の座標系において、一方の画像（例えば画像Ａ）上の点（つまりａｉの位置）から他方の画像（例えば画像Ｂ）上の点（つまりｂｊの位置）に座標変換するためのアフィン変換の係数を求める。求めたアフィン変換係数を用いて、一方の画像（例えば画像Ａ）における、その他の点（例えばａｉ'の位置）を座標変換する。変換して得られた点と、画像Ｂ上における対応点（例えばｂｊ'の位置）との距離を比較し、既定範囲内であれば一致数（適合数）をカウントアップする。得られた一致数の合計を一致確信度とする。この一致確信度と既定値とを比較し、一致確信度が既定値よりも高い場合、照合成功とすることができる。なお、特徴点座標照合手段としては、他の既存の手法を用いることも可能であり、前記の手法には制約されない。

照合が成功した場合、当該学習画像、あるいはこの画像を特定するための情報を、認識結果３０として出力することができる。

画像認識における前記以外の手法は、既存のものと同様でよいので、これ以上の説明は省略する。

ここで、従来のＢｏＦ検索手法では、ビジュアルキーワードをクラスタリングにより生成しているので、採用するクラスタリング手法によって、ＢｏＦ検索における照合精度が左右されやすいという問題があった。これに対して、本例の手法では、前記したように、ビジュアルキーワード生成のためのクラスタリングを省略しているので、ビジュアルキーワード生成が、クラスタリング手法に影響されない。したがって、本例の手法によれば、ＢｏＦ検索における照合精度の安定化あるいは向上を期待することができる。

なお、本発明の内容は、前記実施形態に限定されるものではない。本発明は、特許請求の範囲に記載された範囲内において、具体的な構成に対して種々の変更を加えうるものである。

例えば、前記した各構成要素は、機能ブロックとして存在していればよく、独立したハードウエアとして存在しなくても良い。また、実装方法としては、ハードウエアを用いてもコンピュータソフトウエアを用いても良い。さらに、本発明における一つの機能要素が複数の機能要素の集合によって実現されても良く、本発明における複数の機能要素が一つの機能要素により実現されても良い。

また、機能要素は、物理的に離間した位置に配置されていてもよい。この場合、機能要素どうしがネットワークにより接続されていても良い。グリッドコンピューティング又はクラウドコンピューティングにより機能を実現し、あるいは機能要素を構成することも可能である。

１学習部
１１局所特徴量取得部
１２ビジュアルキーワード検索部
１３ビジュアルキーワード登録部
１４ＢｏＦ表現生成部
１５転置インデックス登録部
１６特徴点座標登録部
２認識部
２１局所特徴量取得部
２２ビジュアルキーワード検索部
２３ＢｏＦ表現生成部
２４転置インデックス検索部
２５特徴点座標照合部
３語彙ＤＢ
４転置インデックスＤＢ
５特徴点座標ＤＢ
１０学習画像
２０対象画像
３０認識結果

Claims

学習画像におけるＢｏＦ表現生成用のビジュアルキーワードを、前記学習画像自体の学習過程において動的に生成するための装置であって、
ここで、前記ビジュアルキーワードは、前記学習画像から生成された局所特徴量であるベクトルデータで構成されており、
さらに、
前記学習画像における局所特徴量を取得する局所特徴量取得部と、
ビジュアルキーワードと当該ビジュアルキーワードに対応するＩＤとを登録するための語彙ＤＢと、
前記学習画像における前記局所特徴量に基づいて、前記語彙ＤＢに登録されているビジュアルキーワードを、ベクトル空間上での距離に基づいて検索するための、ビジュアルキーワード検索部と、
前記ビジュアルキーワード検索部により、前記ベクトル空間上において前記取得された局所特徴量の近傍にある前記ビジュアルキーワードを検索できなかった場合に、前記局所特徴量を、ＢｏＦ表現生成用の新たなビジュアルキーワードとして、対応して生成した新たなＩＤを付して前記語彙ＤＢに登録する、ビジュアルキーワード登録部と
を備えており、
さらに、前記ビジュアルキーワード登録部は、前記学習画像を用いた前記学習過程において、前記新たなビジュアルキーワードに対応するＩＤを、前記学習画像自体に対応するＢｏＦ表現を生成するためのＢｏＦ表現生成部に送る構成となっている
ことを特徴とする、ビジュアルキーワードの動的生成装置。
前記ビジュアルキーワード検索部は、前記ビジュアルキーワードの検索を、前記局所特徴量と、前記語彙ＤＢに登録されているビジュアルキーワードとの距離が既定値以下であることを基準として行う構成となっている
請求項１に記載のビジュアルキーワードの動的生成装置。
前記ビジュアルキーワード登録部は、前記語彙ＤＢに既に登録されている前記ビジュアルキーワードの数が既定値以上である場合には、前記新たなビジュアルキーワードの登録を実行しない構成となっている
請求項１又は２に記載のビジュアルキーワードの動的生成装置。
請求項１〜３のいずれか１項の動的生成装置を用いた、ＢｏＦ表現生成用の学習装置であって、前記ＢｏＦ表現生成部を備えており、
前記ビジュアルキーワード検索部は、前記語彙ＤＢから前記ビジュアルキーワードを検索できた場合には、前記ビジュアルキーワードに対応するＩＤを特定して、前記ＢｏＦ表現部に送る構成となっており、
前記ＢｏＦ表現生成部は、前記ビジュアルキーワード登録部又は前記ビジュアルキーワード検索部により送られた前記ＩＤを用いて、学習画像に対応するＢｏＦ表現を生成する構成となっている
ＢｏＦ表現生成用の学習装置。
請求項４に記載の学習装置と、対象画像の認識を行うための認識部とを備えており、
前記認識部は、
前記対象画像に対応するＢｏＦ表現を、前記学習画像に対応するＢｏＦ表現から検索することによって、前記対象画像の認識を行う構成となっている
画像認識装置。
局所特徴量取得部と、語彙ＤＢと、ビジュアルキーワード検索部と、ビジュアルキーワード登録部とを備えたビジュアルキーワードの動的生成装置を用いて、学習画像におけるＢｏＦ表現生成用のビジュアルキーワードを、前記学習画像自体の学習過程において動的に生成するための方法であって、
ここで、前記ビジュアルキーワードは、前記学習画像から生成された局所特徴量であるベクトルデータで構成されており、
さらに、
前記局所特徴量取得部が、前記学習画像における局所特徴量を取得するステップと、
前記ビジュアルキーワード検索部が、前記学習画像における前記局所特徴量に基づいて、前記語彙ＤＢにＩＤと対応して登録されているビジュアルキーワードを、ベクトル空間上での距離に基づいて検索するステップと、
前記ビジュアルキーワード検索部により、前記ベクトル空間上において前記取得された局所特徴量の近傍にある前記ビジュアルキーワードを検索できなかった場合に、前記ビジュアルキーワード登録部が、前記局所特徴量を、ＢｏＦ表現生成用の新たなビジュアルキーワードとして、対応して生成した新たなＩＤを付して前記語彙ＤＢに登録するステップと、
前記ビジュアルキーワード登録部が、前記学習画像を用いた前記学習過程において、前記新たなビジュアルキーワードに対応するＩＤを、前記学習画像自体に対応するＢｏＦ表現を生成するためのＢｏＦ表現生成部に送るステップと
を備えることを特徴とする方法。
請求項６に記載の各ステップをコンピュータに実行させるためのコンピュータプログラム。