JP2013238953A

JP2013238953A - 特徴量生成装置及び特徴量生成方法

Info

Publication number: JP2013238953A
Application number: JP2012110372A
Authority: JP
Inventors: Masajiro Iwasaki; 雅二郎岩崎
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2012-05-14
Filing date: 2012-05-14
Publication date: 2013-11-28
Anticipated expiration: 2032-05-14
Also published as: JP5602184B2

Abstract

【課題】多くの局所特徴量を安定的に生成することによって、画像認識の精度を向上させることが可能な装置又は方法を提供する。
【解決手段】パラメータ調整部２は、学習画像を変換するための第１〜第ｎのパラメータ値を決定する。画像変換部３は、第１〜第ｎのパラメータ値を用いて学習画像を変換することによって、第１〜第ｎの変換画像を生成する。局所特徴量抽出部４は、第１〜第ｎの各変換画像における特徴領域を特定し、特徴領域から局所特徴量を抽出する。クラスタ生成部５は、局所特徴量をクラスタリングすることにより、認識用データとして利用可能なクラスタを生成する。
【選択図】図１

Description

本発明は、画像認識に用いる認識用データを生成する技術に関するものである。特に、本発明は、認識用データとして局所特徴量を用いる技術に関するものである。

画像認識のために局所特徴量を用いる技術が提案されている（下記特許文献１）。局所特徴量とは、画像の局所的な特徴を数値化して得られる量であり、通常はベクトル量として表される。局所特徴量を用いることにより、類似画像の検索あるいは同一画像の特定を行うことができる。

ところで、ある画像から抽出された局所特徴量は、その画像の撮影状態（例えば回転、拡大あるいは縮小など）に特有のものとなっている。すなわち、同一の対象物を表す画像であっても、その画像の撮影状態が変化すれば、異なる局所特徴量となることが多い。

そこで、下記特許文献１の技術では、以下の手法を提案している。
（１）入力画像に画像変換を行い、変換画像を得る。
（２）入力画像と変換画像とのそれぞれから、特徴点（例えばオブジェクトのエッジやコーナにおける点）を求める。
（３）入力画像と変換画像との「対応位置」（つまり同じ位置）において取得された特徴点を対応特徴点とする。
（４）対応特徴点における局所特徴量を、画像認識あるいは検索に用いる。

この従来技術では、画像変換を行っても特徴点として残る点から局所特徴量を求めるので、局所特徴量を頑強とすることができるという利点がある。

しかしながら、認識対象として入力されるクエリ画像（入力画像）は、撮影状態によって様々に変化する。そのため、一つのオブジェクトを基準として特徴点を絞り込むという前記した従来の方法では、認識精度の向上に限界があった。

特開2010-79545号公報

本発明は、前記した状況に鑑みてなされたものである。本発明の主な目的は、安定的な局所特徴量を生成することによって、画像認識の精度を向上させることが可能な装置又は方法を提供することである。

本発明は、以下のいずれかの項目に記載の構成とされている。

（項目１）
画像認識に用いる認識用データを生成する特徴量生成装置において、
学習画像を変換するための第１〜第ｎのパラメータ値を決定するパラメータ調整部と、
前記第１〜第ｎのパラメータ値を用いて前記学習画像を変換することによって、第１〜第ｎの変換画像を生成する画像変換部と、
前記第１〜第ｎの各変換画像における特徴領域を特定し、前記特徴領域から局所特徴量を抽出する局所特徴量抽出部と、
前記局所特徴量をクラスタリングすることにより、前記認識用データとして利用可能なクラスタを生成するクラスタ生成部と、
を備えることを特徴とする、特徴量生成装置。

（項目２）
前記第１〜第ｎのパラメータ値は、パラメータとして取りうる値の最大値又は最小値である、項目１に記載の特徴量生成装置。

（項目３）
前記パラメータ調整部は、まず大きな変動幅のパラメータ値を生成し、その後、それよりも小さな変動幅のパラメータ値を生成する構成となっており、
前記クラスタ生成部は、前記小さな変動幅のパラメータ値に対応する前記変換画像における前記局所特徴量のクラスタリングの結果、新たなクラスタが生成されなかったことをもって、クラスタリング処理の終了を判定する構成となっている
項目１又は２に記載の特徴量生成装置。

（項目４）
複数の前記学習画像を格納するための画像ＤＢと、
前記画像ＤＢから前記学習画像を読み出すための画像読み出し部とを備えており、
前記画像変換部は、前記画像読み出し部から前記学習画像を取得する構成となっている
項目１〜３のいずれか１項に記載の特徴量生成装置。

（項目５）
前記クラスタ生成部は、
前記局所特徴量の空間における前記クラスタの重心をさらに生成することを特徴とする項目１〜４の特徴量生成装置。

（項目６）
前記クラスタ生成部は、
前記局所特徴量の空間における前記クラスタの半径をさらに生成することを特徴とする項目１〜４の特徴量生成装置。

（項目７）
画像認識に用いる認識用データを生成する特徴量生成方法において、
学習画像を変換するための第１〜第ｎのパラメータ値を決定するパラメータ調整ステップと、
前記第１〜第ｎのパラメータ値を用いて前記学習画像を変換することによって、第１〜第ｎの変換画像を生成する画像変換ステップと、
前記第１〜第ｎの各変換画像における特徴領域を特定し、前記特徴領域から局所特徴量を抽出する局所特徴量抽出ステップと、
前記局所特徴量をクラスタリングすることにより、前記認識用データとして利用可能なクラスタを生成するクラスタ生成ステップと、
を備えることを特徴とする、特徴量生成方法。

（項目８）
項目７に記載の各ステップをコンピュータに実行させるためのコンピュータプログラム。

このコンピュータプログラムは、適宜な記録媒体（例えばＣＤ−ＲＯＭやＤＶＤディスクのような光学的な記録媒体、ハードディスクやフレキシブルディスクのような磁気的記録媒体、あるいはＭＯディスクのような光磁気記録媒体）に格納することができる。このコンピュータプログラムは、インターネットなどの通信回線を介して伝送されることができる。

本発明によれば、多くの局所特徴量を安定的に生成することによって、画像認識の精度を向上させることが可能な装置又は方法を提供することが可能となる。

本発明の一実施形態における特徴量生成装置の全体的な構成を説明するためのブロック図である。図１の装置を用いて実行される特徴量生成方法の一例を説明するためのフローチャートである。局所特徴量を特徴空間上でクラスタリングする手法についての説明図である。クラスタ集合の生成についての説明図である。

（本実施形態の構成）
本発明の一実施形態における特徴量生成装置の構成を、図１を参照しながら説明する。本実施形態の特徴量生成装置は、画像認識に用いる認識用データを生成するためのものである。より具体的には、本実施形態の特徴量生成装置は、画像認識のための局所特徴量ＤＢを生成するためのものである。この局所特徴量ＤＢは、クエリ画像を用いて、画像内に含まれる同一オブジェクトの認識あるいは類似画像の検索を行うために用いることができるものである。

本実施形態の特徴量生成装置は、画像読出部１と、パラメータ調整部２と、画像変換部３と、局所特徴量抽出部４と、クラスタ生成部５とを備えている。

画像読出部１は、画像ＤＢ６から、学習用の画像（学習画像）を取得するための機能要素である。ただし、学習画像を取得する経路に特に制約はないので、画像読出部１を省略することは可能である。

パラメータ調整部２は、学習画像を変換するための第１〜第ｎのパラメータ値を決定する機能要素である。パラメータ調整の具体例は後述する。

画像変換部３は、パラメータ調整部２により決定された第１〜第ｎのパラメータ値を用いて学習画像を変換する機能要素である。これにより、画像変換部３は、第１〜第ｎの変換画像を生成することができるようになっている。本実施形態では、画像変換によって得られた変換画像の集合に符号Ｓを付している（図１参照）。画像変換の具体例も後述する。

局所特徴量抽出部４は、画像変換部３で生成された第１〜第ｎの各変換画像における特徴領域（いわゆる特徴点）を特定し、さらに、特定された特徴領域から局所特徴量を抽出するための機能要素である。局所特徴量抽出部４において生成された局所特徴量は、局所特徴量ＤＢ７（図１参照）に格納される。これらの動作も後述する。

クラスタ生成部５は、局所特徴量抽出部４において抽出された局所特徴量をクラスタリングし、これによって、認識用データとして利用可能なクラスタを生成するための機能要素である。本実施形態のクラスタ生成部５は、局所特徴量の空間におけるクラスタの重心をさらに生成することが可能である。また、本実施形態のクラスタ生成部５は、局所特徴量の空間におけるクラスタの半径をさらに生成することが可能である。クラスタリング手法自体は、既存のものを利用できる。本実施形態におけるクラスタ生成の詳細についても後述する。

（本実施形態の動作）
以下、前記した本例の特徴量生成装置を用いた特徴量生成方法の一例を、図２〜図４をさらに参照しながら説明する。

（図２のステップＳＡ−１）
まず、画像読出部１により、画像ＤＢ６から１枚の学習用の画像（学習画像）を選択して取り出す。もちろん、画像ＤＢ６から複数枚の画像を同時に取り出した後に、画像読出部１において１枚の画像を特定してもよい。いずれによせ、この段階では、画像読出部１が、処理対象となる１枚の学習画像を特定する。なお、以降の処理を、複数枚の学習画像を対象として並行して実施することは可能であるが、説明の煩雑を避けるため、学習画像は１枚であると仮定して説明する。そして、画像変換部３は、学習画像を変換するための一つの変換処理の内容を決定する。ここで、画像変換の種類に特に制約はないが、例えば、輝度変更、コントラスト変更、ぼかし、回転、ゆがみ、拡大、縮小のいずれか又は組み合わせである。なお、本例の説明では、説明の簡略化のため、一つの変換処理を特定しているが、複数の変換処理を特定して、並列して以下の動作を行うことは可能である。

（図２のステップＳＡ−２及びＳＡ−３）
ついで、パラメータ調整部２は、前記で特定された画像変換によって学習画像を変換するための第１〜第ｎのパラメータ値を決定する。本実施形態では、とりうるパラメータの変動量が最大であるとして、まずは二つのパラメータを決定する。例えば、取りうるパラメータ値が０〜１００の間であるとすれば、パラメータ値は０又は１００であると仮定する。これにより、第１及び第２のパラメータ値を決定することができる。なお、三つ以上のパラメータ値を決定することは可能であるが、説明の簡略化のため、この時点では二つのパラメータが決定されることとする。

（図２のステップＳＡ−４）
ついで、画像変換部３は、第１〜第ｎのパラメータ値を用いて学習画像を変換することによって、第１〜第ｎの変換画像を生成する。前記の例では、第１及び第２のパラメータ値である０と１００とをそれぞれ用いて、画像変換を行う。これにより、第１及び第２の変換画像を得ることができる。得られた変換画像の集合を、ここでは画像集合Ｓと称する（図１及び図２参照）。なお、図１の画像集合Ｓでは、異なる画像変換によってえられる変換画像も記載されているが、これは、本例の手順を繰り返すことによって順次生成されていくものである。通常、初期段階では、画像集合Ｓには、１種類の画像変換によって得られる変換画像が包含される。

（図２のステップＳＡ−５及びＳＡ−６）
ついで、後述のステップＳＢ−４で生成されるクラスタ生成フラグがある場合は、システム側でそれをクリアする。ついで、局所特徴量抽出部４は、集合Ｓから１枚の変換画像を選択する。どの画像を選択するかはシステム側の任意でよいが、一般には、学習済みでない変換画像が選択される。

（図２のステップＳＡ−７）
ついで、局所特徴量抽出部４は、選択した画像における特徴点（特徴領域に対応）の位置（つまり座標）と、その特徴点における局所特徴量とを抽出する。特徴点及び局所特徴量の抽出手法としては、既存のものを利用可能なので、これについての詳しい説明は省略する。

特徴点は、一つの変換画像において、通常は複数選択されるが、一つのみであってもよい。局所特徴量の数は、通常、特徴点の数に対応する。

なお、局所特徴量抽出部４は、この段階では１枚の変換画像のみを対象としているが、後述するように、前記の処理は、通常、繰り返して行われるので、その結果、複数枚の変換画像（つまり第１〜第ｎの画像）に対する局所特徴量の抽出処理を行うことができる。抽出された局所特徴量は、特徴点（すなわちその座標）に紐付けられた状態で、局所特徴量ＤＢ７に格納される。

（図２のステップＳＡ−８）
ついで、クラスタ生成部５は、抽出された局所特徴量を局所特徴量ＤＢ７から取り出してクラスタリングすることにより、認識用データとして利用可能なクラスタを生成する（図３参照）。クラスタ生成手法の詳細は後述する。図３においては、局所特徴量をクラスタに順次追加していく様子を示している。なお、このとき、局所特徴量と特徴点の座標とは紐付けられているものとする。これにより、後述する、「同じ特徴点に対応する特徴量のクラスタにより形成される集合」（すなわちクラスタ集合）の生成が可能になる。

（図２のステップＳＢ−１）
ついで、局所特徴量抽出部４は、変換画像集合Ｓから別の１枚の変換画像を選択し、その変換画像について、特徴点及び対応する局所特徴量を抽出する。ここで、本実施形態では、別の１枚の変換画像として、同じ画像変換処理における異なるパラメータを用いたものを選ぶことができる。なお、ここで選ばれる変換画像は、前記した変換画像と同じ学習画像に対して同種の（しかしパラメータが異なる）変換処理が施されたものである。

（図２のステップＳＢ−２）
ついで、クラスタ生成部５は、一つの特徴点及びそれに対応する特徴量を選択する。そして、クラスタ生成部５は、特徴点の座標が対応するクラスタ集合を決定する。この処理を、図４をさらに参照して説明する。まず、同じ学習画像から得られた二つの変換画像Ｉｍ１及びＩｍ２が存在すると仮定する（図４参照）。このとき、二つの画像Ｉｍ１とＩｍ２とには、同じ特徴点が存在する。同じ特徴点とは、同じ座標（画像変換により座標系が変更されるときは、マッピングによって一致する座標）における特徴点のことである。そして、同じ特徴点に対応する二つの局所特徴量についてそれぞれクラスタを生成した例を図４（ａ）に示す。この例では、同じ特徴点に対応しているにもかかわらず、二つの局所特徴量が異なるクラスタに属している。これは、クラスタ半径の設定にもよるが、十分ありうることである。もちろん、一方の局所特徴量が他方の局所特徴量のクラスタに属することもありうる。なお、クラスタ半径の設定は、通常は実験的に決定されるが、それは本実施形態において重要な要素ではないので、ここでは、適宜に決定されているものと仮定する。

前記のようにして、同じ特徴点に対応する局所特徴量に基づく複数個のクラスタが、図４（ｂ）に示されるように、複数個形成されたとする。この場合、同じ特徴点に対応するクラスタから形成される集合を、既に説明したようにクラスタ集合と呼ぶ。なお、図４（ａ）及び（ｂ）においては、クラスタ内の局所特徴量（局所特徴量が既存クラスタに属さないときはクラスタ重心となる）を小さい黒丸（・）により示し、特徴量空間におけるクラスタの領域を大きな白丸（○）で示している。

そこで、クラスタ生成部５は、特徴点の座標を用いて、当該特徴量が属すべきクラスタ集合を決定することができる。

（図２のステップＳＢ−３及びＳＢ−４）
ここで、クラスタ生成部５は、対応するクラスタ集合がない場合（つまり当該特徴点に対する最初の処理の場合）には、クラスタを新たに生成して、クラスタ生成フラグをシステム側にセットする。当該特徴点に対する初回の処理でなければ、対応するクラスタ集合は存在するので、次のステップＳＢ−５に移行する。

（図２のステップＳＢ−５及びＳＢ−６）
ついで、クラスタ生成部５は、当該特徴量と、特定されたクラスタ集合に属する各クラスタの重心点との距離を算出する。各クラスタ重心点の距離の最小値が、閾値ｔ（この値は通常は実験的に設定される）を超えたときは、ステップＳＢ−４に移行して、新しいクラスタを追加する。そうでなければ次のステップＳＢ−７に移行する。

（図２のステップＳＢ−７）
前記において処理対象となっていた変換画像（同じ学習画像に対応する変換画像）に、他の局所特徴量があれば、ステップＳＢ−２に戻り、処理を繰り返す。なければ次のステップＳＢ−８に進む。

（図２のステップＳＢ−８）
集合Ｓに、処理すべき他の変換画像があれば、ステップＳＢ−１に戻り、処理を繰り返す。なければ次のステップＳＢ−９に進む。

（図２のステップＳＢ−９及びＳＢ−１０）
ステップＳＢ−４にて説明したクラスタ生成フラグがシステム側にセットされているときは、ステップＳＡ−３に戻り、パラメータの変動量を減らして、処理を繰り返す。変動量をどの程度減らすかは、例えば実験的に決定できる。クラスタ生成フラグがセットされていない場合は、パラメータの変動量をこれ以上減らしても新たなクラスタに寄与しない（つまり局所特徴量の多様化に寄与しない）と考えられるため、ステップＳＢ−１１に進む。このように本実施形態では、画像認識に有効な局所特徴量を効率的に高速で生成できるという利点がある。

（図２のステップＳＢ−１２）
未だ前記手順の対象となっていない他の変換画像があれば、ステップＳＡ−１に戻り、なければ、当該学習画像についての処理を終了する。このようにして、多様な局所特徴量を有する局所特徴量ＤＢを効率的に生成することができる。他の学習画像がある場合は、最初の手順に戻って処理を繰り返す。

本実施形態によれば、第１〜第ｎのパラメータ値として、最初は、パラメータとして取りうる値の最大値又は最小値としているので、多様性のある（つまりクエリ画像における撮影環境の変動に対する対応能力が高い）局所特徴量を効率的に生成できるという利点がある。一つの変換画像は通常複数の特徴点を持つので、本例の方法によって、多くの特徴点を効率的に生成することができる。

また、本実施形態では、まず大きな変動幅のパラメータ値を生成し、その後、それよりも小さな変動幅のパラメータ値を生成する。そして、小さな変動幅のパラメータ値に対応する変換画像における局所特徴量のクラスタリングの結果、新たなクラスタが生成されなかったことをもって、クラスタリング処理の終了を判定する構成となっている。このため、本実施形態では少ない処理量で、多様性のある局所特徴量を生成できるという利点がある。

クエリ画像を用いた実際の画像認識あるいは画像検索については、例えば、生成されたクラスタを利用して、クエリ画像の局所特徴量に近いクラスタ重心の数の多い学習画像をクエリ画像に類似（あるいは同一）のものと判定することが可能である。ただし、このような認識あるいは検索の手法は、既存のものを利用可能なので、これについての詳しい説明は省略する。

本実施形態においては、前記の手法により、多様かつ多数の局所特徴量（より具体的にはそのクラスタ）を生成できるので、画像認識あるいは画像検索の精度を向上させることができる。

前記した各実施形態の動作は、コンピュータに適宜のコンピュータソフトウエアを組み込むことにより実施することができる。

なお、本発明の内容は、前記実施形態に限定されるものではない。本発明は、特許請求の範囲に記載された範囲内において、具体的な構成に対して種々の変更を加えうるものである。

例えば、前記した各構成要素は、機能ブロックとして存在していればよく、独立したハードウエアとして存在しなくても良い。また、実装方法としては、ハードウエアを用いてもコンピュータソフトウエアを用いても良い。さらに、本発明における一つの機能要素が複数の機能要素の集合によって実現されても良く、本発明における複数の機能要素が一つの機能要素により実現されても良い。

また、機能要素は、物理的に離間した位置に配置されていてもよい。この場合、機能要素どうしがネットワークにより接続されていても良い。グリッドコンピューティングにより機能を実現し、あるいは機能要素を構成することも可能である。

Ｓ画像集合
１画像読出部
２パラメータ調整部
３画像変換部
４局所特徴量抽出部
５クラスタ生成部
６画像ＤＢ
７局所特徴量ＤＢ

Claims

画像認識に用いる認識用データを生成する特徴量生成装置において、
学習画像を変換するための第１〜第ｎのパラメータ値を決定するパラメータ調整部と、
前記第１〜第ｎのパラメータ値を用いて前記学習画像を変換することによって、第１〜第ｎの変換画像を生成する画像変換部と、
前記第１〜第ｎの各変換画像における特徴領域を特定し、前記特徴領域から局所特徴量を抽出する局所特徴量抽出部と、
前記局所特徴量をクラスタリングすることにより、前記認識用データとして利用可能なクラスタを生成するクラスタ生成部と、
を備えることを特徴とする、特徴量生成装置。
前記第１〜第ｎのパラメータ値は、パラメータとして取りうる値の最大値又は最小値である、請求項１に記載の特徴量生成装置。
前記パラメータ調整部は、まず大きな変動幅のパラメータ値を生成し、その後、それよりも小さな変動幅のパラメータ値を生成する構成となっており、
前記クラスタ生成部は、前記小さな変動幅のパラメータ値に対応する前記変換画像における前記局所特徴量のクラスタリングの結果、新たなクラスタが生成されなかったことをもって、クラスタリング処理の終了を判定する構成となっている
請求項１又は２に記載の特徴量生成装置。
複数の前記学習画像を格納するための画像ＤＢと、
前記画像ＤＢから前記学習画像を読み出すための画像読み出し部とを備えており、
前記画像変換部は、前記画像読み出し部から前記学習画像を取得する構成となっている
請求項１〜３のいずれか１項に記載の特徴量生成装置。
前記クラスタ生成部は、
前記局所特徴量の空間における前記クラスタの重心をさらに生成することを特徴とする請求項１〜４の特徴量生成装置。
前記クラスタ生成部は、
前記局所特徴量の空間における前記クラスタの半径をさらに生成することを特徴とする請求項１〜４の特徴量生成装置。
画像認識に用いる認識用データを生成する特徴量生成方法において、
学習画像を変換するための第１〜第ｎのパラメータ値を決定するパラメータ調整ステップと、
前記第１〜第ｎのパラメータ値を用いて前記学習画像を変換することによって、第１〜第ｎの変換画像を生成する画像変換ステップと、
前記第１〜第ｎの各変換画像における特徴領域を特定し、前記特徴領域から局所特徴量を抽出する局所特徴量抽出ステップと、
前記局所特徴量をクラスタリングすることにより、前記認識用データとして利用可能なクラスタを生成するクラスタ生成ステップと、
を備えることを特徴とする、特徴量生成方法。
請求項７に記載の各ステップをコンピュータに実行させるためのコンピュータプログラム。