JP5490859B2

JP5490859B2 - ビジュアルキーワード抽出装置、これを用いたＢｏＦ表現生成装置、及びビジュアルキーワード抽出方法

Info

Publication number: JP5490859B2
Application number: JP2012192765A
Authority: JP
Inventors: 雅二郎岩崎
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2012-09-03
Filing date: 2012-09-03
Publication date: 2014-05-14
Anticipated expiration: 2032-09-03
Also published as: JP2014048994A

Description

本発明は、ビジュアルキーワード抽出装置、これを用いたＢｏＦ表現生成装置、及びビジュアルキーワード抽出方法に関するものである。

下記特許文献１に示されるように、局所特徴量を用いた画像認識手法が知られている。この手法では、画像を複数の部分に分割し、各部分に対応して局所特徴量を抽出し、この局所特徴量を用いて類似画像検索を行うことができる。これらの局所特徴量は、画像の特徴を精度良く表すために、通常、多次元のベクトルデータとされている。

ところで、下記特許文献１にも示されているように、局所特徴量を用いた類似画像検索では、計算量が膨大となる傾向がある。

そこで、局所特徴量を高速に検索するために、ビジュアルキーワードあるいはＢｏＦ（Bag of Features）という手法が提案されている。この手法では、複数の局所特徴量を予めクラスタリングすることにより、クラスタを代表する局所特徴量（つまりビジュアルキーワード）を算出する。さらに、各クラスタにＩＤを付す。これにより、各局所特徴量を、それが属するクラスタのＩＤに紐付けることができる。

すると、ある画像に対応する複数の局所特徴量の集合は、クラスタＩＤのヒストグラム（集合ということもできる）により置き換えることができる。このクラスタＩＤのヒストグラムを、ＢｏＦ表現あるいは単にＢｏＦと呼ぶ。一枚の画像に対応して、一つのＢｏＦ表現を得ることができる。生成されたＢｏＦ表現は、一般に転置ファイルによって検索できる。なお、ＢｏＦ表現を「特徴ベクトル」と称することがあるが、本明細書では、画像の特徴量を示す特徴ベクトルとの混同を避けるため、ＢｏＦ表現という用語を用いる。

このように、ＢｏＦ表現を用いることにより、局所特徴量を量子化して、データ量を減らすことができる。しかも、検索には転置ファイルを利用できるので、局所特徴量自体を用いるよりも高速な類似画像検索（つまり画像認識）が可能となる。

ところで、局所特徴量のクラスタリングにおいては、局所特徴量の距離が近いものどうしをグループ化し、その中心にあるか又は中心に近い局所特徴量をビジュアルキーワードとして抽出する。

しかしながら、多次元ベクトルである局所特徴量どうしの間の距離と、主観的な画像の類似性とは、必ずしも対応しない。つまり、局所特徴量どうしの距離が近い二つの部分画像を比較したとき、主観的には、必ずしも類似画像ではないことが少なくない。

また、一般的に、局所特徴量の数が増えると、特徴量空間上ではそれらがほぼ均一に分布する傾向がある。一方、有意義なクラスタ形成には、対象となるデータ点の分布の偏りが前提となる。このため、局所特徴量については、通常のクラスタリング手法では、有意義なクラスタを形成することが難しい。

これらの理由から、従来のビジュアルキーワードあるいはＢｏＦ表現を用いた画像検索においては、ビジュアルキーワードを適切に選択することが難しくなっており、そのため、十分な検索精度を得られないことが多かった。

特開２０１１−１２８７７３号公報（０００３〜０００５段落、００６９段落）特開平１０−２４３２５０号公報（色分布をクラスタリングする手法）特開２００９−４８５７５号公報（クラスタに含まれるベクトル数の偏りを少なくする手法）特開２０１２−１３７９０８号公報（木構造インデックスを用いたクラスタ生成手法）

本発明は、前記した状況に鑑みてなされたものである。本発明の主な目的は、精度の良い画像検索を行うことが可能なビジュアルキーワードを生成する手法を提供することである。

本発明は、以下のいずれかの項目に記載の構成とされている。

（項目１）
複数の学習局所特徴量に対してクラスタリングを行うことによって、ＢｏＦ表現生成用のビジュアルキーワードを抽出する装置であって、
前記複数の学習局所特徴量を受け付ける受付部と、
既定個数以内の前記学習局所特徴量が一つのクラスタに属するようにクラスタリングを行うクラスタリング部と、
前記クラスタリング部により生成されたクラスタを代表するビジュアルキーワードを抽出する抽出部と
を備えることを特徴とする、ビジュアルキーワード抽出装置。

（項目２）
前記クラスタリング部は、以下の処理により、前記クラスタリングを行う、項目１に記載のビジュアルキーワード抽出装置：
（ａ）ルートノードを生成する処理；
（ｂ）データ点を前記学習局所特徴量の集合Ｓから得る処理；
（ｃ）ルートノードをターゲットノードとする処理；
（ｄ）ターゲットノードが内部ノードならば、それに属する子ノードの中心点と前記データ点との距離が最も近い子ノードをターゲットノードとして、さらにこの処理（ｄ）を繰り返す処理；
（ｅ）ターゲットノードがリーフノードであり、かつ、リーフノードのデータ点の数が閾値ｎ未満であれば、そのリーフノードにデータ点を追加する処理；
（ｆ）ターゲットノードがリーフノードであり、かつ、リーフノードのデータ点の数が閾値ｎ以上であれば、リーフノードに属しているデータ点の集合を二つ又はそれ以上の部分空間に分割し、当該リーフノードを内部ノードに変更した上で、生成した当該部分空間に対応する新たなリーフノードを生成する処理。

（項目３）
前記抽出部は、以下の処理により、前記ビジュアルキーワードの抽出を行う、項目２に記載のビジュアルキーワード抽出装置：
生成された前記リーフノードの内、データ点数が閾値ｋ（ｋ≦ｎ）以上のリーフノードの中心にあるか、または、それに最も近い前記学習局所特徴量を前記ビジュアルキーワードとして抽出する処理。

（項目４）
前記抽出部は、以下の処理により、前記ビジュアルキーワードの抽出を行う、項目２に記載のビジュアルキーワード抽出装置：
生成された前記リーフノードの内、データ点数が閾値ｋ（ｋ≦ｎ）以上のリーフノードに属する前記学習局所特徴量の重心を前記ビジュアルキーワードとして抽出する処理。

（項目５）
前記クラスタリング部は、前記学習局所特徴量の原画像である学習画像の撮影条件の変動量に応じて、前記既定個数を変動させる構成となっている
項目１〜４のいずれか１項に記載のビジュアルキーワード抽出装置。

（項目６）
項目１〜５のいずれか１項に記載のビジュアルキーワード抽出装置と、ＢｏＦ表現生成部とを備えており、
前記ＢｏＦ表現生成部は、対象画像における対象局所特徴量に最も近い前記ビジュアルキーワードに対応するクラスタのＩＤを特定し、このクラスタのＩＤを用いてＢｏＦ表現を生成する構成となっている
ＢｏＦ表現生成装置。

（項目７）
複数の学習局所特徴量に対してクラスタリングを行うことによって、ＢｏＦ表現生成用のビジュアルキーワードを抽出するビジュアルキーワード抽出装置を用いて実行されるビジュアルキーワード抽出方法であって、
前記ビジュアルキーワード抽出装置は、受付部と、クラスタリング部と、抽出部とを備えており、
前記受付部が、前記複数の学習局所特徴量を受け付けるステップと、
前記クラスタリング部が、既定個数以内の前記学習局所特徴量を一つのクラスタに属させるようにクラスタリングを行うステップと、
前記抽出部が、前記クラスタリング部により生成されたクラスタを代表するビジュアルキーワードを抽出するステップと
を備えることを特徴とする、ビジュアルキーワード抽出方法。

（項目８）
項目７に記載の各ステップをコンピュータに実行させるためのコンピュータプログラム。

このコンピュータプログラムは、適宜な記録媒体（例えばＣＤ−ＲＯＭやＤＶＤディスクのような光学的な記録媒体、ハードディスクやフレキシブルディスクのような磁気的記録媒体、あるいはＭＯディスクのような光磁気記録媒体）に格納することができる。このコンピュータプログラムは、インターネットなどの通信回線を介して伝送されることができる。

本発明によれば、精度の良い画像検索を行うことが可能なビジュアルキーワードを生成する手法を提供することが可能となる。

本発明の一実施形態に係るビジュアルキーワード抽出装置の概略的なブロック図である。本発明の一実施形態に係るビジュアルキーワード抽出方法を用いたＢｏＦ表現生成方法の全体的な手順を示すフローチャートである。複数の学習画像の一例を示す説明図である。特徴量空間に配置された局所特徴量の一例を示す説明図である。クラスタを生成する手順を説明するためのフローチャートである。クラスタを生成する手順を説明するための説明図である。図（ａ）は、特徴量空間に配置された局所特徴量の一例を示す。図（ｂ）は従来のクラスタリング手法により生成されたクラスタの一例を示す。図（ｃ）は本実施形態の手法により生成されたクラスタの一例を示す。図（ｄ）は、要素数の少ないクラスタを削除した状態を示す。ビジュアルキーワードを抽出する手順を説明するためのフローチャートである。

（本実施形態の構成）
本実施形態のビジュアルキーワード抽出装置は、受付部１と、クラスタリング部２と、抽出部３とを備えている（図１参照）。

受付部１は、局所特徴量抽出部６で生成された複数の学習局所特徴量を受け付ける構成となっている。局所特徴量抽出部６は、学習画像に基づいて、学習画像についての局所特徴量（この明細書では学習局所特徴量と称する）を抽出するための機能要素である。画像データから局所特徴量を抽出する手法としては、既存のものを利用できるので、これについての詳しい説明は省略する。局所特徴量としては、例えばSIFT（Scale-Invariant Feature Transform）特徴量を使用することができる。

クラスタリング部２は、既定個数以内の学習局所特徴量が一つのクラスタに属するようにクラスタリングを行う構成となっている。より詳しくは、クラスタリング部２は、以下の処理（ａ）〜（ｆ）によりクラスタリングを行う構成となっている。
（ａ）ルートノードを生成する処理；
（ｂ）データ点を学習局所特徴量の集合Ｓから得る処理；
（ｃ）ルートノードをターゲットノードとする処理；
（ｄ）ターゲットノードが内部ノードならば、それに属する子ノードの中心点とデータ点との距離が最も近い子ノードをターゲットノードとして、さらにこの処理（ｄ）を繰り返す処理；
（ｅ）ターゲットノードがリーフノードであり、かつ、リーフノードのデータ点の数が閾値ｎ未満であれば、そのリーフノードにデータ点を追加する処理；
（ｆ）ターゲットノードがリーフノードであり、かつ、リーフノードのデータ点の数が閾値ｎ以上であれば、リーフノードに属しているデータ点の集合を二つ又はそれ以上の部分空間に分割し、当該リーフノードを内部ノードに変更した上で、生成した当該部分空間に対応する新たなリーフノードを生成する処理。

クラスタリング手法の詳細については後述する。

抽出部３は、クラスタリング部２により生成されたクラスタを代表するビジュアルキーワードを抽出する構成となっている。より詳しくは、抽出部３は、生成されたリーフノードの内、データ点数が閾値ｋ（ｋ≦ｎ）以上のリーフノードの中心にあるか、または、それに最も近い学習局所特徴量をビジュアルキーワードとして抽出する構成となっている。

さらに、本実施形態の抽出部３は、生成されたリーフノードの内、データ点数が閾値ｋ（ｋ≦ｎ）以上のリーフノードに属する学習局所特徴量の重心をビジュアルキーワードとして抽出する構成となっている。すなわち、本実施形態の抽出部３は、データ点数が既定値以下であるリーフノードからは、ビジュアルキーワードを抽出しない構成となっている。

抽出部３から出力されたビジュアルキーワードは、ＢｏＦ表現生成部７に送られる。ＢｏＦ表現生成部７では、入力される画像データ（学習データ又はクエリデータ）に対して、ビジュアルキーワードを用いて、ＢｏＦ表現を生成する。すなわち、ＢｏＦ表現生成部７は、対象画像における対象局所特徴量に最も近いビジュアルキーワードに対応するクラスタのＩＤを特定し、このクラスタのＩＤを用いてＢｏＦ表現を生成する構成となっている。後述するように、ビジュアルキーワードを用いたＢｏＦ表現の生成手法としては、既存のものを利用できるので、これについてのこれ以上詳しい説明は省略する。

（本実施形態の動作）
まず、前記したビジュアルキーワード抽出装置を用いたビジュアルキーワード抽出方法の全体的な流れを、図２をさらに参照しながら説明する。

（図２のステップＳＡ−１）
まず、ビジュアルキーワード抽出の準備段階として、局所特徴量抽出部６により、学習画像（図３参照）から学習局所特徴量を抽出する。図示の例では、学習画像は、検索対象となる商品の画像であるが、画像の種類や分野に特段の制約はない。抽出された学習局所特徴量を特徴量空間に配置した状態を、図４に模式的に示す。

（図２のステップＳＡ−２）
ついで、ビジュアルキーワード抽出装置の受付部１は、抽出された学習局所特徴量の入力を受け付ける。

（図２のステップＳＡ−３）
ついで、クラスタリング部２は、入力された学習局所特徴量を用いて、クラスタを生成する。クラスタ生成手法の詳細は後述する。

（図２のステップＳＡ−４）
ついで、抽出部３は、生成されたクラスタを用いて、ビジュアルキーワードを抽出する。ビジュアルキーワード抽出処理の詳細についても後述する。

（図２のステップＳＡ−５）
ついで、ＢｏＦ表現生成部７は、入力される画像データ（学習画像又はクエリ画像のデータ）に対して、本実施形態のビジュアルキーワード抽出装置で抽出されたビジュアルキーワードを適用することによって、クラスタＩＤのヒストグラムであるＢｏＦ表現を生成する。

（クラスタ生成の手順）
次に、図５をさらに参照して、クラスタリング部２によるクラスタ生成の詳しい手順を説明する。

（図５のステップＳＢ−１）
まず、初期状態として、ルートノードを生成する。

（図５のステップＳＢ−２）
ついで、データ点を学習局所特徴量の集合Ｓから取得する。図６（ａ）には、集合Ｓに属する局所特徴量の、特徴量空間中での分布状態を模式的に示す。

（図５のステップＳＢ−３）
ついで、ルートノードをターゲットノードとする。ターゲットノードとは、判断処理の対象となるノードという意味である。

（図５のステップＳＢ−４及びＳＢ−５）
もし、ターゲットノードが内部ノードならば、それに属する子ノードの中心点とデータ点との距離が最も近い子ノードをターゲットノードとして、さらにこのステップを繰り返す。

（図５のステップＳＢ−６及びＳＢ−７）
ターゲットノードがリーフノードであり、かつ、リーフノードのデータ点の数が閾値ｎ未満であれば、そのリーフノードにデータ点を追加する。ここで、ｎは、例えば実験的に決定できる自然数である。

（図５のステップＳＢ−８）
ターゲットノードが内部ノードでなく（つまりリーフノードであり）、かつ、リーフノードのデータ点の数が閾値ｎ以上であれば、リーフノードに属しているデータ点の集合を二つ又はそれ以上の部分空間に分割する。分割には既存のクラスタリング手法を用いれば良い。そして、当該リーフノードを内部ノードに変更した上で、生成した当該部分空間に対応する新たなリーフノードを生成する。

（図５のステップＳＢ−９）
ついで、集合Ｓに新たなデータ点があれば、ステップＳＢ−２に戻る。新たなデータ点がなければ、クラスタ生成処理を終了し、クラスタのデータを適宜な記録媒体又は処理装置に出力する。もちろん、クラスタＩＤをこの時点で付すこともできる。なお、既定数以下のデータ点しか持たないクラスタをこの時点で削除することもできる。また、「集合Ｓにデータ点が残っていても、クラスタの個数が既定の上限値に達したらクラスタ生成処理を終了する」という構成を採用することも可能である。

従来のクラスタリング手法（例えばk-mean）では、クラスタに属するデータ点の数は一般には不均一であり（図６（ｂ）参照）、しかも、クラスタリング処理に時間がかかる。これに対して、本実施形態のクラスタリング手法で得られるクラスタの一例を図６（ｃ）に示す。本実施形態では、ノードに属するデータの要素数を基準にしてクラスタを生成するので、クラスタ毎のデータ点の個数を均一化することができる。クラスタ毎のデータ点の個数を均一化することにより、局所特徴量を、均一の類似性を示す部分空間に分割することが可能となる。この点を以下において詳しく説明する。

もし仮に、主観的類似性の座標軸を持つ空間（ただし、実際にはこの空間を表現できない）中に、データ点を均一に分散させたとする。このとき、一定の類似性の範囲内には、およそ均一な個数のデータ点が属すると考えることができる。そして、全データ点を、実データ（実際扱われるデータ）のための特徴量空間にマッピングしたとする。このとき、データ点の個数が均一となるようにクラスタリングできれば、おおよそ、一定の類似性の範囲内のデータを括れることになる。実際に、発明者らの知見によれば、データ点の数が増えると、実データの特徴量空間内で均一ではなくとも、主観的類似性の座標軸を持つ空間中では、データ点が均一に分散する傾向がある。よって、前記の傾向は、データ点の数が増えるほど、確実なものとなる。したがって、本実施形態によれば、得られたクラスタの各範囲は、ほぼ均一な類似範囲を示すものとなり、その結果、クラスタを代表するデータ点は、ほぼ一定な類似範囲を代表するものとなる。

しかも、本実施形態では、前記に示したように、空間を階層的に分割することによりクラスタを生成できるので、クラスタ生成処理に要する時間を短縮することが可能になるという利点もある。なお、図６（ｃ）では、便宜的にクラスタ半径を記載しているが、クラスタ半径を決める必要はなく、クラスタ中心と、クラスタに属するデータ点とが決まればよい。例えば、クラスタＩＤと、クラスタ中心の特徴量ベクトルと、クラスタに属するデータ点とが関連付けて記録されていればよい。例えば各データ点をその点から最も近いクラスタ中心のクラスタに関連付けると、クラスタ間の境界の形状は、例えばボロノイ分割となる。

（ビジュアルキーワード抽出の手順）
次に、図７をさらに参照して、抽出部３によるビジュアルキーワード抽出手順の具体的な一例を説明する。

（図７のステップＳＣ−１）
まず、クラスタリングによって生成されたクラスタの一つを特定する。なお、以下の説明では、説明の便宜上、クラスタ毎に処理を行うと仮定するが、当然ながら、複数のクラスタについて並行して処理を行うことは可能である。

（図７のステップＳＣ−２）
ついで、当該クラスタに属するデータ点を特定する。データ点の個数は、前記したクラスタリング手法の結果として、閾値ｎ未満となっている。

（図７のステップＳＣ−３及びＳＣ−４）
ついで、当該クラスタに属するデータ点の数が、既定値ｋ以上かどうかを判断する。既定値ｋは、ｎ以下の自然数とされる。たとえば、既定値ｋとしては、４や６を指定できるが、これより大きい（又は小さい）数を指定することは可能である。データ点の数が既定値ｋ未満であれば、当該クラスタを無視し（図６（ｄ）参照）、ステップＳＣ−１に戻って、他のクラスタを特定する。複数のクラスタを並行して処理する場合は、単に当該クラスタを無視すればよい。なお、ｋの値の大小により、ビジュアルキーワード抽出の基本となるクラスタの個数を制御できる。つまり、ｋの値を大きくすることで、ビジュアルキーワードの数を減らすことができるので、認識速度の向上が期待できる。一方、ｋの値を小さくすることにより、ビジュアルキーワードの数を増加させることができるので、画像の検索精度の向上を期待できる。

（図７のステップＳＣ−５）
ついで、当該クラスタに属するデータ点の重心を計算する。データ点はベクトル量なので、重心は既知の手法で算出できる。この明細書では、データ点の重心をクラスタの中心と称することがある。

（図７のステップＳＣ−６）
ついで、データ点の重心に位置するか、それにもっとも近いデータ点を特定する。これは、算出されたデータ点の重心そのものを、データ点として特定する場合を含む意味である。特定されたデータ点は、クラスタ中心の特徴量となる。なお、クラスタリング部２のクラスタ生成におけるリーフノードの分割（ステップＳＢ−８参照）時のクラスタリングにより抽出されたクラスタ中心を、そのままこのクラスタ中心として利用しても良い。そして、抽出部３は、クラスタ中心の特徴量を、ビジュアルキーワードとして特定し、それを、所定の記憶手段又は処理装置に出力する。本実施形態では、ビジュアルキーワードは、ＢｏＦ表現生成部７に送られ、ＢｏＦ表現生成のために用いられる。

ここで、本実施形態では、前記したように、均一な類似範囲に対応するように特徴量空間を分割して、クラスタを生成することができるので、クラスタを代表するビジュアルキーワードは、均一に分割された類似範囲を代表するものとなる。そして、このようなビジュアルキーワードを用いて生成されたＢｏＦ表現は、画像の特徴を精度良く表現するものになる傾向がある。したがって、このようにして生成されたＢｏＦ表現を用いた画像認識（あるいは画像検索）は、主観的な類似性を満足する可能性が高く、その結果、画像検索の信頼性（つまり精度）を向上させることができる。

また、要素数の少ないクラスタを基準としてビジュアルキーワードを抽出すると、抽出されたキーワードの信頼性が低くなるという傾向がある。これに対して、本実施形態のビジュアルキーワード抽出手法によれば、要素数の少ないクラスタを無視してビジュアルキーワードを抽出できるので、ビジュアルキーワードの信頼性を向上させることができるという利点がある。

なお、本実施形態におけるＢｏＦ表現の生成手法自体は既存の手法を用いることができるので、それについての詳しい説明は省略する。また、生成されたＢｏＦ表現を用いた類似画像の検索手法（すなわち画像認識手法）自体も、既存の手法を利用可能なので、説明を省略する。

（変形例）
クラスタリング部２は、学習局所特徴量の原画像である学習画像の撮影条件の変動量に応じて、前記図５のステップＳＢ−６における閾値ｎ（つまり既定個数）を変動させる構成であっても良い。

例えば、本実施形態において、「撮影条件のゆらぎが小さいときは、それに応じて閾値ｎの値を小さくする」という処理が可能である。撮影条件のゆらぎが小さいときは、閾値ｎが小さくても、信頼性のあるビジュアルキーワードを生成する可能性が高まると考えられる。このため、このような処理を行うことにより、高い信頼性を持つ多数のビジュアルキーワードを生成でき、その結果、ＢｏＦ表現を用いた画像認識の精度向上を期待できるという利点がある。

代替的に、あるいは追加的に、本実施形態において、「撮影条件のゆらぎが大きいときは、それに応じて閾値ｎの値を大きくする」という処理も可能である。撮影条件のゆらぎが大きく、かつ、閾値ｎが小さい場合は、信頼性のあるビジュアルキーワードを生成する可能性が低いと考えられる。このため、閾値ｎを大きくすることにより、信頼性の高いビジュアルキーワードを生成でき、その結果、ＢｏＦ表現を用いた画像認識の精度向上を期待できるという利点がある。

前記において、「撮影条件のゆらぎの大きさ」について測定やその入力は、人手によることが考えられるが、何らかの自動化手法を適用することは可能である。

なお、本発明の内容は、前記実施形態に限定されるものではない。本発明は、特許請求の範囲に記載された範囲内において、具体的な構成に対して種々の変更を加えうるものである。

例えば、前記した各構成要素は、機能ブロックとして存在していればよく、独立したハードウエアとして存在しなくても良い。また、実装方法としては、ハードウエアを用いてもコンピュータソフトウエアを用いても良い。さらに、本発明における一つの機能要素が複数の機能要素の集合によって実現されても良く、本発明における複数の機能要素が一つの機能要素により実現されても良い。

また、機能要素は、物理的に離間した位置に配置されていてもよい。この場合、機能要素どうしがネットワークにより接続されていても良い。グリッドコンピューティング又はクラウドコンピューティングにより機能を実現し、あるいは機能要素を構成することも可能である。

１受付部
２クラスタリング部
３抽出部
６局所特徴量抽出部
７ＢｏＦ表現生成部

Claims

複数の学習局所特徴量に対してクラスタリングを行うことによって、ＢｏＦ表現生成用のビジュアルキーワードを抽出する装置であって、
前記複数の学習局所特徴量を受け付ける受付部と、
既定個数以内の前記学習局所特徴量が一つのクラスタに属するようにクラスタリングを行うクラスタリング部と、
前記クラスタリング部により生成されたクラスタを代表するビジュアルキーワードを抽出する抽出部と
を備えており、
さらに、前記装置は、
前記クラスタリング部でのクラスタリングにより生成されたクラスタに属する前記学習局所特徴量の個数が既定個数以下であれば当該クラスタを削除する処理、
及び、
前記クラスタリング部でのクラスタリングにより生成されたクラスタに属する前記学習局所特徴量の個数が既定個数以下であれば、前記抽出部における前記ビジュアルキーワードを抽出する対象から当該クラスタを除外する処理、
のうちのいずれかの処理を行うことにより、前記ビジュアルキーワードが抽出される前記クラスタに属する前記学習局所特徴量の個数を均一化する構成となっていることを特徴とする、ビジュアルキーワード抽出装置。
前記クラスタリング部は、以下の処理により、前記クラスタリングを行う、請求項１に記載のビジュアルキーワード抽出装置：
（ａ）ルートノードを生成する処理；
（ｂ）データ点を前記学習局所特徴量の集合Ｓから得る処理；
（ｃ）ルートノードをターゲットノードとする処理；
（ｄ）ターゲットノードが内部ノードならば、それに属する子ノードの中心点と前記データ点との距離が最も近い子ノードをターゲットノードとして、さらにこの処理（ｄ）を繰り返す処理；
（ｅ）ターゲットノードがリーフノードであり、かつ、リーフノードのデータ点の数が閾値ｎ未満であれば、そのリーフノードにデータ点を追加する処理；
（ｆ）ターゲットノードがリーフノードであり、かつ、リーフノードのデータ点の数が閾値ｎ以上であれば、リーフノードに属しているデータ点の集合を二つ又はそれ以上の部分空間に分割し、当該リーフノードを内部ノードに変更した上で、生成した当該部分空間に対応する新たなリーフノードを生成する処理。
前記抽出部は、以下の処理により、前記ビジュアルキーワードの抽出を行う、請求項２に記載のビジュアルキーワード抽出装置：
生成された前記リーフノードの内、データ点数が閾値ｋ（ｋ≦ｎ）以上のリーフノードの中心にあるか、または、それに最も近い前記学習局所特徴量を前記ビジュアルキーワードとして抽出する処理。
前記抽出部は、以下の処理により、前記ビジュアルキーワードの抽出を行う、請求項２に記載のビジュアルキーワード抽出装置：
生成された前記リーフノードの内、データ点数が閾値ｋ（ｋ≦ｎ）以上のリーフノードに属する前記学習局所特徴量の重心を前記ビジュアルキーワードとして抽出する処理。
前記クラスタリング部は、前記学習局所特徴量の原画像である学習画像の撮影条件の変動量に応じて、前記既定個数を変動させる構成となっている
請求項１〜４のいずれか１項に記載のビジュアルキーワード抽出装置。
請求項１〜５のいずれか１項に記載のビジュアルキーワード抽出装置と、ＢｏＦ表現生成部とを備えており、
前記ＢｏＦ表現生成部は、対象画像における対象局所特徴量に最も近い前記ビジュアルキーワードに対応するクラスタのＩＤを特定し、このクラスタのＩＤを用いてＢｏＦ表現を生成する構成となっている
ＢｏＦ表現生成装置。
複数の学習局所特徴量に対してクラスタリングを行うことによって、ＢｏＦ表現生成用のビジュアルキーワードを抽出するビジュアルキーワード抽出装置を用いて実行されるビジュアルキーワード抽出方法であって、
前記ビジュアルキーワード抽出装置は、受付部と、クラスタリング部と、抽出部とを備えており、
前記受付部が、前記複数の学習局所特徴量を受け付けるステップと、
前記クラスタリング部が、既定個数以内の前記学習局所特徴量を一つのクラスタに属させるようにクラスタリングを行うステップと、
前記抽出部が、前記クラスタリング部により生成されたクラスタを代表するビジュアルキーワードを抽出するステップと
を備えており、
さらに、前記装置は、
前記クラスタリング部でのクラスタリングにより生成されたクラスタに属する前記学習局所特徴量の個数が既定個数以下であれば当該クラスタを削除する処理、
及び、
前記クラスタリング部でのクラスタリングにより生成されたクラスタに属する前記学習局所特徴量の個数が既定個数以下であれば、前記抽出部における前記ビジュアルキーワードを抽出する対象から当該クラスタを除外する処理、
のうちのいずれかの処理を行うことにより、前記ビジュアルキーワードが抽出される前記クラスタに属する前記学習局所特徴量の個数を均一化する構成となっていることを特徴とする、ビジュアルキーワード抽出方法。
請求項７に記載の各ステップをコンピュータに実行させるためのコンピュータプログラム。