JP2011150541A

JP2011150541A - 学習装置、学習方法、及びプログラム

Info

Publication number: JP2011150541A
Application number: JP2010011356A
Authority: JP
Inventors: Shunichi Honma; 俊一本間; Yoshiaki Iwai; 嘉昭岩井; Takayuki Ashigahara; 隆之芦ヶ原
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-01-21
Filing date: 2010-01-21
Publication date: 2011-08-04
Also published as: US20110176725A1; CN102136072A

Abstract

【課題】少ない学習用画像を用いた学習において、過学習を抑制して、識別の精度が高い識別器を学習する。
【解決手段】学習部２６は、複数のサンプル画像の中から、識別器を学習するのに用いる学習用画像がユーザにより指定されたことに対応して、学習用画像の特徴を表す画像特徴量を構成する複数の次元特徴量から、無作為に選択された次元特徴量からなるランダム特徴量を用いて識別器を学習する。本発明は、例えば画像を分類する処理を行なうコンピュータ等に適用できる。
【選択図】図１

Description

本発明は、学習装置、学習方法、及びプログラムに関し、特に、例えば、少ない枚数の学習用画像に基づいて、画像上に所定の識別対象が存在するか否かを識別するための識別器を学習する場合に用いて好適な学習装置、学習方法、及びプログラムに関する。

従来、複数の画像を、その被写体に対応するクラスに分類し、クラス毎に、分類された画像により構成される画像クラスタを生成する画像分類方法が存在する。

この画像分類方法では、例えば、画像上に所定の識別対象（例えば、人間の顔）が存在するか否かを識別するための識別器を用いて、複数の画像に、それぞれ、所定の識別対象が存在するか否かを識別する。

そして、その識別結果に基づいて、複数の画像を、それぞれ、画像上に所定の識別対象が存在するクラス、又は画像上に所定の識別対象が存在しないクラスのいずれかに分類し、分類したクラス毎に画像クラスタを生成している。

ここで、従来の画像分類方法において用いられる識別器を生成（学習）する場合、画像上に所定の識別対象が存在するか否かを表す正解ラベルが付加された大量の学習用画像と、大量の学習用画像に基づいて識別器を生成するための莫大な演算が必要になる。

したがって、企業や研究機関等では、上述した識別器を生成するために必要な大量の学習用画像と莫大な演算を行うコンピュータを、比較的容易に用意できるものの、個人レベルで用意することは非常に困難である。

このため、個人レベルで、各個人が所望する画像クラスタを生成するために用いる識別器を生成することは非常に困難であった。

また、画像上に存在する所定の識別対象を識別するための識別器を用いて、複数の画像のうち、画像上に所定の識別対象が存在する画像を検索する検索方法が提案されている（例えば、特許文献１を参照）。

この検索方法では、複数の画像の中から、画像上に所定の識別対象が存在するポジティブ画像、及び画像上の所定の識別対象が存在しないネガティブ画像を、ユーザが指定する。また、ユーザにより指定されたポジティブ画像及びネガティブ画像を学習用画像として、識別器を生成する。

そして、検索方法では、生成した識別器を用いて、複数の画像から、画像上に所定の識別対象が存在する画像を検索する。

なお、この検索方法では、解空間の絞込みを迅速に行なうことにより、識別器を迅速に生成するようにして、所望の画像をより迅速に検索できるようにしている。

ここで、所定の識別対象を識別する精度が高い識別器を生成するためには、多様なポジティブ画像（例えば、所定の識別対象が様々な角度で撮像されたポジティブ画像）が数多く必要となる。

しかしながら、上述した検索方法では、ユーザが、１枚ずつ学習用画像を指定するため、学習用画像の枚数は、従来の画像分類方法で識別器の生成に用いる学習用画像の枚数と比較してごく僅かであり、その結果、学習用画像のうち、ポジティブ画像もごく僅かとなる。

ごく僅かなポジティブ画像を用いた識別器の学習は、容易に過学習（オーバーフィッティング）を引き起こしてしまい、識別器による識別の精度が低下してしまう。

また、学習用画像の枚数が少ないにも拘らず、学習用画像の特徴を表す画像特徴量を、Bag-of-wordsや、学習用画像における複数の特徴の組合せ等により、数百から数千の次元のベクトルにより表し、学習用画像としてのベクトルを用いて、識別器を生成する場合には、その高い次元のベクトルに起因して、やはり、容易に過学習を引き起こしてしまう。

さらに、識別器を生成する場合、識別器の凡化性能を向上させるバギングを用いた方法が提案されている（例えば、非特許文献１を参照）。

しかしながら、バギングを用いた方法においても、学習用画像の枚数が少ないにも拘らず、数百から数千の次元のベクトルにより表される学習用画像の画像特徴量を用いる場合には、やはり、過学習を引き起こしてしまう。

特開２００８−２７６７７５号公報

Leo Breiman, Bagging Predictors, Machine Learning,1996,123-140

上述したように、少ない枚数の学習用画像を用いて識別器を生成する場合において、学習用画像の画像特徴量として、数百から数千の次元のベクトルにより表される画像特徴量を用いるときには、過学習が生じてしまい、識別の精度が高い識別器を生成することができない。

本発明は、このような状況に鑑みてなされたものであり、比較的、枚数の少ない学習用画像を用いた学習において、過学習を抑制して、識別の精度が高い識別器を学習するものである。

本発明の一側面の学習装置、又はコンピュータを学習装置として機能させるためのプログラムは、複数のサンプル画像の中から、画像上に所定の識別対象が存在するか否かを識別するための識別器を学習するのに用いる学習用画像がユーザにより指定されたことに対応して、前記学習用画像の特徴を表す画像特徴量を構成する複数の次元特徴量から、無作為に選択された次元特徴量からなるランダム特徴量を用いて前記識別器を学習する学習手段を含む学習装置、又はコンピュータを学習装置として機能させるためのプログラムである。

前記学習手段では、前記ランダム特徴量が存在する特徴空間において、画像上に所定の識別対象が存在するか否かを識別するための分離超平面と、前記ランダム特徴量を構成する次元特徴量のうち、前記分離超平面の近傍に存在する次元特徴量との距離を表すマージンを最大化するマージン最大化学習により、前記識別器を学習するようにすることができる。

前記学習手段では、前記学習用画像から、前記学習用画像の特徴を表す画像特徴量であって、且つ、複数の次元のベクトルにより表される前記画像特徴量を抽出する画像特徴量抽出手段と、前記画像特徴量の各次元の要素である複数の次元特徴量のうちのいくつかを無作為に選択し、選択した次元特徴量により構成されるランダム特徴量を生成するランダム特徴量生成手段と、前記ランダム特徴量を用いた前記マージン最大化学習により、前記識別器を生成する識別器生成手段とを有するようにすることができる。

前記識別器は、前記識別対象画像上に所定の識別対象が存在するか否かを判定する複数の弱識別器による判定結果に基づいて、最終的な判定結果を出力するものであり、前記ランダム特徴量生成手段では、前記複数の弱識別器毎に、前記弱識別器を生成するために用いるランダム特徴量を生成し、前記識別器生成手段では、前記複数の弱識別器毎に生成した前記ランダム特徴量に基づいて、前記複数の弱識別器を生成するようにすることができる。

前記識別器生成手段では、前記ランダム特徴量に基づいて、前記弱識別器による判定の信頼の度合いを表す信頼度も生成するようにすることができる。

前記識別器生成手段では、前記複数の弱識別器及び前記信頼度に基づいて、前記複数の弱識別器毎に出力される判定結果としての決定値と前記信頼度との積和演算結果を表す識別決定値を出力する前記識別器を生成し、前記識別手段では、前記識別器が出力する前記識別決定値に基づいて、前記識別対象画像上に所定の識別対象が存在するか否かを識別するようにすることができる。

前記ランダム特徴量生成手段では、前記ユーザにより前記学習用画像が指定される毎に、異なるランダム特徴量を生成するようにすることができる。

前記学習用画像は、画像上に前記所定の識別対象が存在するポジティブ画像と、画像上に所定の識別対象が存在しないネガティブ画像とにより構成されており、前記学習手段では、さらに、擬似的なネガティブ画像を、前記学習用画像として追加するネガティブ画像追加手段を有するようにすることができる。

前記学習手段では、前記識別器生成手段により前記識別器が生成された後に所定の条件を満たす場合、擬似的なポジティブ画像を前記学習用画像として追加するポジティブ画像追加手段をさらに有するようにし、前記識別器生成手段では、前記擬似的なポジティブ画像が追加された前記学習用画像の前記ランダム特徴量に基づいて、前記識別器を生成するようにすることができる。

前記ポジティブ画像追加手段では、前記ポジティブ画像と前記擬似的なポジティブ画像の総数が、前記ネガティブ画像と前記擬似的なネガティブ画像の総数よりも少ないという条件を満たす場合、擬似的なポジティブ画像を前記学習用画像として追加するようにすることができる。

前記学習手段では、前記マージン最大化学習として、SVM(support vector machine）を用いた学習を行なうようにすることができる。

前記識別器を用いて、識別対象画像上に所定の識別対象が存在するか否かを識別する識別手段をさらに含み、前記学習手段では、前記識別手段による識別処理に応じて前記ユーザにより新たに前記学習用画像が指定された場合、指定された前記学習用画像を用いた前記識別器の学習を繰り返して実行するようにすることができる。

前記識別手段では、前記識別手段による識別処理に応じて前記ユーザにより、画像上に所定の識別対象が存在する識別対象画像により構成される画像クラスタの生成を指示された場合、前記学習手段により生成された最新の識別器に基づいて、複数の前記識別対象画像から前記画像クラスタを生成するようにすることができる。

本発明の一側面の学習方法は、画像上に所定の識別対象が存在するか否かを識別するための識別器を学習する学習装置の学習方法であって、前記学習装置は、学習手段を含み、前記学習手段が、複数のサンプル画像の中から、画像上に所定の識別対象が存在するか否かを識別するための識別器を学習するのに用いる学習用画像がユーザにより指定されたことに対応して、前記学習用画像の特徴を表す画像特徴量を構成する複数の次元特徴量から、無作為に選択された次元特徴量からなるランダム特徴量を用いて前記識別器を学習するステップを含む学習方法である。

本発明によれば、複数のサンプル画像の中から、画像上に所定の識別対象が存在するか否かを識別するための識別器を学習するのに用いる学習用画像がユーザにより指定されたことに対応して、前記学習用画像の特徴を表す画像特徴量を構成する複数の次元特徴量から、無作為に選択された次元特徴量からなるランダム特徴量を用いて前記識別器が学習される。

本発明によれば、比較的、枚数の少ない学習用画像を用いた学習において、過学習を抑制して、識別の精度が高い識別器を学習することができる。

本実施の形態である画像分類装置の構成例を示すブロック図である。画像分類装置が行なう画像分類処理の概要を示す図である。ランダムインデキシングについて説明するための図である。弱識別器の生成について説明するための図である。クロスバリデーションについて説明するための図である。画像分類装置が行なう画像分類処理を説明するためのフローチャートである。学習部が行なう学習処理を説明するためのフローチャートである。識別部が行なう識別処理を説明するためのフローチャートである。学習部が行なうフィードバック学習処理を説明するためのフローチャートである。コンピュータの構成例を示すブロック図である。

以下、発明を実施するための形態（以下、本実施の形態という）について説明する。なお、説明は以下の順序で行う。
１．本実施の形態（学習用画像のランダム特徴量を用いて識別器を生成する場合の一例）
２．変形例

＜１．本実施の形態＞
[画像分類装置１の構成例]
図１は、本実施の形態である画像分類装置１の構成例を示している。

この画像分類装置１は、画像分類装置１に記憶（保持）されている複数の画像それぞれに、所定の識別対象（例えば、図２に示す腕時計等）が存在するか否か識別するものである。

また、画像分類装置１は、その識別結果に基づいて、複数の画像を、所定の識別対象が存在するクラスと、所定の識別対象が存在しないクラスとに分類し、所定の識別対象が存在するクラスに分類された画像により構成される画像クラスタを生成して記憶するものである。

この画像分類装置１は、操作部２１、制御部２２、画像記憶部２３、表示制御部２４、表示部２５、学習部２６、及び識別部２７により構成されている。

操作部２１は、例えば、ユーザにより操作される操作ボタン等により構成されており、ユーザの操作に応じた操作信号を制御部２２に供給する。

制御部２２は、操作部２１からの操作信号に応じて、表示制御部２４、学習部２６、及び識別部２７等を制御する。

画像記憶部２３は、画像を記憶する複数の画像データベースにより構成されている。

表示制御部２４は、制御部２２の制御にしたがって、画像記憶部２３を構成する複数の画像データベースのうち、ユーザの選択操作に応じて選択された画像データベースから、複数のサンプル画像を読み出し、表示部２５に供給して表示させる。

ここで、サンプル画像とは、画像上に所定の識別対象が存在する画像を表すポジティブ画像（例えば、画像上に被写体として腕時計が存在する画像）と、画像上に所定の識別対象が存在しない画像を表すネガティブ画像（例えば、画像上に被写体として腕時計が存在しない画像）とをユーザに指定させるために表示される画像をいう。

表示制御部２４は、表示部２５に表示された複数のサンプル画像のうち、ユーザの指定操作に応じて指定されたサンプル画像に、ユーザの指定操作に対応する正解ラベルを付加する。そして、表示制御部２４は、正解ラベルを付加したサンプル画像を、学習用画像として、学習部２６に供給する。

ここで、正解ラベルとは、サンプル画像がポジティブ画像であるかネガティブ画像であるかを表すものであり、サンプル画像がポジティブ画像であることを表すポジティブラベルと、サンプル画像がネガティブ画像であることを表すネガティブラベルとが存在する。

すなわち、表示制御部２４は、ユーザの指定操作により、ポジティブ画像であると指定されたサンプル画像に対してポジティブラベルを付加するとともに、ユーザの指定操作により、ネガティブ画像であると指定されたサンプル画像に対してネガティブラベルを付加する。そして、表示制御部２４は、ポジティブラベルやネガティブラベルを付加したサンプル画像を、学習用画像として、学習部２６に供給する。

また、表示制御部２４は、識別部２７からの識別結果として、所定の識別対象が存在すると識別された画像を、表示部２５に供給して表示させる。

表示部２５は、表示制御部２４からのサンプル画像や識別結果等を表示する。

学習部２６は、表示制御部２４からの学習用画像に基づいて、所定の識別対象（例えば、図２に示される腕時計）が画像上に存在するか否かを識別するための識別器を生成する学習処理を行い、その結果得られる識別器を、識別部２７に供給する。

なお、学習部２６が行なう学習処理の詳細は、図３乃至図５、及び図７のフローチャートを参照して後述する。

識別部２７は、学習部２６からの識別器を用いて、画像記憶部２３が有する、ユーザの選択操作により選択された画像データベースに記憶されている画像上（但し、学習用画像とされたものは除く）に、所定の識別対象が存在するか否かを識別する識別処理を行なう。

そして、識別器２７は、識別処理により、所定の識別対象が画像上に存在すると識別された画像を、識別結果として表示制御部２４に供給する。なお、識別部２７が行なう識別処理の詳細は、図８のフローチャートを参照して後述する。

[画像分類装置１が行う画像分類処理の概要]
図２は、画像分類装置１が行う画像分類処理の概要を示している。

ステップＳ１において、表示制御部２４は、画像記憶部２３を構成する複数の画像データベースのうち、ユーザの選択操作により選択された画像データベース（以下、選択画像データベースという）から、複数のサンプル画像を読み出し、表示部２５に供給して表示させる。

この場合、ユーザは、操作部２１を用いて、表示部２５に表示された複数のサンプル画像の中から、ポジティブ画像を指定するか、又はネガティブ画像を指定する指定操作を行う。すなわち、例えば、ユーザは、画像上に腕時計が存在するサンプル画像をポジティブ画像として指定するか、又は画像上に腕時計以外の被写体が存在するサンプル画像をネガティブ画像として指定する指定操作を行う。

ステップＳ２において、表示制御部２４は、ポジティブ画像として指定されたサンプル画像に対してはポジティブラベルを付加する。反対に、表示制御部２４は、ネガティブ画像として指定されたサンプル画像に対してはネガティブラベルを付加する。そして、表示制御部２４は、ポジティブラベルやネガティブラベルを付加したサンプル画像を、学習用画像として、学習部２６に供給する。

ステップＳ３において、学習部２６は、表示制御部２４からの学習用画像を用いて、画像上に所定の識別対象（図２の例では腕時計）が存在するか否かを識別するための識別器を生成する学習処理を行ない、その結果得られる識別器を識別部２７に供給する。

識別部２７は、画像記憶部２３の選択画像データベースに記憶されている複数の画像のうち、学習用画像以外の画像（ポジティブラベルやネガティブラベルが付加されていない画像）の幾つかを、識別処理の対象である識別対象画像として、画像記憶部２３から読み出す。

そして、識別部２７は、読み出した幾つかの識別対象画像をそれぞれ対象として、学習部２６からの識別器を用いて、画像上に所定の識別対象が存在する画像であるか否かを識別する識別処理を行なう。

識別部２７は、識別処理により、画像上に所定の識別対象が存在する画像であると識別した識別対象画像を、識別結果として表示制御部２４に供給する。

ステップＳ４において、表示制御部２４は、識別部２７からの識別結果としての識別対象画像を、表示部２５に供給して表示させる。

ユーザは、表示部２５に表示された識別結果を参照して、識別器による画像の分類の精度に満足しない場合（例えば、図２に示されるように、被写体としてのパンダが存在する画像が、識別結果に含まれていた場合）、操作部２１を用いて、新たに識別器の生成を指示する指示操作を行う。この指示操作が行われたことに対応して、処理はステップＳ４からステップＳ５に進められる。

ステップＳ５において、表示制御部２４は、ユーザの指示操作に応じて、画像データベースから、以前にステップＳ２の処理で表示した複数のサンプル画像とは異なる、新たな複数のサンプル画像を読み出し、表示部２５に供給して表示させ、処理をステップＳ２に戻し、それ以降、同様の処理が行なわれる。

また、ユーザは、表示部２５に表示された識別結果を参照して、識別器による画像の分類の精度に満足した場合（例えば、被写体としての腕時計が存在する画像のみが、識別結果として表示された場合）、操作部２１を用いて、その識別器を用いた画像クラスタの生成を指示する指示操作を行う。

この指示操作に応じて、処理はステップＳ４からステップＳ６に進められ、ステップＳ６では、識別部２７は、直前のステップＳ３の処理で生成した識別器を用いて、選択画像データベースに記憶されている複数の画像に所定の識別対象が存在するか否かを識別する。

そして、識別部２７は、その識別結果に基づいて、画像上に所定の識別対象が存在する画像により構成される画像クラスタを生成し、画像記憶部２３に供給して記憶させる。以上で、画像分類処理は終了される。

[学習部２６が行なう学習処理について]
次に、図３乃至図５を参照して、学習部２６が行なう学習処理について説明する。

学習部２６は、表示制御部２４からの学習用画像に基づいて、識別器を生成する学習処理を行なう。

なお、識別器は、画像上に所定の識別対象が存在するか否かを識別する複数の弱識別器を有しており、複数の弱識別器による識別結果に基づいて、最終的な識別結果を決定する。

したがって、学習処理において、識別器を生成することと、複数の弱識別器を生成することは等価であるため、以下、複数の弱識別器を生成することについて説明する。

学習部２６は、表示制御部２４から供給される学習用画像から、学習用画像の特徴を表す画像特徴量であって、且つ、複数の次元のベクトルにより表される画像特徴量を抽出する。

そして、学習部２６は、抽出した画像特徴量に基づいて、複数の弱識別器を生成することとなるが、比較的少ない枚数の学習用画像を用いて識別器の生成を行なう場合には、学習用画像の画像特徴量の次元が大きい（画像特徴量としてのベクトルを構成する要素の個数が多い）ことに起因して、過学習（オーバーフィッティング）が生じてしまう。

そこで、学習部２６では、過学習を抑制するために、学習用画像の枚数に応じて、学習に用いる画像特徴量の次元を制限するランダムインデキシングを行なっている。

[ランダムインデキシングについての説明]
次に、図３は、学習部２６が行なうランダムインデキシングについて説明するための図である。

図３は、複数の弱識別器４１-1乃至４１-Mの生成に用いられるランダム特徴量の一例を示している。

図３には、複数の弱識別器４１-1乃至４１-M毎に用いられる画像特徴量として、例えば２４次元のベクトルにより表された画像特徴量が示されている。

したがって、図３において、この画像特徴量は、２４個の次元特徴量（要素）により構成されている。

学習装置２６は、画像特徴量を構成する複数の次元特徴量のうち、弱識別器４１-1乃至４１-Mそれぞれの生成に用いる次元特徴量を表すランダムインデックスを生成する。

すなわち、例えば、学習部２６は、複数の弱識別器４１-1乃至４１-M毎に、学習用画像の画像特徴量を構成する複数の次元特徴量のうち、弱識別器４１-1乃至４１-Mそれぞれの学習に用いる所定数の次元特徴量を無作為（ランダム）に決定する。

なお、弱識別器４１-1乃至４１-Mそれぞれの学習に用いる次元特徴量の個数は、学習用画像の枚数や、学習用画像の画像特徴量を構成する次元特徴量の個数等に応じて、予め行なわれた実験結果等により、過学習が生じない程度に少ない個数とされる。

そして、学習部２６は、無作為に決定された次元特徴量を表すランダムインデックス、つまり、無作為に決定された次元特徴量が、画像特徴量としてのベクトルを構成する要素のうち、何番目の要素であるかを表すランダムインデックスを生成するランダムインデキシングを行なう。

具体的には、例えば、学習部２６は、弱識別器４１-1の学習に用いる次元特徴量として、画像特徴量としてのベクトルを構成する２４個の要素のうち、１，３，４，６，９乃至１１，１５乃至１７，２０，２１、及び２４番目の位置（図３において斜線で示される）に存在する１３個の次元特徴量を表すランダムインデックスを生成する。

また、例えば、学習部２６は、同様にして、弱識別器４１-2乃至４１-Mそれぞれの学習に用いる次元特徴量をそれぞれ表すランダムインデックスを生成する。

学習部２６は、生成すべき弱識別器４１-1乃至４１-M毎に生成したランダムインデックスに基づいて、学習用画像の画像特徴量を構成する複数の次元特徴量のうち、ランダムインデックスが表す次元特徴量を抽出する。

そして、学習部２６は、抽出した次元特徴量により構成されるランダム特徴量に基づいて、弱識別器４１-1乃至４１-Mを生成する。

[弱識別器の生成]
次に、図４は、学習部２６が、ランダムインデックスに基づいて抽出したランダム特徴量を用いて、弱識別器４１-1乃至４１-Mを生成する様子を示している。

図４左側には、表示制御部２４から学習部２６に供給される学習用画像６１-1乃至６１-Nが示されている。

学習部２６は、弱識別器４１-1について生成したランダムインデックスに基づいて、表示制御部２４からの学習用画像６１-n(n=1,2,…,N)の画像特徴量から抽出した次元特徴量により構成されるランダム特徴量８１-nを抽出する。

そして、学習部２６は、学習用画像６１-1乃至６１-Nそれぞれの画像特徴量から抽出したN個のランダム特徴量８１-1乃至８１-Nに基づいて、SVM(support vector machine、サポートベクターマシン）を用いた弱識別器４１-1の生成を行なう。

ここで、SVMとは、与えられたランダム特徴量８１-1乃至８１-Nそれぞれを構成する次元特徴量のうち、サポートベクトルと呼ばれる分離超平面（画像の識別に用いるための境界面であって、且つ、ランダム特徴量を構成する次元特徴量が存在する特徴空間上の境界面）近傍に位置する次元特徴量と分離超平面との距離であるマージンを最大化するように分離超平面を構築し、その構築した分離超平面を用いて画像の識別を行う弱識別器を生成する処理をいう。

なお、学習部２６は、弱識別器４１-１の他、弱識別器４１-２乃至４１-Mの生成を行なうが、その生成方法は、弱識別器４１-1の生成と同様であるため、その説明は省略する。このことは、以下の説明についても同様である。

また、SVMを用いた弱識別器４１-1の生成において、SVMを適用する場合には、カーネル関数内に現れるパラメータや、ソフトマージンへの緩和により現れるペナルティ制御のためのパラメータ等が、SVMにおいて用いられる。

したがって、学習部２６は、SVMを用いた弱識別器４１-1の生成を行なう前に、例えば図５に示されるような決定方法で、SVMに用いられるパラメータを決定する必要がある。

[クロスバリデーションを用いたパラメータの決定方法]
次に、図５を参照して、学習部２６が、クロスバリデーションにより、SVMにおいて用いるパラメータを決定する決定方法を説明する。

図５上側には、表示制御部２４から学習部２６に供給される学習用画像として、例えば学習用画像L1乃至L4が示されている。なお、学習用画像L1乃至L4のうち、学習用画像L1及びL2はポジティブ画像を表しており、学習用画像L3及びL4はネガティブ画像を表している。

学習部２６は、SVMで用いるパラメータの候補である複数の候補パラメータを、順次、注目パラメータに設定し、注目パラメータに対する評価を表す評価値を算出するクロスバリデーションを行う。

すなわち、例えば、学習部２６は、４枚の学習用画像L1乃至L4を、順次、注目学習用画像（例えば、学習用画像L1）に設定する。そして、学習部２６は、４枚の学習用画像L1乃至L4のうち、注目学習用画像とは異なる残りの学習用画像（例えば、学習用画像L2乃至L4）に対して、注目パラメータを用いたSVMを適用して、弱識別器４１-1を生成する。そして、学習部２６は、生成した弱識別器４１-1を用いて、注目学習用画像を対象として、画像上に所定の識別対象が存在するか否かを識別する。

学習部２６は、弱識別器４１-1による識別結果と、注目学習用画像に付加されている正解ラベルとに基づいて、弱識別器４１-1により、注目学習用画像を正確に識別できたか否かを判定する。

学習部２６は、図５に示されるように、４枚の学習用画像L1乃至L4すべてを順次、注目学習用画像として、４枚の学習用画像L1乃至L4それぞれを正確に識別できたか否かを判定する。そして、学習部２６は、その判定結果に基づいて、例えば、４枚の学習用画像L1乃至L4それぞれを正確に識別できた確率を、注目パラメータの評価値として生成する。

学習部２６は、注目パラメータとされた候補パラメータそれぞれについて算出された複数の評価値のうち、最大の評価値（最も評価が高い評価値）に対応する候補パラメータを、SVMに用いられる最終的なパラメータとして決定する。

そして、学習部２６は、４枚の学習用画像L1乃至L4に基づいて、決定したパラメータを適用したSVMにより、弱識別器４１-m（m=1,2,…,M）を生成する学習処理を行なう。

また、学習部２６は、次式（１）にしたがって、生成した弱識別器４１-mが行なう識別の信頼の度合いを表す信頼度confidenceを算出する。

・・・（１）

なお、式（１）において、「# of true positive」は、弱識別器４１-mにおいて、学習用画像としてのポジティブ画像を、正確にポジティブ画像であると識別した回数を表している。

また、式（１）において、「# of true negative」は、弱識別器４１-mにおいて、学習用画像としてのネガティブ画像を、正確にネガティブ画像であると識別した回数を表している。さらに、「# of training data」は、弱識別器４１-mの生成に用いられる学習用画像（ポジティブ画像及びネガティブ画像）の枚数を表している。

さらに、学習部２６は、生成した弱識別器４１-mと、弱識別器４１-mの信頼度confidence（以下、信頼度a_mという）とに基づいて、次式（２）に示されるような識別決定値yIを出力する識別器を生成する。

・・・（２）

なお、式（２）において、Mは弱識別器４１-mの総数を表し、識別決定値yIは、弱識別器４１-mそれぞれから出力される決定値y_mと、弱識別器４１-mの信頼度a_mとの積和演算による演算結果を表す。

また、弱識別器４１−mが、入力されるランダム特徴量に基づいて、画像上に識別対象が存在すると識別した場合には、決定値y_mとして正の値を出力し、画像上に識別対象が存在しないと識別した場合には、決定値y_mとして負の値を出力することとなる。

なお、決定値y_mは、弱識別器４１-mに入力されたランダム特徴量と分離超平面との距離、又はロジスティック関数を介した確率表現によって定義される。

識別部２７は、学習部２６により生成された識別器に、識別対象画像Iを入力した場合、その識別器から出力される識別決定値yIが正の値であるときには、識別対象画像I上に所定の識別対象が存在すると識別する。また、識別部２７は、識別器から出力される識別決定値yIが負の値であるときには、識別対象画像I上に所定の識別対象が存在しないと識別する。

[画像分類装置１の動作説明]
次に、図６のフローチャートを参照して、画像分類装置１が行う画像分類処理について説明する。

この画像分類処理は、例えば、ユーザが、画像記憶部２３を構成する複数の画像データベースのうち、画像分類処理の対象とする画像データベースを選択するように、操作部２１を操作したときに開始される。このとき、操作部２１は、ユーザによる画像データベースの選択操作に対応する操作信号を、制御部２２に供給する。

ステップＳ２１において、図２のステップＳ１に対応する処理が行なわれる。すなわち、ステップＳ２１では、制御部２２は、操作部２１からの操作信号に応じて、画像記憶部２３を構成する複数の画像データベースのうち、ユーザの選択操作により選択された画像データベースを、画像分類処理の対象となる選択画像データベースとして選択する。

ステップＳ２２及びステップＳ２３において、図２のステップＳ２に対応する処理が行なわれる。

すなわち、ステップＳ２２では、表示制御部２４は、制御部２２の制御にしたがって、画像記憶部２３の選択画像データベースから、複数のサンプル画像を読み出し、表示部２５に供給して表示させる。

ユーザが、操作部２１を用いて、表示部２５に表示された複数のサンプル画像の中から、ポジティブ画像とネガティブ画像を何枚か指定したことに対応して、処理はステップＳ２２からステップＳ２３に進められる。

そして、ステップＳ２３では、表示制御部２４は、ポジティブ画像として指定されたサンプル画像に対してポジティブラベルを付加する。反対に、表示制御部２４は、ネガティブ画像として指定されたサンプル画像に対してネガティブラベルを付加する。そして、表示制御部２４は、ポジティブラベルやネガティブラベルを付加してサンプル画像を、学習用画像として、学習部２６に供給する。

ステップＳ２４及びステップＳ２５において、図２のステップＳ３に対応する処理が行なわれる。

すなわち、ステップＳ２４では、学習部２６は、表示制御部２４からの学習用画像に基づいて学習処理を行い、その学習処理により得られる識別器及びランダムインデックスを、識別部２７に供給する。なお、学習部２６が行なう学習処理の詳細は、図７のフローチャートを参照して後述する。

ステップＳ２５では、識別部２７は、画像記憶部２３の選択画像データベースに記憶されている複数の画像のうち、学習用画像以外の画像の幾つかを、識別の処理の対象である識別対象画像として、画像記憶部２３から読み出す。

そして、識別部２７は、読み出した幾つかの識別対象画像をそれぞれ対象として、学習部２６からの識別器及びランダムインデックスを用いて、画像上に所定の識別対象が存在する画像であるか否かを識別する識別処理を行なう。なお、識別部２７が行なう識別処理の詳細は、図８のフローチャートを参照して後述する。

また、識別部２７は、識別処理により、画像上に所定の識別対象が存在する画像であると識別した識別対象画像を、識別結果として表示制御部２４に供給する。

ステップＳ２６及びステップＳ２７において、図２のステップＳ４に対応する処理が行なわれる。

すなわち、ステップＳ２６では、表示制御部２４は、識別部２７からの識別結果を、表示部２５に供給して表示させる。

ユーザは、表示部２５に表示された識別結果を参照して、直前のステップＳ２４の処理により生成された識別器による画像の分類の精度に満足しない場合、操作部２１を用いて、新たな識別器の生成を指示する指示操作を行う。

また、ユーザは、表示部２５に表示された識別結果を参照して、直前のステップＳ２４の処理により生成された識別器による画像の分類の精度に満足した場合、操作部２１を用いて、その識別器を用いた画像クラスタの生成を指示する指示操作を行う。

操作部２１は、ユーザの指示操作に応じた操作信号を、制御部２２に供給する。

ステップＳ２７では、制御部２２は、操作部２１からの、ユーザの指示操作に対応する操作信号に基づいて、ユーザが識別器による画像の分類の精度に満足しているか否かを判定し、ユーザが画像の分類の精度に満足していないと判定した場合、処理をステップＳ２８に進める。

ステップＳ２８において、図２のステップＳ５に対応する処理が行なわれる。

すなわち、ステップＳ２８では、表示制御部２４は、制御部２２の制御にしたがって、画像記憶部２３の選択画像データベースに記憶されている複数の画像における識別決定値yIに基づいて、画像記憶部２３の選択画像データベースから、新たに複数のサンプル画像を読み出す。

具体的には、例えば、表示制御部２４は、画像記憶部２３の選択画像データベースに記憶されている複数の画像のうち、直前のステップＳ２４の処理で生成された識別器による識別決定値yIがある条件（例えば、識別決定値yIの絶対値が所定の閾値未満であるという条件）を満たす画像を、それぞれサンプル画像として決定する。

そして、表示制御部２４は、画像記憶部２３の選択画像データベースから、決定した複数のサンプル画像を読み出す。

その後、表示制御部２４は、処理をステップＳ２２に戻し、ステップＳ２２では、直前のステップＳ２８の処理で読み出した複数のサンプル画像を、表示部２５に供給して表示させ、処理はステップＳ２３に進められ、それ以降、同様の処理が行なわれる。

また、ステップＳ２７では、制御部２２は、操作部２１からの、ユーザの指示操作に対応する操作信号に基づいて、ユーザが識別器による画像の分類の精度に満足していると判定した場合、処理をステップＳ２９に進める。

ステップＳ２９において、図２のステップＳ６に対応する処理が行なわれる。すなわち、ステップＳ２９では、識別部２７は、直前のステップＳ２４の処理で生成された識別器に基づいて、画像記憶部２３の選択画像データベースに記憶されている複数の画像のうち、所定の識別対象が存在する画像により構成される画像クラスタを生成し、画像記憶部２３に供給して記憶させる。以上で、画像分類処理は終了される。

[学習部２６が行う学習処理の詳細]
次に、図７のフローチャートを参照して、学習部２６が行なう、図６のステップＳ２４における学習処理の詳細について説明する。

ステップＳ４１において、学習部２６は、表示制御部２４から供給される複数の学習用画像それぞれから、学習用画像の特徴を表す画像特徴量であって、且つ、複数の次元のベクトルにより表される画像特徴量を抽出する。

ステップＳ４２において、学習部２６は、生成すべき弱識別器４１-m毎にランダムインデックスを生成するランダムインデキシングを行なう。ここで、学習部２６は、学習処理において新たに識別器を生成する毎に、生成するランダムインデックスを異なるものに更新するようにすれば、解空間の固定を防止することができる。

すなわち、学習部２６が、新たに識別器を生成する毎にランダムインデックスを異なるものに更新すれば、ユーザの操作に応じて複数回行われる学習処理において、固定された次元特徴量が存在する特徴空間、つまり、固定された解空間上で学習が行なわれることを防止できる。

ステップＳ４３において、学習部２６は、弱識別器４１-mについて生成されたランダムインデックスに基づいて、複数の学習用画像それぞれから、弱識別器４１-mの生成に用いるランダム特徴量を生成する。

すなわち、例えば、学習部２６は、複数の学習用画像それぞれから抽出された画像特徴量を構成する複数の次元特徴量のうち、弱識別器４１-mについて生成されたランダムインデックスが表す次元特徴量を選択し、選択した次元特徴量により構成されるランダム特徴量を生成する。

ステップＳ４４において、学習部２６は、複数の学習用画像毎に生成したランダム特徴量に対して、SVMを適用することにより、弱識別器４１-mを生成する。また、学習部２６は、弱識別器４１-mの信頼度a_mを算出する。

ステップＳ４５において、学習部２６は、生成した弱識別器４１-mと、弱識別器４１-mの信頼度a_mとに基づいて、式（２）に示された識別決定値yIを出力する識別器を生成し、処理を、図６のステップＳ２４にリターンさせる。

そして、図６のステップＳ２４では、学習部２６は、ステップＳ４２の処理で生成した弱識別器４１-1乃至４１-M毎のランダムインデックス、及びステップＳ４５の処理で生成した識別器を、識別部２７に供給して、処理をステップＳ２５に進める。

[識別部２７が行なう識別処理の詳細]
次に、図８のフローチャートを参照して、識別部２７が行なう、図６のステップＳ２５における識別処理の詳細について説明する。

ステップＳ６１において、識別部２７は、画像記憶部２３の選択画像データベースから、学習用画像とされた画像以外の画像の幾つかを、それぞれ、識別対象画像Iとして読み出す。

そして、識別部２７は、読み出した識別対象画像Iから、その識別対象画像の特徴を表す画像特徴量を抽出する。

ステップＳ６２において、識別部２７は、抽出した画像特徴量を構成する複数の次元特徴量の中から、学習部２６からの、弱識別器４１-mに対応するランダムインデックスが表す次元特徴量を選択し、選択した次元特徴量により構成されるランダム特徴量を生成する。

なお、識別部２７には、この識別処理が行なわれる直前の学習処理におけるステップＳ４２の処理で生成された弱識別器４１-mそれぞれのランダムインデックスが、学習部２６から供給される。

ステップＳ６３において、識別部２７は、生成した識別対象画像Iのランダム特徴量を、学習部２６からの識別器が有する弱識別器４１-mに入力する。これにより、弱識別器４１-mは、識別部２７から入力された識別対象画像Iのランダム特徴量に基づいて、識別対象画像Iの決定値y_mを出力する。

ステップＳ６４において、識別部２７は、学習部２６からの識別器、すなわち、式（２）に、弱識別器４１-mから出力された決定値y_mを入力（代入）して、式（２）に示された積和演算を行い、識別対象画像Iの識別決定値yIを算出する。

そして、識別部２７は、算出した識別決定値yIに基づいて、識別対象画像Iがポジティブ画像であるかネガティブ画像であるかを識別する。すなわち、例えば、識別部２７は、算出した識別決定値yIが正の値である場合には、識別対象画像Iがポジティブ画像であると識別し、識別決定値yIが正の値でない場合には、識別対象画像Iがネガティブ画像であると識別する。その後、識別部２７は、識別処理を終了して、処理を、図６のステップＳ２５にリターンさせる。

以上説明したように、画像分類処理において、ステップＳ２４の学習処理では、学習用画像の画像特徴量ではなく、その画像特徴量よりも次元が低いランダム特徴量を用いるようにしたので、少ない枚数の学習用画像に基づいて識別器を生成する場合でも、過学習を抑制することが可能となる。

また、学習処理では、学習用画像のランダム特徴量から、マージンを最大化して識別器の凡化性能を向上させるSVMを用いて、複数の弱識別器４１-1乃至４１-Mを生成するようにした。

したがって、学習処理では、過学習を抑制しつつ、高い凡化性能を有する識別器を生成することができるため、少ない枚数の学習用画像であっても、比較的、識別の精度が高い識別器を生成することが可能となる。

このため、画像分類処理では、ユーザにより指定された少ない枚数の学習用画像に基づいて生成された識別器を用いて、比較的精度良く、画像クラスタとして構成される画像と、そうでない画像とを分類することができるので、ユーザが所望する画像クラスタを精度良く生成することが可能となる。

なお、従来、無作為に選択された次元特徴量を用いて、画像を識別するランダムフォレスト（random forests）による識別方法が存在する。

このランダムフォレストによる識別方法では、複数の学習用画像から、無作為に幾つかの学習用画像を選択し、選択した学習用画像により構成されるブートストラップ集合を生成する。

そして、ブートストラップ集合を構成する幾つかの学習用画像から、学習に用いる学習用画像を選択して、識別器の学習を行なっている。なお、ランダムフォレストによる識別方法としては、「Leo Breiman, "Random Forests", Machine Learning, 45, 5-32, 2001」により詳細な説明が記載されている。

これに対して、本発明では、ユーザにより指定された複数の学習用画像すべてを用いて、識別器の学習を行なうようにしている。このため、本発明では、ランダムフォレストによる識別方法と比較して、より多くの学習用画像を用いて、識別器の学習を行なうようにしているので、比較的、識別する精度の高い識別器を生成することが可能となる。

また、ランダムフォレストによる識別方法では、次元特徴量に基づいて決定木を生成し、生成した決定木に基づいて識別器の学習を行なう。

しかしながら、ランダムフォレストによる識別方法において行なわれる、決定木に基づく学習では、必ずしも、マージンを最大化するように構築された分離超平面を用いて画像の分類を行う識別器が生成されるとは限らない。

これに対して、本発明では、マージンを最大化するSVMにより、マージンを最大化するように構築された分離超平面を用いて画像の分類を行う識別器（弱識別器）を生成するようにしているため、枚数が少ない学習用画像に基づく学習においても、過学習を抑制して、高い凡化性能を有する識別器を生成することが可能となる。

このように、本発明は、従来の、ランダムフォレストによる識別方法と比較して、より識別の精度が高い識別器を生成することが可能となる。

＜２．変形例＞
本実施の形態では、学習用画像が少ない枚数であることに起因して生じる過学習を抑制するために、学習用画像の画像特徴量から、画像特徴量よりも次元の低いランダム特徴量を生成し、生成したランダム特徴量に基づいて、識別器を生成するようにしたが、これに限定されない。

すなわち、過学習が生じる原因として、学習用画像が少ない枚数であることの他、学習用画像のうち、ポジティブ画像が僅かであることが上げられる。このため、例えば、本実施の形態では、ポジティブ画像を擬似的に水増しするようにして、ポジティブ画像の枚数を増加させ、より過学習を抑制するように構成することができる。

ここで、従来、ユーザにより指定された学習用画像に基づいて、擬似的な学習用画像を増加させる擬似適合性フィードバック処理が提案されている。

この擬似適合性フィードバック処理では、ユーザにより指定された学習用画像に基づいて識別器を生成する。そして、学習用画像とされていない複数の画像（正解ラベルが付加されていない画像）のうち、生成した識別器の識別により識別器決定値が所定の閾値以上となる画像を、擬似的なポジティブ画像（擬似ポジティブ画像）として選択する。

擬似適合性フィードバック処理では、学習用画像のうち、ポジティブ画像を擬似的に水増しさせることができるものの、画像上に所定の識別対象が存在しないネガティブ画像が、擬似ポジティブ画像として選択されるフォルスポジティブ(false positive)が生じやすい。

特に、初期段階において、枚数が少ない学習用画像に基づいて生成した識別器では、識別器自体の識別による精度も低いため、フォルスポジティブが生じる可能性は比較的大きいものとなる。

そこで、学習部２６では、学習処理に代えて、フォルスポジティブを抑制するために、バックグラウンド画像を、擬似的なネガティブ画像として採用した上で、識別器を生成し、生成した識別器に基づいて、擬似的なポジティブ画像を水増しするフィードバック学習処理を行うようにすることができる。

なお、バックグラウンド画像とは、画像記憶部２３を構成する複数の画像データベースそれぞれに記憶されている画像を、その被写体に応じたクラスに分類した場合に、いずれのクラスにも分類されない画像をいう。

したがって、バックグラウンド画像としては、例えば、画像記憶部２３を構成する複数の画像データベースそれぞれに記憶されている画像上に存在する被写体のいずれも含まない画像、具体的には、例えば、画像上に被写体として風景のみが存在する画像等が採用される。なお、バックグラウンド画像は、画像記憶部２３に記憶されているものとする。

[フィードバック学習処理についての説明]
次に、図９は、図６のステップＳ２４において、学習部２６が、学習処理に代えて行なうフィードバック学習処理の詳細を説明する。

ステップＳ８１では、図７のステップＳ４１と同様の処理が行なわれる。

ステップＳ８２において、学習部２６は、画像記憶部２３に記憶されているバックグラウンド画像を、擬似的なネガティブ画像を表すバックグラウンドネガティブ画像とする。そして、学習部２６は、バックグラウンドネガティブ画像から、そのバックグラウンドネガティブ画像の特徴を表す画像特徴量を抽出する。

なお、ステップＳ８２の処理で、学習部２６が抽出したバックグラウンドネガティブ画像の画像特徴量は、ステップＳ８４において、バックグラウンドネガティブ画像のランダム特徴量を生成するために用いられる。

学習部２６は、ポジティブ画像、ネガティブ画像、及びバックグラウンドネガティブ画像それぞれを、学習用画像として、ステップＳ８３乃至ステップＳ８６において、それぞれ、図７のステップＳ４２乃至ステップＳ４５と同様の処理を行なう。

ステップＳ８７において、学習部２６は、例えば次式（３）に示される繰り返し条件を満たすか否かを判定する。

・・・（３）

なお、式（３）において、S_pはポジティブ画像の枚数、P_pは擬似ポジティブ画像の枚数、S_Nはネガティブ画像の枚数、及びB_Nはバックグラウンドネガティブ画像の枚数を表している。また、式（３）では、S_p<（S_N+B_N）を満たすものとする。

ステップＳ８７において、学習部２６は、式（３）を満たすと判定した場合、処理をステップＳ８８に進める。

ステップＳ８８において、学習部２６は、画像記憶部２３の選択画像データベースから、正解ラベルが付加されていない画像（学習用画像ではない画像）を識別対象画像Iとして読み出す。そして、学習部２６は、直前のステップＳ８６の処理で生成済みの識別器を用いて、読み出した識別対象画像Iの識別決定値yIを算出する。

学習部２６は、算出した識別決定値yIのうち、上位にランキングされた識別決定値に対応する識別対象画像Iに、ポジティブラベルを付加し、ポジティブラベルが付加された識別対象画像Iを、擬似ポジティブ画像として取得する。

なお、ステップＳ８２において、擬似的なネガティブ画像として、ネガティブバックグラウンド画像が水増しされているため、学習部２６において算出される識別決定値yIは、全体的に下振れすることとなる。

しかし、この場合、擬似的なネガティブ画像が水増しされていない場合と比較して、識別決定値yIの上位にランキングされた画像が、ポジティブ画像である確率はより向上することとなるので、フォルスポジティブが生じる事態を抑制することが可能となる。

学習部２６は、ステップＳ８８の処理で取得した擬似ポジティブ画像を、新たに学習用画像として追加し、処理をステップＳ８３に戻す。

そして、ステップＳ８３では、学習部２６は、以前のステップＳ８３の処理で生成したランダムインデックスとは異なるランダムインデックスを生成する。

すなわち、学習部２６は、新たに識別器を生成する毎に、ランダムインデックスを異なるものに更新するようにして、解空間の固定を防止するようにしている。

学習部２６は、ランダムインデックスを生成した後、処理をステップＳ８４に進め、直前のステップＳ８３の処理で生成したランダムインデックスに基づいて、ランダム特徴量を生成し、それ以降同様の処理を行なう。

なお、ステップＳ８７において、学習部２６は、式（３）を満たさないと判定した場合、すなわち、擬似ポジティブ画像が十分に水増しされた状態で識別器が生成されたと判定した場合、直前のステップＳ８３の処理で生成したランダムインデックス、及び直前のステップＳ８６の処理で生成した識別器を、識別部２７に供給する。

そして、学習部２６は、フィードバック学習処理を終了し、処理を、図６のステップＳ２４にリターンして、ステップＳ２５において、識別部２７が、認識処理を行なうこととなる。

以上説明したように、フィードバック学習処理では、学習部２６が、新たにステップＳ８３乃至ステップＳ８６の処理を行なう毎に、ステップＳ８３において、ランダムインデックスを更新するようにした。

したがって、新たにステップＳ８３乃至ステップＳ８６の処理を行なう毎に、それぞれ異なるランダムインデックスにより選択された、異なる次元特徴量が存在する特徴空間上で、SVMを用いた学習が行なわれることとなる。

このため、フィードバック学習処理では、例えば、固定のランダムインデックスを用いて識別器を生成する場合とは異なり、固定された次元特徴量が存在する特徴空間、すなわち、固定された解空間上で学習が行なわれることを防止できる。

また、フィードバック学習処理では、ステップＳ８６において、識別器が生成される前に、ステップＳ８２において、バックグラウンド画像を、擬似的なネガティブ画像を表すネガティブバックグラウンド画像とするようにして、ネガティブ画像を水増しするようにした。

このため、フィードバック学習処理では、ステップＳ８６において、ネガティブ画像が上位にランキングされる識別器の生成を抑止することができるので、ステップＳ８８において、擬似ポジティブ画像を生成する場合に、ネガティブ画像を誤って擬似ポジティブ画像として生成するフォルスポジティブが生じる事態を抑止することが可能となる。

また、フィードバック学習処理では、フォルスポジティブが生じたとしても、ステップＳ８６において、マージンを最大化して凡化性能を向上させるSVMを用いて識別器を生成するようにしているので、比較的、識別の精度が高い識別器を生成することが可能となる。

したがって、フィードバック学習処理では、従来の擬似適合性フィードバック処理と比較して、より正確に、ユーザが所望する画像クラスタを生成することが可能となる。

なお、フィードバック学習処理では、通常、ステップＳ８３乃至ステップＳ８６による処理が複数回行なわれることとなる。これは、ステップＳ８３乃至ステップＳ８６による処理が１回目である場合には、いまだステップＳ８８の処理による擬似ポジティブ画像の水増しが行われていないため、ステップＳ８７の処理において、条件式（３）を満たすと判定されてしまうためである。

フィードバック学習処理では、ステップＳ８３乃至ステップＳ８６による処理を反復して行なうにつれて、学習用画像としての擬似ポジティブ画像も水増しされることとなるが、ステップＳ８３乃至ステップＳ８６による処理を反復して行なう回数が多くなる程に、その処理による計算量も増加してしまう。

そこで、学習処理と、フィードバック学習処理とを併用して、識別器を生成するための計算量を減少させるように構成することができる。

すなわち、例えば、画像分類処理において、１回目の、ステップＳ２４の処理が行われる場合には、図７の学習処理を行うようにする。この場合、１回目の、ステップＳ２４の処理（学習処理）では、その学習処理により得られた識別器の識別により、識別決定値yIが上位にランキングされた画像を、擬似ポジティブ画像として保持しておく。

そして、画像分類処理において、ステップＳ２７の処理において、処理がステップＳ２８を介してステップＳ２２に戻された場合、２回目以降の、ステップＳ２４の処理が行われることとなるが、このときには、ステップＳ２４の処理として、フィードバック学習処理を行なうようにする。

この場合、１回目の、ステップＳ２４の処理において保持された擬似ポジティブ画像が、学習用画像として水増しされた状態で、フィードバック学習処理が行なわれる。

これにより、学習処理とフィードバック学習処理とを併用して用いる場合には、２回目以降の、ステップＳ２４の処理としてのフィードバック学習処理が、予め擬似ポジティブ画像が追加された状態で開始される。

このため、２回目以降の、ステップＳ２４の処理としてのフィードバック学習処理では、ポジティブ画像と擬似ポジティブ画像との総数(S_p+P_p)が、画像分類処理のステップＳ２４おいてフィードバック学習処理のみを行なう場合と比較して、多い状態で開始されるので、ステップＳ８３乃至ステップＳ８６の処理が行なわれる回数を少なくすることができ、画像分類処理のステップＳ２４の処理による計算量を削減することが可能となる。

ここで、学習処理とフィードバック処理とを併用して用いる場合、学習処理において識別した識別結果により、上位にランキングされた画像を、より多く、擬似ポジティブ画像とすればするほど、ステップＳ８７において、条件式（３）を満たし易くなるため、画像分類処理のステップＳ２４の処理による計算量をより削減することができる。

しかしながら、１回目の、ステップＳ２４の処理としての学習処理により生成した識別器は、比較的、識別の精度が低いと思われるため、上述したフォルスポジティブが生じる可能性も高くなってしまうが、ステップＳ８６においてSVMを用いた識別器の生成を行なっているため、フォルスポジティブが生じていても、比較的、識別の精度が高い識別器を生成することが可能となる。

上述した画像分類処理において、ステップＳ２５では、識別部２７が、画像記憶部２３の選択画像データベースに記憶されている複数の画像のうち、学習用画像以外の画像の幾つかを対象として識別処理を行なうようにしたが、例えば、複数の画像のうち、学習用画像以外の画像すべてを対象として、識別処理を行なうようにしてもよい。

この場合、ステップＳ２６において、表示制御部２４は、複数の画像のうち、学習用画像以外の画像すべての識別結果を表示部２５に表示させることとなるため、ユーザは、より正確に、直前のステップＳ２４の処理で生成された識別器による画像の分類の精度を判断することが可能となる。

また、ステップＳ２５において、識別部２７が、画像記憶部２３の選択画像データベースに記憶されている複数の画像すべて（学習用画像を含む）を対象として識別処理を行なうようにしてもよい。

この場合、処理が、ステップＳ２５からステップＳ２６及びステップＳ２７を介してステップＳ２９に進められた場合、ステップＳ２９において、ステップＳ２５による識別結果を用いて、容易に画像クラスタを生成することが可能となる。

また、画像分類処理において、ステップＳ２２では、表示制御部２４は、複数のサンプル画像を表示部２５に表示させるようにし、これに対応して、ユーザが、複数のサンプル画像の中から、ポジティブ画像及びネガティブ画像を指定するようにしたが、例えば、ポジティブ画像のみをユーザに指定させるようにしてもよい。

すなわち、例えば、ポジティブ画像のみをユーザに指定させるようにし、ステップＳ２３において、表示制御部２４は、ポジティブ画像として指定されたサンプル画像にポジティブラベルを付加し、バックグラウンド画像を、ネガティブ画像として、ネガティブラベルを付加するようにしてもよい。

この場合、ユーザは、ポジティブ画像のみを指定すればよいので、ユーザがポジティブ画像やネガティブ画像を指定する煩わしさを低減することが可能となる。

また、本実施の形態において、画像分類装置１は、画像分類装置１が有する画像記憶部２３内の画像データベースに記憶されている複数の画像を対象として、画像分類処理を行なうようにしたが、例えば、画像分類装置１に接続される記憶装置に記憶されている複数の画像を対象として、画像分類処理を行なうようにすることができる。

なお、画像分類装置１は、識別器を用いて、複数の画像をクラスに分類し、分類されたクラス毎に、画像クラスタ等を生成するものであれば、どのようなものでもよく、例えば、画像分類装置１としてパーソナルコンピュータ等を採用することができる。

ところで、上述した一連の処理は、専用のハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、いわゆる組み込み型のコンピュータ、又は、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータ等に、記録媒体からインストールされる。

[コンピュータの構成例]
次に、図１０は、上述した一連の処理をプログラムにより実行するコンピュータの構成例を示している。

CPU（Central Processing Unit）２０１は、ROM（Read Only Memory）２０２、又は記憶部２０８に記憶されているプログラムに従って各種の処理を実行する。RAM（Random Access Memory）２０３には、CPU２０１が実行するプログラムやデータ等が適宜記憶される。これらのCPU２０１、ROM２０２、及びRAM２０３は、バス２０４により相互に接続されている。

CPU２０１にはまた、バス２０４を介して入出力インタフェース２０５が接続されている。入出力インタフェース２０５には、キーボード、マウス、マイクロホン等よりなる入力部２０６、ディスプレイ、スピーカ等よりなる出力部２０７が接続されている。CPU２０１は、入力部２０６から入力される指令に対応して各種の処理を実行する。そして、CPU２０１は、処理の結果を出力部２０７に出力する。

入出力インタフェース２０５に接続されている記憶部２０８は、例えばハードディスクからなり、CPU２０１が実行するプログラムや各種のデータを記憶する。通信部２０９は、インターネットやローカルエリアネットワーク等のネットワークを介して外部の装置と通信する。

また、通信部２０９を介してプログラムを取得し、記憶部２０８に記憶してもよい。

入出力インタフェース２０５に接続されているドライブ２１０は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリ等のリムーバブルメディア２１１が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータ等を取得する。取得されたプログラムやデータは、必要に応じて記憶部２０８に転送され、記憶される。

コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを記録（記憶）する記録媒体は、図１０に示すように、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)を含む）、光磁気ディスク（ＭＤ（Mini-Disc）を含む）、もしくは半導体メモリ等よりなるパッケージメディアであるリムーバブルメディア２１１、又は、プログラムが一時的もしくは永続的に格納されるROM２０２や、記憶部２０８を構成するハードディスク等により構成される。記録媒体へのプログラムの記録は、必要に応じてルータ、モデム等のインタフェースである通信部２０９を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の通信媒体を利用して行われる。

なお、本明細書において、上述した一連の処理を記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、本発明の実施の形態は、上述した本実施の形態や変形例に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１画像分類装置，２１操作部，２２制御部，２３画像記憶部，２４表示制御部，２５表示部，２６学習部，２７識別部

Claims

複数のサンプル画像の中から、画像上に所定の識別対象が存在するか否かを識別するための識別器を学習するのに用いる学習用画像がユーザにより指定されたことに対応して、前記学習用画像の特徴を表す画像特徴量を構成する複数の次元特徴量から、無作為に選択された次元特徴量からなるランダム特徴量を用いて前記識別器を学習する学習手段を含む
学習装置。
前記学習手段は、前記ランダム特徴量が存在する特徴空間において、画像上に所定の識別対象が存在するか否かを識別するための分離超平面と、前記ランダム特徴量を構成する次元特徴量のうち、前記分離超平面の近傍に存在する次元特徴量との距離を表すマージンを最大化するマージン最大化学習により、前記識別器を学習する
請求項１に記載の学習装置。
前記学習手段は、
前記学習用画像から、前記学習用画像の特徴を表す画像特徴量であって、且つ、複数の次元のベクトルにより表される前記画像特徴量を抽出する画像特徴量抽出手段と、
前記画像特徴量の各次元の要素である複数の次元特徴量のうちのいくつかを無作為に選択し、選択した次元特徴量により構成されるランダム特徴量を生成するランダム特徴量生成手段と、
前記ランダム特徴量を用いた前記マージン最大化学習により、前記識別器を生成する識別器生成手段と
を有する
請求項２に記載の学習装置。
前記識別器は、前記識別対象画像上に所定の識別対象が存在するか否かを判定する複数の弱識別器による判定結果に基づいて、最終的な判定結果を出力するものであり、
前記ランダム特徴量生成手段は、前記複数の弱識別器毎に、前記弱識別器を生成するために用いるランダム特徴量を生成し、
前記識別器生成手段は、前記複数の弱識別器毎に生成した前記ランダム特徴量に基づいて、前記複数の弱識別器を生成する
請求項３に記載の学習装置。
前記識別器生成手段は、前記ランダム特徴量に基づいて、前記弱識別器による判定の信頼の度合いを表す信頼度も生成する
請求項４に記載の学習装置。
前記識別器生成手段は、前記複数の弱識別器及び前記信頼度に基づいて、前記複数の弱識別器毎に出力される判定結果としての決定値と前記信頼度との積和演算結果を表す識別決定値を出力する前記識別器を生成し、
前記識別手段は、前記識別器が出力する前記識別決定値に基づいて、前記識別対象画像上に所定の識別対象が存在するか否かを識別する
請求項５に記載の学習装置。
前記ランダム特徴量生成手段は、前記ユーザにより前記学習用画像が指定される毎に、異なるランダム特徴量を生成する
請求項３に記載の学習装置。
前記学習用画像は、画像上に前記所定の識別対象が存在するポジティブ画像と、画像上に所定の識別対象が存在しないネガティブ画像とにより構成されており、
前記学習手段は、さらに、擬似的なネガティブ画像を、前記学習用画像として追加するネガティブ画像追加手段を有する
請求項７に記載の学習装置。
前記学習手段は、前記識別器生成手段により前記識別器が生成された後に所定の条件を満たす場合、擬似的なポジティブ画像を前記学習用画像として追加するポジティブ画像追加手段をさらに有し、
前記識別器生成手段は、前記擬似的なポジティブ画像が追加された前記学習用画像の前記ランダム特徴量に基づいて、前記識別器を生成する
請求項８に記載の学習装置。
前記ポジティブ画像追加手段は、前記ポジティブ画像と前記擬似的なポジティブ画像の総数が、前記ネガティブ画像と前記擬似的なネガティブ画像の総数よりも少ないという条件を満たす場合、擬似的なポジティブ画像を前記学習用画像として追加する
請求項９に記載の学習装置。
前記学習手段は、前記マージン最大化学習として、SVM(support vector machine）を用いた学習を行なう
請求項２に記載の学習装置。
前記識別器を用いて、識別対象画像上に所定の識別対象が存在するか否かを識別する識別手段をさらに含み、
前記学習手段は、前記識別手段による識別処理に応じて前記ユーザにより新たに前記学習用画像が指定された場合、指定された前記学習用画像を用いた前記識別器の学習を繰り返して実行する
請求項１に記載の学習装置。
前記識別手段は、前記識別手段による識別処理に応じて前記ユーザにより、画像上に所定の識別対象が存在する識別対象画像により構成される画像クラスタの生成を指示された場合、前記学習手段により生成された最新の識別器に基づいて、複数の前記識別対象画像から前記画像クラスタを生成する
請求項１２に記載の学習装置。
画像上に所定の識別対象が存在するか否かを識別するための識別器を学習する学習装置の学習方法において、
前記学習装置は、学習手段を含み、
前記学習手段が、複数のサンプル画像の中から、画像上に所定の識別対象が存在するか否かを識別するための識別器を学習するのに用いる学習用画像がユーザにより指定されたことに対応して、前記学習用画像の特徴を表す画像特徴量を構成する複数の次元特徴量から、無作為に選択された次元特徴量からなるランダム特徴量を用いて前記識別器を学習する
ステップを含む学習方法。
コンピュータを、
複数のサンプル画像の中から、画像上に所定の識別対象が存在するか否かを識別するための識別器を学習するのに用いる学習用画像がユーザにより指定されたことに対応して、前記学習用画像の特徴を表す画像特徴量を構成する複数の次元特徴量から、無作為に選択された次元特徴量からなるランダム特徴量を用いて前記識別器を学習する学習手段として
機能させるためのプログラム。