JP2005100121A

JP2005100121A - 識別処理に用いる特徴量の種類と識別条件を決定する装置、プログラムならびにプログラムを記録した記録媒体、および特定内容のデータを選別する装置

Info

Publication number: JP2005100121A
Application number: JP2003333412A
Authority: JP
Inventors: Sadataka Akahori; 貞登赤堀
Original assignee: Fuji Photo Film Co Ltd
Current assignee: Fujifilm Holdings Corp
Priority date: 2003-09-25
Filing date: 2003-09-25
Publication date: 2005-04-14

Abstract

【課題】対象データが特定内容のデータであるか否かを識別する識別処理に用いる特徴量の種類と識別条件を、識別処理における識別精度と計算量の負担との所望のバランスに応じて決定する。
【解決手段】特徴量の種類と識別条件を決定する装置１０の識別器作成部１６が、サンプルデータ群に基づいて、識別処理に用いられ得る複数の特徴量の各々について、対応する識別器を作成する。作成された識別器の各々について、識別精度特定部１８と計算量特定部２０が識別精度指標値と計算量指標値をそれぞれ特定する。識別器選択部２２が、それらの指標値に基づいて総合評価値を導出し、良好な識別器を選択する。選択された識別器に基づいて、識別条件決定部２４が、識別処理に用いる特徴量の種類と識別条件を決定する。
【選択図】図１

Description

本発明は、画像データ等の対象データが特定内容のデータであるか否かを識別する識別処理に用いる特徴量の種類と識別条件を決定する装置、プログラムならびにプログラムを記録した記録媒体、および特定内容のデータを選別する装置に関するものである。

近年、画像データ等の対象データが特定内容のデータであるか否かを識別する識別処理に用いる基準を決定するために、サンプルデータ群を学習する種々の手法が提案されている。

たとえば、特許文献１には、人物の顔部分を含む画像と含まない画像とを識別する識別処理に用いるために、顔部分を含むことが分かっている複数のサンプル画像と顔部分を含まないことが分かっている複数のサンプル画像の各々から、輝度値等の決められた種類の特徴量を成分とする特徴ベクトルその他のパラメータを導出し記録しておく手法が記載されている。識別処理においては、すべてのサンプル画像についての上記のパラメータと対象画像から導出された特徴ベクトルの各成分とを変数とする評価関数を用いて、その評価関数値の正負に基づいて、対象画像が顔部分を含む画像であるか否かが識別される。

また、特許文献２には、放射線画像から濃度勾配の集中度等に基づいて抽出した候補領域の陰影が、悪性腫瘤等の陰影であるか否かを識別する識別処理に用いるために、悪性であることが分かっている陰影の複数のサンプル画像と悪性でないことが分かっている陰影の複数のサンプル画像の各々から、濃度ヒストグラムに基づく特徴量等の決められた種類の複数の特徴量を抽出して、ニューラルネットワーク等を用いた学習を行なう手法が記載されている。

さらに、非特許文献１等には、一般に用いられる機械的学習手法として、ブースティングと呼ばれる手法およびその変形であるエイダブースト（Ａｄａｂｏｏｓｔ）と呼ばれる手法が記載されている。たとえば、２つの特徴量ｘ_１およびｘ_２に対応する軸を有する特徴量平面上に分布するデータ点を、ある特定内容のデータを示すデータ点とそうでないデータ点との２つに分類するための学習について説明すると、ブースティングは、上記の特定内容のデータを示すことが分かっている複数のデータ点とそうでないことが分かっている複数のデータ点からなるサンプルデータ点群の中から、データ点の第１の組を選択し、それら第１の組のデータ点を最も良好に分類する特徴量平面上の第１の直線または比較的単純な曲線を特定し、次にその第１の直線または曲線では良好に分類できないデータ点の第２の組を選択し、それら第２の組のデータ点を最も良好に分類する第２の直線または曲線を特定し、・・・という処理を繰り返して学習を行なうものである。最後に、一連の処理で特定された複数の直線または曲線を総合して、多数決の手法等により、特徴量平面を分割する最適な線が決定される。一方、エイダブーストは、上記と同様のサンプルデータ点群をなす各データ点に重みを割り当て、すべてのデータ点を用いてそれらを最も良好に分類する特徴量平面上の第１の直線または曲線を特定し、その第１の直線または曲線では正しく分類できなかったデータ点の重みを高くし、次に各データ点の重みを加味してデータ点を最も良好に分類する第２の直線または曲線を特定し、・・・という処理を繰り返して学習を行なうものである。
特開２００３−４４８５３号公報特開２００２−７４３２５号公報 Richard O. Duda, Peter E. Hart, David G. Stork著、江尻公一訳、「パターン識別」、株式会社新技術コミュニケーションズ、２００１年、ｐ．４８４−４８８

しかしながら、１つまたは複数の特徴量を指標として対象データが特定内容のデータであるか否かを識別する識別処理を行なう場合、高い識別精度を実現する有用な特徴量の種類は、特定内容によって異なる。たとえば、画像データが特定シーンの画像のデータであるか否かを識別する識別処理の場合、特定シーンが全体的に暗い「夜景」のシーンであれば、輝度や明度に関する特徴量が最も有用な指標となるかもしれないが、特定シーンが「水中」のシーンであれば、輝度や明度よりも青色の濃度に関する特徴量等の方が有用であるかもしれない。ここで、特定内容ごとの識別に用いる特徴量の種類を、熟練した技術者が学習に先立って経験的に決定し、それらの決められた特徴量に関して学習を行なってもよいが、実際にどの特徴量が最も有用な指標であるかを経験的に判断することは難しく、特に複数の特徴量を組み合わせて使用する場合には、どの特徴量を用いると組合せの効果が高いかを経験的に決定することは困難である。

さらに、選択される特徴量は、上記のとおり所望の特定内容に対して高い識別精度を実現するものであることが好ましいが、識別処理の実行環境の計算能力や所望の処理速度によっては、識別精度を多少犠牲にしても、識別処理において対象データから導出するのに要する計算量が少ない特徴量を選択した方がよい場合もある。特に、対象データが情報量の多い画像データ等である場合には、計算量の負担の問題は軽視できない。上記の特定内容ごとの識別精度に加えて、このような計算量の負担まで考慮して最適な特徴量を選択するとなると、技術者が経験的に行なうのは極めて困難である。しかも、識別精度と計算量との所望のバランスは、識別処理の目的や実行環境に応じてその都度異なるため、それらの目的や実行環境が変わるごとに、人手によって使用する特徴量の種類および対応する識別条件を検討し変更していたのでは、多大な労力と時間がかかることとなってしまう。

本発明は、上記事情に鑑み、識別処理に用いる識別条件を決定するための学習において、使用する特徴量の種類をも併せて自動的に選択し、しかもそれらの特徴量の種類の選択を識別精度と計算量との所望のバランスに応じて行なう装置、プログラムおよびプログラムを記録した記録媒体を提供することを目的とするものである。さらに、本発明は、識別精度と計算量との所望のバランスに応じて決定された参照データを用いて、特定内容のデータを選別する装置を提供することも目的とするものである。

すなわち、本発明に係る第１の識別処理に用いる特徴量の種類と識別条件を決定する装置は、対象データが特定内容のデータであるか否かを識別する識別処理に用いる少なくとも１つの特徴量の種類と、その少なくとも１つの特徴量の各々に対応する識別条件とを決定する装置であって、特定内容のデータであることが分かっている複数のデータと、特定内容のデータでないことが分かっている複数のデータとからなるサンプルデータ群に基づいて、上記の識別処理に用いられ得る複数の特徴量の各々について、対応する識別器を作成する識別器作成手段と、それらの識別器の各々について、上記のサンプルデータ群をなすデータの全部または一部に対するその識別器による識別精度を表す指標値を特定する識別精度特定手段と、上記の識別器の各々について、その識別器に対応する特徴量を上記の対象データから導出するのに要する計算量を表す指標値を特定する計算量特定手段と、上記の識別器の各々について、上記の識別精度を表す指標値と上記の計算量を表す指標値から総合評価値を導出し、最も良好な総合評価値が導出された識別器から順に、少なくとも１つの識別器を選択する識別器選択手段と、識別器選択手段により選択された上記の少なくとも１つの識別器に基づいて、上記の識別処理に用いる少なくとも１つの特徴量の種類と識別条件とを決定する決定手段とを備えていることを特徴とするものである。

ここで、本発明において「対象データ」とは、特定内容のデータであるか否かを識別する識別処理の対象となるものであればいかなるデータであってもよく、例としては、以下に述べる画像データのほか、特定人物の声であるか否か等の識別処理の対象となる音声データ等が挙げられる。また、対象データが画像データである場合、その画像データは１枚の画像全体に関するデータであっても、１枚の画像に含まれる一部の領域についてのデータであってもよい。したがって、以下に述べる特定シーンであるか否かを識別する処理のほか、たとえば、１枚の画像に含まれる１つの領域が、人物等のある特定の被写体に対応する領域であるか否かを識別する処理等も、上記の「識別処理」に含まれるものである。

また、本発明において「特徴量」とは、対象データの特徴を表すパラメータを指す。たとえば、対象データが画像データである場合には、その画像データが表す画像の色の特徴、輝度の特徴、テクスチャーの特徴、奥行情報、その画像に含まれるエッジの特徴その他の特徴を表すあらゆる指標値が、「特徴量」として使用され得る。また、これらの各特徴を表す指標値を複数組み合わせた重み付き加算値等を、「特徴量」として使用してもよい。

さらに、本発明において「識別条件」とは、１つの特徴量を指標とした、特定内容のデータとそうでないデータとを識別する条件を指す。

また、本発明において「識別器」とは、１つの特徴量を用いて特定内容のデータとそうでないデータとを識別する基準を提供するものであって、上記の「識別条件」を決定する基となるものを指す。

上記の本発明に係る第１の識別処理に用いる特徴量の種類と識別条件を決定する装置においては、上記の識別器選択手段は、上記の識別処理の実行環境の計算能力および／または上記の識別処理の所望の処理速度に応じて、上記の総合評価値を導出する際の識別精度を表す指標値と計算量を表す指標値の比重を変更するものであることが好ましい。

ここで、上記の「比重を変更する」とは、識別精度を表す指標値と計算量を表す指標値とのどちらを総合評価値により強く反映させるかの比重を変更することを指す。すなわち、実行環境の計算能力が低い場合および／または速い処理速度が望まれる場合には、計算量を少なくすることがより優先されるように比重が変更され、実行環境の計算能力が高い場合および／または処理速度が遅くてもよい場合には、識別精度を高くすることがより優先されるように比重が変更される。

一方、本発明に係る第２の識別処理に用いる特徴量の種類と識別条件を決定する装置は、対象データが特定内容のデータであるか否かを識別する識別処理に用いる少なくとも１つの特徴量の種類と、その少なくとも１つの特徴量の各々に対応する識別条件とを決定する装置であって、特定内容のデータであることが分かっている複数のデータと、特定内容のデータでないことが分かっている複数のデータとからなるサンプルデータ群に基づいて作成された、上記の識別処理に用いられ得る複数の特徴量の各々に対応する識別器のうち、上記のサンプルデータ群をなすデータの全部または一部に対する識別精度が最も高い１つの識別器を選択する識別器選択手段と、識別器選択手段により選択された識別器の正答率、または識別器選択手段により選択された識別器に対応する特徴量を上記の対象データから導出するのに要する計算量の合計が、所定の基準を超えたか否かを判定し、その正答率または計算量の合計が所定の基準を超えるまで、識別器選択手段を繰返し動作させる判定手段と、識別器選択手段により選択された識別器に基づいて、上記の識別処理に用いる少なくとも１つの特徴量の種類と識別条件とを決定する決定手段とを備えていることを特徴とするものである。

ここで、本発明において「正答率」とは、判定手段の１回目の動作においては選択された１つの識別器を使用して、２回目以降の繰返し動作においてはそれまでに選択された複数の識別器を組み合わせて使用して、各サンプルデータが特定内容のデータであるか否かを識別した結果が、実際に特定内容のデータであるか否かの答えと一致する率を指す。なお、正答率の評価には、サンプルデータ群をなすデータの全部を使用してもよいし、一部のみを使用してもよい。

また、上記には「繰返し動作させる判定手段」とあるが、識別器選択手段を１回動作させただけで正答率または計算量の合計が所定の基準を超えた場合には、繰返し動作は行なわれないこととなる。さらに、各繰返し動作において識別器の選択に使用されるデータがサンプルデータ群をなすデータの一部である場合には、使用する「データの一部」は、繰返し動作ごとに異なるものであってもよい。

上記の本発明に係る第２の識別処理に用いる特徴量の種類と識別条件を決定する装置においては、上記のサンプルデータ群が、そのサンプルデータ群をなすデータの各々に、初期値が等しい重みが与えられた重み付きサンプルデータ群であって、上記の識別器選択手段が、各動作ごとに、重みを加味した識別精度が最も高い１つの識別器を選択し、その１つの識別器によっては正しく識別されない各データの重みがそのデータの現在の重みよりも高くなり、かつ／またはその１つの識別器によって正しく識別される各データの重みがそのデータの現在の重みよりも低くなるように、サンプルデータ群をなす各データの重みを更新するものであってもよい。

上記のように、識別器選択手段が各動作ごとに「重みを加味した識別精度」が最も高い１つの識別器を選択する場合、たとえば、各サンプルデータの重みが等しいときには、単純に正しく識別されるサンプルデータの数が最も多い識別器が選択される。一方、各サンプルデータの重みが異なるときには、重みの低いサンプルデータよりも、重みの高いサンプルデータが正しく識別されることにより重点が置かれる。

また、上記の本発明に係る第１および第２の識別処理に用いる特徴量の種類と識別条件を決定する装置においては、各識別器は、上記の特定内容のデータであることが分かっている複数のデータが示すその識別器に対応する特徴量の値のヒストグラムの各頻度値と、上記の特定内容のデータでないことが分かっている複数のデータが示すその識別器に対応する特徴量の値のヒストグラムの各頻度値との、比または差分を表したヒストグラムであってもよい。

ここで、上記の「比または差分を表したヒストグラム」とは、頻度値の比または差分の値をそのまま表したヒストグラムであってもよいし、それらの対数値等を表したヒストグラムであってもよい。

さらに、上記の本発明に係る第１および第２の識別処理に用いる特徴量の種類と識別条件を決定する装置においては、上記の対象データおよび上記のサンプルデータ群をなす各データが画像データであり、上記の特定内容が、その対象データが示し得る特定シーンであってもよい。

本発明に係る第１のプログラムは、対象データが特定内容のデータであるか否かを識別する識別処理に用いる少なくとも１つの特徴量の種類と、それらの少なくとも１つの特徴量の各々に対応する識別条件とを決定するためのプログラムであって、コンピュータを、特定内容のデータであることが分かっている複数のデータと、特定内容のデータでないことが分かっている複数のデータとからなるサンプルデータ群に基づいて、上記の識別処理に用いられ得る複数の特徴量の各々について、対応する識別器を作成する識別器作成手段、それらの識別器の各々について、上記のサンプルデータ群をなすデータの全部または一部に対するその識別器による識別精度を表す指標値を特定する識別精度特定手段、上記の識別器の各々について、その識別器に対応する特徴量を上記の対象データから導出するのに要する計算量を表す指標値を特定する計算量特定手段、上記の識別器の各々について、上記の識別精度を表す指標値と上記の計算量を表す指標値から総合評価値を導出し、最も良好な総合評価値が導出された識別器から順に、少なくとも１つの識別器を選択する識別器選択手段、および、識別器選択手段により選択された上記の少なくとも１つの識別器に基づいて、上記の識別処理に用いる少なくとも１つの特徴量の種類と識別条件とを決定する決定手段として機能させることを特徴とするものである。また、本発明に係る第１の記録媒体は、上記のようなプログラムを記録したコンピュータ読取可能な記録媒体である。

一方、本発明に係る第２のプログラムは、対象データが特定内容のデータであるか否かを識別する識別処理に用いる少なくとも１つの特徴量の種類と、それらの少なくとも１つの特徴量の各々に対応する識別条件とを決定するためのプログラムであって、コンピュータを、特定内容のデータであることが分かっている複数のデータと、特定内容のデータでないことが分かっている複数のデータとからなるサンプルデータ群に基づいて作成された、上記の識別処理に用いられ得る複数の特徴量の各々に対応する識別器のうち、上記のサンプルデータ群をなすデータの全部または一部に対する識別精度が最も高い１つの識別器を選択する識別器選択手段、識別器選択手段により選択された識別器の正答率、または識別器選択手段により選択された識別器に対応する特徴量を上記の対象データから導出するのに要する計算量の合計が、所定の基準を超えたか否かを判定し、その正答率または計算量の合計が所定の基準を超えるまで、上記の識別器選択手段を繰返し動作させる判定手段、および、識別器選択手段により選択された識別器に基づいて、上記の識別処理に用いる少なくとも１つの特徴量の種類と識別条件とを決定する決定手段として機能させることを特徴とするものである。また、本発明に係る第２の記録媒体は、上記のようなプログラムを記録したコンピュータ読取可能な記録媒体である。

また、本発明に係る第１の特定内容のデータを選別する装置は、データの所望の特定内容の指定を受け付けるデータ内容指定受付手段と、選別対象である対象データの入力を受け付ける対象データ入力受付手段と、特定内容として指定され得る複数の内容ごとに、対象データがその内容のデータであるか否かの識別に用いる少なくとも１つの特徴量の種類と、それらの少なくとも１つの特徴量の各々に対応する識別条件とを予め規定した参照データを、上記のデータ内容指定受付手段において指定された特定内容に基づいて参照して、上記の対象データから、特定内容のデータであるか否かの識別に用いる少なくとも１つの特徴量を導出する特徴量導出手段と、特徴量導出手段により導出された上記の少なくとも１つの特徴量の各々に基づいて、上記の参照データが規定する対応する識別条件を参照し、上記の対象データが上記のデータ内容指定受付手段において指定された特定内容のデータであるか否かを識別する識別手段とを備えてなり、上記の参照データが、上記の複数の内容の各々について、その内容のデータであることが分かっている複数のデータと、その内容のデータでないことが分かっている複数のデータとからなるサンプルデータ群を、予め学習することにより決定されたものであって、上記の複数の内容の各々についての学習が、上記のサンプルデータ群に基づいて、上記の識別手段による識別に用いられ得る複数の特徴量の各々について、対応する識別器を作成する工程と、それらの識別器の各々について、上記のサンプルデータ群をなすデータの全部または一部に対するその識別器による識別精度を表す指標値を特定する工程と、上記の識別器の各々について、その識別器に対応する特徴量を上記の対象データから導出するのに要する計算量を表す指標値を特定する工程と、上記の識別器の各々について、上記の識別精度を表す指標値と上記の計算量を表す指標値から総合評価値を導出し、最も良好な総合評価値が導出された識別器から順に、少なくとも１つの識別器を選択する工程と、選択された上記の少なくとも１つの識別器に基づいて、現在の学習内容のデータであるか否かの識別に用いる少なくとも１つの特徴量の種類と識別条件とを決定する工程とを含む方法によるものであることを特徴とするものである。

一方、本発明に係る第２の特定内容のデータを選別する装置は、データの所望の特定内容の指定を受け付けるデータ内容指定受付手段と、選別対象である対象データの入力を受け付ける対象データ入力受付手段と、特定内容として指定され得る複数の内容ごとに、対象データがその内容のデータであるか否かの識別に用いる少なくとも１つの特徴量の種類と、それらの少なくとも１つの特徴量の各々に対応する識別条件とを予め規定した参照データを、上記のデータ内容指定受付手段において指定された特定内容に基づいて参照して、上記の対象データから、特定内容のデータであるか否かの識別に用いる少なくとも１つの特徴量を導出する特徴量導出手段と、特徴量導出手段により導出された上記の少なくとも１つの特徴量の各々に基づいて、上記の参照データが規定する対応する識別条件を参照し、上記の対象データが上記のデータ内容指定受付手段において指定された特定内容のデータであるか否かを識別する識別手段とを備えてなり、上記の参照データが、上記の複数の内容の各々について、その内容のデータであることが分かっている複数のデータと、その内容のデータでないことが分かっている複数のデータとからなるサンプルデータ群を、予め学習することにより決定されたものであって、上記の複数の内容の各々についての学習が、上記のサンプルデータ群に基づいて作成された、上記の識別手段による識別に用いられ得る複数の特徴量の各々に対応する識別器のうち、上記のサンプルデータ群をなすデータの全部または一部に対する識別精度が最も高い１つの識別器を選択する工程と、その選択する工程において選択された識別器の正答率、またはその選択する工程において選択された識別器に対応する特徴量を上記の対象データから導出するのに要する計算量の合計が、所定の基準を超えるまで、上記の選択する工程を繰り返す工程と、上記の選択する工程において選択された識別器に基づいて、現在の学習内容のデータであるか否かの識別に用いる少なくとも１つの特徴量の種類と識別条件とを決定する工程とを含む方法によるものであることを特徴とするものである。

ここで、上記の本発明に係る第１および第２の特定内容のデータを選別する装置は、上記の識別手段により正しい識別結果が得られなかった対象データについて、その対象データが示す正しい内容の指定を受け付ける正解受付手段と、上記の正しい内容の指定が受け付けられた対象データを学習することにより、上記の参照データを更新する追加学習手段とをさらに備えているものであってもよい。

また、上記の本発明に係る第１および第２の特定内容のデータを選別する装置においては、上記の対象データおよび上記のサンプルデータ群をなす各データが画像データであり、上記の特定内容が、上記の対象データが示し得る特定シーンであってもよい。

本発明に係る識別処理に用いる特徴量の種類と識別条件とを決定する装置、プログラム、およびプログラムを記録した記録媒体によれば、識別処理に用いる識別条件のみならず、その識別処理に適した特徴量の種類をも併せて自動的に選択することができ、しかも、それらの特徴量の種類の選択を、識別処理における識別精度と計算量の負担との所望のバランスに応じて行なうことができる。

さらに、識別精度を表す指標値と計算量を表す指標値から総合評価値を導出して特徴量の種類と識別条件とを決定する場合において、識別処理の実行環境の計算能力および／または識別処理の所望の処理速度に応じて、総合評価値を導出する際の識別精度を表す指標値と計算量を表す指標値の比重を変更できるようにすれば、識別処理において、計算能力および／または所望の処理速度に応じた識別精度と計算量の負担との最適なバランスを実現することができる。

また、特徴量の種類と識別条件の決定に用いるサンプルデータ群をなす各データに重みを与え、重みを順次更新しながら、重みを加味した識別精度を基準として識別器を選択し、選択された識別器の正答率と計算量の合計とを基準にして特徴量の種類と識別条件を決定する場合には、先に選択した識別器では正しく識別できなかったサンプルデータを重要視して、それらのサンプルデータを正しく識別できる追加の識別器が順次選択され、それらの識別器に基づいて識別処理に用いる特徴量の種類と識別条件が決定されるため、後の識別処理において、多様な対象データに対して精度が高く漏れの少ない識別を行なうことが可能となる。

また、本発明に係る特定内容のデータを選別する装置は、識別に使用する特徴量の種類および識別条件を特定内容ごとに規定した参照データを用いているため、装置を構成する各手段を動作させるアルゴリズム自体は所望の特定内容にかかわらず共通のものとすることができ、装置の開発コストを低く抑えながら、各特定内容に合った対象データの選別を行なうことができる。しかも、使用する参照データは、識別精度と特徴量導出手段が行なう計算処理の計算量の負担とのバランスを考慮した学習手法により決定されたものであるため、装置の計算能力および／または所望の処理速度の範囲内で、最大限の高精度の識別による対象データの選別を行なうことができる。さらに、複雑な識別アルゴリズムの変更、追加および実装等の作業を要することなく、参照データを改変するだけで、識別基準の変更や、識別可能な特定内容の追加を、簡単に行なうことができる。

さらに、正しい識別結果が得られなかった対象データについて正しい内容の指定を受け付けて、それらの対象データの追加学習による参照データの更新を行なうことを可能とした場合には、実際の対象データに合わせて継続的に選別の精度を向上させていくことができる。また、ユーザーが頻繁に指定する特定内容に関しては、参照データの内容が特に充実していくため、より高い識別精度を実現することができる。

上記の本発明の効果は、識別の対象データが情報量の多い画像データ等であり、計算量の負担の問題が軽視できない場合において、特に有効なものである。

以下、図面により、本発明の例示的な実施形態を詳細に説明する。

まず、図１から図４を用いて、本発明の第１の実施形態を説明する。図１は、本発明の第１の実施形態に係る、画像データが特定シーンのデータであるか否かを識別する識別処理に用いる特徴量の種類と識別条件とを決定するための、装置１０の構成を示したブロック図である。装置１０は、特定シーンの画像データであることが分かっている複数のサンプル画像データと、特定シーンの画像でないことが分かっている複数のサンプル画像データからなるサンプル画像データ群を学習することによって、識別処理に用いる特徴量の種類と、各特徴量に対応する識別条件とを決定するものであり、サンプル画像データの入力を順次受け付けるサンプル入力受付部１２と、入力されたサンプル画像データを格納するサンプル用メモリ１４とを備えている。装置１０はさらに、サンプル用メモリ１４に格納されたサンプル画像データから複数の識別器を作成する識別器作成部１６、識別器作成部１６が作成した識別器の各々について識別精度を表す指標値を特定する識別精度特定部１８、識別器作成部１６が作成した識別器の各々について対応する特徴量の導出に必要な計算量を表す指標値を特定する計算量特定部２０、識別精度特定部１８および計算量特定部２０からの入力に基づいて良好な識別器を選択する識別器選択部２２、および識別器選択部２２が選択した識別器に基づいて識別処理に使用する特徴量の種類と識別条件とを決定する識別条件決定部２４とを備えている。

以下、図２のフローチャートを参照しながら、特定シーンが「水中」のシーンである場合を例にとって、図１の装置１０が行なう処理の詳細な工程について説明する。

まず、ステップ３０において、サンプル入力受付部１２が、「水中」のシーンの画像データであることが分かっている複数のサンプル画像データと、「水中」のシーンの画像データでないことが分かっている複数のサンプル画像データの入力を順次受け付ける。本実施形態では、各サンプル画像データは、そのサンプル画像をなす各画素ごとに濃度Ｒ、ＧおよびＢの値を示したデータであるとする。入力された各サンプル画像データは、「水中」のシーンであるか否かのラベルが付けられた状態で、サンプル用メモリ１４に格納される。

次に、ステップ３２において、識別器作成部１６が、識別処理に使用され得る複数の特徴量について、「識別器」を作成する。ここでの「識別器」は、１つの特徴量を用いて「水中」のシーンの画像データとそうでない画像データとを識別する基準を提供するものである。本実施形態では、図３に導出方法を図示した各特徴量についてのヒストグラムを「識別器」として使用する。図３を参照しながら説明すると、識別器作成部１６は、まず、「水中」のシーンの画像データであることが分かっている複数のサンプル画像データの各々から、ある特徴量（たとえばそのサンプル画像における濃度Ｂの平均値）を１つずつ導出し、その値の分布を示すヒストグラムを作成する。同様に、「水中」のシーンの画像データでないことが分かっている複数のサンプル画像データからも、ヒストグラムを作成する。その後、これらの２つのヒストグラムが示す頻度値の比の対数値を取って、図３の一番右側に示す、識別器として用いられるヒストグラムを作成する。このヒストグラムが示す各縦軸の値を、以下、「識別ポイント」と呼ぶことにする。このヒストグラム形式の識別器によれば、正の識別ポイントに対応する特徴量の値を示す画像は「水中」のシーンの画像である可能性が高く、識別ポイントの絶対値が大きいほどその可能性は高まると言える。逆に、負の識別ポイントに対応する特徴量の値を示す画像は「水中」のシーンの画像でない可能性が高く、やはり識別ポイントの絶対値が大きいほどその可能性は高まる。したがって、この識別器は、「水中」のシーンの画像データとそうでない画像データとを識別する基準を提供するものである。ステップ３２において、識別器作成部１６は、識別に使用され得る複数の特徴量、たとえば、濃度Ｒ、ＧならびにＢ、輝度Ｙ、色差ＣｒならびにＣｂ、彩度および色相のそれぞれについての平均値、いくつかのｎ％点、およびいくつかの（ｍ％点）−（ｎ％点）のすべてについて、上記のヒストグラム形式の識別器を作成する。なお、「平均値」とは、１つのサンプル画像の全体に亘るある特性値（各色の濃度等）の平均値を、「ｎ％点」（０＜ｎ＜１００）とは、１つのサンプル画像またはその縮小画像の各画素におけるある特性値を累積ヒストグラムで表した場合に、全画素数のｎ％の計数値に対応する特性値を、「（ｍ％点）−（ｎ％点）」（０＜ｍ，ｎ＜１００）とは、ｍ％点とｎ％点の差分値を指すものである。ただし、作成する識別器に対応する特徴量の種類は、これらに限られずいかなるものであってもよく、たとえば、各特性値の最大値や最小値を用いてもよいし、エッジ強度、テクスチャー、奥行情報に関する特徴量等を用いてもよい。また、異なる複数の特性値を組み合わせた重み付き加算値等を、特徴量として用いてもよい。

続いて、ステップ３４において、識別精度特定部１８が、各識別器について、その識別器の識別精度を表す指標値（以下、単に「識別精度指標値」と呼ぶ）を特定する。本実施形態では、識別精度指標値１８は、全サンプル画像データに対する各識別器の誤識別率、すなわち、実際には「水中」のシーンであるのにその識別器を用いると「水中」のシーンでないものとして識別されてしまうサンプル画像データの数と、実際には「水中」のシーンでないのにその識別器を用いると「水中」のシーンであるものとして識別されてしまうサンプル画像データの数との、全サンプル画像データ数に対する割合を、識別精度指標値として算出するものとする。したがって、ここでは識別精度指標値が小さいほど、誤識別率が低く「水中」のシーンを識別するのに好ましい識別器ということになる。

一方、ステップ３４と並行して行なわれるステップ３６では、計算量特定部２０が、各識別器について、その識別器に対応する特徴量を、後の識別処理の対象となる画像データから導出するのに要する計算量を表す指標値（以下、単に「計算量指標値」と呼ぶ）を特定する。本実施形態では、後の識別処理の対象となる画像データが対象画像の各画素ごとに濃度Ｒ、ＧおよびＢの値を示したデータであるとし、そのようなデータから各識別器に対応する特徴量を導出するのに必要な計算回数を、計算量指標値として使用することとする。したがって、ここでは計算量指標値が小さいほど、識別処理に使用した際の計算量の負担が少なく、好ましい識別器ということになる。

次に、ステップ３８において、識別器選択部２２が、識別精度特定部１８から各識別器と対応付けられた識別精度指標値を、計算量特定部２０から各識別器と対応付けられた計算量指標値を入力として受け取り、各識別器について、総合評価値を導出する。本実施形態では、係数ａおよびｂを用いて、
（総合評価値）＝ａ×（識別精度指標値）＋ｂ×（計算量指標値）
によって総合評価値を導出するものとする。係数ａおよびｂとしては、常に固定された値を用いてもよいが、後に行なう識別処理の実行環境の計算能力および／または識別処理の所望の処理速度に応じて、係数ａおよびｂを変更できるように識別器選択部２２が構成されていることが好ましい。

続いて、ステップ４０において、識別器選択部２２が、ステップ３８で導出した総合評価値が所定の閾値以下であるすべての識別器を、識別精度と計算量の負担のバランスを考慮した良好な識別器として選択する。

最後に、ステップ４２において、識別条件決定部２４が、識別器選択部２２が選択した識別器に基づいて、識別処理に使用する特徴量の種類と識別条件とを決定する。決定される特徴量の種類は、識別器選択部２２が選択した各識別器に対応する特徴量の種類である。また、各特徴量の種類に対応する識別条件は、本実施形態では、各特徴量に対応する識別器のヒストグラム（図３の一番右側のヒストグラム参照）が示す識別ポイントを、小さい特徴量の値に対応するものから順番に列記した、正負の値をとる数列形式のものとする。

以上、特定シーンが「水中」のシーンである場合を例にとって、図１の装置１０が行なう処理の詳細な工程について説明した。さらに「夕焼け」や「夜景」等の他の特定シーンについても同様の処理による学習を行なうと、様々な特定シーンについて、図４に示すような、対象画像の画像データが特定シーンの画像データである否かの識別処理に用いる適当な特徴量の種類と、識別条件との対応表を導出することができる。

なお、識別精度指標値は、上記の誤識別率に限られずいかなるものであってもよく、たとえば適当な評価関数による評価値等であってもよい。あるいは、図３に示す比の対数を取る前の２つのヒストグラムの分布領域が明確に分かれており識別ポイントの絶対値の総和が大きい識別器ほど、「水中」のシーンの画像の識別に適していると言えるので、この絶対値の総和等を識別精度指標値としてもよい。さらに、上記の第１の実施形態では、識別精度特定部１８は、全サンプル画像データに対する各識別器の識別精度を調べて識別精度指標値を特定するものとしたが、計算の負担を軽減するため、全サンプル画像データの中から無作為に選んだ一部のサンプル画像データに対する識別精度のみを調べるものとしてもよい。

また、計算量指標値も、上記の計算回数に限られずいかなるものであってもよく、たとえば、識別処理の対象となる画像データから特徴量を導出するアルゴリズムにおける反復処理の繰返し回数等を示す値を用いてもよい。

さらに、上記の第１の実施形態では、識別器選択部２２は、総合評価値が所定の閾値以下である識別器を選択するものとしたが、これに限られず、たとえば総合評価値が小さいものから順に一定数の識別器を選択するもの等であってもよい。あるいは、識別器選択部２２は、総合評価値が小さいものから順に識別器を１つずつ選択していき、選択された識別器の正答率が閾値を超えるか、選択された識別器に対応する特徴量を対象データから導出するのに要する計算量の合計が閾値を超えるまで、選択を繰り返すもの等であってもよい。

また、上記の第１の実施形態では、各サンプル画像データは、そのサンプル画像をなす各画素ごとに濃度Ｒ、ＧおよびＢの値を示したデータとしたが、これに限られず、そのサンプル画像から導出した特徴量群等であってもよい。その場合、識別器作成部１６は、特徴量の計算は行なわずに各特徴量から直接に識別器を作成することとなる。

さらに、上記の第１の実施形態ではヒストグラム形式の識別器を作成するものとしたが、ここでの識別器は、１つの特徴量を用いて特定シーンの画像データとそうでない画像データとを識別する基準を提供するものであればいかなるものであってもよく、たとえば２値データ、閾値または関数等であってもよい。また、同じヒストグラムの形式であっても、図３の中央に示した２つのヒストグラムの差分値の分布を示すヒストグラム等を用いてもよい。

上記の第１の実施形態に係る装置１０によれば、識別処理に用いる識別条件のみならず、その識別処理に適した特徴量の種類をも、併せて自動的に選択することができる。しかも、上記の装置１０は、各識別器の識別精度と対応する特徴量の計算量の負担とを併せて評価する総合指標値に基づいて識別器を選択して、それらの識別器に基づいて識別処理に用いる特徴量の種類および識別条件を決定するものであるので、装置１０が決定した特徴量の種類および識別条件を用いれば、識別精度と計算量の負担とのバランスが極めてよい識別処理を行なうことができる。さらに、総合評価値の導出に用いる係数ａおよびｂを、後に行なう識別処理の実行環境の計算能力および／または識別処理の所望の処理速度に応じて変更できるものとすれば、識別処理において、計算能力および／または所望の処理速度に応じた識別精度と計算量の負担との最適なバランスを実現することができる。

以上、本発明の第１の実施形態に係る装置１０について説明したが、コンピュータを、上記の識別器作成部１６、識別精度特定部１８、計算量特定部２０、識別器選択部２２および識別条件決定部２４に対応する手段として機能させ、図２に示すような処理を行なわせるプログラムも、本発明の実施形態の１つである。また、そのようなプログラムを記録したコンピュータ読取可能な記録媒体も、本発明の実施形態の１つである。

次に、図５および図６を用いて、本発明の第２の実施形態を説明する。図５は、本発明の第２の実施形態に係る、画像データが特定シーンのデータであるか否かを識別する識別処理に用いる特徴量の種類と識別条件とを決定するための、装置５０の構成を示したブロック図である。装置５０は、上記の第１の実施形態に係る装置１０と同様に、特定シーンの画像データであることが分かっている複数のサンプル画像データと、特定シーンの画像データでないことが分かっている複数のサンプル画像データからなるサンプル画像データ群を学習することによって、識別処理に用いる特徴量の種類と、各特徴量に対応する識別条件とを決定するものであり、サンプル入力受付部５２と、サンプル用メモリ５４とを備えている。装置５０はさらに、サンプル用メモリ５４に格納されたサンプル画像データから複数の識別器を作成する識別器作成部５６、識別精度を基準として良好な識別器を選択する識別器選択部５８、選択した識別器の正答率および対応する特徴量の導出に必要な計算量の合計を基準としてさらに追加の識別器を選択するか否かを判定する判定部６０、各特徴量の導出に必要な計算量に関するデータを格納した計算量データ用メモリ６２、および選択された識別器に基づいて識別処理に使用する特徴量の種類と識別条件とを決定する識別条件決定部６４とを備えている。

以下、図６のフローチャートを参照しながら、特定シーンが「水中」のシーンである場合を例にとって、図５の装置５０が行なう処理の詳細な工程について説明する。

まず、ステップ７０において、サンプル入力受付部５２が、「水中」のシーンの画像データであることが分かっている複数のサンプル画像データと、「水中」のシーンの画像データでないことが分かっている複数のサンプル画像データの入力を順次受け付ける。本実施形態では、各サンプル画像データは、上記の第１の実施形態と同様に、そのサンプル画像をなす各画素ごとに濃度Ｒ、ＧおよびＢの値を示したデータであるとする。

次に、ステップ７２において、サンプル入力受付部５２が、各サンプル画像データに等しい重みを初期値として割り当て、各サンプル画像データを、「水中」のシーンであるか否かのラベルおよび重みが付けられた状態で、サンプル用メモリ５４に格納する。

続いて、ステップ７４において、識別器作成部５６が、サンプル用メモリ５４中のサンプル画像データを用いて、識別処理に使用され得る複数の特徴量について「識別器」を作成する。本実施形態では、上記の第１の実施形態と同様のヒストグラム形式の識別器を作成するものとする。

次に、ステップ７６において、識別器選択部５８が、識別器作成部５６が作成した識別器の中から、各サンプル画像データの重みを加味した識別精度が最も高い１つの識別器を選択する。ここでは、全サンプル画像データを使用して、重みを加味した識別精度を評価する。すなわち、最初のステップ７６では、各サンプル画像データの重みは等しいので、単純に、その識別器によって「水中」のシーンであるか否かが正しく識別されるサンプル画像データの数が最も多い識別器が選択される。一方、後述するステップ８４において各サンプル画像データの重みが更新された後の２回目以降のステップ７６では、たとえばあるサンプル画像データＡの重みが別のサンプル画像データＢの重みの２倍であるとすると、サンプル画像データＡは、識別精度の評価において、サンプル画像データＢの２つ分相当として数えられる。これにより、２回目以降のステップ７６では、重みの低いサンプル画像データよりも、重みの高いサンプル画像データが正しく識別されることにより重点を置いて、識別器が選択される。

続いて、ステップ７８において、判別部６０が、それまでに選択された識別器の正答率、すなわち、それまでに選択された識別器を使用して各サンプル画像が「水中」のシーンの画像であるか否かを識別した結果が実際に「水中」のシーンの画像であるか否かの答えと一致する率が、所定の閾値を超えたか否かを確かめる。ここで、正答率の評価に用いられるのは、現在の重みが付けられたサンプル画像データでも、重みが等しくされたサンプル画像データでもよい。正答率が所定の閾値を超えている場合は、それまでに選択された識別器を用いれば「水中」のシーンの画像であるか否かを十分に高い識別精度で識別できることを意味する。

ステップ７８において正答率がまだ閾値を超えていないと確認された場合は、図６の処理はステップ８０へと進む。ステップ８０では、判別部６０は、それまでに選択された識別器に対応する特徴量を後の識別処理の対象となる画像データから導出するのに要する計算量の合計が、所定の閾値を超えたか否かを確認する。各特徴量と、その特徴量を識別処理の対象となる画像データから導出するのに必要な計算量との対応関係を示したデータは、計算量データ用メモリ６２に格納されており、判別部６０はこの計算量データ用メモリ６２内のデータを参照してステップ８０の処理を行なう。ここで計算量の合計が所定の閾値を超えている場合は、さらに追加の識別器を選択して識別処理に用いる特徴量の種類を増やしてしまうと、識別処理における計算量の負担が過大となることを意味する。

ステップ８０において計算量の合計がまだ閾値を超えていないと確認された場合は、図６の処理はステップ８２へと進む。ステップ８２では、直近のステップ７６で選択されたものに対応する識別器が再び選択されないようにするため、その識別器に対応する特徴量が除外される。

次いで、ステップ８４において、識別器選択部５８が、直近のステップ７６で選択された識別器では「水中」のシーンの画像データであるか否かを正しく識別できなかった各サンプル画像データの重みを、そのサンプル画像データの現在の重みよりも高くなるように更新する。一方、直近のステップ７６で選択された識別器で「水中」のシーンの画像であるか否かを正しく識別できた各サンプル画像データの重みは、そのサンプル画像データの現在の重みよりも低くなるように更新される。この重みの更新を行なう理由は、次の識別器の選択において、既に選択された識別器では正しく識別できなかったサンプル画像データを重要視し、それらのサンプル画像データを正しく識別できる識別器が選択されるようにして、識別器の組合わせの効果を高めるためである。なお、正しく識別できなかったサンプル画像データの重みと、正しく識別できたサンプル画像データの重みとが相対的に変化させられれば十分であるので、上記の重みを高くする更新と重みを低くする更新とのいずれか一方のみを行なうこととしてもよい。

続いて、図６の処理はステップ７４へと戻り、ステップ８２で除外されたものを除く各特徴量について、識別器作成部５６が、識別器を作成し直す。この２回目以降のステップ７４における識別器の作成は、各サンプル画像データの重みを考慮して行なわれる。たとえば、あるサンプル画像データＡの重みが別のサンプル画像データＢの重みの２倍であるとすると、サンプル画像データＡは、図３の中央に示す識別器のもととなるヒストグラムの作成において、サンプル画像データＢの２倍の頻度値を与える。計算量を減らすため、前回のステップ７４で作成した識別器を更新する形で新たな識別器を作成してもよい。その後、ステップ７６において、重みを加味した識別精度を基準として、次の識別器が選択される。

以上のステップ７４から８４の処理が、正答率または計算量の合計が所定の閾値を超えるまで繰り返された後、図６の処理はステップ８６へと進む。ステップ８６では、識別条件決定部６４が、識別器選択部５８がそれまでに選択した識別器に基づいて、識別処理に使用する特徴量の種類と識別条件とを決定する。決定される特徴量の種類は、識別器選択部５８が選択した各識別器に対応する特徴量の種類である。また、識別条件は、本実施形態でも、上記の第１の実施形態と同様の数列形式のものとする。

以上、特定シーンが「水中」のシーンである場合を例にとって、図５の装置５０が行なう処理の詳細な工程について説明した。さらに「夕焼け」や「夜景」等の他の特定シーンについても同様の処理による学習を行なうと、第１の実施形態と同様に、様々な特定シーンについて、図４に示すような、特定シーン、識別処理に用いる適当な特徴量の種類、および識別条件の対応表を導出することができる。

なお、上記の第２の実施形態では、各サンプル画像データに重みを割り当て、識別器選択部５８において重みを加味した識別精度を基準に識別器を選択することとしたが、サンプル画像データに重みを割り当てずに、図６のステップ７２とステップ８４を省略した処理を行なうこととしてもよい。その場合、図６のステップ７６では、識別器選択部５８は、重みを加味しない単純な識別精度に基づいて識別器を選択することとなる。

また、識別器選択部５８は、適当な評価関数や、各識別器が示す識別ポイントの絶対値の総和等を用いて、識別精度が最も高い識別器を選択するものであってもよい。

さらに、上記の第２の実施形態では、識別器選択部５８は、ステップ７６において、全サンプル画像データに対する各識別器の識別精度に基づいて識別器を選択するものとしたが、サンプル画像データの一部に対する識別精度に基づいて識別器を選択するものとしてもよい。この場合、繰返し動作ごとに、サンプル画像データの異なる部分を使用してもよい。たとえば、１回目のステップ７６では、全サンプル画像データの中から無作為に選んだサンプル画像データの集合を使用し、２回目のステップ７６では、１回目のステップ７６で選択した識別器ではあまりよい識別精度が得られないようなサンプル画像データの集合を選んで使用してもよい。

また、上記の第２の実施形態では、各サンプル画像データは、そのサンプル画像をなす各画素ごとに濃度Ｒ、ＧおよびＢの値を示したデータとしたが、これに限られず、そのサンプル画像から導出した特徴量群等であってもよい。その場合、識別器作成部５６は、特徴量の計算は行なわずに各特徴量から直接に識別器を作成することとなる。

さらに、上記の第２の実施形態ではヒストグラム形式の識別器を作成するものとしたが、ここでの識別器は、１つの特徴量を用いて特定シーンの画像データとそうでない画像データを識別する基準を提供するものであればいかなるものであってもよく、たとえば２値データ、閾値または関数等であってもよい。また、同じヒストグラムの形式であっても、図３の中央に示した２つのヒストグラムの差分値の分布を示すヒストグラム等を用いてもよい。

また、上記の例では、１つの識別器が選択されるごとに、次の識別器の選択に先立って、ステップ７４で各サンプル画像データの重みを考慮して識別器を作成し直すこととしたが、図６の処理をステップ８４からステップ７６へと戻すこととし、最初に作成した識別器の中から、重みを加味した識別精度を基準にして識別器を順次選択することとしてもよい。なお、図６を用いて説明した例のように、１つの識別器が選択されるごとに各サンプル画像データの重みを考慮して識別器を作成し直す態様においては、ステップ７６における識別器の選択は、重みを加味した識別精度ではなく単純な識別精度を基準としてもよい。

上記の第２の実施形態に係る装置５０によれば、識別処理に用いる識別条件のみならず、その識別処理に適した特徴量の種類をも、併せて自動的に選択することができる。しかも、上記の装置５０は、正答率が所定の閾値を超えた場合のみならず計算量の合計が所定の閾値を超えた場合にも、追加の識別器を選択する繰返し処理を終了するものであるので、装置５０が決定した特徴量の種類および識別条件を用いれば、識別精度と計算量の負担とのバランスが極めてよい識別処理を行なうことができる。さらに、正答率および／または計算量の合計に関する閾値を調整することで、後に行なう識別処理の実行環境の計算能力および／または識別処理の所望の処理速度に応じた識別精度と計算量の負担との最適なバランスを実現することもできる。また、上記の図６を用いて説明したように、各サンプル画像データに重みを割り当て、重みを加味した識別精度を基準に識別器を選択し、各サンプル画像データの重みを順次更新していくこととすれば、先に選択した識別器では正しく識別できなかったサンプル画像データを重要視して、それらの画像データを正しく識別できる追加の識別器が順次選択され、それらの識別器に基づいて識別処理に用いる特徴量の種類と識別条件が決定されるため、後の識別処理において、多様な画像に対して精度が高く漏れの少ない識別を行なうことが可能となる。

以上、本発明の第２の実施形態に係る装置５０について説明したが、コンピュータを、上記の識別器作成部５６、識別器選択部５８、判定部６０および識別条件決定部６４に対応する手段として機能させ、図６に示すような処理を行なわせるプログラムも、本発明の実施形態の１つである。また、そのようなプログラムを記録したコンピュータ読取可能な記録媒体も、本発明の実施形態の１つである。

次に、図７および図８を用いて、本発明の第３の実施形態について説明する。図７は、本発明の第３の実施形態に係る特定シーンの画像データを選別する装置９０の構成を示したブロック図である。この図に示すように、装置９０は、識別したい特定シーンの指定を受け付けるシーン指定受付部９２と、選別対象の画像データの入力を受け付ける画像入力受付部９４と、識別のための参照データが格納されているメモリ９６と、シーン指定受付部９２および画像入力受付部９４から入力を受け取り、メモリ９６内の参照データを参照して必要な特徴量を導出する特徴量導出部９８と、特徴量導出部９８が導出した特徴量とメモリ９６内の参照データに基づいて、入力された画像データが指定された特定シーンの画像のデータであるか否かを識別する識別部１００を備えている。

メモリ９６内に格納されている参照データは、識別したい特定シーンとして指定され得る複数のシーンごとに、そのシーンの識別に用いる特徴量の種類と、それらの特徴量の各々に対応する識別条件とを規定したものであり、本実施形態では、図４に示すような参照表形式等のデータであるとする。図４には、「水中」、「夕焼け」および「夜景」の３つのシーンに関するデータのみが示されているが、実際の参照データは、通常、これよりずっと多くのシーンについてのデータからなる。識別に用いる特徴量の種類および数は、シーンごとに異なっていてもよい。

この参照データは、特定シーンとして指定され得る「水中」、「夕焼け」および「夜景」等のシーンごとに、そのシーンの画像データであることが分かっている複数のサンプル画像データと、そのシーンの画像データでないことが分かっている複数のサンプル画像データとからなる、サンプル画像データ群を予め学習することにより決定されたものである。各シーンについての学習は、上記の第１および第２の実施形態に関連して説明した、図２または図６に示す処理あるいはそれらの変更例のいずれかに対応する手法により、行なわれたものとする。したがって、この参照データは、各シーンごとに、識別精度と上記の特徴量導出部９８が行なう計算処理の計算量の負担とのバランスを考慮した、最適な特徴量の種類および識別条件を規定したものとなっている。

次に、図８のフローチャートを参照しながら、本発明の第３の実施形態に係る図７に示す装置９０が行なう具体的な処理の流れについて説明する。

まず、図８のステップ１１０において、「水中」、「夕焼け」および「夜景」等の特定シーンのうちユーザーが希望する特定シーンの指定が、シーン指定受付部９２により受け付けられる。

次いで、ステップ１１２において、画像入力受付部９４が、選別対象の画像を示す画像データの入力を受け付ける。多数の画像に関する一連の画像データを連続的に受け付けてもよい。本実施形態では、受け付ける画像データは、その画像をなす各画素ごとに濃度Ｒ、ＧおよびＢの値を示すデータとする。

続いて、ステップ１１４において、特徴量導出部９８が、導出すべき特徴量の種類をメモリ９６から読み出す。たとえば、ステップ１１０で指定された特定シーンが「水中」のシーンであるとすると、特徴量導出部９８は、メモリ９６中の図４に示す参照データを参照して、導出すべき特徴量が、濃度Ｂの平均値、濃度Ｂの（８０％点）−（２０％点）の値および色差Ｃｂの７０％点の３種類であることを認識する。

次に、ステップ１１６において、識別部１００が、メモリ９６から識別条件を読み出す。上記の「水中」のシーンが指定された例では、識別部１００は、上記の３種類の特徴量に関する識別条件を、メモリ９６中の図４に示す参照データから読み出す。

続いて、ステップ１１８において、特徴量導出部９８が、ステップ１１２で入力された画像データから、指定された特定シーンの識別に使用される特徴量の１つを導出する。上記の「水中」のシーンが指定された例では、特徴量導出部９８は、上記の３種類の特徴量のいずれかを、入力された画像データから導出する。

次に、ステップ１２０において、識別部１００が、ステップ１１８で導出された特徴量に基づいて対応する識別条件を参照し、１つの識別ポイントを得る。たとえば、直前のステップ１１８において上記の３種類の特徴量のうち濃度Ｂの平均値が画像データから導出された場合は、識別部１００は、ステップ１１６でメモリ９６から読み出した濃度Ｂの平均値に関する識別条件のうちステップ１１８で導出した平均値に対応する部分を参照し、１つの識別ポイントを得る。ここで、図４に示した識別条件は、一定間隔刻みの特徴量の値に対応するデータ点の識別ポイントを列記したものであるので、ステップ１２０において得られる識別ポイントは、画像データから導出した特徴量の値に最も近いデータ点の識別ポイントや、データ点間の線形補間による識別ポイント等となる。

続いて、ステップ１２２において、導出すべきすべての特徴量が導出されたか否かが確認される。上記の「水中」のシーンが指定された例では、濃度Ｂの平均値、濃度Ｂの（８０％点）−（２０％点）の値および色差Ｃｂの７０％点の３種類の特徴量が導出されたか否かが確認され、これら３種類の特徴量の導出および対応する識別ポイントの獲得が完了するまで、ステップ１１８から１２２の処理が繰り返される。

導出すべきすべての特徴量の導出および対応する識別ポイントの獲得が完了すると、図８の処理はステップ１２４へと進み、識別部１００が、獲得したすべての識別ポイントを総合して、入力された画像データが指定された特定シーンの画像であるか否かを識別する。本実施形態では、すべての識別ポイントを加算して、その加算値の正負によって識別を行なうものとする。たとえば、上記の「水中」のシーンが指定された例では、入力された画像データから導出された上記の３種類の特徴量に関する３つの識別ポイントの総和が正の値である場合には、その画像データは「水中」のシーンの画像を示すデータであると判断され、負の値である場合には、「水中」のシーンの画像を示すデータでないと判断される。

最後に、ステップ１２６において、識別部１００から識別結果が出力され、図８の処理は終了する。

なお、上記の第３の実施形態においては、参照データは装置９０内のメモリ９６に記憶されているものとしたが、特徴量導出部９８および識別部１００が参照データにアクセスできる限り、参照データは、装置９０とは別個の装置やＣＤ−ＲＯＭ等の差替可能な媒体に記憶されたものであってもよい。

また、上記の第３の実施形態では、画像入力受付部９４に入力される画像データは、対象画像をなす各画素ごとに濃度Ｒ、ＧおよびＢの値を示すデータとしたが、参照データ決定のための学習過程における計算量の評価に対応するデータであれば、これに限られない。

上記の本発明の第３の実施形態に係る装置９０では、識別に使用する特徴量の種類および識別条件を特定シーンごとに規定した参照データを用いているため、シーン指定受付部９２、画像入力受付部９４、特徴量導出部９８および識別部１００を動作させるアルゴリズム自体は所望の特定シーンにかかわらず共通のものとすることができ、装置の開発コストを低く抑えながら、各特定シーンに合った画像の選別を行なうことができる。しかも、使用する参照データは、識別精度と特徴量導出部９８が行なう計算処理の計算量の負担とのバランスを考慮した学習手法により決定されたものであるため、装置９０の計算能力および／または所望の処理速度の範囲内で、最大限の高精度の識別による画像の選別を行なうことができる。さらに、複雑な識別アルゴリズムの変更、追加および実装等の作業を要することなく、参照データを改変するだけで、識別基準の変更や、識別可能な特定シーンの追加を、簡単に行なうことができる。

以上、本発明の第３の実施形態に係る装置９０について説明したが、当業者であれば、上記の説明に基づいて、コンピュータを、上記のシーン指定受付部９２、画像入力受付部９４、特徴量導出部９８および識別部１００に対応する手段として機能させ、図８に示すような処理を行なわせるプログラムや、そのようなプログラムを記録したコンピュータ読取可能な記録媒体も、容易に作製することができるであろう。

次に、図９を用いて、本発明の第４の実施形態について説明する。図９は、本発明の第４の実施形態に係る特定シーンの画像を選別する装置１３０の構成を示したブロック図である。参照データ用メモリ１３６には、上記の第３の実施形態と同様に、図４に示すような参照表形式等の参照データが格納されているものとする。この参照データを決定するための各シーンについての学習は、上記の第１および第２の実施形態に関連して説明した、図２または図６に示す処理あるいはそれらの変更例のいずれかに対応する手法により、行なわれたものとする。シーン指定受付部１３２、画像入力受付部１３４、特徴量導出部１３８および識別部１４０の機能は、上記に説明した第３の実施形態に係る装置９０の対応部分の機能と同様であり、それらが行なう識別処理も、上記の図８に示した処理と同様である。そこで、これらについては説明を省略し、以下、第３の実施形態に係る装置９０と異なる部分についてのみ説明する。

第４の実施形態に係る装置１３０は、正解受付部１４２、追加学習データ用メモリ１４４および追加学習部１４６を備え、いわば自己学習機能を有する点で、第３の実施形態に係る装置９０と異なる。識別部１４０から識別結果の出力を受けたユーザーが、選別されたあるいはされなかった画像をディスプレイに表示する等して確認したところ、選別結果が正しくなかった場合、ユーザーは、次回からはそれに類似した画像も正しく選別してほしいと考える。本実施形態の装置１３０は、そのような要請に応えるものである。

すなわち、ユーザーは、正しくない識別結果を受け取り、それを装置１３０に追加学習させたいと思った場合は、装置１３０の正解受付部１４２に対し、その画像に対する正解のシーンを指定して追加学習命令を与えることができる。たとえば、識別部１４０が「水中」のシーンの画像であると判断した画像が、実際には「夜景」のシーンの画像であった場合は、正解「夜景」を指定して追加学習命令を与える。追加学習命令および正解の指定を受け取った正解受付部１４２は、それらを識別部１４０に送る。識別部１４０は、これに応答して、識別結果が正しくないとされた画像の識別処理において特徴量導出部１３８が導出した各特徴量と、指定された正解とを、追加学習データ用メモリ１４４に送る。あるいは、指定された正解と導出された特徴量とに代えて、指定された正解ともともとの画像データとを追加学習データ用メモリ１４４に送る構成としてもよい。追加学習データ用メモリ１４４には、参照データ用メモリ１３６に格納されている初期の参照データの導出に用いられた、各サンプル画像の特徴量または画像データも格納されているものとする。

装置１３０が繰返し使用され、追加学習データ用メモリ１４４に蓄積された追加学習すべきデータの量が予め定められた基準を超えると、追加学習データ用メモリ１４４に格納されているデータが追加学習部１４６に送られ、追加学習部１４６において、再度の学習および参照データの更新が行なわれる。本実施形態では、追加学習部１４６は、正解が指定された追加学習すべき各画像と、初期の参照データの導出に用いられた各サンプル画像とを合わせたすべての画像について、再度、図２や図６に示す手法等により学習を行ない、新たな参照データを導出するものとする。

なお、追加学習部１４６が行なう学習および参照データの更新の手法は、上記のものに限られず他のいかなる手法によるものであってもよい。また、上記のように、初期の参照データの導出に用いられた各サンプル画像の特徴量または画像データを追加学習用メモリ１４４に格納しておく手法にも限られず、正解が指定された追加学習すべき画像についてのみ学習を行なうこととしてもよい。その場合、たとえば、追加学習すべき画像のデータについて、各特定シーンごとかつ各特徴量ごとに図３を用いて説明したようなヒストグラムを作成して、それらのヒストグラムが示す識別条件と、参照データ用メモリ１３６にそれまで蓄積されていた参照データが示す識別条件との加重平均を取り、その加重平均された識別条件を新たな識別条件として参照データ用メモリ１３６内の参照データを更新する等の手法を用いることができる。また、追加学習用メモリ１４４を設けずに、追加学習すべき画像のデータが識別部１４０から直接に追加学習部１４６に送られる構成とし、参照データを順次更新するようにしてもよい。

また、上記の実施形態では、追加学習すべきデータの量が予め定められた基準を超えた際に追加学習および参照データの更新を行なうこととしたが、定期的にまたはユーザーからの命令により追加学習および参照データの更新を行なう構成としてもよい。

上記の第４の実施形態に係る装置１３０によれば、上記した第３の実施形態の装置９０と同様の効果に加えて、実際の選別対象画像に合わせて継続的に選別の精度を向上させていくという効果をさらに得ることができる。また、ユーザーが頻繁に指定する特定シーンに関しては、参照データの内容が特に充実していくため、より高い識別精度を実現することができる。

以上、本発明の第４の実施形態に係る装置１３０について説明したが、当業者であれば、上記の説明に基づいて、コンピュータを、上記のシーン指定受付部１３２、画像入力受付部１３４、特徴量導出部１３８、識別部１４０、正解受付部１４２および追加学習部１４６に対応する手段として機能させるプログラムや、そのようなプログラムを記録したコンピュータ読取可能な記録媒体も、容易に作製することができるであろう。

なお、上記に説明した本発明の第１から第４の実施形態およびそれらの変更例は、いずれも、画像データが特定シーンの画像データであるか否かを識別する識別処理のための特徴量の種類と識別条件の決定、または特定シーンの画像データの選別のための装置、プログラムまたはプログラムを記録した記録媒体に関するものであった。しかしながら、本発明は、対象データが特定内容のデータであるか否かを識別する識別処理のための特徴量の種類と識別条件の決定、または特定内容のデータの選別のための装置、プログラムまたはプログラムを記録した記録媒体であれば、いかなるものにも適用することができ、上記の画像データおよび特定シーンは、対象データおよび特定内容の一例に過ぎない。たとえば、本発明は、ある音声データが特定人物の声のデータであるか否かを識別する処理のための、特徴量の種類と識別条件の決定等にも適用することができる。また、同じ画像データを対象データとするものに限っても、上記のような１枚の画像全体が特定シーンを示すものであるか否かの識別処理に限られず、１枚の画像に含まれる１つの領域を表すデータが、人物等のある特定の被写体に対応する領域を表すデータであるか否かを識別する処理のための、特徴量の種類と識別条件の決定等にも適用することができる。

その他、上記の各実施形態および変更例を組み合わせた形態等も当然ながら本発明の技術的範囲に含まれるものであり、本発明の技術的範囲は、特許請求の範囲のみによって定められるべきものであることは言うまでもない。

本発明の第１の実施形態に係る、識別処理に用いる特徴量の種類と識別条件を決定する装置の構成を示したブロック図図１の装置が行なう処理の流れを示したフローチャート図１の装置の識別器作成部による識別器の作成方法を示した図図１の装置により決定された特徴量の種類と識別条件を規定したデータの例を示した図本発明の第２の実施形態に係る、識別処理に用いる特徴量の種類と識別条件を決定する装置の構成を示したブロック図図５の装置が行なう処理の流れを示したフローチャート本発明の第３の実施形態に係る特定シーンの画像データを選別する装置の構成を示したブロック図図７の装置が行なう処理の流れを示したフローチャート本発明の第４の実施形態に係る特定シーンの画像データを選別する装置の構成を示したブロック図

Claims

対象データが特定内容のデータであるか否かを識別する識別処理に用いる少なくとも１つの特徴量の種類と、該少なくとも１つの特徴量の各々に対応する識別条件とを決定する装置であって、
前記特定内容のデータであることが分かっている複数のデータと、前記特定内容のデータでないことが分かっている複数のデータとからなるサンプルデータ群に基づいて、前記識別処理に用いられ得る複数の特徴量の各々について、対応する識別器を作成する識別器作成手段と、
前記識別器の各々について、前記サンプルデータ群をなすデータの全部または一部に対する該識別器による識別精度を表す指標値を特定する識別精度特定手段と、
前記識別器の各々について、該識別器に対応する特徴量を前記対象データから導出するのに要する計算量を表す指標値を特定する計算量特定手段と、
前記識別器の各々について、前記識別精度を表す指標値と前記計算量を表す指標値から総合評価値を導出し、最も良好な前記総合評価値が導出された識別器から順に、少なくとも１つの識別器を選択する識別器選択手段と、
前記識別器選択手段により選択された前記少なくとも１つの識別器に基づいて、前記識別処理に用いる前記少なくとも１つの特徴量の種類と前記識別条件とを決定する決定手段とを備えていることを特徴とする装置。
前記識別器選択手段が、前記識別処理の実行環境の計算能力および／または前記識別処理の所望の処理速度に応じて、前記総合評価値を導出する際の前記識別精度を表す指標値と前記計算量を表す指標値の比重を変更するものであることを特徴とする請求項１記載の装置。
対象データが特定内容のデータであるか否かを識別する識別処理に用いる少なくとも１つの特徴量の種類と、該少なくとも１つの特徴量の各々に対応する識別条件とを決定する装置であって、
前記特定内容のデータであることが分かっている複数のデータと、前記特定内容のデータでないことが分かっている複数のデータとからなるサンプルデータ群に基づいて作成された、前記識別処理に用いられ得る複数の特徴量の各々に対応する識別器のうち、前記サンプルデータ群をなすデータの全部または一部に対する識別精度が最も高い１つの識別器を選択する識別器選択手段と、
前記識別器選択手段により選択された識別器の正答率、または前記識別器選択手段により選択された該識別器に対応する特徴量を前記対象データから導出するのに要する計算量の合計が、所定の基準を超えたか否かを判定し、該正答率または該計算量の合計が該所定の基準を超えるまで、前記識別器選択手段を繰返し動作させる判定手段と、
前記識別器選択手段により選択された前記識別器に基づいて、前記識別処理に用いる前記少なくとも１つの特徴量の種類と前記識別条件とを決定する決定手段とを備えていることを特徴とする装置。
前記サンプルデータ群が、該サンプルデータ群をなすデータの各々に、初期値が等しい重みが与えられた重み付きサンプルデータ群であって、
前記識別器選択手段が、各動作ごとに、前記重みを加味した前記識別精度が最も高い１つの識別器を選択し、該１つの識別器によっては正しく識別されない各データの重みが該データの現在の重みよりも高くなり、かつ／または該１つの識別器によって正しく識別される各データの重みが該データの現在の重みよりも低くなるように、前記サンプルデータ群をなす各データの前記重みを更新するものであることを特徴とする請求項３記載の装置。
前記識別器の各々が、前記特定内容のデータであることが分かっている前記複数のデータが示す該識別器に対応する特徴量の値のヒストグラムの各頻度値と、前記特定内容のデータでないことが分かっている前記複数のデータが示す該識別器に対応する特徴量の値のヒストグラムの各頻度値との、比または差分を表したヒストグラムであることを特徴とする請求項１から４いずれか１項記載の装置。
前記対象データおよび前記サンプルデータ群をなす各データが画像データであり、
前記特定内容が、該対象データが示し得る特定シーンであることを特徴とする請求項１から５いずれか１項記載の装置。
対象データが特定内容のデータであるか否かを識別する識別処理に用いる少なくとも１つの特徴量の種類と、該少なくとも１つの特徴量の各々に対応する識別条件とを決定するためのプログラムであって、コンピュータを、
前記特定内容のデータであることが分かっている複数のデータと、前記特定内容のデータでないことが分かっている複数のデータとからなるサンプルデータ群に基づいて、前記識別処理に用いられ得る複数の特徴量の各々について、対応する識別器を作成する識別器作成手段、
前記識別器の各々について、前記サンプルデータ群をなすデータの全部または一部に対する該識別器による識別精度を表す指標値を特定する識別精度特定手段、
前記識別器の各々について、該識別器に対応する特徴量を前記対象データから導出するのに要する計算量を表す指標値を特定する計算量特定手段、
前記識別器の各々について、前記識別精度を表す指標値と前記計算量を表す指標値から総合評価値を導出し、最も良好な前記総合評価値が導出された識別器から順に、少なくとも１つの識別器を選択する識別器選択手段、および
前記識別器選択手段により選択された前記少なくとも１つの識別器に基づいて、前記識別処理に用いる前記少なくとも１つの特徴量の種類と前記識別条件とを決定する決定手段として機能させることを特徴とするプログラム。
対象データが特定内容のデータであるか否かを識別する識別処理に用いる少なくとも１つの特徴量の種類と、該少なくとも１つの特徴量の各々に対応する識別条件とを決定するためのプログラムであって、コンピュータを、
前記特定内容のデータであることが分かっている複数のデータと、前記特定内容のデータでないことが分かっている複数のデータとからなるサンプルデータ群に基づいて作成された、前記識別処理に用いられ得る複数の特徴量の各々に対応する識別器のうち、前記サンプルデータ群をなすデータの全部または一部に対する識別精度が最も高い１つの識別器を選択する識別器選択手段、
前記識別器選択手段により選択された識別器の正答率、または前記識別器選択手段により選択された該識別器に対応する特徴量を前記対象データから導出するのに要する計算量の合計が、所定の基準を超えたか否かを判定し、該正答率または該計算量の合計が該所定の基準を超えるまで、前記識別器選択手段を繰返し動作させる判定手段、および
前記識別器選択手段により選択された前記識別器に基づいて、前記識別処理に用いる前記少なくとも１つの特徴量の種類と前記識別条件とを決定する決定手段として機能させることを特徴とするプログラム。
対象データが特定内容のデータであるか否かを識別する識別処理に用いる少なくとも１つの特徴量の種類と、該少なくとも１つの特徴量の各々に対応する識別条件とを決定するためのプログラムであって、コンピュータを、
前記特定内容のデータであることが分かっている複数のデータと、前記特定内容のデータでないことが分かっている複数のデータとからなるサンプルデータ群に基づいて、前記識別処理に用いられ得る複数の特徴量の各々について、対応する識別器を作成する識別器作成手段、
前記識別器の各々について、前記サンプルデータ群をなすデータの全部または一部に対する該識別器による識別精度を表す指標値を特定する識別精度特定手段、
前記識別器の各々について、該識別器に対応する特徴量を前記対象データから導出するのに要する計算量を表す指標値を特定する計算量特定手段、
前記識別器の各々について、前記識別精度を表す指標値と前記計算量を表す指標値から総合評価値を導出し、最も良好な前記総合評価値が導出された識別器から順に、少なくとも１つの識別器を選択する識別器選択手段、および
前記識別器選択手段により選択された前記少なくとも１つの識別器に基づいて、前記識別処理に用いる前記少なくとも１つの特徴量の種類と前記識別条件とを決定する決定手段として機能させることを特徴とするプログラムを記録したコンピュータ読取可能な記録媒体。
対象データが特定内容のデータであるか否かを識別する識別処理に用いる少なくとも１つの特徴量の種類と、該少なくとも１つの特徴量の各々に対応する識別条件とを決定するためのプログラムであって、コンピュータを、
前記特定内容のデータであることが分かっている複数のデータと、前記特定内容のデータでないことが分かっている複数のデータとからなるサンプルデータ群に基づいて作成された、前記識別処理に用いられ得る複数の特徴量の各々に対応する識別器のうち、前記サンプルデータ群をなすデータの全部または一部に対する識別精度が最も高い１つの識別器を選択する識別器選択手段、
前記識別器選択手段により選択された識別器の正答率、または前記識別器選択手段により選択された該識別器に対応する特徴量を前記対象データから導出するのに要する計算量の合計が、所定の基準を超えたか否かを判定し、該正答率または該計算量の合計が該所定の基準を超えるまで、前記識別器選択手段を繰返し動作させる判定手段、および
前記識別器選択手段により選択された前記識別器に基づいて、前記識別処理に用いる前記少なくとも１つの特徴量の種類と前記識別条件とを決定する決定手段として機能させることを特徴とするプログラムを記録したコンピュータ読取可能な記録媒体。
データの所望の特定内容の指定を受け付けるデータ内容指定受付手段と、
選別対象である対象データの入力を受け付ける対象データ入力受付手段と、
前記特定内容として指定され得る複数の内容ごとに、前記対象データが該内容のデータであるか否かの識別に用いる少なくとも１つの特徴量の種類と、該少なくとも１つの特徴量の各々に対応する識別条件とを予め規定した参照データを、前記データ内容指定受付手段において指定された前記特定内容に基づいて参照して、前記対象データから、該特定内容のデータであるか否かの識別に用いる前記少なくとも１つの特徴量を導出する特徴量導出手段と、
前記特徴量導出手段により導出された前記少なくとも１つの特徴量の各々に基づいて、前記参照データが規定する前記対応する識別条件を参照し、前記対象データが前記データ内容指定受付手段において指定された前記特定内容のデータであるか否かを識別する識別手段とを備えてなり、
前記参照データが、前記複数の内容の各々について、該内容のデータであることが分かっている複数のデータと、該内容のデータでないことが分かっている複数のデータとからなるサンプルデータ群を、予め学習することにより決定されたものであって、前記複数の内容の各々についての前記学習が、
前記サンプルデータ群に基づいて、前記識別手段による識別に用いられ得る複数の特徴量の各々について、対応する識別器を作成する工程と、
前記識別器の各々について、前記サンプルデータ群をなすデータの全部または一部に対する該識別器による識別精度を表す指標値を特定する工程と、
前記識別器の各々について、該識別器に対応する特徴量を前記対象データから導出するのに要する計算量を表す指標値を特定する工程と、
前記識別器の各々について、前記識別精度を表す指標値と前記計算量を表す指標値から総合評価値を導出し、最も良好な前記総合評価値が導出された識別器から順に、少なくとも１つの識別器を選択する工程と、
選択された前記少なくとも１つの識別器に基づいて、現在の学習内容のデータであるか否かの識別に用いる前記少なくとも１つの特徴量の種類と前記識別条件とを決定する工程とを含む方法によるものであることを特徴とする、特定内容のデータを選別する装置。
データの所望の特定内容の指定を受け付けるデータ内容指定受付手段と、
選別対象である対象データの入力を受け付ける対象データ入力受付手段と、
前記特定内容として指定され得る複数の内容ごとに、前記対象データが該内容のデータであるか否かの識別に用いる少なくとも１つの特徴量の種類と、該少なくとも１つの特徴量の各々に対応する識別条件とを予め規定した参照データを、前記データ内容指定受付手段において指定された前記特定内容に基づいて参照して、前記対象データから、該特定内容のデータであるか否かの識別に用いる前記少なくとも１つの特徴量を導出する特徴量導出手段と、
前記特徴量導出手段により導出された前記少なくとも１つの特徴量の各々に基づいて、前記参照データが規定する前記対応する識別条件を参照し、前記対象データが前記データ内容指定受付手段において指定された前記特定内容のデータであるか否かを識別する識別手段とを備えてなり、
前記参照データが、前記複数の内容の各々について、該内容のデータであることが分かっている複数のデータと、該内容のデータでないことが分かっている複数のデータとからなるサンプルデータ群を、予め学習することにより決定されたものであって、前記複数の内容の各々についての前記学習が、
前記サンプルデータ群に基づいて作成された、前記識別手段による識別に用いられ得る複数の特徴量の各々に対応する識別器のうち、前記サンプルデータ群をなすデータの全部または一部に対する識別精度が最も高い１つの識別器を選択する工程と、
前記選択する工程において選択された前記識別器の正答率、または前記選択する工程において選択された前記識別器に対応する特徴量を前記対象データから導出するのに要する計算量の合計が、所定の基準を超えるまで、前記選択する工程を繰り返す工程と、
前記選択する工程において選択された前記識別器に基づいて、現在の学習内容のデータであるか否かの識別に用いる前記少なくとも１つの特徴量の種類と前記識別条件とを決定する工程とを含む方法によるものであることを特徴とする、特定内容のデータを選別する装置。
前記識別手段により正しい識別結果が得られなかった対象データについて、該対象データが示す正しい内容の指定を受け付ける正解受付手段と、
前記正しい内容の指定が受け付けられた前記対象データを学習することにより、前記参照データを更新する追加学習手段とをさらに備えていることを特徴とする請求項１１または１２記載の特定内容のデータを選別する装置。
前記対象データおよび前記サンプルデータ群をなす各データが画像データであり、
前記特定内容が、前記対象データが示し得る特定シーンであることを特徴とする請求項１１から１３いずれか１項記載の特定内容のデータを選別する装置。