JP6596044B2

JP6596044B2 - 対象認識装置

Info

Publication number: JP6596044B2
Application number: JP2017158544A
Authority: JP
Inventors: 高晴黒川; 昌宏佐藤
Original assignee: Secom Co Ltd
Current assignee: Secom Co Ltd
Priority date: 2017-08-21
Filing date: 2017-08-21
Publication date: 2019-10-23
Anticipated expiration: 2037-08-21
Also published as: JP2019036232A

Description

本発明は、入力データから所定対象を認識する対象認識装置に関し、特に複数の認識器を利用した対象認識装置に関する。

近年、機械学習により生成した識別器等を用い、入力されたデータから所定対象を認識する技術において、性質の異なる複数の認識器を組み合わせて識別することによって認識性能を向上させる提案がなされている。

例えば、下記非特許文献１に記載のランダムフォレスト（Random Forest）法では、複数の識別器のそれぞれを決定木によって構成し、各決定木をそれぞれ学習データセットの中からランダムに選択した互いに異なるサブセットを用いて学習することで、性質の異なる複数の識別器を構成する。そして、入力データを複数の識別器のそれぞれに入力して複数の出力値を得、複数の識別器の出力値を平均することで入力データに対する最終的な識別結果を得る。

また、例えば、下記非特許文献２に記載の方法では、複数カーネルの線形和で表現される識別器を初期値を異ならせて複数用意し、識別器の学習誤差が小さい程低く、全識別器の出力値の分散が大きい程低い値を出力する誤差関数を最小化することで複数の識別器を学習する。そして、入力データを複数の識別器のそれぞれに入力して複数の出力値を得、複数の識別器の出力値を平均することで入力データに対する最終的な識別結果を得る。

L. Breiman, "Random Forests.", Machine Learning 45 (1): 5−32, 2001 Y. Liu and X. Yao, "Ensemble learning via negative correlation," Neural Networks, vol. 12, no. 10, pp. 1399−1404, 1999

しかしながら、従来技術においては、複数の認識器により取得した複数の出力値それぞれを同等に用いる（例えば、全出力値を単純平均する）ことによって最終的な認識結果を得ていたため、最終的な認識結果がなまりがちになるという問題があった。

例えば、複数の識別器によって得た出力値の分布において正解の出力値と不正解の出力値が拮抗していれば単純平均値は正解と不正解の中間付近の値（真の識別境界付近の値）となり、わずかな分布の変動で誤識別が生じ得る。換言すると、入力データのわずかな違いで誤識別が生じ得る。

また、例えば、複数の識別器によって得た出力値の分布において不正解の出力値が多数であれば単純平均値は不正解となる。

結局、従来技術において最終的な識別結果が安定するのは、複数の識別器によって得た出力値の分布において正解の出力値が多数の場合のみである。

このように従来技術においては、性質の異なる複数の認識器を用意してもそのバリエーションを十分に活かすことができず、それが認識精度の向上を阻む要因となっていた。

なお、複数の認識器の出力値の多数決をとることによって最終的な認識結果を得る場合にも、複数の認識器の出力値を単純平均することによって最終的な認識結果を得る方法と同様の理由から、性質の異なる複数の認識器のバリエーションを十分に活かすことができない。

また、性質の異なる複数の認識器のバリエーションを十分に活かすことができない問題は、入力データを画像とする場合のみならず、音声やセンサー信号等の各種データを認識する場合にも共通する問題であり、更に、画像と音声など異なる種類のデータを複数組み合わせて認識を行う場合にも共通する問題である。

本発明は、上記問題を鑑みてなされたものであって、性質の異なる複数の認識器のバリエーションを十分に活かして入力データから所定対象を認識する精度を向上することができる対象認識装置を提供することにある。

（１）本発明に係る対象認識装置は、入力データから所定対象を認識する装置であって、前記入力データに対する認識結果を表す出力値を出力するようそれぞれ学習した互いに異なる複数の認識器、および前記認識器の組み合わせごとに一群のテストデータに対する前記出力値の相違度が高い前記組み合わせほど高く設定した独立度合いを記憶している記憶手段と、前記入力データに対する前記複数の認識器それぞれの出力値を取得する個別認識手段と、前記入力データに対する前記複数の認識器の出力値に基づき求めた総合評価値から前記所定対象を認識する手段であって、前記認識器の組み合わせに関する前記独立度合いを前記総合評価値に反映させる統合認識手段と、を備える。

（２）上記（１）に記載の対象認識装置において、前記統合認識手段は、前記認識器の組み合わせのうち所定基準を超えて類似した出力値が得られた組み合わせに関する独立度合いを前記総合評価値に反映させる構成とすることができる。

（３）上記（１）又は（２）に記載の対象認識装置において、前記記憶手段は、前記一群のテストデータに対する前記出力値の正規化相関値が低い前記組み合わせほど高く設定した前記独立度合いを記憶している構成とすることができる。

（４）上記（１）又は（２）に記載の対象認識装置において、前記記憶手段は、前記認識器の組み合わせごとに、共通の前記一群のテストデータに対し前記出力値が肯定値域であるか否定値域であるかの出力種別が当該組み合わせ内で同一であった前記テストデータの数が少ない前記組み合わせほど高く設定した前記独立度合いを記憶している構成とすることができる。

（５）上記（１）又は（２）に記載の対象認識装置において、前記記憶手段は、前記認識器の組み合わせごとに、共通の前記一群のテストデータに対し前記出力値の差が所定の許容値未満であった前記テストデータの数が少ない前記組み合わせほど高く設定した前記独立度合いを記憶している構成とすることができる。

（６）上記（１）〜（５）に記載の対象認識装置において、前記統合認識手段は、前記組み合わせの前記出力値を当該組み合わせに対して設定されている前記独立度合いで重み付けて総和し、前記総合評価値を求める構成とすることができる。

（７）上記（１）〜（６）に記載の対象認識装置において、前記統合認識手段は、前記組み合わせに対し設定されている前記独立度合いを総和して前記総合評価値を求める構成とすることができる。

（８）上記（１）〜（７）に記載の対象認識装置において、前記統合認識手段は、前記総合評価値を求める際に、前記組み合わせのうち前記独立度合いが高い方から順に所定数の組み合わせを用いる構成とすることができる。

本発明によれば、独立度合いの高い認識器の出力値を重視して認識結果を導出するので、性質の異なる複数の認識器のバリエーションを活かした精度の高い認識を行うことができる。

本発明の実施形態に係る対象認識装置の概略のブロック構成図である。本発明の実施形態に係る対象認識装置の機能を示す機能ブロック図である。学習画像から抽出される特徴量を異ならせるために用いる４種類の楕円ガウシアンフィルタを表す模式図である。尤度ベクトルの数値例に対応した正規化相関値および独立度合いを表形式で表した図である。本発明の第一の実施形態に係る対象認識装置の概略の動作を示すフロー図である。本発明の第二の実施形態に係る対象認識装置の概略の動作を示すフロー図である。

以下、本発明の実施の形態（以下実施形態という）について、図面に基づいて説明する。

［第一の実施形態］
本発明の第一の実施形態として、撮影領域を撮影した撮影画像を処理して撮影領域に存在する人を対象として認識する対象認識装置１を説明する。対象認識装置１は、撮影画像の各位置から切り出された窓画像（入力データ）に認識対象である人の像が含まれているか否かを認識することによって人の検知を行う。

図１は、実施形態に係る対象認識装置１の概略のブロック構成図である。対象認識装置１は、撮影部２、記憶部３、制御部４および出力部５を含んで構成される。撮影部２、記憶部３および出力部５は制御部４と接続される。

撮影部２は撮影領域を所定時間おきに撮影し、撮影した撮影画像を順次、制御部４に入力する。

記憶部３は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ハードディスク等の記憶装置であり、制御部４で使用されるプログラムおよび、学習データや各手段が生成したデータなどの各種データを記憶する。記憶部３はこれらプログラム、データを制御部４との間で入出力する。

制御部４はＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＣＵ（Micro Control Unit）等のプロセッサおよびその周辺回路で構成される。制御部４は後述する各手段として動作し、撮影画像を処理して撮影領域に存在する人を認識する。そして、人を認識した場合は出力部５に認識信号を出力する。

出力部５は認識信号を入力されると外部出力を行うインターフェース回路である。例えば、出力部５はネットワークに接続されて警備センターに通報を行う。

図２は対象認識装置１の機能を示す機能ブロック図である。記憶部３は、認識器記憶手段３０、独立度合い記憶手段３１等として機能する。また、制御部４は、切り出し手段４０、個別認識手段４１（４１-1，４１-2，…，４１-K）、統合認識手段４２等として機能する。

切り出し手段４０は撮影画像から一部の領域を窓画像として切り出す。当該窓画像が第一の実施形態の対象認識装置１における入力データとなる。窓画像は複数個（Ｋ個とする）の個別認識手段４１に入力される。切り出し手段４０は、撮影画像中で認識したい人サイズの範囲に応じて予め定めた複数通りの倍率で撮影画像を拡大および縮小し、当該拡大・縮小した撮影画像の全域にて所定サイズの窓領域を移動させて窓画像を切り出す。窓画像のサイズすなわち幅および高さは、後述する認識器の学習に用いた学習画像のサイズと同一である。

認識器記憶手段３０は、それぞれが複数の学習データを用い入力データに対する認識結果を表す出力値を出力するよう学習した互いに性質の異なる複数の認識器を記憶する。具体的には、認識器記憶手段３０は複数個の認識器としてＫ個（Ｋ＞２）の識別器を記憶する。当該識別器はそれぞれ、画像の特徴量が入力されると当該画像が人の撮影された人画像である尤もらしさを表す尤度（人画像のクラスに帰属していることの尤もらしさを表す尤度）を出力する。

Ｋ個の識別器のそれぞれは、例えば、窓画像の特徴量を入力とし当該窓画像の尤度を出力とする識別関数としてモデル化したＳＶＭ（サポートベクターマシーン）であり、上記識別関数のパラメータを含んで構成され、予め、人が撮影された多数の人画像と人が撮影されていない多数の無人画像とからなるＮ枚の学習画像を学習データとして用いて上記識別関数のパラメータを機械学習している。

ただし、Ｋ個の識別器のそれぞれは、互いに特徴量を異ならせて学習しており、識別器を構成するパラメータは互いに異なるため、互いに性質が異なる。

例えば、不図示の学習手段が、認識処理に先立って以下の処理を行う。ここではＫ＝４とし、これに対応して、学習画像に４種類のフィルタを施し、フィルタを施したそれぞれの画像から特徴量を抽出する。図３は４種類のフィルタの例を表す模式図であり、互いにスケールと方向の組み合わせが異なる４種類の楕円ガウシアンフィルタを表している。学習手段は当該フィルタをＮ枚の学習画像それぞれに施し、フィルタを施した学習画像からＨＯＧ（Histograms of Oriented Gradient）特徴量を抽出する。

ここで、楕円ガウシアンフィルタはｘｙ平面内の特定方向に平滑化を行う空間フィルタであり、２次元ガウス分布の中心を処理対象の画素に一致させ、中心から楕円状にガウス分布に従って係数を分布させた空間フィルタである。２次元ガウス分布を規定するパラメータのうちのｘ方向の分散の大きさおよびｙ方向の分散の大きさを変えることで、フィルタのｘｙ空間におけるスケール（長さと幅）を変えることができ、２次元ガウス分布をｘｙ平面上で回転させることでフィルタのｘｙ空間における方向を変えることができる。

図３に示した４種類の楕円ガウシアンフィルタＦ１〜Ｆ４において、フィルタＦ１は、ｘ方向のスケールとｙ方向のスケールが等しく回転が０°のフィルタである。ちなみに、フィルタＦ１は等方性のフィルタとなるため回転による変化はない。フィルタＦ２は、Ｆ１に対してｙ方向のスケールが１／２で回転が０°のフィルタであり、フィルタＦ３は、Ｆ１に対してｙ方向のスケールが１／２で回転が４５°のフィルタであり、フィルタＦ４は、Ｆ１に対してｘ方向のスケールが１／２、ｙ方向のスケールが１／４で回転が１３５°のフィルタである。

フィルタＦ１〜Ｆ４に対応して４種類の特徴量が抽出されると、当該４種類の特徴量のそれぞれにＳＶＭ法を適用して４個の識別器を学習し、学習した４個の識別器を認識器記憶手段３０に記憶させる。

具体的には、フィルタＦ１を施して得たＮ枚分のＨＯＧ特徴量にＳＶＭ法を適用して１番目の識別器を学習し、フィルタＦ２を施して得たＮ枚分のＨＯＧ特徴量にＳＶＭ法を適用して２番目の識別器を学習し、フィルタＦ３を施して得たＮ枚分のＨＯＧ特徴量にＳＶＭ法を適用して３番目の識別器を学習し、フィルタＦ４を施して得たＮ枚分のＨＯＧ特徴量にＳＶＭ法を適用して４番目の識別器を学習する。

なお、ＳＶＭ法を適用して学習した識別器に代えて、パーセプトロン型の識別器、アダブースト型の識別器、動径基底関数（Radial Basis Function：ＲＢＦ）ネットワーク型の識別器またはランダムフォレスト法を適用して学習した識別器など種々の識別器を採用することができる。

個別認識手段４１は入力データである窓画像に対する複数の認識器それぞれの出力値を取得する。つまり、個別認識手段４１-1，４１-2，…，４１-Kは、それぞれが認識器記憶手段３０に記憶されている複数の認識器のうちの対応する認識器に入力データの特徴量を入力することによって認識器ごとの出力値を取得し、統合認識手段４２に出力する。

例えば、Ｋ＝４とした上述の例では、任意の個別認識手段４１-k（ｋ＝１，２，３，４）は、認識器記憶手段３０からｋ番目の識別器を読み出すとともに、窓画像ごとに、当該窓画像にフィルタＦｋを施してフィルタリング後の窓画像からＨＯＧ特徴量を抽出し、窓画像ごとのＨＯＧ特徴量をｋ番目の識別器に入力することによって当該窓画像に対する尤度を取得する。

上述したように、Ｋ個の識別器のそれぞれを構成するパラメータは互いに異なるため、同一の窓画像に対して個別認識手段４１によりＫ通りの出力値が得られる。

なお、ＨＯＧ特徴量に代えて、ハールライク（Haar-Like）特徴や、ＬＢＰ（Local Binary Pattern）特徴など他の種々の特徴量を採用することもできる。或いは上述した特徴量のうち２以上の特徴量を組み合わせて用いることもできる。ただし、学習で用いる特徴量と認識で用いる特徴量とは定義を共通とする。

独立度合い記憶手段３１は認識器の組み合わせごとに、一群のテストデータに対する出力値の相違度が高い組み合わせほど高く設定した独立度合いを記憶する。

具体的には、独立度合いは、不図示の独立度合い算出手段により、テストデータであるＭ枚（Ｍ＞１）のテスト画像を用いて以下のようにして予め算出され設定される。なお、独立度合いを求める際に、Ｍ枚のテスト画像はＫ個の識別器に共通に用いられる。

まず、独立度合い算出手段はＭ枚のテスト画像の特徴量を抽出する。そして、独立度合い算出手段はＭ枚のテスト画像の特徴量を１〜Ｋ番目の識別器それぞれに入力し、識別器ごとにＭ個の尤度が並んだ尤度ベクトルを取得する。さらに、独立度合い算出手段は互いに異なる識別器の組み合わせ全て、つまり、ｉ，ｊを１≦ｉ≦Ｋ，１≦ｊ≦Ｋなる任意の整数としてｉ≠ｊなる識別器ｉと識別器ｊとの全ての組み合わせについて尤度ベクトルの正規化相関値を算出する。

そして、独立度合い算出手段は、算出した正規化相関値の絶対値の逆数を、算出元となった識別器の組み合わせを表す符号（上記ｉとｊ）と対応付けて独立度合い記憶手段３１に記憶させる。すなわちこの例では正規化相関値の絶対値の逆数が独立度合いとして設定され、識別器の組み合わせのうち、一群のテストデータに対する出力値の正規化相関値が低いものほど、高く設定した独立度合いが独立度合い記憶手段３１に記憶される。なお、ここで絶対値をとるのは、正規化相関値の正負にかかわらず、独立度合いの高い識別器同士が類似する値を出力した場合に、その組を重視するためである。

例えば、Ｋ＝４とした上述の例において、４つの識別器に共通して入力されるテストデータを６枚のテスト画像とし、当該テスト画像に対する１番目の識別器Ｒ１の尤度ベクトルＬ１、２番目の識別器Ｒ２の尤度ベクトルＬ２、３番目の識別器Ｒ３の尤度ベクトルＬ３、４番目の識別器Ｒ４の尤度ベクトルＬ４がそれぞれ以下であったとする。
Ｌ１＝（０．７，０．８， −０．１， −０．９， −０．５，０．４）
Ｌ２＝（０．９，０．５，０．６， −０．５， −０．７，０．１）
Ｌ３＝（０．９， −０．５，０．６，０．１， −０．８，０．８）
Ｌ４＝（０．８， −０．４， −０．４，０．３， −０．９，０．５）

図４はこの尤度ベクトルの数値例における正規化相関値および独立度合いを表形式で表した図である。図４（ａ）は識別器間の正規化相関値を示しており、例えば、識別器Ｒ１と識別器Ｒ２の正規化相関値が０．８、識別器Ｒ１と識別器Ｒ３の正規化相関値が０．３、…、識別器Ｒ３と識別器Ｒ４の正規化相関値が０．８であることを示している。図４（ｂ）は、図４（ａ）の正規化相関値を基にした識別器間の独立度合いを示しており、例えば、識別器Ｒ１と識別器Ｒ２の独立度合いは１．２５、識別器Ｒ１と識別器Ｒ３の独立度合いは３．３３、…、識別器Ｒ３と識別器Ｒ４の独立度合いは１．２５となる。

なお、Ｍ枚のテスト画像は、人画像と無人画像とが均等に含まれたデータセットであることが望ましいが、全て人画像であってもよいし、全て無人画像であってもよい。また、Ｍ枚のテスト画像は、学習画像とは別の画像であることが望ましいが、学習画像のデータセットと一部共通していてもよいし、学習画像のデータセットの一部であってもよい。

また、独立度合い算出手段は、認識器の各組み合わせに共通の一群のテストデータを入力し、認識器の組み合わせごとに、当該一群のテストデータに対する出力値が肯定値域であるか否定値域であるかの出力種別が当該組み合わせ内で同一であったテストデータの数（一致数）を求め、当該一致数が少ない組み合わせほど独立度合いを高く設定することもできる。つまり、この場合、独立度合い記憶手段３１は、当該一致数が少ない組み合わせほど高く設定された独立度合いを記憶する。

例えば、ＳＶＭ法で人画像を学習した識別器において、出力値である尤度Ｌの肯定値域をＬ＞０、否定値域をＬ≦０とした場合、不図示の独立度合い算出手段は以下のようにして独立度合いを予め設定する。

まず、独立度合い算出手段はＭ枚のテスト画像の特徴量を抽出して各特徴量を１〜Ｋ番目の識別器それぞれに入力し、識別器ごとにＭ個の尤度を取得する。独立度合い算出手段は各尤度を閾値（＝０）と比較して、各尤度が肯定値域に含まれる肯定値か否定値域に含まれる否定値かを判定する。次に、独立度合い算出手段は互いに異なる識別器の組み合わせ全てについて、組み合わせをなす識別器で得られる尤度が肯定値どうしまたは否定値どうしであるテスト画像の数を一致数として計数し、一致数を尤度の個数Ｍで除した値の逆数を独立度合いとして算出する。そして、独立度合い算出手段は、算出した独立度合いを、算出元となった識別器の組み合わせを表す符号と対応付けて独立度合い記憶手段３１に記憶させる。

ちなみに、２クラスの識別を行う認識の場合、一致数に基づく独立度合いよりも正規化相関値に基づく独立度合いの方が以下の点で優れる。例えば、上述した尤度ベクトルの数値例において、識別器Ｒ２とＲ３は６枚目のテスト画像に対してそれぞれ０．１と０．８の尤度を出力している。これらの尤度はいずれも０より大きいため一致数に基づく独立度合いに対する寄与は同じである。これに対して、これらの尤度の差は０．７と大きいことから正規化相関値に基づく独立度合いに対するこれらの値の寄与は大きくなる。このように肯定値であるか否定値であるかが一致するが差が大きな値を出力した識別器同士の性質は同一のものとして扱うよりも異なるものとして扱うことの方が自然であるから、これらを異なるものとして扱うことができる正規化相関値の方が優れている。

統合認識手段４２は入力データに対する複数の認識器の出力値に基づき総合評価値Ｓｃｏｒｅを求め、当該総合評価値から認識対象である人を認識する。統合認識手段４２は、識別器の組み合わせのうち入力データに対し所定基準を超えて類似した出力値が得られた組み合わせ（整合組み合わせ）に関し、当該出力値を独立度合いに応じて重み付けて総合評価値に反映させる。

この点に関し本実施形態の統合認識手段４２は、整合組み合わせの出力値を当該整合組み合わせに対して設定されている独立度合いで重み付けて総和し、総合評価値を求める。つまり、統合認識手段４２は個別認識手段４１-1，４１-2，…，４１-Kが取得した出力値のうち所定基準を超えて類似している出力値の組み合わせを、当該組み合わせに対して設定されている独立度合いで重み付けて総和し、当該総和値を総合評価値として用い所定対象を認識する。

そのために、統合認識手段４２は、選択手段４２０、重み付け手段４２１、総和手段４２２および判定手段４２３を備える。

選択手段４２０は、入力データごとに個別認識手段４１-1，４１-2，…，４１-Kの出力値の中から類似している出力値の組み合わせを選択する。選択手段４２０は例えば、個別認識手段４１-1，４１-2，…，４１-Kの出力値の中で肯定の出力値どうしの組および否定の出力値どうしの組を選択する。上述したように、尤度Ｌの肯定値域をＬ＞０、否定値域をＬ≦０とした場合、選択手段４２０は、尤度が０より大きければ人画像であることを肯定し、０以下であれば人画像であることを否定するものとして、肯定の尤度どうしの組および否定の尤度どうしの組を選択する。

重み付け手段４２１は、入力データごとに選択手段４２０が選択した出力値に対して独立度合いによる重み付けを行う。重み付け手段４２１は個別認識手段４１-1，４１-2，…，４１-Kそれぞれに対応して設けられた重み付け手段４２１-1，４２１-2，…，４２１-Kからなる。

総和手段４２２は、入力データごとに、重み付け手段４２１により重み付けられた出力値を総和して総和値を算出する。ここで、総和手段４２２は、重み付けが行われなかった出力値を総和値に加えてもよい。すなわち、総合評価値として用いる総和値は、重み付け手段４２１により重み付けられた出力値を少なくとも総和したものとすることができる。

判定手段４２３は、少なくとも入力データごとの総和値に基づいて入力データが所定対象であるか否かを判定する。ここで、判定手段４２３は、さらに、複数の入力データからなる一連の入力データ群に対して入力データ群が所定対象を含むか否かを判定してもよい。例えば、複数の窓画像が設定される撮影画像に対して撮影画像に人画像が含まれるか否かを判定してもよい。

例えば、図２に示す統合認識手段４２の構成にて、重み付け手段４２１-1，４２１-2，…，４２１-Kは例えば、選択手段４２０が選択した識別器の組の尤度に、当該識別器に対応して予め記憶されている独立度合いを乗算し、総和手段４２２は、重み付け手段４２１-1，４２１-2，…，４２１-Kによる重み付けが行われた尤度、つまり個別認識手段４１の出力値である尤度と独立度合いとの積と、重み付け手段４２１-1，４２１-2，…，４２１-Kによる重み付けが行われなかった尤度、つまり個別認識手段４１の出力値そのものとを総和する。

当該構成例における総合評価値Ｓｃｏｒｅである総和値は以下に示す式（１）で表される。

ここで、ｖ_ｉ，ｖ_ｊはそれぞれ識別器ｉと識別器ｊが同一の窓画像に対して出力した尤度であり、Ｋは識別器の数である。また、ｗ_ｉｊは尤度の組に対する重みであり、ｗ_ｉｊは次のように設定される。

ここで、Ｄ_ｉｊは識別器ｉと識別器ｊの組の独立度合いである。識別器ｉと識別器ｊの組がＭ枚の人画像に対して出力するＭ個の尤度を並べたベクトルどうしの正規化相関値をＣ_ｉｊとすると、
−１≦Ｃ_ｉｊ≦１ ………（３）
であるから、

である。εはゼロ除算を防ぐための定数であり、正の小さい値に設定され、例えば１０^−５である。

また、Ｗ_Ｓは識別器の全ての組についての重みの総和であり、重みは組をなす２つの識別器の尤度の双方にかかることに留意して、次式で与えられる。

例えば、判定手段４２３は、入力データごとの総和値を予め定めた閾値と比較し、総和値が閾値より大きい場合は入力データが所定対象であると判定し、総和値が閾値以下である場合は入力データが所定対象ではないと判定する。そして、一連の入力データ群に所定対象であると判定したものが含まれていれば当該入力データ群に所定対象が存在するとの認識信号を出力する。なお、含まれていない場合に、入力データ群に所定対象が存在しないとの認識信号を出力してもよい。

本実施形態による判定手段４２３は、窓画像ごとの総和値が０より大きい場合は当該窓画像が人画像であると判定し、総和値が０以下である場合は当該窓画像が人画像ではないと判定する。そして、人画像であると判定した窓画像が１個以上あれば、撮影領域に人が存在するとの認識信号を生成し出力する。なお、認識信号には、人画像であると判定した窓画像の座標を含めてもよい。

ここで、具体的な数値例を用いて統合認識手段４２の上述の構成例を説明する。例えば、人が映っている或る窓画像に対して個別認識手段４１-1、４１-2、４１-3、４１-4からそれぞれ０．７，−０．９，−０．５，０．４の尤度を取得した場合、選択手段４２０は、肯定値どうしの識別器の組（Ｒ１，Ｒ４）と否定値どうしの識別器の組（Ｒ２，Ｒ３）を選択する。識別器の組（Ｒ１，Ｒ４）が選択されたことに対応して重み付け手段４２１-1と重み付け手段４２１-4がそれぞれ尤度と独立度合いの積２．３３１および１．３３２を算出し、識別器の組（Ｒ２，Ｒ３）が選択されたことに対応して重み付け手段４２１-2と重み付け手段４２１-3がそれぞれ尤度と独立度合いの積−１．５０３および−０．８３５を算出する。これら選択された識別器の組について算出された積と、選択されなかった組における識別器が出力した尤度とから総和手段４２２は総和値３．２６３を算出する。判定手段４２３は、総和値３．２６３が０以上であることから窓画像が人画像であり、また当該窓画像が切り出された撮影画像に人が写っていると認識して、検知信号を出力する。

ここで仮に、個別認識手段４１-1、４１-2、４１-3、４１-4の出力値を単純に平均した場合、その値は−０．０７５となり、当該平均値を閾値０と比較すると窓画像を人画像ではないとする誤認識が生じる。また、仮に、個別認識手段４１-1、４１-2、４１-3、４１-4の出力値を肯定値と否定値の多数決で判定する場合は、肯定と否定が同数であるため、認識不能となる。なお、仮に、選択手段４２０による選択を行わずに識別器の全組に対して尤度を独立度合いで重み付けて平均する場合は、その値は２．４３９となり、窓画像を人画像であると正しく認識できる。

これらの対比から分かるように、統合認識手段４２が、個別認識手段４１-1，４１-2，…，４１-Kの出力値のうち所定基準を超えて類似している出力値の組み合わせを、当該組み合わせに対して設定されている独立度合いで重み付けて総和し、総和値から所定対象を認識することによって、出力値の平均や多数決では正しく認識できなかった入力データを正しく認識することが可能となる。

つまり、本実施形態の対象認識装置１によれば、性質が異なる複数の認識器のうち独立度合いが高いけれども類似する出力をした認識器の組み合わせの出力を強調することにより、性質の異なる複数の認識器のバリエーションを活かした精度の高い認識を行うことが可能となる。

次に第一の実施形態の対象認識装置１の動作について説明する。図５は第一の実施形態の対象認識装置１の概略の動作を示すフロー図である。

制御部４は、撮影部２に撮影領域を撮影させて撮影画像を取得する（ステップＳ１００）。そして制御部４は切り出し手段４０として機能し、撮影画像から窓画像を切り出し（ステップＳ１０１）、以下に説明するステップＳ１０２〜Ｓ１１０の処理を行う。なお、制御部４は、ステップＳ１０１〜Ｓ１１０の処理を、切り出し手段４０が切り出す窓画像の数だけ繰り返して実行する。

ステップＳ１０１にて切り出し手段４０が窓画像を切り出すと、制御部４は個別認識手段４１-1，４１-2，…，４１-Kとして機能し、当該窓画像が個別認識手段４１-1，４１-2，…，４１-Kに入力される（ステップＳ１０２）。個別認識手段４１-1，４１-2，…，４１-Kのそれぞれは、入力された窓画像から特徴量を抽出し（ステップＳ１０３）、さらに自身に割り当てられている識別器を認識器記憶手段３０から読み出し、読み出した識別器に抽出した特徴量を入力して出力値である尤度を取得する（ステップＳ１０４）。

制御部４は統合認識手段４２として機能し、個別認識手段４１-1，４１-2，…，４１-Kが算出した尤度が統合認識手段４２に入力される。統合認識手段４２の選択手段４２０は、各尤度が肯定値であるか否定値であるかを判定し、肯定値どうしの識別器の組および否定値どうしの識別器の組を選択する（ステップＳ１０５）。

統合認識手段４２の重み付け手段４２１-1，４２１-2，…，４２１-Kは、選択手段４２０が選択した組の識別器それぞれの尤度に当該識別器の組に対応して予め設定された独立度合いを乗算して乗算結果を出力し、選択手段４２０が選択しなかった識別器の組の尤度はそのまま出力する（ステップＳ１０６）。

統合認識手段４２の総和手段４２２は重み付け手段４２１-1，４２１-2，…，４２１-Kの出力を総和して総和値を算出する（ステップＳ１０７）。

統合認識手段４２の判定手段４２３は、総和手段４２２が算出した総和値に基づき窓画像が人画像であるか否かを判定する（ステップＳ１０８）。判定の結果が「人画像」であれば撮影領域における人の存在を認識したとして（ステップＳ１０８にて「Ｙｅｓ」の場合）、判定手段４２３は認識信号を生成して出力部５に出力する（ステップＳ１０９）。この場合、制御部４は処理をステップＳ１００に戻して次の撮影画像の認識処理に移る。他方、判定の結果、「人画像」でなければ（ステップＳ１０８にて「Ｎｏ」の場合）、ステップＳ１０９を省略してステップＳ１１０に処理が進められる。

制御部４は、予め定められた全ての位置および大きさの窓画像を全て切り出したか否かを判定する。窓画像を全て切り出していなければ（ステップＳ１１０にて「Ｎｏ」の場合）、制御部４は、処理をステップＳ１０１に戻してステップＳ１０１〜Ｓ１１０の処理を繰り返す。一方、窓画像を全て切り出していれば（ステップＳ１１０にて「Ｙｅｓ」の場合）、制御部４は、侵入者は検出されなかったものとして、処理をステップＳ１００に戻して次の撮影画像の取得を待つ。

［第一の実施形態の変形例］
（１）上記第一の実施形態では、統合認識手段４２の重み付け手段４２１-1〜４２１-Kが個別認識手段４１-1，４１-2，…，４１-Kの出力値を独立度合いで重み付けて総和する例を示したが、別の実施形態においては重み付けを省略し、総和手段４２２は選択手段４２０が選択した認識器の組の独立度合いそのものの和を計算してもよい。この場合、統合認識手段４２は、選択した認識器の組の独立度合いの和を、選択した組数で除して総合評価値Ｓｃｏｒｅを算出する。

（２）上記第一の実施形態およびその変形例においては、個別認識手段４１-1，４１-2，…，４１-Kが同じ種類の識別器を用いる例を示したが、例えば、１番目の識別器はＳＶＭ法により学習した識別器、２番目の識別器はＲＢＦネットワーク型の識別器、…というように個別認識手段ごとに異なる種類の識別器を用いても良い。

（３）上記第一の実施形態およびその変形例においては、人の画像を識別する例を示したが、所定対象と入力データはこれに限らない。例えば、人の顔の画像とそれ以外の画像の識別、マスクを着用した顔の画像とそれ以外の画像の識別、悲鳴の音声信号とそれ以外の音響信号の識別、人の動きを含んだドップラー信号とそれ以外の信号の識別など、様々な認識対象および入力データの識別の用途に本発明を適用できる。

（４）上記第一の実施形態およびその変形例においては、１種類の入力データで識別を行う例を示したが、異なる種類のデータを組み合わせて識別を行うこともできる。例えば、可視画像と熱画像から人画像とそれ以外を識別する、可視画像と距離画像から人の姿勢を識別する、ハイパースペクトルカメラで生体か人工物かを識別する、画像と音声から暴れ行動とそれ以外の行動を識別する、など、様々な用途に本発明を適用できる。

［第二の実施形態］
以下、第二の実施形態について、第一の実施形態の構成に対応するものについては同一の符号を付し、共通する内容については説明を省略して、第一の実施形態との相違点を中心に説明する。

第一の実施形態に係る対象認識装置１は、人画像を認識対象とし、窓画像が人画像であるか否かを識別する識別器の出力値を用いて、監視空間における人の存在を認識するものであった。この第一の実施形態の対象認識装置１において、識別器は、入力データに現れている対象を認識するために、入力データが２以上のクラスのそれぞれに帰属することの尤もらしさを表す値を出力する認識器であり、また、統合認識手段４２の選択手段４２０は、肯定値域であるか否定値域であるかの出力種別が同一である出力値の組み合わせを、類似する出力値の組み合わせとして選択する。

これ対し、第二の実施形態に係る対象認識装置１は、人の年齢を認識対象とし、窓画像に写る人の顔の特徴から年齢を推定する推定器の出力値を用いて、監視空間に存在する人の年齢を認識する。この第二の実施形態の対象認識装置１における推定器は、入力データに現れている対象を認識するために、連続値で表される対象の範囲内の、入力データが有する特徴に対応する値を出力する認識器であり、また、統合認識手段４２の選択手段４２０は、出力値に対して予め定められた推定誤差範囲どうしが重複する出力値の組み合わせを、類似する出力値の組み合わせとして選択する。

以下、第二の実施形態の対象認識装置１の構成を説明する。第二の実施形態の対象認識装置１の概略構成は第一の実施形態と同様に図１で表される。ただし、制御部４は、監視空間に人が存在する場合に、その人の年齢を推定し、推定した年齢の情報を認識信号に含ませて出力部５に出力する。

また、第二の実施形態の対象認識装置１の機能ブロックは第一の実施形態と同様に図２で表される。ただし、それぞれの手段が記憶する情報や行う処理の具体例は異なり、以下、図２に示す機能ブロックの各手段の第二の実施形態における構成を説明する。

切り出し手段４０は、撮影画像から人の顔が撮影されている顔画像を切り出し、切り出した顔画像をＫ個の個別認識手段４１-1，４１-2，…，４１-Kのそれぞれに出力する。つまり、当該顔画像が第二の実施形態の対象認識装置１における入力データとなる。切り出し手段４０は、撮影画像中で検知したい顔サイズの範囲に応じて予め定めた複数通りの倍率で撮影画像を拡大および縮小し、当該拡大・縮小した撮影画像の全域にて所定サイズの窓領域を移動させる。そして、窓領域内の画像が人の顔の特徴を有するか否かを判定し、人の顔の特徴を有すると判定した窓領域の画像を切り出す。顔画像のサイズすなわち幅および高さは、後述する推定器の学習に用いた学習画像のサイズと同一である。

認識器記憶手段３０は、第一の実施形態と同様、それぞれが複数の学習データを用い入力データに対する認識結果を表す出力値を出力するよう学習した複数の認識器を記憶する。具体的には、認識器記憶手段３０は複数個の認識器としてＫ個（ここでＫ＞２）の推定器を記憶する。当該推定器はそれぞれ、顔画像が入力されると当該画像に撮影された人の年齢の推定値を出力する。

Ｋ個の推定器のそれぞれは、例えば、顔画像の特徴量を入力とし当該顔画像に撮影された人の年齢を出力とする線形回帰関数としてモデル化したＳＶＭであり、上記線形回帰関数のパラメータを含んで構成され、予め、多数の顔画像（Ｎ枚の学習画像）の特徴量と当該顔画像に写る人の年齢とが対応付けられた学習データを用いて上記線形回帰関数のパラメータを機械学習している。

ただし、Ｋ個の推定器のそれぞれは、互いに特徴量を異ならせて学習しており、推定器を構成するパラメータは互いに異なるため、互いに性質が異なる。

例えば、不図示の学習手段が、認識処理に先立って以下の処理を行う。ここではＫ＝４とし、これに対応して、学習画像に４種類のフィルタを施し、フィルタを施したそれぞれの画像から特徴量を抽出する。学習手段は、Ｎ枚の学習画像それぞれに互いにスケールと方向の組み合わせが異なる４種類の楕円ガウシアンフィルタを施して、フィルタを施した学習画像からＬＢＰ特徴量を抽出する。４種類の楕円ガウシアンフィルタは、例えば、図３を用いて説明した４種類のフィルタＦ１，Ｆ２，Ｆ３，Ｆ４とすることができる。

具体的には、フィルタＦ１を施して得たＮ枚分のＬＢＰ特徴量を用いた機械学習により１番目の推定器を学習し、フィルタＦ２を施して得たＮ枚分のＬＢＰ特徴量を用いた機械学習により２番目の推定器を学習し、フィルタＦ３を施して得たＮ枚分のＬＢＰ特徴量を用いた機械学習により３番目の推定器を学習し、フィルタＦ４を施して得たＮ枚分のＬＢＰ特徴量を用いた機械学習により４番目の推定器を学習する。

なお、線形回帰関数としてモデル化したＳＶＭに代えて、回帰木としてモデル化したランダムフォレスト、ニューラルネットワーク法など種々の他のモデルを採用することもできる。

個別認識手段４１は入力データである窓画像を複数の認識器それぞれに入力して認識器ごとの出力値を取得する。つまり、個別認識手段４１-1，４１-2，…，４１-Kは、第一の実施形態と同様、それぞれが認識器記憶手段３０に記憶されている複数の認識器のうちの対応する認識器に、入力データの特徴量を入力することによって、認識器ごとの出力値を取得し、統合認識手段４２に出力する。

例えば、Ｋ＝４とした上述の例では、任意の個別認識手段４１-j（ｊ＝１，２，３，４）は、認識器記憶手段３０からｊ番目の推定器を読み出すとともに、顔画像ごとに、当該顔画像にフィルタＦｊを施してフィルタリング後の顔画像からＬＢＰ特徴量を抽出し、顔画像ごとのＬＢＰ特徴量をｊ番目の推定器に入力することによって当該顔画像に対する推定値を取得する。

なお、ＬＢＰ特徴量に代えて、ガボール（Gabor）特徴量や周波数特徴など他の種々の特徴量を採用することもできる。或いは上述した特徴量のうち２以上の特徴量を組み合わせて用いることもできる。ただし、学習で用いる特徴量と認識で用いる特徴量は整合させる。

独立度合い記憶手段３１は、第一の実施形態と同様、認識器の組み合わせごとに一群のテストデータに対する出力値の相違度が高い組み合わせほど高く設定した独立度合いを記憶する。

具体的には、独立度合いは、認識器の各組み合わせに共通の一群のテストデータを用いて不図示の独立度合い算出手段によって以下のようにして算出され、認識器の組み合わせごとに一群のテストデータのうち当該組み合わせ内で認識器の出力値の差が所定値未満であったテストデータの数（一致数）が少ない組み合わせほど高い値に設定される。

まず、独立度合い算出手段はＭ枚のテスト画像の特徴量を抽出する。そして、独立度合い算出手段はＭ枚のテスト画像の特徴量を１〜Ｋ番目の推定器それぞれに入力し、推定器ごとにＭ個の推定値を取得する。さらに、独立度合い算出手段は全推定値の誤差の標準偏差σに応じた許容幅Ａを算出する。すなわち、各テスト画像に対する推定値と当該テスト画像に撮影された人の年齢（真値）との差を求めて、全ての差の二乗和の平方根を平均して標準偏差σを算出し、標準偏差σに予め定めた定数αを乗じて２倍した許容幅Ａ（＝２ασ）を算出する。

独立度合い算出手段は互いに異なる推定器の組み合わせ全てについて、対応するテスト画像に対する推定値の差の絶対値がＡ未満である数を一致数として計数し、一致数を推定の個数Ｍで除した値の逆数を独立度合いとして算出する。ここで、推定値の差の絶対値がＡ未満であれば、（推定値±ασ）の範囲どうしが重複範囲を有することを意味する。そして、独立度合い算出手段は、算出した独立度合いを、算出元となった推定器の組み合わせを表す符号と対応付けて独立度合い記憶手段３１に記憶させる。

なお、年齢層ごとに許容幅を異ならせ、推定誤差が大きな年齢層ほど大きく、推定誤差が小さな年齢層ほど小さな許容幅を設定することもできる。その場合は、真値の年齢層ごとに標準偏差を算出して許容幅を設定すればよい。また、独立度合い記憶手段３１が記憶する独立度合いは、複数のテストデータに対する出力値の正規化相関値が低い組み合わせほど高く設定した独立度合いとすることもできる。

ちなみに、推定器を用いる認識の場合、一般に推定値が誤差を含むため正規化相関値に基づく独立度合いよりも一致数に基づく独立度合いの方が優れる。

統合認識手段４２は、第一の実施形態と同様、個別認識手段４１-1，４１-2，…，４１-Kが取得した出力値のうち所定基準を超えて類似している出力値の組み合わせを、当該組み合わせに対して設定されている独立度合いで重み付けて総和し、総和した値（総和値）を総合評価値とし、総合評価値に基づいて所定対象を認識する。

統合認識手段４２の選択手段４２０は、入力データに対する個別認識手段４１-1，４１-2，…，４１-Kの推定値の中で差が許容幅Ａ未満である推定値どうしの組を選択する。

統合認識手段４２の重み付け手段４２１-1，４２１-2，…，４２１-Kのうち選択手段４２０が選択した組の推定器に対応して設けられているものは当該推定器が出力する推定値に、当該推定器に対応して予め記憶されている独立度合いを乗算する。

統合認識手段４２の総和手段４２２は、重み付け手段４２１-1，４２１-2，…，４２１-Kが重み付けを行った結果である、推定値と独立度合いの積と、重み付け手段４２１-1，４２１-2，…，４２１-Kが重み付けを行わなかった推定値とを総和して、総合評価値となる総和値を求める。

統合認識手段４２の判定手段４２３は、総和値から推定値の重み付け平均値を求めることで最終的な年齢を判定し、出力する。具体的には、総和手段４２２が重みとして用いた独立度合いと、重み付けを行わなかった推定値の個数との和で、総和値を除した値を最終的な年齢とする。

次に第二の実施形態の対象認識装置１の動作について説明する。図６は第二の実施形態の対象認識装置１の概略の動作を示すフロー図である。

制御部４は、撮影部２に撮影領域を撮影させて撮影画像を取得する（ステップＳ２００）。そして制御部４は切り出し手段４０として機能し、撮影画像から顔画像を切り出す（ステップＳ２０１）。撮影画像に少なくとも１つの顔画像が含まれている場合には（ステップＳ２０２にて「Ｙｅｓ」の場合）、制御部４は全ての顔画像について以下のステップＳ２０３〜Ｓ２１１の処理を繰り返す。一方、撮影画像から顔画像を切り出せなかった場合には（ステップＳ２０２にて「Ｎｏ」の場合）、処理をステップＳ２００に戻して次の撮影画像の取得を待つ。

制御部４はステップＳ２０１にて切り出された顔画像を順次、処理対象に設定し（ステップＳ２０３）、処理対象とした顔画像を全ての個別認識手段４１に入力する（ステップＳ２０４）。つまり、制御部４は個別認識手段４１-1，４１-2，…，４１-Kとして機能し、顔画像は個別認識手段４１-1，４１-2，…，４１-Kに入力される。個別認識手段４１-1，４１-2，…，４１-Kのそれぞれは、入力された顔画像から特徴量を算出し（ステップＳ２０５）、さらに自身に割り当てられている推定器を認識器記憶手段３０から読み出し、読み出した推定器に抽出した特徴量を入力して出力値である年齢を算出する（ステップＳ２０６）。

制御部４は統合認識手段４２として機能し、個別認識手段４１-1，４１-2，…，４１-Kにより算出された年齢が統合認識手段４２に入力される。統合認識手段４２の選択手段４２０は、推定器が出力する年齢どうしを比較して、年齢の差が許容幅未満である推定器の組を選択する（ステップＳ２０７）。

統合認識手段４２の重み付け手段４２１は選択した組の年齢を独立度合いで重み付けする（ステップＳ２０８）。具体的には、重み付け手段４２１-1，４２１-2，…，４２１-Kは、選択手段４２０が選択した組の推定器それぞれが出力する年齢に当該推定器の組に対応して予め設定された独立度合いを乗算して乗算結果を出力し、選択手段４２０が選択しなかった推定器の組の年齢はそのまま出力する。統合認識手段４２の総和手段４２２は、重み付け手段４２１-1，４２１-2，…，４２１-Kから出力される値を総和して総和値を算出する。

統合認識手段４２の判定手段４２３は、総和手段４２２が算出した総和値に基づき顔画像の人の年齢を判定し（ステップＳ２０９）、撮影領域における人の存在と当該人の年齢の情報とを含む認識信号を生成、出力する（ステップＳ２１０）。

制御部４は撮影画像から切り出された全顔画像について未処理のものがあれば（ステップＳ２１１にて「Ｎｏ」の場合）、ステップＳ２０３〜Ｓ２１０の処理を繰り返し、全画像について処理が完了した場合は（ステップＳ２１１にて「Ｙｅｓ」の場合）、処理をステップＳ２００に戻して次の撮影画像の取得を待つ。

［第二の実施形態の変形例］
（１）上記第二の実施形態およびその変形例においては個別認識手段４１-1，４１-2，…，４１-Kが共通する種類のモデルを用いる例を示したが、個別認識手段４１-1，４１-2，…，４１-Kのそれぞれが異なる種類のモデルを用いても良い。

（２）上記第二の実施形態およびその変形例においては、顔画像から年齢を推定する例を示したが、所定対象と入力データはこれに限らない。例えば、顔画像から顔の向きを推定する、監視映像から車両の向きを推定する、監視映像から人の密度を推定する、音声から年齢を推定する、ドップラー信号から速度を推定するなど、様々な用途に本発明を適用できる。

（３）上記第二の実施形態およびその変形例においては、１種類の入力データで予測を行う例を示したが、異なる種類のデータを組み合わせて予測を行うこともできる。例えば、顔画像と音声から年齢を推定する、可視画像と熱画像から人の密度を推定するなど、様々な用途に本発明を適用できる。

［第一の実施形態と第二の実施形態に共通する変形例］
（１）上記第一、第二の実施形態およびその各変形例においては個別認識手段４１-1，４１-2，…，４１-Kが共通する種類の特徴量を用いる例を示したが、個別認識手段４１-1，４１-2，…，４１-Kのそれぞれが異なる種類の特徴量を用いても良い。

（２）上記第一、第二の実施形態およびその各変形例においては、学習データのデータセットは複数の認識器にて共通とする一方、当該学習データから抽出する特徴量を互いに異ならせ、複数の認識器のそれぞれを当該互いに異ならせた特徴量を用いて学習したものとする例を示したが、複数の認識器のそれぞれを互いに異なる学習データを用いて学習した複数の認識器としてもよい。例えば、互いに一部が共通する複数の学習画像からなるＫ個のデータセットのそれぞれを用いて学習したＫ個の識別器とすることができる。或いは、互いに共通する画像を含まない複数の学習画像からなるＫ個のデータセットのそれぞれを用いて学習したＫ個の識別器としてもよい。ちなみにその場合は学習画像や入力画像そのものを当該画像の特徴量とすることもできる。

（３）上記第一、第二の実施形態およびその各変形例においては、統合認識手段４２の選択手段４２０が出力値が類似する認識器の組を全て選択する例を示したが、別の実施形態において選択手段４２０は、出力値が類似する認識器の組のうち、独立度合いが高いものから上位所定数の組のみを選択する。この方法は、認識器の数が多い場合に有効であり、独立性の高い認識器の組み合わせによる出力値をさらに強く強調できる。なお、その場合、総和手段４２２は重み付けを省略して、選択手段４２０が選択した認識器の組の出力値そのものの総和値を算出してもよい。

（４）上記第一、第二の実施形態およびその各変形例においては、統合認識手段４２の総和手段４２２が選択手段４２０が選択しなかった出力値をも総和する例を示したが、別の実施形態において総和手段４２２は、選択手段４２０が選択した組の重み付け出力値のみを総和する。この方法も認識器の数が多い場合に有効であり、独立性の高い認識器の組み合わせによる出力値をさらに強く強調できる。

（５）上記第一、第二の実施形態およびその各変形例においては、所定基準を超えて類似した出力値が得られた整合組み合わせを選択する選択手段４２０を備えた統合認識手段４２を示したが、整合組み合わせの選択を省略した統合認識手段４２とすることもできる。その場合の統合認識手段４２は、認識器の組み合わせの全てについて独立度合いを統合評価値に反映させる、或いは独立度合いが高いものから上位所定数の組の独立度合いのみを統合評価値に反映させる構成とすることができる。

１対象認識装置、２撮影部、３記憶部、４制御部、５出力部、３０認識器記憶手段、３１独立度合い記憶手段、４０切り出し手段、４１個別認識手段、４２統合認識手段、４２０選択手段、４２１重み付け手段、４２２総和手段、４２３判定手段。

Claims

入力データから所定対象を認識する対象認識装置であって、
前記入力データに対する認識結果を表す出力値を出力するようそれぞれ学習した互いに異なる複数の認識器、および前記認識器の組み合わせごとに一群のテストデータに対する前記出力値の相違度が高い前記組み合わせほど高く設定した独立度合いを記憶している記憶手段と、
前記入力データに対する前記複数の認識器それぞれの出力値を取得する個別認識手段と、
前記入力データに対する前記複数の認識器の出力値に基づき求めた総合評価値から前記所定対象を認識する手段であって、前記認識器の組み合わせに関する前記独立度合いを前記総合評価値に反映させる統合認識手段と、
を備えたことを特徴とする対象認識装置。
前記統合認識手段は、前記認識器の組み合わせのうち所定基準を超えて類似した出力値が得られた組み合わせに関する独立度合いを前記総合評価値に反映させること、を特徴とする請求項１に記載の対象認識装置。
前記記憶手段は、前記一群のテストデータに対する前記出力値の正規化相関値が低い前記組み合わせほど高く設定した前記独立度合いを記憶していること、を特徴とする請求項１または請求項２に記載の対象認識装置。
前記記憶手段は、前記認識器の組み合わせごとに、共通の前記一群のテストデータに対し前記出力値が肯定値域であるか否定値域であるかの出力種別が当該組み合わせ内で同一であった前記テストデータの数が少ない前記組み合わせほど高く設定した前記独立度合いを記憶していること、を特徴とする請求項１または請求項２に記載の対象認識装置。
前記記憶手段は、前記認識器の組み合わせごとに、共通の前記一群のテストデータに対し前記出力値の差が所定の許容値未満であった前記テストデータの数が少ない前記組み合わせほど高く設定した前記独立度合いを記憶していること、を特徴とする請求項１または請求項２に記載の対象認識装置。
前記統合認識手段は、前記組み合わせの前記出力値を当該組み合わせに対して設定されている前記独立度合いで重み付けて総和し、前記総合評価値を求めること、を特徴とする請求項１から請求項５のいずれか１つに記載の対象認識装置。
前記統合認識手段は、前記組み合わせに対し設定されている前記独立度合いを総和して前記総合評価値を求めること、を特徴とする請求項１から請求項６のいずれか１つに記載の対象認識装置。
前記統合認識手段は、前記総合評価値を求める際に、前記組み合わせのうち前記独立度合いが高い方から順に所定数の組み合わせを用いること、を特徴とする請求項１から請求項７のいずれか１つに記載の対象認識装置。