JP2011096291A

JP2011096291A - 特徴抽出装置、対象物検出装置、特徴抽出方法、および対象物検出方法

Info

Publication number: JP2011096291A
Application number: JP2011033858A
Authority: JP
Inventors: Katsunori Waratani; 克則藁谷; Tomiyoshi Kawai; 富美河合; Cher Keng Heng; ヘーン・チェー・ケーン
Original assignee: Panasonic Corp
Current assignee: Panasonic Corp
Priority date: 2011-02-18
Filing date: 2011-02-18
Publication date: 2011-05-12
Anticipated expiration: 2025-06-15
Also published as: JP4741036B2

Abstract

【課題】高精度で、処理負荷の増加を抑えることが可能な特徴抽出装置を提供すること。
【解決手段】本特徴抽出装置は、画像に対して複数の矩形ブロックから構成される矩形テンプレートを設定し、矩形テンプレートに含まれる矩形ブロックの輝度値の平均である参照輝度値と、矩形ブロック各々についての各ブロック毎の平均輝度である個別輝度値とを求め、個別輝度値が参照輝度値以上のときは矩形ブロックに対して第１ラベルを割り当て、個別輝度値が参照輝度値未満のときは矩形ブロックに対して第２ラベルを割り当て、画像に対して設定した矩形テンプレートの特徴量として、第１ラベルと第２ラベルとの配列である空間的分布情報を含む特徴量を求める。
【選択図】図１

Description

本発明は、特徴抽出装置、対象物検出装置、特徴抽出方法、および対象物検出方法に関する。例えば、画像から顔等の対象物を検出する対象物検出装置に関する。

コンピュータビジョンにおいて、対象物検出技術は、画像の中に特定の対象物が映っているか否かを判定する問題とされる。対象物としては、車や、歩行者、人間の顔などがある。多くのアプリケーションにおいて、対象物検出は非常に難しい問題とされている。たとえば、対象物が人間の顔の場合、顔の向き、照明、サングラスやマスク等による部分的な隠れにより、その見え方は大きく変化する。また、監視装置等に用いるアプリケーション等においては、画質が悪くノイズが載っている場合や、画像の中に映る顔が小さい場合などはその検出がいっそう難しくなる。

対象物検出の問題を解決する一般的な方式として、統計的学習に基づくパターン認識技術があり、識別器のパラメータはあらかじめ与えた学習用サンプルを元に決定される。顔検出における一般的な手法としては、ニューラルネットワークや、サポートベクターマシン、ベイズ推定等を用いた手法がある。これらの手法は、通常、入力画像から識別に用いる特徴量を抽出する特徴選択技術と、選択した特徴量を入力として対象物であるか否かを判定する識別器を構築する識別器構築技術と、構築した識別器を使って、画像ウィンドウ内に顔の存在を判定する技術からなる。なお、「画像ウィンドウ」とは、入力画像内の部分領域を意味し、入力画像からは、部分領域の位置や大きさを変えた多数のウィンドウが切り出し可能である。

識別器の構築手法としては、非特許文献１で知られているアダプティブブースティング（Adaptive Boosting）又はアダブースト（Adaboost）がある。以下これを「アダブースト学習法」と呼ぶ。これは、多数の対象物検出システムにおいて適用されており、これを用いた画像からの顔検出手法としては、非特許文献２がある。アダブースト学習法では、識別器は、判別エラーが５０％以下であればよいという高いエラー率でよいとされており、これを弱判別器と称す。アダブースト学習法では、用意した多数の弱判別器の中から、いくつかの弱判別器を選択し、これらをアンサンブルすることで、判別エラー率の低い強判別器を構築する。

アダブースト学習法を用いたリアルタイムでの正面顔検出手法として、非特許文献２や特許文献１に示される手法がある。非特許文献２や特許文献１における顔識別器、すなわち顔検出器では、複数の強判別器を一列に連結したカスケード構造をとる。カスケード構造では、連結している判別器をステージと称し、入力に近いほうから１ステージ目を１段目の強判別器、または１段目のステージ識別器と呼ぶ。各ステージの識別器は、アダブースト学習法によって学習し、学習用の入力画像から抽出された特徴量に基づく多数の弱判別器を連結し、構築する。各ステージ識別器は学習サンプルに対してはほぼ１００％で識別が正解するように訓練する一方で、非顔画像の学習サンプルに対しては５０％程度で識別が正解すればいいように訓練する。１段目のステージ識別器の場合は、入力画像に対して、また、２段目以降のステージ識別器の場合は、１段目のステージ識別器が顔と判定した入力画像に対して、顔／非顔の判定を行う。ｎ段目のステージで非顔と判定されたものは、それ以上処理を行わず非顔と判定を決定するため、効率的に処理が可能であり、１秒あたり１５フレーム程度の処理速度で動作することが知られている。

また、異なる学習サンプルを用いて複数の顔検出器を構築し、それらの識別結果を総合することで識別精度を向上させる手法がある。その一例として、多数決（Majority Voting）方式が非特許文献２に示されている。非特許文献２の著者であるＶｉｏｌａらは３つのカスケード構造識別器（カスケード構造である識別器）を用意し、それらの出力結果の多数決により識別誤差が減少することを示している。非特許文献３に示される別のアプリケーションにおいては、非特許文献３の著者であるＲｏｗｌｅｙらは顔検出器を構築するために多数のニューラルネットを訓練した。複数の検出器の結果の結合方法として、前記多数決方式に代わって、多数のニューラルネットワーク検出器から最終結果を出力するように訓練されたニューラルネットワークを用いる手法が提案されている。

顔検出のための特徴量の抽出方法としては、矩形特徴（Rectangle Feature）と呼ばれる特徴が非特許文献２でＶｉｏｌａらにより提案されている。画像ウィンドウの矩形特徴は矩形フィルターで定義された長方形の部分領域間の輝度差を測ることによって抽出される。

また、別の特徴量抽出方法として、非特許文献４の「Modified Census Transform」が提案されている。特徴量は、入力画像中の３×３画素ブロックを２値画像に変換することによって抽出される。ブロック内の画素の輝度値はブロック内の輝度平均値と比較される。画素の輝度値が平均値よりも高いなら１が、そうでないなら０がラベル付けされる。ブロック内のすべての画素のラベルを順に並べると、９ビットの情報になり、これが特徴量の値として使用される。

米国特許出願公開第２００２／０１０２０２４号明細書

Yoav Freund、Robert E. Schapire、「A decision-theoretic generalization of on-line learning and an application to boosting」、Computational Learning Theory: Eurocolt '95、Springer-Verlag、1995年、p.23−37 Paul Viola、Michael Jones、「Rapid Object Detection Using a Boosted Cascade of Simple Features」、IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR)、2001年12月、ISSN: 1063-6919, Vol. 1、p.511−518 H. Rowley、S. Baluja、T. Kanade、「Neural Network-Based Face Detection」、IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI)、Vol. 20、No. 1、1998年1月、p.23−28 Bernhard Froba、Andreas Ernst、「Face Detection with the Modified Census Transform」、Proceedings for Sixth IEEE International Conference on Automatic Face and Gesture Recognition (AFGR)、2004年5月、p.91−96

しかしながら、上記の検出技術には下記の課題がある。

第一の課題は、非特許文献２および特許文献１にて提案されているカスケード識別器において、弱判別器が全入力空間に対して処理する線形識別器であることである。弱判別器は一つ前の弱判別器の識別エラーを補うために追加、訓練される。しかし、新たに訓練された弱判別器を加えると、それらを連結してできる全体の識別器でのエラーは逓減するが、入力空間のある部分領域においてエラーを改善する一方で、別の部分領域では識別エラーを引き起こす。したがって、カスケード識別器内の後段の強判別器が、対象物（たとえば顔）を含む画像と対象物を含まない画像が、画像特徴として似通っている場合、特徴区間上でそれらのデータを線形分離できないことが多くなり、その判別エラーを引き起こす率が高くなる。そのため、非常に多くの弱判別器を必要とし、識別時に処理する判別処理数が増大する。

また、ステージ識別器を学習する際には、対象物を含まない画像（以下、非対象物画像）についてはステージごとに異なる画像サンプルで学習され、学習の非対象物画像に合った最もよい（最もよく判別できる）弱判別器が選択されるが、対象物を含む画像（以下、対象物画像）については全ステージでそれと認識されなければならず、同一の学習サンプルで学習されている。しかしながら、たとえば対象物が顔である場合では、顔画像は、顔の向き・傾きや照明条件、個人の特徴や人種、サングラス・マスクや髪による隠蔽などにより、その特徴は大きく異なる。真正面向きで、目、鼻、口等がはっきり映っている顔は判別しやすく、一方、向きや照明等により顔の特徴が削減されている場合、判別し難い。このような事情があるにもかかわらず、従来の識別器はそれらの顔特徴について同一の弱判別器で処理を行っており、非顔とは区別しやすい顔画像を処理するメカニズムがない。また、各顔の特徴に応じた識別が実現されていないため、複雑な顔特徴に対する高精度な検出が困難となっている。

第二の課題は、非特許文献２と特許文献１におけるカスケード構造では、あるステージの強判別器から別のステージへ、何の情報も伝達されないことである。従来の方式では、あるステージの弱判別器は前段のステージの強判別器の出力値を知らない。そのため、たとえば対象物が顔画像である場合に、正面向きで判別しやすい顔を対象とする検出器の構築は、カスケード構造により実現できても、入力空間が複雑で識別器が高次元に及ぶような複雑な顔（たとえば、多様な向きの顔画像）を対象とする検出器の実現は、カスケード構造では難しい。前段の強判別器の結果を知らずに、新たに強判別器を学習する場合、その強判別器で使用する弱判別機は、学習用の顔・非顔サンプルを全体的に最もうまく分離する弱判別機から選択される。一方、仮に前段の強判別器の結果として、前段の強判別器が識別し難かった（すなわち、顔・非顔の境界付近に存在するサンプルなのか）、判別がしやすかったサンプルであったかの情報が与えられていると、その情報を用いて、顔と非顔の境界付近をうまく識別する弱判別器から組み込むことができ、特徴空間上の顔と非顔の境界をすばやく見つけることが可能になる。したがって、複雑な識別境界となる、多様な向きの顔のような複雑な顔の識別ができる検出器の構築の実現には、前段の強判別機の情報が不可欠と考えられる。

第三の課題は、非特許文献２において示されている多数決方式では、複数の検出器が並列に動作するので処理負荷が大きい。また、カスケード識別器がそれぞれ独立に訓練されるので、それらが補完的に動作しているか否かが不明である。識別器間では情報を共有しない。多数決手法は複数の検出器の結果を結合するための最良の手法ではない。たとえば、まったく別の識別器が訓練され、非特許文献４に示されるように複数の識別器から最良の結果を出力するように構築した場合には、処理時間はもっと早くなる。

第四の課題は、非特許文献２および特許文献１において、Ｖｉｏｌａらによって提案されている輝度値に基づく矩形特徴が、照明環境に敏感であるということである。たとえば、図１５は従来技術における矩形特徴の課題を説明するための図であり、矩形特徴は図１５の斜線で示す矩形１２２０と、矩形１２２１との間の輝度値の差の値である。たとえば、図１５（Ｂ）の顔画像１２０２では照明影響が顔の一部に強く現れており、そのような画像における輝度値の差は、図１５（Ｄ）の非顔画像１２１２のそれに似た値となる。さらに、その特徴量は矩形ブロック内の輝度情報だけを測るので、重要な配置情報を取得しない。たとえば、図１５（Ｃ）に示す非顔画像１２１１と図１５（Ａ）に示す顔画像１２０１は、双方がほぼ同数の低輝度値の画素を持つので同じくらいの輝度差の値を持つ。高低の輝度値を持つ画素の空間的分布は画像を識別する上で非常に重要であるが、それらが特徴抽出の中で考慮されていない。非顔画像が顔画像により似通ってくる後段の識別器では、矩形特徴が顔と非顔を分離するのにどんどん効果がなくなっていき、識別エラーを増加させる。これが、ステージ識別器における特徴量の数を大きく増加する要因となっている。

異なるアプローチとして、たとえば非特許文献４に示されている、パターンにもと基づく「modified census transform」特徴量があるが、これは局所特徴量だけを抽出するのでノイズの影響に敏感となってしまう。たとえば、図１６は、この従来の特徴量の課題を説明するための図である。変換テンプレートは３ｘ３画素のブロック１２５０に対して特徴量をとる。ブロック１２５０が二値ブロック１２５１に示すように二値に変換されるとき、ノイズの載った非顔画像１２３１も、顔画像１２０１と同じ二値ブロック値に変換される。これは、「modified census transform」特徴量では、輝度情報が完全に無視されているからである。「modified census transform」特徴量は画素を単位としているので、ブロックに局所化しすぎであり、大域的な特徴量を取得できていない。

本発明は、上記の事情に鑑みてなされたものであって、高精度で、処理負荷の増加を抑えることが可能な特徴抽出装置、対象物検出装置、特徴抽出方法、および対象物検出方法を提供することを目的とする。

本発明の特徴抽出装置は、画像に対して複数の矩形ブロックから構成される矩形テンプレートを設定し、前記矩形テンプレートに含まれる矩形ブロックの輝度値の平均である参照輝度値と、前記矩形ブロック各々についての各ブロック毎の平均輝度である個別輝度値とを求め、前記個別輝度値が前記参照輝度値以上のときは前記矩形ブロックに対して第１ラベルを割り当て、前記個別輝度値が前記参照輝度値未満のときは前記矩形ブロックに対して第２ラベルを割り当て、前記画像に対して設定した矩形テンプレートの特徴量として、前記第１ラベルと第２ラベルとの配列である空間的分布情報を含む特徴量を求める。

本発明の対象物検出装置は、入力画像に対して複数の矩形ブロックから構成される矩形テンプレートを設定し、前記矩形テンプレートに含まれる矩形ブロックの輝度値の平均である参照輝度値と、前記矩形ブロック各々についての各ブロック毎の平均輝度である個別輝度値とを求め、前記個別輝度値が前記参照輝度値以上のときは前記矩形ブロックに対して第１ラベルを割り当て、前記個別輝度値が前記参照輝度値未満のときは前記矩形ブロックに対して第２ラベルを割り当て、前記入力画像に対して設定した矩形テンプレートの特徴量として、前記第１ラベルと第２ラベルとの配列である空間的分布情報を含む特徴量を求める特徴抽出手段と、学習用の画像サンプルに対して設定した矩形テンプレートが、対象物を含む確率と含まない確率とに基づいて、空間的分布情報を含む特徴量ごとに、スコアを算出するスコア算出手段と、を備え、前記スコア算出手段は、前記入力画像に対して設定した矩形テンプレートの前記特徴量に対応したスコアを求め、前記入力画像に対象物が含まれるか否かを判定する。

本発明の特徴抽出方法は、画像に対して複数の矩形ブロックから構成される矩形テンプレートを設定するステップと、前記矩形テンプレートに含まれる矩形ブロックの輝度値の平均である参照輝度値と、前記矩形ブロック各々についての各ブロック毎の平均輝度である個別輝度値とを求めるステップと、前記個別輝度値が前記参照輝度値以上のときは前記矩形ブロックに対して第１ラベルを割り当て、前記個別輝度値が前記参照輝度値未満のときは前記矩形ブロックに対して第２ラベルを割り当てるステップと、前記画像に対して設定した矩形テンプレートの特徴量として、前記第１ラベルと第２ラベルとの配列である空間的分布情報を含む特徴量を求める特徴抽出ステップと、を有する。

本発明の対象物検出方法は、入力画像に対して複数の矩形ブロックから構成される矩形テンプレートを設定し、前記矩形テンプレートに含まれる矩形ブロックの輝度値の平均である参照輝度値と、前記矩形ブロック各々についての各ブロック毎の平均輝度である個別輝度値とを求め、前記個別輝度値が前記参照輝度値以上のときは前記矩形ブロックに対して第１ラベルを割り当て、前記個別輝度値が前記参照輝度値未満のときは前記矩形ブロックに対して第２ラベルを割り当て、前記入力画像に対して設定した矩形テンプレートの特徴量として、前記第１ラベルと第２ラベルとの配列である空間的分布情報を含む特徴量を求める特徴抽出ステップと、学習用の画像サンプルに対して設定した矩形テンプレートが、対象物を含む確率と含まない確率とに基づいて、空間的分布情報を含む特徴量ごとに、スコアを算出するスコア算出ステップと、を有し、前記スコア算出ステップにおいて、前記入力画像に対して設定した矩形テンプレートの前記特徴量に対応したスコアを求めて、前記入力画像に対象物が含まれるか否かを判定する。

本発明によれば、高精度で、処理負荷の増加を抑えることが可能である。

本発明の実施形態に係る対象物検出装置の概略構成を示すブロック図本発明の実施形態に係るノードネットワークを示す概念図本発明の実施形態に係るパス生成部の処理手順を示すフローチャート本発明の実施形態に係る画像ウィンドウ検出処理部の処理手順を示すフローチャート本発明の実施形態に係る対象物検出学習装置の概略構成を示すブロック図本発明の実施形態に係る空ノード生成部の処理手順を示すフローチャート本発明の実施形態に係る空ノード生成を説明する概念図本発明の実施形態に係る画像サンプル収集部の処理手順を示すフローチャート本発明の実施形態に係るノード学習部の処理手順を示すフローチャート本発明の実施形態に係る特徴抽出部の概略構成を示すブロック図本発明の実施形態に係る特徴抽出用の矩形テンプレートの一例を示す図本発明の実施形態に係る特徴抽出部の処理手順を示すフローチャート本発明の実施形態に係る特徴抽出部における処理手順を説明するための説明図本発明の実施形態に係る特徴抽出用の矩形テンプレートの他の例を示す図従来技術における矩形特徴の課題を説明するための図従来の特徴量の課題を説明するための図

次に、本発明の実施形態に係る対象物検出装置について説明する。以下の説明では、対象物として人物の顔を具体例として説明する。

＜検出装置の構造＞
図１は、本発明の実施形態に係る対象物検出装置の概略構成を示すブロック図である。図１に示すように、本実施形態の対象物検出装置は、入力部２０１と、画像ウィンドウ抽出部２１０と、記憶部５０２と、ネットワーク識別器５９０と、出力部２０２とを有する。

画像ウィンドウ抽出部２１０は、入力部２０１に入力された画像から複数の画像ウィンドウを抽出する。なお、「画像ウィンドウ」とは、入力画像内の部分領域を意味し、入力画像からは、部分領域の位置や大きさを変えた多数のウィンドウが切り出し可能である。

記憶部５０２は、ノードネットワークを蓄積する。図２は、本発明の実施形態に係るノードネットワークを示す概念図である。ネットワーク１００は、ネットワーク上に配置された複数のノードを有する。

同図に、ネットワークの基本ユニット１１０を示す。基本ユニット１１０は、１つのノード・「ノードＮ」１１１と、多くともＭ個のノードからのつながりを統合するジョイント部１１７と、多くともＮ個のノードへ分割するスピリット部１１８からなる。たとえば、図２では、Ｍ＝Ｎ＝２の場合を示している。また、Ｍ個のノードは、ノードＮの親ノードと称し、Ｎ個のノードはノードＮの子ノードと称す。

図２の場合、ノードＮの親ノードはノード１１２、１１３であり、子ノードはノード１１４，１１５である。親ノードのないノードをルートノード（図２では１０１）と称す。入力画像１７０はルートノード１０１に入力される。

各ノード１１１は複数の識別器を有しており、識別器は、特徴量識別器ｈ_ｎ、対象物識別器Ｈ_ｎ、そして識別エラー関数Ｅ_ｎを有する。識別器はたとえば、Jin, R.、Hauptmann, A.、Carbonell, J.、 Si, L.、Liu, Y.、「A New Boosting Algorithm Using Input Dependent Regularizer」、20th International Conference on Machine Learning (ICML'03), Washington, DC, August 21-24, 2003（以下、文献Ａという）に示されるように、局所的にブースティングを用いることによって構築することが可能である。特徴量識別器はブースティング学習法における弱判別器であってもよいし、また、対象物識別器はブースティング学習法における強判別器であってもよい。

図１の対象物検出装置の説明に戻る。ネットワーク識別器５９０は、ネットワーク構造を有する識別器であり、画像ウィンドウ抽出部２１０から画像ウィンドウを取得し、記憶部５０２に蓄積されているノードネットワークを用いて、各画像ウィンドウに対象物が含まれるか否かを識別する。

ネットワーク識別器５９０は、パス生成部５２０と画像ウィンドウ検出処理部５３０を有する。パス生成部５２０は、記憶部５０２に蓄積されているノードネットワークの情報を読み込み、少なくとも１つ以上のパス（経路）を生成する。パスは、画像ウィンドウを処理するために選ばれたノードの列である。

画像ウィンドウ検出処理部５３０は、画像ウィンドウ抽出部２１０から画像ウィンドウを取得し、パス生成部５２０によって生成されたパスにより、画像ウィンドウを処理する。なお、各パスにおいて、上述した各ノードにおいて識別器（特徴量識別器ｈ_ｎ、対象物識別器Ｈ_ｎ、識別エラー関数Ｅ_ｎ）による演算を行い、画像ウィンドウが対象物を含むか否かを示す識別結果が生成される。出力する識別結果として、最も識別エラーの低い識別結果を選択し、出力部２０２に蓄積する。

続いて、画像ウィンドウ検出処理部５３０は新しいパスを生成するよう、パス生成部５２０に指示し、それ以上新しいパスが生成されなくなるまで、または所定の回数に達するまで上記識別処理を繰り返す。

図３は、本発明の実施形態に係るパス生成部の処理手順を示すフローチャートである。まず、パス生成部５２０は、ネットワーク内に生成されているパスがあるか否かを判定する（ステップ６２１）。パスがない場合、ルートノードのみを含むパスが生成され（ステップ６２２）、パス生成処理を終了する。

パスが存在した場合、ネットワーク内に生成されているパスの数があらかじめ設定したＫ個よりも大きいか否かを判定する（ステップ６２３）。Ｋの値はたとえば、１、２、３などが設定される。パス数がＫを超えている場合、パス数が多くともＫ個となるように識別エラーが高いパスを終了させる（ステップ６２４）。ここで、画像ウィンドウ検出処理部５３０において既に求められたものにより判定する。また、「パスを終了する」とは、あるパスについて、入力画像に対してそれ以上処理しない場合をいう。

それぞれの現在のパスを分割することによって、より多くのパスを生成する（ステップ６２５）。たとえば、あるパスが｛ｎｏｄｅ_０、ｎｏｄｅ_ａ、ｎｏｄｅ_ｂ｝を含む場合について考える。このとき、たとえばｎｏｄｅ_ｂの子ノードとして、ｎｏｄｅ_{ｂ，ｃｈｉｌｄ１}と、ｎｏｄｅ_{ｂ，ｃｈｉｌｄ２}が生成され、新しいパス、｛ｎｏｄｅ_０、ｎｏｄｅ_ａ、ｎｏｄｅ_ｂ、ｎｏｄｅ_{ｂ，ｃｈｉｌｄ１}｝と｛ｎｏｄｅ_０、ｎｏｄｅ_ａ、ｎｏｄｅ_ｂ、ｎｏｄｅ_{ｂ，ｃｈｉｌｄ２}｝が生成される。

図４は、本発明の実施形態に係る画像ウィンドウ検出処理部の処理手順を示すフローチャートである。

各生成されたパスに対し、画像ウィンドウ検出処理部５３０は画像ウィンドウが対象物を含むか否かを示す識別結果を評価する。識別結果はたとえば上記文献Ａのように局所的なブースティングから得てもよい。出力の識別結果は、生成されたパスのすべての識別結果から選択される。

図４のフローチャートの各ステップについて説明する。まず、画像ウィンドウ検出処理部５３０は、生成されたパスの各ノードに対して、入力の画像ウィンドウから特徴量を抽出する（ステップ６３１）。入力画像ウィンドウをＸとし、ノードＮについて抽出された特徴量をｆ_ｎ（Ｘ）とする。なお、特徴抽出は、例えば図１０に示す特徴抽出部３９０によって処理されるものであり、詳細は後述する。

次に、抽出した特徴量ｆ_ｎ（Ｘ）を識別器に与え、生成されたパスのノードに対するスコアｈ_ｎ（Ｘ）を求める（ステップ６３２）。スコアｈ_ｎ（Ｘ）は、特徴量識別器ｈ_ｎから求められ、次の式（１）に基づいて計算される。

上記式（１）のＰｒｏｂ（ｋ）は、イベントｋが発生する確率を示す。Ｙ＝＋１およびＹ＝−１は、それぞれ入力画像が対象物を含む場合、および含まない場合を意味している。

次に、各ノードのスコアが生成されたパスに対する累積スコアＳ_ｎ（Ｘ）を評価するために結合する（ステップ６３３）。累積スコアＳ_ｎ（Ｘ）は、次式（２）で求めてもよい。

正則化関数ｅｘｐ（−｜Ｓ_{ｎ，ｐａｒｅｎｔ}（Ｘ）−α_ｎ｜）は、特徴量識別器ｈ_ｎ（Ｘ）による効果を入力画像に応じて局所化するものであり、入力画像Ｘに対してＳ_{ｎ，ｐａｒｅｎｔ}（Ｘ）が正則化パラメータα_ｎに十分に近い値をとる場合にのみ累積スコアＳ_ｎ（Ｘ）に加算する。従って、ある場合には、ｅｘｐ（−｜Ｓ_{ｎ，ｐａｒｅｎｔ}（Ｘ）−α_ｎ｜）はほぼ０となり、新しい値Ｓ_ｎ（Ｘ）は古い値Ｓ_{ｎ，ｐａｒｅｎｔ}（Ｘ）と相対的にほぼ変わりない値になることもある。

次に、各パスの累積スコアＳ_ｎ（Ｘ）と識別結果Ｈ_ｎ（Ｘ）により、画像ウィンドウが対象物を含むか否かを判定する（ステップ６３４）。ここで、識別結果Ｈ_ｎ（Ｘ）は、対象物識別器Ｈ_ｎから求めてもよく、次式（３）で求めてもよい。

Ｈ_ｎ（Ｘ）＝＋１は、画像ウィンドウが対象物を含むとする判別結果であり、Ｈ_ｎ（Ｘ）＝−１は、対象物を含まないとの判別結果を意味する。

次に、パスの識別結果に対する識別エラーＥ_ｎ（Ｘ）を推定する（ステップ６３５）。識別エラーは、エラー関数Ｅ_ｎ（誤差関数）から求めることができ、また次式（４）で求めてもよい。

また、計算にかかる処理負荷を低減するために、関数ｈ_ｎは、次式（５）のようにルックアップテーブルとして実装してもよい。関数Ｅ_ｎ、Ｈ_ｎおよびＳ_ｎもまた、次式（６）のように二次元のルックアップテーブルとして実装してもよい。

画像ウィンドウ検出処理部５３０は、上記ステップ６３１〜６３５を繰り返し、各パスの識別結果および識別エラー（誤差関数）を求める（ステップ６３６）。そして、求められたパスの識別結果の中から、最も低い識別エラー値の識別結果を出力結果として選択する（ステップ６３７）。

そして、出力結果の識別エラーがあらかじめ定めている値よりも小さい場合、識別処理を終了する（ステップ６３８）。なお、出力結果の識別エラーがあらかじめ定めている値よりも小さくない場合には、パス生成部５２０へ新たなパスの生成を指示し、パス生成部５２０はパスを生成する。

出力部２０２は、このようにしてネットワーク識別器５９０の画像ウィンドウ検出処理部５３０が対象物を含んでいると識別した画像ウィンドウの位置（たとえば、入力画像上における座標値）と大きさ等の情報を出力する。

このようにして、パス生成部５２０によって、ネットワークが統合と分割を行うので、多数のパスを構築することが可能である。また、各パスは識別結果を評価する際に使用され、ネットワークは多数の検出器のプールとなっている。検出器群となっていることで１つの識別器よりもより信頼できる出力結果を出すことが可能である。

さらに、高速な識別プロセスを保障するために、パス数はＫで制限されている。最良な識別結果を保証するために、パスは動的に生成され、高い識別エラーを持つパスは識別処理の間に終了させられる。従って、入力に対して低い識別エラーを持つパスのみが使用される。

したがって、従来の並列では、並列検出器は静的で、識別処理の間に変更可能でないのに対して、本実施形態の対象物検出装置では、利用する検出器を動的に変化させ、不要な処理を抑えることができる。

また、画像ウィンドウ検出処理部５３０において、ブースティングアルゴリズムの利用により、新たに生成したパスでの識別エラーは、古いパスのものより統計的に小さくなることが保障されている。さらに、上記式（２）は、ブースティングを局所的に行い、識別器ｈ_ｎ（Ｘ）が入力画像の部分集合にのみに作用することを保障する。

また、十分に識別エラーが低くなった処理を中止させる本手法により、識別処理の高速化を実現している。これは、対象物を含んでいようがいまいが、判別しやすい入力画像を早期に識別することが可能であり、その判別に必要なノードの数を少なく抑えることができているからである。

また、本手法は、対象物を含んでいないと識別できた入力画像ウィンドウのみを早期に認識し、その後は決まった数の識別器で処理する従来のカスケード構造型よりも、より効率的である。

＜対象物検出の学習方法と装置＞
図５は、本発明の実施形態に係る対象物検出学習装置の概略構成を示すブロック図である。図１に示す対象物検出装置と重複する部分については、同一の符号を付す。図５に示すように、入力部（画像サンプル群７０１）と、ネットワーク学習部７９０と、記憶部５０２とを有する。この対象物検出学習装置は、判定結果の情報（対象物の有無）を伴った複数の画像サンプルを与え、対象物検出装置において用いられるノードネットワークのノードの識別器を学習させて構築するものである。なお、目的の対象物を含む画像サンプルをポジティブサンプルといい、目的の対象物を含まない画像サンプルをネガティブサンプルという。

複数の画像サンプル群７０１が与えられると、ネットワーク学習部７９０は、複数の画像サンプルを識別するよう学習されたノードネットワークを決定する。ここで決定したノードネットワークは記憶部５０２にたくわえられ、ネットワーク識別器５９０で画像ウィンドウが対象物のインスタンスを持っているかどうかを識別プロセスにて識別するのに用いられる。

図７に示すように、ネットワーク学習部７９０は、空ノード生成部７１０、画像サンプル収集部７２０、ノード学習部７３０を有する。なお、空ノードとは、識別器が決定されていないノードをいい、学習済みのノードとは、識別器を決定済みのノードをいう。ネットワークのノードの識別器を決定するのにはたとえば上記文献Ａに記載の局所的ブースティングアルゴリズムを用いてもよい。

まず、空ノード生成部７１０は、記憶部５０２に保存された現在のノードネットワークを読み取り、学習のための空ノードを生成する。そして、空ノード生成部７１０は、画像サンプル収集部７２０を用いて、複数の入力画像サンプル群７０１から所定の数の画像サンプルを収集する。もし、収集した画像サンプルの数が所定の数よりも少なければ学習できないので空ノードを削除する。

次に、ノード学習部７３０は、画像サンプル収集部７２０から収集された画像サンプルを用いて生成された各々の空ノードに対応する識別器を最終的に決定する。ノードネットワークは、記憶部５０２に学習済みのノードを保存することで更新される。

これらの学習プロセスを、空ノード生成部７１０によって空ノードが生成されなくなるまで繰り返す。

図６は、本発明の実施形態に係る空ノード生成部の処理手順を示すフローチャートである。ステップ８１１では、ノードネットワークが空かどうか判定する。ノードが存在しない場合に、ネットワークは空であるという。ネットワークが空であれば、空のルートノード（ｎｏｄｅ_０）を生成することでネットワークを開始する（ステップ８１２）。

一方、ネットワークが空でない場合、すなわち少なくとも一つのノードが存在する場合、Ｎ個以下の子ノードとなるように、新規の空ノードをノードの結合と分割によって生成する（ステップ８１３）。ここで、この空ノードの生成プロセスについて説明する。

図７は、本発明の実施形態に係る空ノード生成を説明する概念図である。現在のノードネットワーク９０１から、近接する空ノードが共通の親を共有するように空のノード９５０、９５１、９５２、９５３を、ノード９６０、９６１、９６２、９６３を分割することで形成する。たとえば、ノード９５０及びノードは１つの共通の親ノードを持っている。

図６に戻り、空ノード生成の手順を説明する。ステップ８１４では、画像サンプル収集部７２０にそれぞれの空ノードに所定数Ｔ個（たとえば、１００００個）の画像サンプル群を収集する。

ステップ８１５では、収集画像サンプルが不十分な空ノードを取り除く。たとえば、画像サンプル数がＴよりも少ないときである。

図８は、本発明の実施形態に係る画像サンプル収集部の処理手順を示すフローチャートである。

ステップ８２１では、記憶部５０２で保存されているノードネットワークの識別で使われるパスを使って入力画像サンプル群７０１が伝達する。たとえば、ステップＳ８２１において、画像サンプル収集部７２０は、ネットワーク識別器５９０と同様の処理を行い、対象物の検出時と同じ動作で１つの画像サンプルを識別する経路を１つ以上生成する。画像サンプルのコピーが生成され、生成された経路の上を通ってネットワークを伝播し、経路の終端のノードに到達する。その際に、ネットワークには多重に生成した経路が存在しうるから、画像サンプルのコピーは同一のノードに多重に到達することがありうる。

なお、画像サンプル収集部７２０の動作は、ネットワーク識別器５９０の対象物検出時と同じ動作である。したがって、あるノードで画像識別の識別エラーが十分小さくなっていれば、その画像に対するパスは、そこで終点となるし、パスの数は一定数以下に制限される点も同じである。

ステップ８２２では、親ノードに到達した画像サンプル群は、その空の子ノードに共有される。（たとえば、子ノードに対する親ノードが複数あれば、子ノードはそれぞれの親ノードの画像サンプル群の合併集合を画像サンプルとする。親ノードに対して子ノードが複数あれば、それぞれの子ノードは共通の親ノードから同じ画像サンプル群を引き継ぐ）。つまり、ステップ８２１で親ノードに到達した画像は、コピーがそれぞれの子ノードに生成される。

ポジティブサンプルを（Ｘ、Ｙ＝＋１）、ネガティブサンプルは（Ｘ、Ｙ＝−１）として表記する。１つの空のノードｎについて、親ノードでの画像サンプルの累積スコアＳ_{ｎ，ｐａｒｅｎｔ}（Ｘ）を、式（２）を用いて決定する。空ノードでの画像サンプル群は、（Ｘ，Ｙ，Ｓ_{ｎ，ｐａｒｅｎｔ}（Ｘ））として表記する。

そして、ステップ８２３において、それぞれの空のノードに到達する画像サンプルを最大Ｔ個になるまで集める。たとえば、Ｔ／２個のポジティブサンプルとＴ／２個のネガティブサンプルとを、その空ノードに到着した全ての画像サンプルからランダムに選択する。

図９は、本発明の実施形態に係るノード学習部の処理手順を示すフローチャートである。

ノード学習部７３０では、空ノードｎの学習のために収集された画像サンプル群を用いて、その中から親ノードで識別エラーが大きくなるよう部分集合を決定する。次に、その部分集合での学習に焦点を合わせて局在化し特化した識別器を生成するように、重み関数を決定する。その働きを、順をおって説明する。

ステップ８３１では、ノードの識別器を特化するための画像サンプルの部分集合を、累積スコアを考えるときの重みを画像サンプルに応じて変更することによって決定している。その画像サンプルの部分集合は、親ノードでもっとも高い識別エラーを与える部分集合である。その手順は以下のとおりである。

まず、画像サンプル収集部７２０から収集された画像サンプル群を（Ｘ，Ｙ，Ｓ_{ｎ，ｐａｒｅｎｔ}（Ｘ））とする。次に、画像サンプル群に対する現行の識別エラーＥ_{ｎ，ｐａｒｅｎｔ}（Ｘ）を、式（４）によって決定する。この識別エラーＥ_{ｎ，ｐａｒｅｎｔ}（Ｘ）を用い式（７）で、正則化パラメータα_ｎの値を決定する。

式（７）では、α_ｎに近い親の累積スコアＳ_{ｎ，ｐａｒｅｎｔ}（Ｘ）をもつ画像サンプル群が最大の識別エラーＥ_{ｎ，ｐａｒｅｎｔ}（Ｘ）を親ノードで持つようにα_{ｎ，ｐａｒｅｎｔ１}とα_{ｎ，ｐａｒｅｎｔ２}との間に値α_ｎを選んでいる。つまり、前段でうまく識別できなかった画像を集中的に学習するための選択を行っていることになる。それゆえ、親ノードで識別エラーが最大になるように選んだ画像サンプルの部分集合に対し、ノードｎの識別器が識別エラーを減らすよう学習すると期待できる。

正則化関数ｅｘｐ（−｜Ｓ_{ｎ，ｐａｒｅｎｔ}（Ｘ）−α｜）を用い、α_nを次式（７）で決定する。この正則化関数、累積スコアはいずれも、対象物検出装置におけるものと同じである。

すなわち、α_{ｎ，ｐａｒｅｎｔ１}＜α＜α_{ｎ，ｐａｒｅｎｔ２}となるαにおいて、親ノードにおける識別エラーと正則化関数との積の、収集された全ての画像サンプルについての総和が最大となるαを、α_ｎとする。なお、親ノードが３つ以上の場合には、αの選択範囲は、ｍｉｎ（α_{ｎ，ｐａｒｅｎｔ}）＜α＜ｍａｘ（α_{ｎ，ｐａｒｅｎｔ}）となる。また、このとき、親ノードがひとつだけのときには、次の式（８）に示す値を用いる。

このように、ステップ８３１によって、識別器を特化させるための画像サンプルの部分集合を、親ノードでの識別エラーを最大とする画像サンプルの集合として決定する。

次に、ステップ８３１で決定した部分集合を用いて、ステップ８３２では、全ての収集画像サンプルに対して重みを決定する。重みをつけた学習サンプル群を（Ｘ，Ｙ，ｗ（Ｘ））と表記する。ここで重み関数ｗ（Ｘ）は、次の式（９）で数学的に表現される。

ここでＷ_ｓｕｍはｗ（Ｘ）を分布とするときの規格化定数である。この式で、｜Ｓ_{ｎ，ｐａｒｅｎｔ}（Ｘ）−α｜≒０となる状況で重みが大きく、｜Ｓ_{ｎ，ｐａｒｅｎｔ}（Ｘ）−α｜が大となる状況で重み関数は小さい。

さらに、ステップ８３３では、ノードｎの各種識別器を、重みつき画像サンプル群を用いて決定する。決定する識別器は、それぞれ式（１）、（３）、（４）に示す特徴識別器ｈ_ｎ、対象物識別器Ｈ_ｎ、識別エラー関数Ｅ_ｎである。ここで、特徴量には、たとえば上記文献Ａに示すブースティングアルゴリズムで見つけられる特徴量から最良の識別を与える特徴量を１つ選びだして用いる。

また、特徴識別器ｈ_ｎは、次式（１０）で決定してよい。

この式で、Ｐ_ｗ（ｊ）は分布ｗのときにイベントｊが起こる重みつき確率を示す。ｆ_ｎ（Ｘ）は最良の選択をした（＝最もよい識別結果を与える）特徴量を用いて画像サンプルＸに対して抽出した特徴量、たとえば図１０の特徴抽出部３９０（後述）を用いて抽出した特徴量である。Σｗ_＋、Σｗ₋はそれぞれ特徴量ｆ_ｎ（Ｘ）をもつポジティブサンプル、ネガティブサンプルの重みの総和である。

正則化パラメータα_ｎと特徴識別器ｈ_ｎ（Ｘ）の値とを用いて、累積スコアＳ_ｎ（Ｘ）は式（２）によって決定される。その結果、条件付き確率は次式（１１）、（１２）で決定される。

ここでＣ_＋、Ｃ₋はそれぞれ、累積スコアＳ_ｎ（Ｘ）をもつポジティブサンプルとネガティブサンプルのカウント（個数）である。条件付き確率を用いて、対象物識別器Ｈ_ｎは式（３）で決定される。

さらに、対象物識別器の識別エラーＥ_ｎ（Ｘ）は、次の式（１３）で表される。

ここで、ｍｉｎ｛ａ，ｂ｝はａ及びｂの最小値を示す。このようにして、各ノードに対する特徴識別器ｈ_ｎ、対象物識別器Ｈ_ｎ、識別エラー関数Ｅ_ｎを決定する。以上の一連の手続きによってノード学習プロセスが完了する。

このように、本発明の実施形態のネットワーク学習部７９０では、以下の利点を持つ。

まず、空ノード生成部７１０により、複数の経路の識別結果を用いて対象物の判定ができるので、カスケード構造の先行技術に比べて効果的な判定ができるという利点を持つ。

本実施形態では、ノードの統合と分割を用いているので、接続パスを経由して下層の１つのノードにつながっている上層のノードは１つ以上ある。それぞれのノードの特徴識別器には、ブースティングアルゴリズムで学習した特徴識別器を用い、それらの識別器の結果は、下層の１つ以上の識別器に伝えられるので、下層の識別器では、それらの複数の経路の識別器の情報をあわせて対象物の判定を行うことができる。

このことと、複数の経路の識別器の情報をあわせて判定を行えることが、１つのステージの中にある弱識別器は別のステージにある弱識別器の情報をもたないカスケード構造の先行技術に対する利点である。一方、先行技術においては弱識別器の情報は、同じステージにある次の弱識別器に伝わるにすぎない。この利点は、後述の第三の特長に対応する。

さらに、空ノード生成部７１０は、学習の視点でも次のような利点を持っている。先行技術におけるカスケード構造の対象物検出器においては、あるステージの中にある弱判別器は別のステージにある弱判別器の情報を利用することはない。これに対し、本実施形態の装置では、上記、空ノード生成フローにより、複数のステージ識別器内に属する複数の弱判別器の情報を利用して空ノードを学習させることを可能にしている。

しかも、本方式ではノードの統合と分割を用いているので、ルートノードから新たに生成する空ノードまでのパスがあり、これらのルートノードから空ノードまでのそれぞれのパスは、ステージ識別器に相当している。上層の各ノードはブースティングアルゴリズムで学習した特徴量識別器であり、複数のステージ識別器に属する特徴量識別器の結果を利用して、空ノードを学習できる構造を実現している。

従来例として知られる多数決方式においても、並列に動作する複数の検出器において判定を用いているが、本発明の形態においては、次の利点を持つ。

まず、ノードネットワークに対して制限した数のパスを生成しているので、多数決方式に比べ、パスの数ほどに計算量が増大しない。しかも、ノードネットワークに対して複数の空ノードを生成し学習をする基準が明確になっているので、複数のパスによる学習が効果的に行われ、従来例の多数決方式においてはそれぞれのカスケード識別器が補完的に動作しているかどうか不明であるという課題、第三の課題を克服している。このように、従来よりも効率的なアンサンブル学習を実現している。

次に、画像サンプル収集部により、次に示す利点が得られる。第１に、本発明の実施形態では、画像サンプル群が複数の空ノードで共有されているので、１枚の学習画像により1つ以上の経路のノードを同時に学習可能にしている。

そのため、１つの画像サンプルを１つの識別器で識別するのにくらべ、同一の空ノードのいたる複数の経路で構成され複数の経路からの識別結果を利用するネットワーク識別器によって効果的に識別できる。この利点は、後述の第二の特長に対応する。これは、画像サンプル収集部が、画像サンプル群を複数の空ノードで共有させる仕組みにより可能になっている。

第２に、本発明の実施の形態では、識別器の段数を増やしていっても、学習データが過度に細分化（over-fragmentation）されることがなく、後段の識別器においても安定な学習を可能にしている。

従来の手法においては、識別器の段数を増やしていくと、その識別器に到達する学習サンプル数が少なくなっていき（過度の断片化を生じ）、学習結果が学習サンプルに対する依存性（過学習）を強く示すようになってしまう欠点があった。本手法においては、多重経路での判定を可能にするように、ノードの統合と分割を行って画像を共有しているので、学習の優先領域に重なりがあり、学習サンプルが過度に断片化されることもなく、学習結果が過学習を示しにくいので、安定した学習となっているという利点がある。

一般に、自由度を高めた学習を行うと、本来のデータの統計的な特徴を再現するのではなく、学習に用いたデータセットに対して過度に依存性を持つ傾向がある。そのようなモデルのよしあしを判定する指標としてはたとえばＡＩＣ（赤池の情報量基準：Akaike's Information Criteria）が知られている。

多変量解析ではＡＩＣが最小になる自由度のモデルを採用することで、学習に用いたデータセットに対して過度に依存性をもつことを防いでいる。同様に、本発明のネットワーク型の識別器においても、いたずらに自由度を高めることは、本来のモデルのよしあしには関係なく、学習に用いたデータセットに対してだけは良好な学習結果になるかもしれないという潜在的な危険を含んでいる。しかしながら、本実施形態の手法においては、ノードの統合も行っていることで学習サンプルを細分化しすぎない、空ノードに規定の数の画像が集まらない場合には、学習を実施しない、複数のパスの識別器を用いて判定を行っている、といった制限が加えられており、いたずらに自由度が高くなる危険を防いでいるため、本手法においては、学習結果が過学習を示しにくい。

さらに、本実施形態のノード学習部７３０により、以下に示す利点が得られる。

第１に、ノード学習部７３０は、親ノードで識別できなかった画像サンプルの部分集合に対して特化した識別器を作り上げる。これは、ノード学習部は、式（９）の重み関数を用いて、（特徴識別器ｈ_ｎを式（１０）にしたがって学習させているので）、親の識別器で大きな識別エラーを生じる画像サンプル群に対して大きな重みを与えるようになっている。

第２に、ノード学習部は、影響が局在化した識別器ｈ_ｎを作り上げる。すなわち、親のノードで大きな識別エラーを生じるときにおいてのみ、このノードによる累積スコアへの寄与があるものになっている。実際、親の識別器での大きな識別エラーを生じる場合には、式（２）で｜Ｓ_{ｎ，ｐａｒｅｎｔ}（Ｘ）−α_ｎ｜が小さな値となっているので、累積スコアへのｅｘｐ（−｜Ｓ_{ｎ，ｐａｒｅｎｔ}（Ｘ）−α_ｎ｜）＊ｈ_ｎ（Ｘ）の項が大きくなり、このノードでの識別器ｈ_ｎ（Ｘ）の値が累積スコアに十分に反映される。

逆に、親識別器で大きな識別エラーを生じない場合には、式（２）で｜Ｓ_{ｎ，ｐａｒｅｎｔ}（Ｘ）−α_ｎ｜の値が大きくなるので、ｅｘｐ（−｜Ｓ_{ｎ，ｐａｒｅｎｔ}（Ｘ）−α_ｎ｜）＊ｈ_ｎ（Ｘ）の項が小さくなり、このノードでの識別器ｈ_ｎ（Ｘ）の値が累積スコアにほとんど影響しない。

このため、累積スコアへの影響は、親ノードでの識別エラーが大きい場合に限定されたものになる。それは、影響が局在化した識別器と言い換えることができる。

このように、１つのパスの各ノードの識別器では、それぞれの識別器が高い寄与で累積スコアに効いてくる入力画像が異なるため、個々の識別器にはその他の全ての識別器の動作に影響を与えずに優先的に動作する優先領域がある。

一方、従来例としてあげるカスケード構造の識別器では、第一の課題に示したように、弱判別器が全入力空間に対して処理を行う線形識別器であり、全ての弱識別器は、全ての顔画像を顔として識別しなければならない。それに対して、本発明の実施形態のノードの識別器においては、前段のノードの識別器が誤識別を起こしやすい画像集合についてだけ、顔と非顔を識別するものである。そのため、ノードの識別器が動作する入力画像空間は限定的なものであり、このノードの識別器での顔／非顔の識別は、カスケード構造の識別器の場合よりもはるかに簡単な構成で実現できる。これは、後述の第一の特長に対応する。

このように本発明の実施形態では、各ノードの識別器が、優先的に動作する入力画像の優先的な空間があるので、１つの識別器の動作が他の識別器の動作に影響を与えることはほとんどない。これは、先行技術においては、弱識別器は全入力空間に対して動作しその他の弱分類器動作に影響を与えうるという課題をかかえているのと比較し、大きな利点となっている。

＜特徴抽出＞
図１０は、本発明の実施形態に係る特徴抽出部の概略構成を示すブロック図である。この特徴抽出部は、例えば、図１に示す画像ウィンドウ検出処理部５３０や、図７に示すノード学習部７３０にて用いられる。

図１０に示すように、特徴抽出部３９０は、入力部５０１に入力された画像ウィンドウから特徴量（特徴値）３０９を抽出する。この特徴量（特徴値）３０９は画像ウィンドウが対象物を含むかどうかの識別に用いられる。

たとえば、画像ウィンドウ検出処理部５３０によって実行される図４に記載のステップ６３１は、特徴抽出部３９０により実行される。

図１１は、本発明の実施形態に係る特徴抽出用の矩形テンプレートの一例を示す図である。与えられた画像ウィンドウ１００１に対して、矩形テンプレートはＬ個の同じ大きさの長方形等の矩形ブロックを画像ウィンドウ１００１の内部に含む。Ｌは、例えば２から９の間の任意の値をとってよい。個々の矩形ブロックは、右上の座標と幅ｗと高さｈとで特定できる。

たとえば、図１１（Ａ）に示す矩形テンプレート１０１０、図１１（Ｂ）に示す矩形テンプレート１０２０、図１１（Ｃ）に示す矩形テンプレート１０３０は、それぞれ６、９、７個の矩形ブロックを含んでいる。

図１２は、本発明の実施形態に係る特徴抽出部の処理手順を示すフローチャートである。また、図１３は、本発明の実施形態に係る特徴抽出部における処理手順を説明するための説明図である。

ステップ４９１では、画像ウィンドウＸに、画像ウィンドウ中の矩形ブロックを定義する矩形テンプレートｆを適用する。

ステップ４９２では、画像ウィンドウから空間的分布情報を測定する。空間的分布情報は、パターンのどの矩形ブロックが他よりも高い輝度値を持つのかを示すパターン１１１０として示される。

パターン１１１０を矩形ブロックの輝度値比較によって計算する。全ての矩形ブロックの平均輝度値がまず計算され、これを参照輝度値とする。次に、個々の矩形ブロックの平均輝度値を計算する。矩形ブロックの平均輝度値が参照輝度値よりも小さければ１、大きければ０と矩形ブロックはラベルする。これら強度は、積分画像を使うことですばやく効率的に計算できる。この矩形ブロックのラベルを集めることで、パターン１１１０が得られる。

例として、図１３において、矩形テンプレート１０１０を用いる。入力顔画像１１０５に対し、特徴抽出部３９０は、pattern＝１０１０００というパターン１１５１を生成する。別の非顔画像１１０６に対しては、特徴抽出部３９０はpattern＝０１１０００というパターン１１６１を生成する。

ステップ４９３では、空間輝度値情報を画像ウィンドウから計測する。この空間輝度値情報を強さ（strength）とし、異なるブロック間でどれがどのくらい強度差があるのかを示す。

強さ１１２０は、１とラベルされた全ての矩形ブロックの平均輝度値から０とラベルされた全ての矩形ブロックの平均輝度値を差し引くことで計算される。

たとえば、図１３において、入力顔画像１１０５に対して、特徴抽出部３９０は、strength＝３５という強さ１１５２を生成する。別の非顔画像１１０６に対しては、特徴抽出部３９０は、strength＝３７という強さ１１５２を生成する。

特徴抽出部３９０の抽出する特徴ｆ（Ｘ）は、２次元量であり、次の式（１４）ように表現できる。

抽出された特徴量は、特徴量の識別能力を改善するためにパターンと強度の２つの属性を使う。多くの場合、空間的分布情報と輝度値情報の両方が画像を区別するのに必要である。

例をあげれば、図１３において、入力の顔画像１１０５と非顔画像１１０６は似た強さである。強さ情報に基づく先行技術は両者を区別することができない。しかしながら、顔画像１１０５と非顔画像１１０６とは異なるパターン値をしているので、パターン値で区別できる。

図１４は、本発明の実施形態に係る特徴抽出用の矩形テンプレートの他の例を示す図である。画像ウィンドウ１１０１が与えられたとき、矩形テンプレートはＬ個の矩形ブロックをウィンドウ１１０１の内部に含む。

図１４（Ａ）に示す矩形ブロック１０９１のように、矩形ブロックはそれぞれ大きさが異なってもよい。また、図１４（Ｂ）、（Ｃ）に示す矩形ブロック１０９２、１０９３のように、矩形ブロックは交わらなかったり、隣接していなくてもよい。さらに、図１４（Ｄ）、図１４（Ｅ）に示す矩形ブロック１０９４のように、完全に又は部分的にオーバーラップしていてもよい。

このような本発明の実施形態の対象物検出装置及びその学習装置によれば、下記の構成を有するものである。

まず、前記対象物検出方式において、前記ノードはブースティング学習法によって訓練された複数の識別器を備える。ネットワーク学習プロセスは、多数の画像サンプルを入力として、それらの画像サンプル群をいくつかの集合に分割し、それぞれの画像集合をもとに識別器を訓練する。ノードに配置する識別器を決定するために、まず、前記構造（building）は識別プロセスにおいてノードに到達する訓練サンプルを収集する。次に、最も識別エラーが高く、学習サンプルが多く存在する領域を決定する。そして、弱判別器がその制限された領域で識別をおこなう。弱判別器は全入力空間に均等に影響を与えるものではない。新たに追加される各弱判別器は特徴づけされ、決定された領域の中で前の弱判別器の結果の改良のみを行う。このようにして構築した本発明の実施形態のネットワーク識別器においては、各パスの識別器が識別するのはそのパスを伝播した画像からなる入力画像の部分空間であり、部分空間での顔／非顔の判定は全入力画像空間での判定よりも分離が容易となり、従来例の後段の強判別器のように多数の弱判別器を必要としないとい効果を生じている。これにより、第一の課題を解決することができる。

また、本発明の実施形態のノードネットワークでは、（１）各ノードが自ノードに到達するまでに処理したノードの累積評価値をもとに顔・非顔を判別する強判別器を備えること、（２）学習時に、各ノードの識別器を、そのノードに到達する学習サンプルと前段ノードにおける累積評価値の結果に基づいて学習させる。すなわち、本方式により、各ノードはそれまでの経路上に存在するノードから成る強判別器として機能し、対象物の有無の決定に十分でない場合に、その判別結果に応じて学習されている次の子ノードで処理が続く、という構造をとる。したがって、常にそれまでの識別結果が有効に利用されるため、識別処理が高速に、最適に実現できる。また、第一の解決手段により、各ノードが入力空間の部分領域に特化する判別器が選択されている一方で、本ノードネットワークの特徴的な構造の一つであるノードの統合（親ノードを複数持つ子ノードの存在）では、全親ノードのサンプルを引継ぎ、親ノードの識別対象領域を統合した部分領域で最適な判別器を学習するこの統合構造により、入力空間を多様な部分領域について識別処理を行うことが可能である。これにより、入力空間上のある１点の画像は、複数のノードの弱判別器によって処理され、それらの結果の累積値での判別を実現する。これにより、第二の課題を解決することができる。

また、画像からの対象物検出装置において、前記識別プロセスでは、入力データをネットワーク上の複数のパスで処理させることが可能である。パスとは、入力データを処理し、識別するのに使用されるノードの経路である。パス上の各ノードの識別器は、入力画像に対する識別を行う弱判別器だけではなく、前段までのノードの弱判別器の識別結果を累積する識別器をも含んでいる。そのため、パス上の各ノードの弱判別器からの累積スコアを用いることによって、強判別器または識別器による識別結果が得られる。また、識別処理の間に、現在のパスから複数のパスをさらに生成する。不必要なパスが多くなるのを防ぐため、最も高い識別エラーを持つパスは終了させる。ノードは分割されたり統合されたりするので、ネットワークを、共通の弱判別器を共有する複数の異なる強判別器の結合とみなすことができる。複数のパス上のノードを用いて強識別器を作ることは、協調的に動作するように訓練された並列な強判別器を動かしているのと同等である。パスの識別結果のうち、識別エラー値が最良のものを出力結果として選択する。このようにして、複数のカスケード識別器からなる検出装置（＝多数決方式のカスケード識別器）と同等以上な識別能力を持ちつつ、それぞれのパスが協調的に動作し、しかも多数決方式よりも計算量の少ない識別器を達成できる。これにより、第三の課題を解決することができる。

画像からの対象物検出装置において、本実施形態の特徴量抽出手法は、入力の画像ウィンドウに対して空間的分布情報と輝度値情報の両方を測るものである。まず、特徴テンプレートにおいて、画像ウィンドウにおける対象領域を決定する。まず、”パターン（pattern）”と表記する属性として、領域が他の領域よりも輝度値が高いか低いかをあらわす値を計算する。この属性は、輝度値の高低の空間的分布を表す。続いて、”強さ（strength）”と表記する一つの属性は、画像ウィンドウの輝度値の高低の大きさの差を表現する値が計算される。すなわち、本実施形態で提案する特徴選択手法は画像から有益な情報を得るために２つの属性値を使用する。これにより、第四の課題を解決することができる。

そして、本発明の実施形態に係る対象物検出装置及びその学習装置は、以下の特長を含む。第一の特長は、入力画像の部分空間で識別を行うよう、識別器の局所化を行っている点である。ネットワーク構造を導入することによって、弱判別器が入力空間全体を識別するよう訓練されている従来手法とは異なり、本実施形態は入力空間の部分領域に対して処理する弱判別器を訓練する。すなわち、各識別器は他の識別器の識別処理に関係なく、特定の領域に対して、特定の識別処理を行う。これにより、精度の向上と識別エラーの減少を実現し、より複雑な非線形識別器の構築が可能にしている。

また、本実施形態では、入力画像に対応した識別器を適用させるため、すべての識別器を評価する必要はない。したがって、識別処理における計算処理コストを低減させることが可能である。さらに、対象物を含む場合にも含まない場合にも、単純な（識別しやすい）入力画像に対して早期に識別することを保証するために、入力画像に対して早期に処理が行われるネットワーク上の上部や外側の位置の弱判別器は、単純な入力画像に対して処理するように特化させる。

第二の特長は、識別結果をより効果的に共有する点である。本実施形態では、従来手法において弱判別器をつないでいるカスケード構造にかわって、ネットワーク構造を用いる。識別器は、複数のノードから複数のノードへつながれたネットワーク上のノードに配置される。ネットワークの分割構造が識別器を特定領域の操作に局所化させ、統合構造がネットワークがしっかりと結びついていることを保障する。結合ノードの構築においては、親ノードの学習時のサンプルを統合して用いることによって、入力空間の過分割を起こさないようにしている。対象問題を分割と結合により解を求める本実施形態の方式により識別情報を効果的に共有し、対象物検出器全体で使用する識別器総数を低減させることができる。

第三の特長は、ひとつの識別器から複数の識別結果を生成することである。本実施形態の装置においては、対象物検出装置は入力画像を識別器ネットワークにおいて、複数の弱判別器を選択し、複数の経路で識別処理をおこなう。各パスは入力画像を識別するための識別器の集合である。識別器は識別処理において、識別エラーを減少させるように動的に選択する。ある層のノードにいたる識別器のパスの選択の際に、前段までの古いパスを利用して、そこからノードの分割と統合とを行いつつ新しいパスを生成する。各パスは、入力画像内に対象物があるか否かを決定する強判別結果を出す。すなわち、ネットワークそのものは実際には、複数の弱判別器を共有する強判別器の集合である。独立な強判別器が使用されている従来の多数決方式に比べて、本実施形態の複数の強判別器は集団的に訓練され、強調的に動作する。さらに、最も高い識別エラーのパスを終結させることによって、従来の多数決方式において発生していた複数の判別器を並列に動作させた際の処理負荷の増加を抑えることが可能である。

第四の特長は、より高い識別力を持つ新しい特徴抽出手法の使用である。本実施形態では、入力の画像ウィンドウにおけるある領域に対して、従来の非特許文献２および特許文献１の矩形特徴量が強さ情報を測るものであるのに比べて、空間的なパターン情報と輝度の強さ情報の両方を測ることが可能な矩形パターン特徴を提案している。空間的なパターン情報は高低の輝度画素がある領域内でどのような配置になっているかを表す。強さ情報は、高低の輝度の画素領域間で輝度値の差がどれくらい強いかを表す。非特許文献４にある手法に比べて、本実施形態の矩形パターン特徴は強さ情報を組み込んだことによってノイズ画像にロバストであり、本実施形態のパターン特徴は非特許文献４にある手法が画素間比較するのに比べ、大局的な特徴を取得することが可能である。したがって、識別力がより高くなり、検出器において使用され、対象物体を見つけるのに必要な特徴量の数は大きく減少できる。

本発明は、高精度で、処理負荷の増加を抑えることが可能な効果を有し、監視カメラ等により撮影された対象物検出等を行う特徴抽出装置、対象物検出装置及びその学習装置等に有用である。

２０１入力部
２０２出力部
２１０画像ウィンドウ抽出部
３９０特徴抽出部
５０２記憶部
５２０パス生成部
５３０画像ウィンドウ検出処理部
５９０ネットワーク識別器
７１０空ノード生成部
７２０画像サンプル収集部
７３０ノード学習部
７９０ネットワーク学習部

Claims

画像に対して複数の矩形ブロックから構成される矩形テンプレートを設定し、
前記矩形テンプレートに含まれる矩形ブロックの輝度値の平均である参照輝度値と、前記矩形ブロック各々についての各ブロック毎の平均輝度である個別輝度値とを求め、
前記個別輝度値が前記参照輝度値以上のときは前記矩形ブロックに対して第１ラベルを割り当て、
前記個別輝度値が前記参照輝度値未満のときは前記矩形ブロックに対して第２ラベルを割り当て、
前記画像に対して設定した矩形テンプレートの特徴量として、前記第１ラベルと第２ラベルとの配列である空間的分布情報を含む特徴量を求める特徴抽出装置。
請求項１に記載の特徴抽出装置であって、
前記空間的分布情報に加えて、
前記第１ラベルが割り当てられた矩形ブロックの個別輝度値の平均輝度値と前記第２ラベルが割り当てられた矩形ブロックの個別輝度値の平均輝度値との差に基づいて強度を求め、
前記空間的分布情報と前記強度とを、前記矩形テンプレートの特徴量として求める特徴抽出装置。
入力画像に対して複数の矩形ブロックから構成される矩形テンプレートを設定し、
前記矩形テンプレートに含まれる矩形ブロックの輝度値の平均である参照輝度値と、前記矩形ブロック各々についての各ブロック毎の平均輝度である個別輝度値とを求め、
前記個別輝度値が前記参照輝度値以上のときは前記矩形ブロックに対して第１ラベルを割り当て、
前記個別輝度値が前記参照輝度値未満のときは前記矩形ブロックに対して第２ラベルを割り当て、
前記入力画像に対して設定した矩形テンプレートの特徴量として、前記第１ラベルと第２ラベルとの配列である空間的分布情報を含む特徴量を求める特徴抽出手段と、
学習用の画像サンプルに対して設定した矩形テンプレートが、対象物を含む確率と含まない確率とに基づいて、空間的分布情報を含む特徴量ごとに、スコアを算出するスコア算出手段と、
を備え、
前記スコア算出手段は、前記入力画像に対して設定した矩形テンプレートの前記特徴量に対応したスコアを求め、前記入力画像に対象物が含まれるか否かを判定する対象物検出装置。
請求項３に記載の特徴抽出装置であって、
前記特徴抽出手段は、前記空間的分布情報に加えて、
前記第１ラベルが割り当てられた矩形ブロックの個別輝度値の平均輝度値と前記第２ラベルが割り当てられた矩形ブロックの個別輝度値の平均輝度値との差に基づいて強度を求め、
前記空間的分布情報と前記強度とを、前記矩形テンプレートの特徴量として求める対象物検出装置。
画像に対して複数の矩形ブロックから構成される矩形テンプレートを設定するステップと、
前記矩形テンプレートに含まれる矩形ブロックの輝度値の平均である参照輝度値と、前記矩形ブロック各々についての各ブロック毎の平均輝度である個別輝度値とを求めるステップと、
前記個別輝度値が前記参照輝度値以上のときは前記矩形ブロックに対して第１ラベルを割り当て、
前記個別輝度値が前記参照輝度値未満のときは前記矩形ブロックに対して第２ラベルを割り当てるステップと、
前記画像に対して設定した矩形テンプレートの特徴量として、前記第１ラベルと第２ラベルとの配列である空間的分布情報を含む特徴量を求める特徴抽出ステップと、
を有する特徴抽出方法。
入力画像に対して複数の矩形ブロックから構成される矩形テンプレートを設定し、
前記矩形テンプレートに含まれる矩形ブロックの輝度値の平均である参照輝度値と、前記矩形ブロック各々についての各ブロック毎の平均輝度である個別輝度値とを求め、
前記個別輝度値が前記参照輝度値以上のときは前記矩形ブロックに対して第１ラベルを割り当て、
前記個別輝度値が前記参照輝度値未満のときは前記矩形ブロックに対して第２ラベルを割り当て、
前記入力画像に対して設定した矩形テンプレートの特徴量として、前記第１ラベルと第２ラベルとの配列である空間的分布情報を含む特徴量を求める特徴抽出ステップと、
学習用の画像サンプルに対して設定した矩形テンプレートが、対象物を含む確率と含まない確率とに基づいて、空間的分布情報を含む特徴量ごとに、スコアを算出するスコア算出ステップと、
を有し、
前記スコア算出ステップにおいて、前記入力画像に対して設定した矩形テンプレートの前記特徴量に対応したスコアを求めて、前記入力画像に対象物が含まれるか否かを判定する対象物検出方法。