JP2011096291A - 特徴抽出装置、対象物検出装置、特徴抽出方法、および対象物検出方法 - Google Patents

特徴抽出装置、対象物検出装置、特徴抽出方法、および対象物検出方法 Download PDF

Info

Publication number
JP2011096291A
JP2011096291A JP2011033858A JP2011033858A JP2011096291A JP 2011096291 A JP2011096291 A JP 2011096291A JP 2011033858 A JP2011033858 A JP 2011033858A JP 2011033858 A JP2011033858 A JP 2011033858A JP 2011096291 A JP2011096291 A JP 2011096291A
Authority
JP
Japan
Prior art keywords
luminance value
rectangular
image
label
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011033858A
Other languages
English (en)
Other versions
JP4741036B2 (ja
Inventor
Katsunori Waratani
克則 藁谷
Tomiyoshi Kawai
富美 河合
Cher Keng Heng
ヘーン・チェー・ケーン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Panasonic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp filed Critical Panasonic Corp
Priority to JP2011033858A priority Critical patent/JP4741036B2/ja
Publication of JP2011096291A publication Critical patent/JP2011096291A/ja
Application granted granted Critical
Publication of JP4741036B2 publication Critical patent/JP4741036B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】高精度で、処理負荷の増加を抑えることが可能な特徴抽出装置を提供すること。
【解決手段】本特徴抽出装置は、画像に対して複数の矩形ブロックから構成される矩形テンプレートを設定し、矩形テンプレートに含まれる矩形ブロックの輝度値の平均である参照輝度値と、矩形ブロック各々についての各ブロック毎の平均輝度である個別輝度値とを求め、個別輝度値が参照輝度値以上のときは矩形ブロックに対して第1ラベルを割り当て、個別輝度値が参照輝度値未満のときは矩形ブロックに対して第2ラベルを割り当て、画像に対して設定した矩形テンプレートの特徴量として、第1ラベルと第2ラベルとの配列である空間的分布情報を含む特徴量を求める。
【選択図】図1

Description

本発明は、特徴抽出装置、対象物検出装置、特徴抽出方法、および対象物検出方法に関する。例えば、画像から顔等の対象物を検出する対象物検出装置に関する。
コンピュータビジョンにおいて、対象物検出技術は、画像の中に特定の対象物が映っているか否かを判定する問題とされる。対象物としては、車や、歩行者、人間の顔などがある。多くのアプリケーションにおいて、対象物検出は非常に難しい問題とされている。たとえば、対象物が人間の顔の場合、顔の向き、照明、サングラスやマスク等による部分的な隠れにより、その見え方は大きく変化する。また、監視装置等に用いるアプリケーション等においては、画質が悪くノイズが載っている場合や、画像の中に映る顔が小さい場合などはその検出がいっそう難しくなる。
対象物検出の問題を解決する一般的な方式として、統計的学習に基づくパターン認識技術があり、識別器のパラメータはあらかじめ与えた学習用サンプルを元に決定される。顔検出における一般的な手法としては、ニューラルネットワークや、サポートベクターマシン、ベイズ推定等を用いた手法がある。これらの手法は、通常、入力画像から識別に用いる特徴量を抽出する特徴選択技術と、選択した特徴量を入力として対象物であるか否かを判定する識別器を構築する識別器構築技術と、構築した識別器を使って、画像ウィンドウ内に顔の存在を判定する技術からなる。なお、「画像ウィンドウ」とは、入力画像内の部分領域を意味し、入力画像からは、部分領域の位置や大きさを変えた多数のウィンドウが切り出し可能である。
識別器の構築手法としては、非特許文献1で知られているアダプティブブースティング(Adaptive Boosting)又はアダブースト(Adaboost)がある。以下これを「アダブースト学習法」と呼ぶ。これは、多数の対象物検出システムにおいて適用されており、これを用いた画像からの顔検出手法としては、非特許文献2がある。アダブースト学習法では、識別器は、判別エラーが50%以下であればよいという高いエラー率でよいとされており、これを弱判別器と称す。アダブースト学習法では、用意した多数の弱判別器の中から、いくつかの弱判別器を選択し、これらをアンサンブルすることで、判別エラー率の低い強判別器を構築する。
アダブースト学習法を用いたリアルタイムでの正面顔検出手法として、非特許文献2や特許文献1に示される手法がある。非特許文献2や特許文献1における顔識別器、すなわち顔検出器では、複数の強判別器を一列に連結したカスケード構造をとる。カスケード構造では、連結している判別器をステージと称し、入力に近いほうから1ステージ目を1段目の強判別器、または1段目のステージ識別器と呼ぶ。各ステージの識別器は、アダブースト学習法によって学習し、学習用の入力画像から抽出された特徴量に基づく多数の弱判別器を連結し、構築する。各ステージ識別器は学習サンプルに対してはほぼ100%で識別が正解するように訓練する一方で、非顔画像の学習サンプルに対しては50%程度で識別が正解すればいいように訓練する。1段目のステージ識別器の場合は、入力画像に対して、また、2段目以降のステージ識別器の場合は、1段目のステージ識別器が顔と判定した入力画像に対して、顔/非顔の判定を行う。n段目のステージで非顔と判定されたものは、それ以上処理を行わず非顔と判定を決定するため、効率的に処理が可能であり、1秒あたり15フレーム程度の処理速度で動作することが知られている。
また、異なる学習サンプルを用いて複数の顔検出器を構築し、それらの識別結果を総合することで識別精度を向上させる手法がある。その一例として、多数決(Majority Voting)方式が非特許文献2に示されている。非特許文献2の著者であるViolaらは3つのカスケード構造識別器(カスケード構造である識別器)を用意し、それらの出力結果の多数決により識別誤差が減少することを示している。非特許文献3に示される別のアプリケーションにおいては、非特許文献3の著者であるRowleyらは顔検出器を構築するために多数のニューラルネットを訓練した。複数の検出器の結果の結合方法として、前記多数決方式に代わって、多数のニューラルネットワーク検出器から最終結果を出力するように訓練されたニューラルネットワークを用いる手法が提案されている。
顔検出のための特徴量の抽出方法としては、矩形特徴(Rectangle Feature)と呼ばれる特徴が非特許文献2でViolaらにより提案されている。画像ウィンドウの矩形特徴は矩形フィルターで定義された長方形の部分領域間の輝度差を測ることによって抽出される。
また、別の特徴量抽出方法として、非特許文献4の「Modified Census Transform」が提案されている。特徴量は、入力画像中の3×3画素ブロックを2値画像に変換することによって抽出される。ブロック内の画素の輝度値はブロック内の輝度平均値と比較される。画素の輝度値が平均値よりも高いなら1が、そうでないなら0がラベル付けされる。ブロック内のすべての画素のラベルを順に並べると、9ビットの情報になり、これが特徴量の値として使用される。
米国特許出願公開第2002/0102024号明細書
Yoav Freund、Robert E. Schapire、「A decision-theoretic generalization of on-line learning and an application to boosting」、Computational Learning Theory: Eurocolt '95、Springer-Verlag、1995年、p.23−37 Paul Viola、Michael Jones、「Rapid Object Detection Using a Boosted Cascade of Simple Features」、IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR)、2001年12月、ISSN: 1063-6919, Vol. 1、p.511−518 H. Rowley、S. Baluja、T. Kanade、「Neural Network-Based Face Detection」、IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI)、Vol. 20、No. 1、1998年1月、p.23−28 Bernhard Froba、Andreas Ernst、「Face Detection with the Modified Census Transform」、Proceedings for Sixth IEEE International Conference on Automatic Face and Gesture Recognition (AFGR)、2004年5月、p.91−96
しかしながら、上記の検出技術には下記の課題がある。
第一の課題は、非特許文献2および特許文献1にて提案されているカスケード識別器において、弱判別器が全入力空間に対して処理する線形識別器であることである。弱判別器は一つ前の弱判別器の識別エラーを補うために追加、訓練される。しかし、新たに訓練された弱判別器を加えると、それらを連結してできる全体の識別器でのエラーは逓減するが、入力空間のある部分領域においてエラーを改善する一方で、別の部分領域では識別エラーを引き起こす。したがって、カスケード識別器内の後段の強判別器が、対象物(たとえば顔)を含む画像と対象物を含まない画像が、画像特徴として似通っている場合、特徴区間上でそれらのデータを線形分離できないことが多くなり、その判別エラーを引き起こす率が高くなる。そのため、非常に多くの弱判別器を必要とし、識別時に処理する判別処理数が増大する。
また、ステージ識別器を学習する際には、対象物を含まない画像(以下、非対象物画像)についてはステージごとに異なる画像サンプルで学習され、学習の非対象物画像に合った最もよい(最もよく判別できる)弱判別器が選択されるが、対象物を含む画像(以下、対象物画像)については全ステージでそれと認識されなければならず、同一の学習サンプルで学習されている。しかしながら、たとえば対象物が顔である場合では、顔画像は、顔の向き・傾きや照明条件、個人の特徴や人種、サングラス・マスクや髪による隠蔽などにより、その特徴は大きく異なる。真正面向きで、目、鼻、口等がはっきり映っている顔は判別しやすく、一方、向きや照明等により顔の特徴が削減されている場合、判別し難い。このような事情があるにもかかわらず、従来の識別器はそれらの顔特徴について同一の弱判別器で処理を行っており、非顔とは区別しやすい顔画像を処理するメカニズムがない。また、各顔の特徴に応じた識別が実現されていないため、複雑な顔特徴に対する高精度な検出が困難となっている。
第二の課題は、非特許文献2と特許文献1におけるカスケード構造では、あるステージの強判別器から別のステージへ、何の情報も伝達されないことである。従来の方式では、あるステージの弱判別器は前段のステージの強判別器の出力値を知らない。そのため、たとえば対象物が顔画像である場合に、正面向きで判別しやすい顔を対象とする検出器の構築は、カスケード構造により実現できても、入力空間が複雑で識別器が高次元に及ぶような複雑な顔(たとえば、多様な向きの顔画像)を対象とする検出器の実現は、カスケード構造では難しい。前段の強判別器の結果を知らずに、新たに強判別器を学習する場合、その強判別器で使用する弱判別機は、学習用の顔・非顔サンプルを全体的に最もうまく分離する弱判別機から選択される。一方、仮に前段の強判別器の結果として、前段の強判別器が識別し難かった(すなわち、顔・非顔の境界付近に存在するサンプルなのか)、判別がしやすかったサンプルであったかの情報が与えられていると、その情報を用いて、顔と非顔の境界付近をうまく識別する弱判別器から組み込むことができ、特徴空間上の顔と非顔の境界をすばやく見つけることが可能になる。したがって、複雑な識別境界となる、多様な向きの顔のような複雑な顔の識別ができる検出器の構築の実現には、前段の強判別機の情報が不可欠と考えられる。
第三の課題は、非特許文献2において示されている多数決方式では、複数の検出器が並列に動作するので処理負荷が大きい。また、カスケード識別器がそれぞれ独立に訓練されるので、それらが補完的に動作しているか否かが不明である。識別器間では情報を共有しない。多数決手法は複数の検出器の結果を結合するための最良の手法ではない。たとえば、まったく別の識別器が訓練され、非特許文献4に示されるように複数の識別器から最良の結果を出力するように構築した場合には、処理時間はもっと早くなる。
第四の課題は、非特許文献2および特許文献1において、Violaらによって提案されている輝度値に基づく矩形特徴が、照明環境に敏感であるということである。たとえば、図15は従来技術における矩形特徴の課題を説明するための図であり、矩形特徴は図15の斜線で示す矩形1220と、矩形1221との間の輝度値の差の値である。たとえば、図15(B)の顔画像1202では照明影響が顔の一部に強く現れており、そのような画像における輝度値の差は、図15(D)の非顔画像1212のそれに似た値となる。さらに、その特徴量は矩形ブロック内の輝度情報だけを測るので、重要な配置情報を取得しない。たとえば、図15(C)に示す非顔画像1211と図15(A)に示す顔画像1201は、双方がほぼ同数の低輝度値の画素を持つので同じくらいの輝度差の値を持つ。高低の輝度値を持つ画素の空間的分布は画像を識別する上で非常に重要であるが、それらが特徴抽出の中で考慮されていない。非顔画像が顔画像により似通ってくる後段の識別器では、矩形特徴が顔と非顔を分離するのにどんどん効果がなくなっていき、識別エラーを増加させる。これが、ステージ識別器における特徴量の数を大きく増加する要因となっている。
異なるアプローチとして、たとえば非特許文献4に示されている、パターンにもと基づく「modified census transform」特徴量があるが、これは局所特徴量だけを抽出するのでノイズの影響に敏感となってしまう。たとえば、図16は、この従来の特徴量の課題を説明するための図である。変換テンプレートは3x3画素のブロック1250に対して特徴量をとる。ブロック1250が二値ブロック1251に示すように二値に変換されるとき、ノイズの載った非顔画像1231も、顔画像1201と同じ二値ブロック値に変換される。これは、「modified census transform」特徴量では、輝度情報が完全に無視されているからである。「modified census transform」特徴量は画素を単位としているので、ブロックに局所化しすぎであり、大域的な特徴量を取得できていない。
本発明は、上記の事情に鑑みてなされたものであって、高精度で、処理負荷の増加を抑えることが可能な特徴抽出装置、対象物検出装置、特徴抽出方法、および対象物検出方法を提供することを目的とする。
本発明の特徴抽出装置は、画像に対して複数の矩形ブロックから構成される矩形テンプレートを設定し、前記矩形テンプレートに含まれる矩形ブロックの輝度値の平均である参照輝度値と、前記矩形ブロック各々についての各ブロック毎の平均輝度である個別輝度値とを求め、前記個別輝度値が前記参照輝度値以上のときは前記矩形ブロックに対して第1ラベルを割り当て、前記個別輝度値が前記参照輝度値未満のときは前記矩形ブロックに対して第2ラベルを割り当て、前記画像に対して設定した矩形テンプレートの特徴量として、前記第1ラベルと第2ラベルとの配列である空間的分布情報を含む特徴量を求める。
本発明の対象物検出装置は、入力画像に対して複数の矩形ブロックから構成される矩形テンプレートを設定し、前記矩形テンプレートに含まれる矩形ブロックの輝度値の平均である参照輝度値と、前記矩形ブロック各々についての各ブロック毎の平均輝度である個別輝度値とを求め、前記個別輝度値が前記参照輝度値以上のときは前記矩形ブロックに対して第1ラベルを割り当て、前記個別輝度値が前記参照輝度値未満のときは前記矩形ブロックに対して第2ラベルを割り当て、前記入力画像に対して設定した矩形テンプレートの特徴量として、前記第1ラベルと第2ラベルとの配列である空間的分布情報を含む特徴量を求める特徴抽出手段と、学習用の画像サンプルに対して設定した矩形テンプレートが、対象物を含む確率と含まない確率とに基づいて、空間的分布情報を含む特徴量ごとに、スコアを算出するスコア算出手段と、を備え、前記スコア算出手段は、前記入力画像に対して設定した矩形テンプレートの前記特徴量に対応したスコアを求め、前記入力画像に対象物が含まれるか否かを判定する。
本発明の特徴抽出方法は、画像に対して複数の矩形ブロックから構成される矩形テンプレートを設定するステップと、前記矩形テンプレートに含まれる矩形ブロックの輝度値の平均である参照輝度値と、前記矩形ブロック各々についての各ブロック毎の平均輝度である個別輝度値とを求めるステップと、前記個別輝度値が前記参照輝度値以上のときは前記矩形ブロックに対して第1ラベルを割り当て、前記個別輝度値が前記参照輝度値未満のときは前記矩形ブロックに対して第2ラベルを割り当てるステップと、前記画像に対して設定した矩形テンプレートの特徴量として、前記第1ラベルと第2ラベルとの配列である空間的分布情報を含む特徴量を求める特徴抽出ステップと、を有する。
本発明の対象物検出方法は、入力画像に対して複数の矩形ブロックから構成される矩形テンプレートを設定し、前記矩形テンプレートに含まれる矩形ブロックの輝度値の平均である参照輝度値と、前記矩形ブロック各々についての各ブロック毎の平均輝度である個別輝度値とを求め、前記個別輝度値が前記参照輝度値以上のときは前記矩形ブロックに対して第1ラベルを割り当て、前記個別輝度値が前記参照輝度値未満のときは前記矩形ブロックに対して第2ラベルを割り当て、前記入力画像に対して設定した矩形テンプレートの特徴量として、前記第1ラベルと第2ラベルとの配列である空間的分布情報を含む特徴量を求める特徴抽出ステップと、学習用の画像サンプルに対して設定した矩形テンプレートが、対象物を含む確率と含まない確率とに基づいて、空間的分布情報を含む特徴量ごとに、スコアを算出するスコア算出ステップと、を有し、前記スコア算出ステップにおいて、前記入力画像に対して設定した矩形テンプレートの前記特徴量に対応したスコアを求めて、前記入力画像に対象物が含まれるか否かを判定する。
本発明によれば、高精度で、処理負荷の増加を抑えることが可能である。
本発明の実施形態に係る対象物検出装置の概略構成を示すブロック図 本発明の実施形態に係るノードネットワークを示す概念図 本発明の実施形態に係るパス生成部の処理手順を示すフローチャート 本発明の実施形態に係る画像ウィンドウ検出処理部の処理手順を示すフローチャート 本発明の実施形態に係る対象物検出学習装置の概略構成を示すブロック図 本発明の実施形態に係る空ノード生成部の処理手順を示すフローチャート 本発明の実施形態に係る空ノード生成を説明する概念図 本発明の実施形態に係る画像サンプル収集部の処理手順を示すフローチャート 本発明の実施形態に係るノード学習部の処理手順を示すフローチャート 本発明の実施形態に係る特徴抽出部の概略構成を示すブロック図 本発明の実施形態に係る特徴抽出用の矩形テンプレートの一例を示す図 本発明の実施形態に係る特徴抽出部の処理手順を示すフローチャート 本発明の実施形態に係る特徴抽出部における処理手順を説明するための説明図 本発明の実施形態に係る特徴抽出用の矩形テンプレートの他の例を示す図 従来技術における矩形特徴の課題を説明するための図 従来の特徴量の課題を説明するための図
次に、本発明の実施形態に係る対象物検出装置について説明する。以下の説明では、対象物として人物の顔を具体例として説明する。
<検出装置の構造>
図1は、本発明の実施形態に係る対象物検出装置の概略構成を示すブロック図である。図1に示すように、本実施形態の対象物検出装置は、入力部201と、画像ウィンドウ抽出部210と、記憶部502と、ネットワーク識別器590と、出力部202とを有する。
画像ウィンドウ抽出部210は、入力部201に入力された画像から複数の画像ウィンドウを抽出する。なお、「画像ウィンドウ」とは、入力画像内の部分領域を意味し、入力画像からは、部分領域の位置や大きさを変えた多数のウィンドウが切り出し可能である。
記憶部502は、ノードネットワークを蓄積する。図2は、本発明の実施形態に係るノードネットワークを示す概念図である。ネットワーク100は、ネットワーク上に配置された複数のノードを有する。
同図に、ネットワークの基本ユニット110を示す。基本ユニット110は、1つのノード・「ノードN」111と、多くともM個のノードからのつながりを統合するジョイント部117と、多くともN個のノードへ分割するスピリット部118からなる。たとえば、図2では、M=N=2の場合を示している。また、M個のノードは、ノードNの親ノードと称し、N個のノードはノードNの子ノードと称す。
図2の場合、ノードNの親ノードはノード112、113であり、子ノードはノード114,115である。親ノードのないノードをルートノード(図2では101)と称す。入力画像170はルートノード101に入力される。
各ノード111は複数の識別器を有しており、識別器は、特徴量識別器h、対象物識別器H、そして識別エラー関数Eを有する。識別器はたとえば、Jin, R.、Hauptmann, A.、Carbonell, J.、 Si, L.、Liu, Y.、「A New Boosting Algorithm Using Input Dependent Regularizer」、20th International Conference on Machine Learning (ICML'03), Washington, DC, August 21-24, 2003(以下、文献Aという)に示されるように、局所的にブースティングを用いることによって構築することが可能である。特徴量識別器はブースティング学習法における弱判別器であってもよいし、また、対象物識別器はブースティング学習法における強判別器であってもよい。
図1の対象物検出装置の説明に戻る。ネットワーク識別器590は、ネットワーク構造を有する識別器であり、画像ウィンドウ抽出部210から画像ウィンドウを取得し、記憶部502に蓄積されているノードネットワークを用いて、各画像ウィンドウに対象物が含まれるか否かを識別する。
ネットワーク識別器590は、パス生成部520と画像ウィンドウ検出処理部530を有する。パス生成部520は、記憶部502に蓄積されているノードネットワークの情報を読み込み、少なくとも1つ以上のパス(経路)を生成する。パスは、画像ウィンドウを処理するために選ばれたノードの列である。
画像ウィンドウ検出処理部530は、画像ウィンドウ抽出部210から画像ウィンドウを取得し、パス生成部520によって生成されたパスにより、画像ウィンドウを処理する。なお、各パスにおいて、上述した各ノードにおいて識別器(特徴量識別器h、対象物識別器H、識別エラー関数E)による演算を行い、画像ウィンドウが対象物を含むか否かを示す識別結果が生成される。出力する識別結果として、最も識別エラーの低い識別結果を選択し、出力部202に蓄積する。
続いて、画像ウィンドウ検出処理部530は新しいパスを生成するよう、パス生成部520に指示し、それ以上新しいパスが生成されなくなるまで、または所定の回数に達するまで上記識別処理を繰り返す。
図3は、本発明の実施形態に係るパス生成部の処理手順を示すフローチャートである。まず、パス生成部520は、ネットワーク内に生成されているパスがあるか否かを判定する(ステップ621)。パスがない場合、ルートノードのみを含むパスが生成され(ステップ622)、パス生成処理を終了する。
パスが存在した場合、ネットワーク内に生成されているパスの数があらかじめ設定したK個よりも大きいか否かを判定する(ステップ623)。Kの値はたとえば、1、2、3などが設定される。パス数がKを超えている場合、パス数が多くともK個となるように識別エラーが高いパスを終了させる(ステップ624)。ここで、画像ウィンドウ検出処理部530において既に求められたものにより判定する。また、「パスを終了する」とは、あるパスについて、入力画像に対してそれ以上処理しない場合をいう。
それぞれの現在のパスを分割することによって、より多くのパスを生成する(ステップ625)。たとえば、あるパスが{node、node、node}を含む場合について考える。このとき、たとえばnodeの子ノードとして、nodeb,child1と、nodeb,child2が生成され、新しいパス、{node、node、node、nodeb,child1}と{node、node、node、nodeb,child2}が生成される。
図4は、本発明の実施形態に係る画像ウィンドウ検出処理部の処理手順を示すフローチャートである。
各生成されたパスに対し、画像ウィンドウ検出処理部530は画像ウィンドウが対象物を含むか否かを示す識別結果を評価する。識別結果はたとえば上記文献Aのように局所的なブースティングから得てもよい。出力の識別結果は、生成されたパスのすべての識別結果から選択される。
図4のフローチャートの各ステップについて説明する。まず、画像ウィンドウ検出処理部530は、生成されたパスの各ノードに対して、入力の画像ウィンドウから特徴量を抽出する(ステップ631)。入力画像ウィンドウをXとし、ノードNについて抽出された特徴量をf(X)とする。なお、特徴抽出は、例えば図10に示す特徴抽出部390によって処理されるものであり、詳細は後述する。
次に、抽出した特徴量f(X)を識別器に与え、生成されたパスのノードに対するスコアh(X)を求める(ステップ632)。スコアh(X)は、特徴量識別器hから求められ、次の式(1)に基づいて計算される。
Figure 2011096291
上記式(1)のProb(k)は、イベントkが発生する確率を示す。Y=+1およびY=−1は、それぞれ入力画像が対象物を含む場合、および含まない場合を意味している。
次に、各ノードのスコアが生成されたパスに対する累積スコアS(X)を評価するために結合する(ステップ633)。累積スコアS(X)は、次式(2)で求めてもよい。
Figure 2011096291
正則化関数exp(−|Sn,parent(X)−α|)は、特徴量識別器h(X)による効果を入力画像に応じて局所化するものであり、入力画像Xに対してSn,parent(X)が正則化パラメータαに十分に近い値をとる場合にのみ累積スコアS(X)に加算する。従って、ある場合には、exp(−|Sn,parent(X)−α|)はほぼ0となり、新しい値S(X)は古い値Sn,parent(X)と相対的にほぼ変わりない値になることもある。
次に、各パスの累積スコアS(X)と識別結果H(X)により、画像ウィンドウが対象物を含むか否かを判定する(ステップ634)。ここで、識別結果H(X)は、対象物識別器Hから求めてもよく、次式(3)で求めてもよい。
Figure 2011096291
(X)=+1は、画像ウィンドウが対象物を含むとする判別結果であり、H(X)=−1は、対象物を含まないとの判別結果を意味する。
次に、パスの識別結果に対する識別エラーE(X)を推定する(ステップ635)。識別エラーは、エラー関数E(誤差関数)から求めることができ、また次式(4)で求めてもよい。
Figure 2011096291
また、計算にかかる処理負荷を低減するために、関数hは、次式(5)のようにルックアップテーブルとして実装してもよい。関数E、HおよびSもまた、次式(6)のように二次元のルックアップテーブルとして実装してもよい。
Figure 2011096291
Figure 2011096291
画像ウィンドウ検出処理部530は、上記ステップ631〜635を繰り返し、各パスの識別結果および識別エラー(誤差関数)を求める(ステップ636)。そして、求められたパスの識別結果の中から、最も低い識別エラー値の識別結果を出力結果として選択する(ステップ637)。
そして、出力結果の識別エラーがあらかじめ定めている値よりも小さい場合、識別処理を終了する(ステップ638)。なお、出力結果の識別エラーがあらかじめ定めている値よりも小さくない場合には、パス生成部520へ新たなパスの生成を指示し、パス生成部520はパスを生成する。
出力部202は、このようにしてネットワーク識別器590の画像ウィンドウ検出処理部530が対象物を含んでいると識別した画像ウィンドウの位置(たとえば、入力画像上における座標値)と大きさ等の情報を出力する。
このようにして、パス生成部520によって、ネットワークが統合と分割を行うので、多数のパスを構築することが可能である。また、各パスは識別結果を評価する際に使用され、ネットワークは多数の検出器のプールとなっている。検出器群となっていることで1つの識別器よりもより信頼できる出力結果を出すことが可能である。
さらに、高速な識別プロセスを保障するために、パス数はKで制限されている。最良な識別結果を保証するために、パスは動的に生成され、高い識別エラーを持つパスは識別処理の間に終了させられる。従って、入力に対して低い識別エラーを持つパスのみが使用される。
したがって、従来の並列では、並列検出器は静的で、識別処理の間に変更可能でないのに対して、本実施形態の対象物検出装置では、利用する検出器を動的に変化させ、不要な処理を抑えることができる。
また、画像ウィンドウ検出処理部530において、ブースティングアルゴリズムの利用により、新たに生成したパスでの識別エラーは、古いパスのものより統計的に小さくなることが保障されている。さらに、上記式(2)は、ブースティングを局所的に行い、識別器h(X)が入力画像の部分集合にのみに作用することを保障する。
また、十分に識別エラーが低くなった処理を中止させる本手法により、識別処理の高速化を実現している。これは、対象物を含んでいようがいまいが、判別しやすい入力画像を早期に識別することが可能であり、その判別に必要なノードの数を少なく抑えることができているからである。
また、本手法は、対象物を含んでいないと識別できた入力画像ウィンドウのみを早期に認識し、その後は決まった数の識別器で処理する従来のカスケード構造型よりも、より効率的である。
<対象物検出の学習方法と装置>
図5は、本発明の実施形態に係る対象物検出学習装置の概略構成を示すブロック図である。図1に示す対象物検出装置と重複する部分については、同一の符号を付す。図5に示すように、入力部(画像サンプル群701)と、ネットワーク学習部790と、記憶部502とを有する。この対象物検出学習装置は、判定結果の情報(対象物の有無)を伴った複数の画像サンプルを与え、対象物検出装置において用いられるノードネットワークのノードの識別器を学習させて構築するものである。なお、目的の対象物を含む画像サンプルをポジティブサンプルといい、目的の対象物を含まない画像サンプルをネガティブサンプルという。
複数の画像サンプル群701が与えられると、ネットワーク学習部790は、複数の画像サンプルを識別するよう学習されたノードネットワークを決定する。ここで決定したノードネットワークは記憶部502にたくわえられ、ネットワーク識別器590で画像ウィンドウが対象物のインスタンスを持っているかどうかを識別プロセスにて識別するのに用いられる。
図7に示すように、ネットワーク学習部790は、空ノード生成部710、画像サンプル収集部720、ノード学習部730を有する。なお、空ノードとは、識別器が決定されていないノードをいい、学習済みのノードとは、識別器を決定済みのノードをいう。ネットワークのノードの識別器を決定するのにはたとえば上記文献Aに記載の局所的ブースティングアルゴリズムを用いてもよい。
まず、空ノード生成部710は、記憶部502に保存された現在のノードネットワークを読み取り、学習のための空ノードを生成する。そして、空ノード生成部710は、画像サンプル収集部720を用いて、複数の入力画像サンプル群701から所定の数の画像サンプルを収集する。もし、収集した画像サンプルの数が所定の数よりも少なければ学習できないので空ノードを削除する。
次に、ノード学習部730は、画像サンプル収集部720から収集された画像サンプルを用いて生成された各々の空ノードに対応する識別器を最終的に決定する。ノードネットワークは、記憶部502に学習済みのノードを保存することで更新される。
これらの学習プロセスを、空ノード生成部710によって空ノードが生成されなくなるまで繰り返す。
図6は、本発明の実施形態に係る空ノード生成部の処理手順を示すフローチャートである。ステップ811では、ノードネットワークが空かどうか判定する。ノードが存在しない場合に、ネットワークは空であるという。ネットワークが空であれば、空のルートノード(node)を生成することでネットワークを開始する(ステップ812)。
一方、ネットワークが空でない場合、すなわち少なくとも一つのノードが存在する場合、N個以下の子ノードとなるように、新規の空ノードをノードの結合と分割によって生成する(ステップ813)。ここで、この空ノードの生成プロセスについて説明する。
図7は、本発明の実施形態に係る空ノード生成を説明する概念図である。現在のノードネットワーク901から、近接する空ノードが共通の親を共有するように空のノード950、951、952、953を、ノード960、961、962、963を分割することで形成する。たとえば、ノード950及びノードは1つの共通の親ノードを持っている。
図6に戻り、空ノード生成の手順を説明する。ステップ814では、画像サンプル収集部720にそれぞれの空ノードに所定数T個(たとえば、10000個)の画像サンプル群を収集する。
ステップ815では、収集画像サンプルが不十分な空ノードを取り除く。たとえば、画像サンプル数がTよりも少ないときである。
図8は、本発明の実施形態に係る画像サンプル収集部の処理手順を示すフローチャートである。
ステップ821では、記憶部502で保存されているノードネットワークの識別で使われるパスを使って入力画像サンプル群701が伝達する。たとえば、ステップS821において、画像サンプル収集部720は、ネットワーク識別器590と同様の処理を行い、対象物の検出時と同じ動作で1つの画像サンプルを識別する経路を1つ以上生成する。画像サンプルのコピーが生成され、生成された経路の上を通ってネットワークを伝播し、経路の終端のノードに到達する。その際に、ネットワークには多重に生成した経路が存在しうるから、画像サンプルのコピーは同一のノードに多重に到達することがありうる。
なお、画像サンプル収集部720の動作は、ネットワーク識別器590の対象物検出時と同じ動作である。したがって、あるノードで画像識別の識別エラーが十分小さくなっていれば、その画像に対するパスは、そこで終点となるし、パスの数は一定数以下に制限される点も同じである。
ステップ822では、親ノードに到達した画像サンプル群は、その空の子ノードに共有される。(たとえば、子ノードに対する親ノードが複数あれば、子ノードはそれぞれの親ノードの画像サンプル群の合併集合を画像サンプルとする。親ノードに対して子ノードが複数あれば、それぞれの子ノードは共通の親ノードから同じ画像サンプル群を引き継ぐ)。つまり、ステップ821で親ノードに到達した画像は、コピーがそれぞれの子ノードに生成される。
ポジティブサンプルを(X、Y=+1)、ネガティブサンプルは(X、Y=−1)として表記する。1つの空のノードnについて、親ノードでの画像サンプルの累積スコアSn,parent(X)を、式(2)を用いて決定する。空ノードでの画像サンプル群は、(X,Y,Sn,parent(X))として表記する。
そして、ステップ823において、それぞれの空のノードに到達する画像サンプルを最大T個になるまで集める。たとえば、T/2個のポジティブサンプルとT/2個のネガティブサンプルとを、その空ノードに到着した全ての画像サンプルからランダムに選択する。
図9は、本発明の実施形態に係るノード学習部の処理手順を示すフローチャートである。
ノード学習部730では、空ノードnの学習のために収集された画像サンプル群を用いて、その中から親ノードで識別エラーが大きくなるよう部分集合を決定する。次に、その部分集合での学習に焦点を合わせて局在化し特化した識別器を生成するように、重み関数を決定する。その働きを、順をおって説明する。
ステップ831では、ノードの識別器を特化するための画像サンプルの部分集合を、累積スコアを考えるときの重みを画像サンプルに応じて変更することによって決定している。その画像サンプルの部分集合は、親ノードでもっとも高い識別エラーを与える部分集合である。その手順は以下のとおりである。
まず、画像サンプル収集部720から収集された画像サンプル群を(X,Y,Sn,parent(X))とする。次に、画像サンプル群に対する現行の識別エラーEn,parent(X)を、式(4)によって決定する。この識別エラーEn,parent(X)を用い式(7)で、正則化パラメータαの値を決定する。
式(7)では、αに近い親の累積スコアSn,parent(X)をもつ画像サンプル群が最大の識別エラーEn,parent(X)を親ノードで持つようにαn,parent1とαn,parent2との間に値αを選んでいる。つまり、前段でうまく識別できなかった画像を集中的に学習するための選択を行っていることになる。それゆえ、親ノードで識別エラーが最大になるように選んだ画像サンプルの部分集合に対し、ノードnの識別器が識別エラーを減らすよう学習すると期待できる。
正則化関数exp(−|Sn,parent(X)−α|)を用い、αnを次式(7)で決定する。この正則化関数、累積スコアはいずれも、対象物検出装置におけるものと同じである。
Figure 2011096291
すなわち、αn,parent1<α<αn,parent2となるαにおいて、親ノードにおける識別エラーと正則化関数との積の、収集された全ての画像サンプルについての総和が最大となるαを、αとする。なお、親ノードが3つ以上の場合には、αの選択範囲は、min(αn,parent)<α<max(αn,parent)となる。また、このとき、親ノードがひとつだけのときには、次の式(8)に示す値を用いる。
Figure 2011096291
このように、ステップ831によって、識別器を特化させるための画像サンプルの部分集合を、親ノードでの識別エラーを最大とする画像サンプルの集合として決定する。
次に、ステップ831で決定した部分集合を用いて、ステップ832では、全ての収集画像サンプルに対して重みを決定する。重みをつけた学習サンプル群を(X,Y,w(X))と表記する。ここで重み関数w(X)は、次の式(9)で数学的に表現される。
Figure 2011096291
ここでWsumはw(X)を分布とするときの規格化定数である。この式で、|Sn,parent(X)−α|≒0となる状況で重みが大きく、|Sn,parent(X)−α|が大となる状況で重み関数は小さい。
さらに、ステップ833では、ノードnの各種識別器を、重みつき画像サンプル群を用いて決定する。決定する識別器は、それぞれ式(1)、(3)、(4)に示す特徴識別器h、対象物識別器H、識別エラー関数Eである。ここで、特徴量には、たとえば上記文献Aに示すブースティングアルゴリズムで見つけられる特徴量から最良の識別を与える特徴量を1つ選びだして用いる。
また、特徴識別器hは、次式(10)で決定してよい。
Figure 2011096291
この式で、P(j)は分布wのときにイベントjが起こる重みつき確率を示す。f(X)は最良の選択をした(=最もよい識別結果を与える)特徴量を用いて画像サンプルXに対して抽出した特徴量、たとえば図10の特徴抽出部390(後述)を用いて抽出した特徴量である。Σw、Σwはそれぞれ特徴量f(X)をもつポジティブサンプル、ネガティブサンプルの重みの総和である。
正則化パラメータαと特徴識別器h(X)の値とを用いて、累積スコアS(X)は式(2)によって決定される。その結果、条件付き確率は次式(11)、(12)で決定される。
Figure 2011096291
Figure 2011096291
ここでC、Cはそれぞれ、累積スコアS(X)をもつポジティブサンプルとネガティブサンプルのカウント(個数)である。条件付き確率を用いて、対象物識別器Hは式(3)で決定される。
さらに、対象物識別器の識別エラーE(X)は、次の式(13)で表される。
Figure 2011096291
ここで、min{a,b}はa及びbの最小値を示す。このようにして、各ノードに対する特徴識別器h、対象物識別器H、識別エラー関数Eを決定する。以上の一連の手続きによってノード学習プロセスが完了する。
このように、本発明の実施形態のネットワーク学習部790では、以下の利点を持つ。
まず、空ノード生成部710により、複数の経路の識別結果を用いて対象物の判定ができるので、カスケード構造の先行技術に比べて効果的な判定ができるという利点を持つ。
本実施形態では、ノードの統合と分割を用いているので、接続パスを経由して下層の1つのノードにつながっている上層のノードは1つ以上ある。それぞれのノードの特徴識別器には、ブースティングアルゴリズムで学習した特徴識別器を用い、それらの識別器の結果は、下層の1つ以上の識別器に伝えられるので、下層の識別器では、それらの複数の経路の識別器の情報をあわせて対象物の判定を行うことができる。
このことと、複数の経路の識別器の情報をあわせて判定を行えることが、1つのステージの中にある弱識別器は別のステージにある弱識別器の情報をもたないカスケード構造の先行技術に対する利点である。一方、先行技術においては弱識別器の情報は、同じステージにある次の弱識別器に伝わるにすぎない。この利点は、後述の第三の特長に対応する。
さらに、空ノード生成部710は、学習の視点でも次のような利点を持っている。先行技術におけるカスケード構造の対象物検出器においては、あるステージの中にある弱判別器は別のステージにある弱判別器の情報を利用することはない。これに対し、本実施形態の装置では、上記、空ノード生成フローにより、複数のステージ識別器内に属する複数の弱判別器の情報を利用して空ノードを学習させることを可能にしている。
しかも、本方式ではノードの統合と分割を用いているので、ルートノードから新たに生成する空ノードまでのパスがあり、これらのルートノードから空ノードまでのそれぞれのパスは、ステージ識別器に相当している。上層の各ノードはブースティングアルゴリズムで学習した特徴量識別器であり、複数のステージ識別器に属する特徴量識別器の結果を利用して、空ノードを学習できる構造を実現している。
従来例として知られる多数決方式においても、並列に動作する複数の検出器において判定を用いているが、本発明の形態においては、次の利点を持つ。
まず、ノードネットワークに対して制限した数のパスを生成しているので、多数決方式に比べ、パスの数ほどに計算量が増大しない。しかも、ノードネットワークに対して複数の空ノードを生成し学習をする基準が明確になっているので、複数のパスによる学習が効果的に行われ、従来例の多数決方式においてはそれぞれのカスケード識別器が補完的に動作しているかどうか不明であるという課題、第三の課題を克服している。このように、従来よりも効率的なアンサンブル学習を実現している。
次に、画像サンプル収集部により、次に示す利点が得られる。第1に、本発明の実施形態では、画像サンプル群が複数の空ノードで共有されているので、1枚の学習画像により1つ以上の経路のノードを同時に学習可能にしている。
そのため、1つの画像サンプルを1つの識別器で識別するのにくらべ、同一の空ノードのいたる複数の経路で構成され複数の経路からの識別結果を利用するネットワーク識別器によって効果的に識別できる。この利点は、後述の第二の特長に対応する。これは、画像サンプル収集部が、画像サンプル群を複数の空ノードで共有させる仕組みにより可能になっている。
第2に、本発明の実施の形態では、識別器の段数を増やしていっても、学習データが過度に細分化(over-fragmentation)されることがなく、後段の識別器においても安定な学習を可能にしている。
従来の手法においては、識別器の段数を増やしていくと、その識別器に到達する学習サンプル数が少なくなっていき(過度の断片化を生じ)、学習結果が学習サンプルに対する依存性(過学習)を強く示すようになってしまう欠点があった。本手法においては、多重経路での判定を可能にするように、ノードの統合と分割を行って画像を共有しているので、学習の優先領域に重なりがあり、学習サンプルが過度に断片化されることもなく、学習結果が過学習を示しにくいので、安定した学習となっているという利点がある。
一般に、自由度を高めた学習を行うと、本来のデータの統計的な特徴を再現するのではなく、学習に用いたデータセットに対して過度に依存性を持つ傾向がある。そのようなモデルのよしあしを判定する指標としてはたとえばAIC(赤池の情報量基準:Akaike's Information Criteria)が知られている。
多変量解析ではAICが最小になる自由度のモデルを採用することで、学習に用いたデータセットに対して過度に依存性をもつことを防いでいる。同様に、本発明のネットワーク型の識別器においても、いたずらに自由度を高めることは、本来のモデルのよしあしには関係なく、学習に用いたデータセットに対してだけは良好な学習結果になるかもしれないという潜在的な危険を含んでいる。しかしながら、本実施形態の手法においては、ノードの統合も行っていることで学習サンプルを細分化しすぎない、空ノードに規定の数の画像が集まらない場合には、学習を実施しない、複数のパスの識別器を用いて判定を行っている、といった制限が加えられており、いたずらに自由度が高くなる危険を防いでいるため、本手法においては、学習結果が過学習を示しにくい。
さらに、本実施形態のノード学習部730により、以下に示す利点が得られる。
第1に、ノード学習部730は、親ノードで識別できなかった画像サンプルの部分集合に対して特化した識別器を作り上げる。これは、ノード学習部は、式(9)の重み関数を用いて、(特徴識別器hを式(10)にしたがって学習させているので)、親の識別器で大きな識別エラーを生じる画像サンプル群に対して大きな重みを与えるようになっている。
第2に、ノード学習部は、影響が局在化した識別器hを作り上げる。すなわち、親のノードで大きな識別エラーを生じるときにおいてのみ、このノードによる累積スコアへの寄与があるものになっている。実際、親の識別器での大きな識別エラーを生じる場合には、式(2)で|Sn,parent(X)−α|が小さな値となっているので、累積スコアへのexp(−|Sn,parent(X)−α|)*h(X)の項が大きくなり、このノードでの識別器h(X)の値が累積スコアに十分に反映される。
逆に、親識別器で大きな識別エラーを生じない場合には、式(2)で|Sn,parent(X)−α|の値が大きくなるので、exp(−|Sn,parent(X)−α|)*h(X)の項が小さくなり、このノードでの識別器h(X)の値が累積スコアにほとんど影響しない。
このため、累積スコアへの影響は、親ノードでの識別エラーが大きい場合に限定されたものになる。それは、影響が局在化した識別器と言い換えることができる。
このように、1つのパスの各ノードの識別器では、それぞれの識別器が高い寄与で累積スコアに効いてくる入力画像が異なるため、個々の識別器にはその他の全ての識別器の動作に影響を与えずに優先的に動作する優先領域がある。
一方、従来例としてあげるカスケード構造の識別器では、第一の課題に示したように、弱判別器が全入力空間に対して処理を行う線形識別器であり、全ての弱識別器は、全ての顔画像を顔として識別しなければならない。それに対して、本発明の実施形態のノードの識別器においては、前段のノードの識別器が誤識別を起こしやすい画像集合についてだけ、顔と非顔を識別するものである。そのため、ノードの識別器が動作する入力画像空間は限定的なものであり、このノードの識別器での顔/非顔の識別は、カスケード構造の識別器の場合よりもはるかに簡単な構成で実現できる。これは、後述の第一の特長に対応する。
このように本発明の実施形態では、各ノードの識別器が、優先的に動作する入力画像の優先的な空間があるので、1つの識別器の動作が他の識別器の動作に影響を与えることはほとんどない。これは、先行技術においては、弱識別器は全入力空間に対して動作しその他の弱分類器動作に影響を与えうるという課題をかかえているのと比較し、大きな利点となっている。
<特徴抽出>
図10は、本発明の実施形態に係る特徴抽出部の概略構成を示すブロック図である。この特徴抽出部は、例えば、図1に示す画像ウィンドウ検出処理部530や、図7に示すノード学習部730にて用いられる。
図10に示すように、特徴抽出部390は、入力部501に入力された画像ウィンドウから特徴量(特徴値)309を抽出する。この特徴量(特徴値)309は画像ウィンドウが対象物を含むかどうかの識別に用いられる。
たとえば、画像ウィンドウ検出処理部530によって実行される図4に記載のステップ631は、特徴抽出部390により実行される。
図11は、本発明の実施形態に係る特徴抽出用の矩形テンプレートの一例を示す図である。与えられた画像ウィンドウ1001に対して、矩形テンプレートはL個の同じ大きさの長方形等の矩形ブロックを画像ウィンドウ1001の内部に含む。Lは、例えば2から9の間の任意の値をとってよい。個々の矩形ブロックは、右上の座標と幅wと高さhとで特定できる。
たとえば、図11(A)に示す矩形テンプレート1010、図11(B)に示す矩形テンプレート1020、図11(C)に示す矩形テンプレート1030は、それぞれ6、9、7個の矩形ブロックを含んでいる。
図12は、本発明の実施形態に係る特徴抽出部の処理手順を示すフローチャートである。また、図13は、本発明の実施形態に係る特徴抽出部における処理手順を説明するための説明図である。
ステップ491では、画像ウィンドウXに、画像ウィンドウ中の矩形ブロックを定義する矩形テンプレートfを適用する。
ステップ492では、画像ウィンドウから空間的分布情報を測定する。空間的分布情報は、パターンのどの矩形ブロックが他よりも高い輝度値を持つのかを示すパターン1110として示される。
パターン1110を矩形ブロックの輝度値比較によって計算する。全ての矩形ブロックの平均輝度値がまず計算され、これを参照輝度値とする。次に、個々の矩形ブロックの平均輝度値を計算する。矩形ブロックの平均輝度値が参照輝度値よりも小さければ1、大きければ0と矩形ブロックはラベルする。これら強度は、積分画像を使うことですばやく効率的に計算できる。この矩形ブロックのラベルを集めることで、パターン1110が得られる。
例として、図13において、矩形テンプレート1010を用いる。入力顔画像1105に対し、特徴抽出部390は、pattern=101000というパターン1151を生成する。別の非顔画像1106に対しては、特徴抽出部390はpattern=011000というパターン1161を生成する。
ステップ493では、空間輝度値情報を画像ウィンドウから計測する。この空間輝度値情報を強さ(strength)とし、異なるブロック間でどれがどのくらい強度差があるのかを示す。
強さ1120は、1とラベルされた全ての矩形ブロックの平均輝度値から0とラベルされた全ての矩形ブロックの平均輝度値を差し引くことで計算される。
たとえば、図13において、入力顔画像1105に対して、特徴抽出部390は、strength=35という強さ1152を生成する。別の非顔画像1106に対しては、特徴抽出部390は、strength=37という強さ1152を生成する。
特徴抽出部390の抽出する特徴f(X)は、2次元量であり、次の式(14)ように表現できる。
Figure 2011096291
抽出された特徴量は、特徴量の識別能力を改善するためにパターンと強度の2つの属性を使う。多くの場合、空間的分布情報と輝度値情報の両方が画像を区別するのに必要である。
例をあげれば、図13において、入力の顔画像1105と非顔画像1106は似た強さである。強さ情報に基づく先行技術は両者を区別することができない。しかしながら、顔画像1105と非顔画像1106とは異なるパターン値をしているので、パターン値で区別できる。
図14は、本発明の実施形態に係る特徴抽出用の矩形テンプレートの他の例を示す図である。画像ウィンドウ1101が与えられたとき、矩形テンプレートはL個の矩形ブロックをウィンドウ1101の内部に含む。
図14(A)に示す矩形ブロック1091のように、矩形ブロックはそれぞれ大きさが異なってもよい。また、図14(B)、(C)に示す矩形ブロック1092、1093のように、矩形ブロックは交わらなかったり、隣接していなくてもよい。さらに、図14(D)、図14(E)に示す矩形ブロック1094のように、完全に又は部分的にオーバーラップしていてもよい。
このような本発明の実施形態の対象物検出装置及びその学習装置によれば、下記の構成を有するものである。
まず、前記対象物検出方式において、前記ノードはブースティング学習法によって訓練された複数の識別器を備える。ネットワーク学習プロセスは、多数の画像サンプルを入力として、それらの画像サンプル群をいくつかの集合に分割し、それぞれの画像集合をもとに識別器を訓練する。ノードに配置する識別器を決定するために、まず、前記構造(building)は識別プロセスにおいてノードに到達する訓練サンプルを収集する。次に、最も識別エラーが高く、学習サンプルが多く存在する領域を決定する。そして、弱判別器がその制限された領域で識別をおこなう。弱判別器は全入力空間に均等に影響を与えるものではない。新たに追加される各弱判別器は特徴づけされ、決定された領域の中で前の弱判別器の結果の改良のみを行う。このようにして構築した本発明の実施形態のネットワーク識別器においては、各パスの識別器が識別するのはそのパスを伝播した画像からなる入力画像の部分空間であり、部分空間での顔/非顔の判定は全入力画像空間での判定よりも分離が容易となり、従来例の後段の強判別器のように多数の弱判別器を必要としないとい効果を生じている。これにより、第一の課題を解決することができる。
また、本発明の実施形態のノードネットワークでは、(1)各ノードが自ノードに到達するまでに処理したノードの累積評価値をもとに顔・非顔を判別する強判別器を備えること、(2)学習時に、各ノードの識別器を、そのノードに到達する学習サンプルと前段ノードにおける累積評価値の結果に基づいて学習させる。すなわち、本方式により、各ノードはそれまでの経路上に存在するノードから成る強判別器として機能し、対象物の有無の決定に十分でない場合に、その判別結果に応じて学習されている次の子ノードで処理が続く、という構造をとる。したがって、常にそれまでの識別結果が有効に利用されるため、識別処理が高速に、最適に実現できる。また、第一の解決手段により、各ノードが入力空間の部分領域に特化する判別器が選択されている一方で、本ノードネットワークの特徴的な構造の一つであるノードの統合(親ノードを複数持つ子ノードの存在)では、全親ノードのサンプルを引継ぎ、親ノードの識別対象領域を統合した部分領域で最適な判別器を学習するこの統合構造により、入力空間を多様な部分領域について識別処理を行うことが可能である。これにより、入力空間上のある1点の画像は、複数のノードの弱判別器によって処理され、それらの結果の累積値での判別を実現する。これにより、第二の課題を解決することができる。
また、画像からの対象物検出装置において、前記識別プロセスでは、入力データをネットワーク上の複数のパスで処理させることが可能である。パスとは、入力データを処理し、識別するのに使用されるノードの経路である。パス上の各ノードの識別器は、入力画像に対する識別を行う弱判別器だけではなく、前段までのノードの弱判別器の識別結果を累積する識別器をも含んでいる。そのため、パス上の各ノードの弱判別器からの累積スコアを用いることによって、強判別器または識別器による識別結果が得られる。また、識別処理の間に、現在のパスから複数のパスをさらに生成する。不必要なパスが多くなるのを防ぐため、最も高い識別エラーを持つパスは終了させる。ノードは分割されたり統合されたりするので、ネットワークを、共通の弱判別器を共有する複数の異なる強判別器の結合とみなすことができる。複数のパス上のノードを用いて強識別器を作ることは、協調的に動作するように訓練された並列な強判別器を動かしているのと同等である。パスの識別結果のうち、識別エラー値が最良のものを出力結果として選択する。このようにして、複数のカスケード識別器からなる検出装置(=多数決方式のカスケード識別器)と同等以上な識別能力を持ちつつ、それぞれのパスが協調的に動作し、しかも多数決方式よりも計算量の少ない識別器を達成できる。これにより、第三の課題を解決することができる。
画像からの対象物検出装置において、本実施形態の特徴量抽出手法は、入力の画像ウィンドウに対して空間的分布情報と輝度値情報の両方を測るものである。まず、特徴テンプレートにおいて、画像ウィンドウにおける対象領域を決定する。まず、”パターン(pattern)”と表記する属性として、領域が他の領域よりも輝度値が高いか低いかをあらわす値を計算する。この属性は、輝度値の高低の空間的分布を表す。続いて、”強さ(strength)”と表記する一つの属性は、画像ウィンドウの輝度値の高低の大きさの差を表現する値が計算される。すなわち、本実施形態で提案する特徴選択手法は画像から有益な情報を得るために2つの属性値を使用する。これにより、第四の課題を解決することができる。
そして、本発明の実施形態に係る対象物検出装置及びその学習装置は、以下の特長を含む。第一の特長は、入力画像の部分空間で識別を行うよう、識別器の局所化を行っている点である。ネットワーク構造を導入することによって、弱判別器が入力空間全体を識別するよう訓練されている従来手法とは異なり、本実施形態は入力空間の部分領域に対して処理する弱判別器を訓練する。すなわち、各識別器は他の識別器の識別処理に関係なく、特定の領域に対して、特定の識別処理を行う。これにより、精度の向上と識別エラーの減少を実現し、より複雑な非線形識別器の構築が可能にしている。
また、本実施形態では、入力画像に対応した識別器を適用させるため、すべての識別器を評価する必要はない。したがって、識別処理における計算処理コストを低減させることが可能である。さらに、対象物を含む場合にも含まない場合にも、単純な(識別しやすい)入力画像に対して早期に識別することを保証するために、入力画像に対して早期に処理が行われるネットワーク上の上部や外側の位置の弱判別器は、単純な入力画像に対して処理するように特化させる。
第二の特長は、識別結果をより効果的に共有する点である。本実施形態では、従来手法において弱判別器をつないでいるカスケード構造にかわって、ネットワーク構造を用いる。識別器は、複数のノードから複数のノードへつながれたネットワーク上のノードに配置される。ネットワークの分割構造が識別器を特定領域の操作に局所化させ、統合構造がネットワークがしっかりと結びついていることを保障する。結合ノードの構築においては、親ノードの学習時のサンプルを統合して用いることによって、入力空間の過分割を起こさないようにしている。対象問題を分割と結合により解を求める本実施形態の方式により識別情報を効果的に共有し、対象物検出器全体で使用する識別器総数を低減させることができる。
第三の特長は、ひとつの識別器から複数の識別結果を生成することである。本実施形態の装置においては、対象物検出装置は入力画像を識別器ネットワークにおいて、複数の弱判別器を選択し、複数の経路で識別処理をおこなう。各パスは入力画像を識別するための識別器の集合である。識別器は識別処理において、識別エラーを減少させるように動的に選択する。ある層のノードにいたる識別器のパスの選択の際に、前段までの古いパスを利用して、そこからノードの分割と統合とを行いつつ新しいパスを生成する。各パスは、入力画像内に対象物があるか否かを決定する強判別結果を出す。すなわち、ネットワークそのものは実際には、複数の弱判別器を共有する強判別器の集合である。独立な強判別器が使用されている従来の多数決方式に比べて、本実施形態の複数の強判別器は集団的に訓練され、強調的に動作する。さらに、最も高い識別エラーのパスを終結させることによって、従来の多数決方式において発生していた複数の判別器を並列に動作させた際の処理負荷の増加を抑えることが可能である。
第四の特長は、より高い識別力を持つ新しい特徴抽出手法の使用である。本実施形態では、入力の画像ウィンドウにおけるある領域に対して、従来の非特許文献2および特許文献1の矩形特徴量が強さ情報を測るものであるのに比べて、空間的なパターン情報と輝度の強さ情報の両方を測ることが可能な矩形パターン特徴を提案している。空間的なパターン情報は高低の輝度画素がある領域内でどのような配置になっているかを表す。強さ情報は、高低の輝度の画素領域間で輝度値の差がどれくらい強いかを表す。非特許文献4にある手法に比べて、本実施形態の矩形パターン特徴は強さ情報を組み込んだことによってノイズ画像にロバストであり、本実施形態のパターン特徴は非特許文献4にある手法が画素間比較するのに比べ、大局的な特徴を取得することが可能である。したがって、識別力がより高くなり、検出器において使用され、対象物体を見つけるのに必要な特徴量の数は大きく減少できる。
本発明は、高精度で、処理負荷の増加を抑えることが可能な効果を有し、監視カメラ等により撮影された対象物検出等を行う特徴抽出装置、対象物検出装置及びその学習装置等に有用である。
201 入力部
202 出力部
210 画像ウィンドウ抽出部
390 特徴抽出部
502 記憶部
520 パス生成部
530 画像ウィンドウ検出処理部
590 ネットワーク識別器
710 空ノード生成部
720 画像サンプル収集部
730 ノード学習部
790 ネットワーク学習部

Claims (6)

  1. 画像に対して複数の矩形ブロックから構成される矩形テンプレートを設定し、
    前記矩形テンプレートに含まれる矩形ブロックの輝度値の平均である参照輝度値と、前記矩形ブロック各々についての各ブロック毎の平均輝度である個別輝度値とを求め、
    前記個別輝度値が前記参照輝度値以上のときは前記矩形ブロックに対して第1ラベルを割り当て、
    前記個別輝度値が前記参照輝度値未満のときは前記矩形ブロックに対して第2ラベルを割り当て、
    前記画像に対して設定した矩形テンプレートの特徴量として、前記第1ラベルと第2ラベルとの配列である空間的分布情報を含む特徴量を求める特徴抽出装置。
  2. 請求項1に記載の特徴抽出装置であって、
    前記空間的分布情報に加えて、
    前記第1ラベルが割り当てられた矩形ブロックの個別輝度値の平均輝度値と前記第2ラベルが割り当てられた矩形ブロックの個別輝度値の平均輝度値との差に基づいて強度を求め、
    前記空間的分布情報と前記強度とを、前記矩形テンプレートの特徴量として求める特徴抽出装置。
  3. 入力画像に対して複数の矩形ブロックから構成される矩形テンプレートを設定し、
    前記矩形テンプレートに含まれる矩形ブロックの輝度値の平均である参照輝度値と、前記矩形ブロック各々についての各ブロック毎の平均輝度である個別輝度値とを求め、
    前記個別輝度値が前記参照輝度値以上のときは前記矩形ブロックに対して第1ラベルを割り当て、
    前記個別輝度値が前記参照輝度値未満のときは前記矩形ブロックに対して第2ラベルを割り当て、
    前記入力画像に対して設定した矩形テンプレートの特徴量として、前記第1ラベルと第2ラベルとの配列である空間的分布情報を含む特徴量を求める特徴抽出手段と、
    学習用の画像サンプルに対して設定した矩形テンプレートが、対象物を含む確率と含まない確率とに基づいて、空間的分布情報を含む特徴量ごとに、スコアを算出するスコア算出手段と、
    を備え、
    前記スコア算出手段は、前記入力画像に対して設定した矩形テンプレートの前記特徴量に対応したスコアを求め、前記入力画像に対象物が含まれるか否かを判定する対象物検出装置。
  4. 請求項3に記載の特徴抽出装置であって、
    前記特徴抽出手段は、前記空間的分布情報に加えて、
    前記第1ラベルが割り当てられた矩形ブロックの個別輝度値の平均輝度値と前記第2ラベルが割り当てられた矩形ブロックの個別輝度値の平均輝度値との差に基づいて強度を求め、
    前記空間的分布情報と前記強度とを、前記矩形テンプレートの特徴量として求める対象物検出装置。
  5. 画像に対して複数の矩形ブロックから構成される矩形テンプレートを設定するステップと、
    前記矩形テンプレートに含まれる矩形ブロックの輝度値の平均である参照輝度値と、前記矩形ブロック各々についての各ブロック毎の平均輝度である個別輝度値とを求めるステップと、
    前記個別輝度値が前記参照輝度値以上のときは前記矩形ブロックに対して第1ラベルを割り当て、
    前記個別輝度値が前記参照輝度値未満のときは前記矩形ブロックに対して第2ラベルを割り当てるステップと、
    前記画像に対して設定した矩形テンプレートの特徴量として、前記第1ラベルと第2ラベルとの配列である空間的分布情報を含む特徴量を求める特徴抽出ステップと、
    を有する特徴抽出方法。
  6. 入力画像に対して複数の矩形ブロックから構成される矩形テンプレートを設定し、
    前記矩形テンプレートに含まれる矩形ブロックの輝度値の平均である参照輝度値と、前記矩形ブロック各々についての各ブロック毎の平均輝度である個別輝度値とを求め、
    前記個別輝度値が前記参照輝度値以上のときは前記矩形ブロックに対して第1ラベルを割り当て、
    前記個別輝度値が前記参照輝度値未満のときは前記矩形ブロックに対して第2ラベルを割り当て、
    前記入力画像に対して設定した矩形テンプレートの特徴量として、前記第1ラベルと第2ラベルとの配列である空間的分布情報を含む特徴量を求める特徴抽出ステップと、
    学習用の画像サンプルに対して設定した矩形テンプレートが、対象物を含む確率と含まない確率とに基づいて、空間的分布情報を含む特徴量ごとに、スコアを算出するスコア算出ステップと、
    を有し、
    前記スコア算出ステップにおいて、前記入力画像に対して設定した矩形テンプレートの前記特徴量に対応したスコアを求めて、前記入力画像に対象物が含まれるか否かを判定する対象物検出方法。
JP2011033858A 2011-02-18 2011-02-18 特徴抽出装置、対象物検出装置、特徴抽出方法、および対象物検出方法 Expired - Fee Related JP4741036B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011033858A JP4741036B2 (ja) 2011-02-18 2011-02-18 特徴抽出装置、対象物検出装置、特徴抽出方法、および対象物検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011033858A JP4741036B2 (ja) 2011-02-18 2011-02-18 特徴抽出装置、対象物検出装置、特徴抽出方法、および対象物検出方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2005175356A Division JP4767595B2 (ja) 2005-06-15 2005-06-15 対象物検出装置及びその学習装置

Publications (2)

Publication Number Publication Date
JP2011096291A true JP2011096291A (ja) 2011-05-12
JP4741036B2 JP4741036B2 (ja) 2011-08-03

Family

ID=44113050

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011033858A Expired - Fee Related JP4741036B2 (ja) 2011-02-18 2011-02-18 特徴抽出装置、対象物検出装置、特徴抽出方法、および対象物検出方法

Country Status (1)

Country Link
JP (1) JP4741036B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019176989A1 (ja) * 2018-03-14 2019-09-19 オムロン株式会社 検査システム、識別システム、及び学習データ生成装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0991432A (ja) * 1995-09-28 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 不審人物抽出方法
JP2000194856A (ja) * 1998-12-25 2000-07-14 Oki Electric Ind Co Ltd 輪郭抽出方法及び装置
WO2004114219A1 (en) * 2003-06-17 2004-12-29 Mitsubishi Denki Kabushiki Kaisha Method for detecting a moving object in a temporal sequence of images of a video
JP2005044330A (ja) * 2003-07-24 2005-02-17 Univ Of California San Diego 弱仮説生成装置及び方法、学習装置及び方法、検出装置及び方法、表情学習装置及び方法、表情認識装置及び方法、並びにロボット装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0991432A (ja) * 1995-09-28 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 不審人物抽出方法
JP2000194856A (ja) * 1998-12-25 2000-07-14 Oki Electric Ind Co Ltd 輪郭抽出方法及び装置
WO2004114219A1 (en) * 2003-06-17 2004-12-29 Mitsubishi Denki Kabushiki Kaisha Method for detecting a moving object in a temporal sequence of images of a video
JP2005044330A (ja) * 2003-07-24 2005-02-17 Univ Of California San Diego 弱仮説生成装置及び方法、学習装置及び方法、検出装置及び方法、表情学習装置及び方法、表情認識装置及び方法、並びにロボット装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019176989A1 (ja) * 2018-03-14 2019-09-19 オムロン株式会社 検査システム、識別システム、及び学習データ生成装置
JP2019159959A (ja) * 2018-03-14 2019-09-19 オムロン株式会社 検査システム、識別システム、及び学習データ生成装置
CN111758117A (zh) * 2018-03-14 2020-10-09 欧姆龙株式会社 检查系统、识别系统以及学习数据生成装置
CN111758117B (zh) * 2018-03-14 2023-10-27 欧姆龙株式会社 检查系统、识别系统以及学习数据生成装置

Also Published As

Publication number Publication date
JP4741036B2 (ja) 2011-08-03

Similar Documents

Publication Publication Date Title
JP4767595B2 (ja) 対象物検出装置及びその学習装置
CN111401177B (zh) 基于自适应时空注意力机制的端到端行为识别方法及系统
JP6018674B2 (ja) 被写体再識別のためのシステム及び方法
KR101410489B1 (ko) 얼굴 식별 방법 및 그 장치
US9053358B2 (en) Learning device for generating a classifier for detection of a target
Sebe et al. Skin detection: A bayesian network approach
CN106846355B (zh) 基于提升直觉模糊树的目标跟踪方法及装置
CN101930611B (zh) 多视图面部追踪
JP6448325B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN111783665A (zh) 一种动作识别方法、装置、存储介质和电子设备
US20110182497A1 (en) Cascade structure for classifying objects in an image
JP2021516824A (ja) 群集レベル推定のための方法、システム及びプログラム
Singh et al. Activity detection and counting people using mask-RCNN with bidirectional ConvLSTM
JP4741036B2 (ja) 特徴抽出装置、対象物検出装置、特徴抽出方法、および対象物検出方法
CN111027482A (zh) 基于运动向量分段分析的行为分析方法及装置
JP5241687B2 (ja) 物体検出装置及び物体検出プログラム
JP4712907B2 (ja) 対象物検出装置及びその学習装置
Bakr et al. Mask R-CNN for moving shadow detection and segmentation
JP2014203133A (ja) 画像処理装置、画像処理方法
Vijayarani et al. An efficient algorithm for facial image classification
JP2020181265A (ja) 情報処理装置、システム、情報処理方法及びプログラム
KR102594422B1 (ko) 그라운드에 프로젝트된 오브젝트의 무게 중심을 예측하는 오브젝트 디텍터를 학습하는 방법, 학습된 오브젝트 디텍터를 이용하여 서로 다른 뷰잉 프러스텀을 가지는 복수의 카메라로부터 촬영된 특정 공간 내에서 동일한 오브젝트를 식별하는 방법, 그리고, 이를 이용한 학습 장치 및 오브젝트 식별 장치
US20230196752A1 (en) Information processing apparatus, information processing method, and non-transitory computer-readable storage medium
Safarzadeh et al. A Secure Face Anti-spoofing Approach Using Deep Learning
Karthikeyan et al. Deep Neural Network Based Smart Intrusion Detection and Alerting System

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110303

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20110310

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20110322

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110502

R150 Certificate of patent or registration of utility model

Ref document number: 4741036

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140513

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees