JP2012099070A

JP2012099070A - 被写体検出方法および被写体検出装置

Info

Publication number: JP2012099070A
Application number: JP2010248753A
Authority: JP
Inventors: Toru Yonezawa; 亨米澤
Original assignee: Glory Ltd
Current assignee: Glory Ltd
Priority date: 2010-11-05
Filing date: 2010-11-05
Publication date: 2012-05-24
Anticipated expiration: 2030-11-05
Also published as: JP5706131B2; WO2012060463A1

Abstract

【課題】被写体の検出処理に要する時間を短縮しつつ、被写体の検出精度を高めること。
【解決手段】Ｓｏｂｅｌ−Ｈａａｒ特徴量抽出部が、メモリに記憶された入力画像からＳｏｂｅｌ−Ｈａａｒ特徴量を取得し、ＬＤＡＡｒｒａｙ部が、Ｓｏｂｅｌ−Ｈａａｒ特徴量に基づいて確率分布画像を生成し、候補エリア抽出部が、確率分布画像から候補エリアを抽出する。また、Ｇａｂｏｒ特徴量抽出部およびＳｏｂｅｌ特徴量抽出部が、メモリに記憶された入力画像からＧａｂｏｒ特徴量およびＳｏｂｅｌ特徴量をそれぞれ取得し、ＬＤＡＡｒｒａｙ部が、Ｇａｂｏｒ特徴量およびＳｏｂｅｌ特徴量ごとに、候補エリア内における確率分布画像をそれぞれ生成し、最終判定部が、確率分布画像に基づいて候補エリア内に姿画像が存在するか否かを判定するように姿検出装置を構成する。
【選択図】図２

Description

本発明は、入力画像から所定の被写体を検出する被写体検出方法および被写体検出装置に関し、特に、被写体の検出処理に要する時間を短縮しつつ、被写体の検出精度を高めることができる被写体検出方法および被写体検出装置に関する。

従来、監視カメラや認証用カメラによって撮像された画像から人の姿を検出する姿検出手法が知られている。

たとえば、非特許文献１には、Ｅｄｇｅｌｅｔ特徴量を用いて人物の各部位を検出するとともに、各部位についての検出結果を組み合わせることによって姿検出を行う手法が開示されている。また、非特許文献２には、ＪｏｉｎｔＨＯＧ特徴量を用いて全身が写った状態の姿を検出する手法が開示されている。なお、Ｅｄｇｅｌｅｔ特徴量やＪｏｉｎｔＨＯＧ特徴量は、人などの形やテクスチャが多様な物体に対して有効な特徴量である。

また、特許文献１には、人物のバストショットおよび背景を含んだ入力画像から人物が写りこんでいる可能性の高い領域（人物領域）を切り出し、切り出した人物領域についてのみ姿画像の検出処理を行う姿検出手法が開示されている。なお、特許文献１に記載の姿検出手法では、入力画像の色情報に基づいて人物領域を切り出すこととしている。

特開２００２−２４５４４１号公報

Bo WU, Ram Nevatia， "Detection And Tracking of Multiple, Partially Occluded Humans by Bayesian Combination of Edgelet based Part Detectors", 2007 Springer Science + Business Media, LLC. Manufactured in United States. DOI:10.1007/s11263-006-0027-7 山下隆義、藤吉弘亘、"特定物体認識に有効な特徴量"、情報処理学会研究報告 CVIM 165, pp.221-236，November，2008,［ONLINE］，平成２２年６月２２日検索、インターネット〈URL:http://www.vision.cs.chubu.ac.jp/04/pdf/TS03.pdf〉

しかしながら、従来の姿検出手法には、姿画像の誤検出が多いという問題があった。たとえば、特許文献１に記載の手法では、色情報を用いて人物領域を切り出すこととしているが、背景と人物との境界が明確でない（ぼけている）場合には、検出精度が落ち、これに伴って姿画像の誤検出が増えるおそれがあった。また、入力画像を撮影するカメラの性能が低い場合には、入力画像の色情報が不足するため、これによって誤検出が増えるおそれもあった。また、非特許文献１および非特許文献２に記載の姿検出手法についても誤検出率が多かった。

また、非特許文献１および非特許文献２に記載の姿検出手法には、姿検出処理に多大な時間がかかるという問題もあった。すなわち、非特許文献１および非特許文献２に記載の姿検出手法では、姿検出処理に用いるＥｄｇｅｌｅｔ特徴量やＪｏｉｎｔＨＯＧ特徴量の演算量が多いため、処理に要する時間がかさんでしまう。

これらのことから、姿検出に要する時間を短縮しつつ、検出精度を高めることができる被写体検出方法あるいは被写体検出装置をいかにして実現するかが大きな課題となっている。

なお、かかる課題は、人の姿を検出対象とする場合に限らず、特定の被写体を検出対象とする場合についても同様に発生する課題である。

本発明は、上述した従来技術の課題を解決するためになされたものであり、被写体の検出処理に要する時間を短縮しつつ、被写体の検出精度を高めることができる被写体検出方法および被写体検出装置を提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、メモリに展開された入力画像から所定の被写体を検出する被写体検出方法であって、前記入力画像から所定の特徴量を取得する第１の特徴量取得工程と、前記第１の特徴量取得工程によって取得された特徴量に基づいて前記入力画像内における前記被写体の存在確率の分布を示す確率分布画像を生成する第１の確率分布画像生成工程と、第１の確率分布画像生成工程によって生成された前記確率分布画像から前記被写体が存在する可能性のある候補エリアを抽出する候補エリア抽出工程と、前記入力画像から前記所定の特徴量とは種類が異なる複数種類の特徴量をそれぞれ取得する第２の特徴量取得工程と、前記第２の特徴量取得工程によって取得された特徴量の種類ごとに、前記候補エリア内における前記被写体の存在確率の分布を示す確率分布画像をそれぞれ生成する第２の確率分布画像生成工程と、前記第１の確率分布画像生成工程によって生成された確率分布画像における前記候補エリア部分および前記第２の確率分布画像生成工程によって生成された確率分布画像に基づいて前記候補エリア内に前記被写体が存在するか否かを判定する判定工程とを含んだことを特徴とする。

また、本発明は、上記の発明において、前記第１の確率分布画像生成工程によって生成された確率分布画像を、所定の記憶部にあらかじめ記憶された閾値と比較することによって２値のマスク画像を生成するマスク画像生成工程をさらに含み、前記第２の特徴量取得工程は、前記特徴量を取得する対象となる前記入力画像内の対象領域を前記マスク画像に基づいて絞り込むことを特徴とする。

また、本発明は、上記の発明において、前記第１の確率分布画像生成工程および前記第２の確率分布画像生成工程は、１つの前記被写体をそれぞれ含んだ複数の被写体画像サンプルと前記被写体を含まない複数の非被写体画像サンプルとを用いて前記特徴量の種類ごとに予め取得された学習情報に基づいて前記確率分布画像を生成するとともに、生成した確率分布画像を所定の記憶部に記憶することを特徴とする。

また、本発明は、上記の発明において、前記第１の確率分布画像生成工程および前記第２の確率分布画像生成工程は、前記被写体画像サンプルおよび前記非被写体画像サンプルのサイズをあらわすサンプル枠の位置を前記入力画像上で所定画素ずつずらしていくことで、前記サンプル枠における前記被写体の存在確率を各画素値とする前記確率分布画像を生成することを特徴とする。

また、本発明は、上記の発明において、前記第１の確率分布画像生成工程および前記第２の確率分布画像生成工程は、ＬＤＡＡｒｒａｙ法を用いて前記確率分布画像を生成することを特徴とする。

また、本発明は、上記の発明において、前記判定工程は、前記候補エリア内における最大値および平均値を前記確率分布画像ごとに算出し、算出された前記最大値および前記平均値を用いた線形判別分析によって当該候補エリア内に前記被写体が存在するか否かを判定することを特徴とする。

また、本発明は、上記の発明において、前記判定工程は、各候補エリア内に前記被写体が存在するか否かを所定の順序で判定することを特徴とする。

また、本発明は、上記の発明において、前記候補エリア抽出工程は、前記第１の確率分布画像生成工程によって生成された確率分布画像の各画素における画素値に基づき、前記候補エリアの順位付けを所定の順位まで行い、前記判定工程は、順位が高い前記候補エリアから順に当該候補エリア内に前記被写体が存在するか否かを判定することを特徴とする。

また、本発明は、上記の発明において、前記入力画像を拡大または縮小することで当該入力画像のサイズを変更するサイズ変更工程をさらに含み、前記第１の特徴量取得工程以降の各工程は、前記サイズ変更工程によるサイズ変更後の前記入力画像を取り扱い、前記判定工程は、前記候補エリア内に前記被写体が存在するか否かを複数の前記サイズごとにそれぞれ判定することを特徴とする。

また、本発明は、上記の発明において、前記第１の特徴量取得工程によって取得される特徴量は、Ｓｏｂｅｌ特徴量とＨａａｒ特徴量との積をあらわすＳｏｂｅｌ−Ｈａａｒ特徴量であり、前記第２の特徴量取得工程によって取得される特徴量は、それぞれＧａｂｏｌ特徴量およびＳｏｂｅｌ特徴量であることを特徴とする。

また、本発明は、メモリに展開された入力画像から所定の被写体を検出する被写体検出装置であって、前記入力画像から所定の特徴量を取得する第１の特徴量取得手段と、前記第１の特徴量取得手段によって取得された特徴量に基づいて前記入力画像内における前記被写体の存在確率の分布を示す確率分布画像を生成する第１の確率分布画像生成手段と、第１の確率分布画像生成手段によって生成された前記確率分布画像から前記被写体が存在する可能性のある候補エリアを抽出する候補エリア抽出手段と、前記入力画像から前記所定の特徴量とは種類が異なる複数種類の特徴量をそれぞれ取得する第２の特徴量取得手段と、前記第２の特徴量取得手段によって取得された特徴量の種類ごとに、前記候補エリア内における前記被写体の存在確率の分布を示す確率分布画像をそれぞれ生成する第２の確率分布画像生成手段と、前記第１の確率分布画像生成手段によって生成された確率分布画像における前記候補エリア部分および前記第２の確率分布画像生成手段によって生成された確率分布画像に基づいて前記候補エリア内に前記被写体が存在するか否かを判定する判定手段とを備えたことを特徴とする。

本発明によれば、第１の特徴量取得工程において、入力画像から所定の特徴量を取得し、第１の確率分布画像生成工程において、前記第１の特徴量取得工程によって取得した特徴量に基づいて入力画像内における被写体の存在確率の分布を示す確率分布画像を生成し、候補エリア抽出工程において、第１の特徴量取得工程によって生成された確率分布画像から被写体が存在する可能性のある候補エリアを抽出し、第２の特徴量取得工程において、入力画像から所定の特徴量とは種類が異なる複数種類の特徴量をそれぞれ取得し、第２の確率分布画像生成工程において、第２の特徴量取得工程によって取得された特徴量の種類ごとに、候補エリア内における被写体の存在確率の分布を示す確率分布画像をそれぞれ生成し、判定工程において、第１の確率分布画像生成工程によって生成された確率分布画像における候補エリア部分および第２の確率分布画像生成工程によって生成された確率分布画像に基づいて候補エリア内に被写体が存在するか否かを判定することとしたため、被写体の検出処理に要する時間を短縮しつつ、被写体の検出精度を高めることができるという効果を奏する。

また、本発明によれば、第１の確率分布画像生成工程によって生成された確率分布画像を、所定の記憶部にあらかじめ記憶された閾値と比較することによって２値のマスク画像を生成するマスク画像生成工程をさらに含み、第２の特徴量取得工程において、特徴量を取得する対象となる入力画像内の対象領域をマスク画像に基づいて絞り込むこととしたため、第２の特徴量の取得に要する時間を短縮することができるという効果を奏する。

また、本発明によれば、第１の確率分布画像生成工程および第２の確率分布画像生成工程において、１つの被写体をそれぞれ含んだ複数の被写体画像サンプルと被写体を含まない複数の非被写体画像サンプルとを用いて特徴量の種類ごとに予め取得された学習情報に基づいて確率分布画像を生成するとともに、生成した確率分布画像を所定の記憶部に記憶することとしたため、特徴量の種類ごとに適切な確率分布画像を生成することができるという効果を奏する。

また、本発明によれば、第１の確率分布画像生成工程および第２の確率分布画像生成工程において、被写体画像サンプルおよび非被写体画像サンプルのサイズをあらわすサンプル枠の位置を入力画像上で１画素ずつずらしていくことで、サンプル枠における被写体の存在確率を各画素値とする確率分布画像を生成することとしたため、入力画像のサイズとサンプル枠のサイズが異なる場合であっても、入力画像の全領域について被写体の存在確率を得ることができるという効果を奏する。

また、本発明によれば、第１の確率分布画像生成工程および第２の確率分布画像生成工程において、ＬＤＡＡｒｒａｙ法を用いて確率分布画像を生成することとしたため、確率分布画像の生成に伴う演算量を削減しつつ、確率分布画像を精度良く生成することができるという効果を奏する。

また、本発明によれば、判定工程において、候補エリア内における最大値および平均値を確率分布画像ごとに算出し、算出された最大値および平均値を用いた線形判別分析によって当該候補エリア内に被写体が存在するか否かを判定することとしたため、比較的少ない演算量で、被写体が存在するか否かを精度良く判定することができるという効果を奏する。

また、本発明によれば、判定工程において、各候補エリア内に被写体が存在するか否かを所定の順序で判定することとしたため、判定処理を効率的に行うことができるという効果を奏する。

また、本発明によれば、候補エリア抽出工程において、第１の確率分布画像生成工程によって生成された確率分布画像の各画素における画素値に基づき、候補エリアの順位付けを所定の順位まで行い、判定工程において、順位が高い候補エリアから順に当該候補エリア内に被写体が存在するか否かを判定することとしたため、たとえば、入力画像に複数人が含まれている場合に、上位数人のみを探索する処理を容易に行うことができるという効果を奏する。

また、本発明によれば、入力画像を拡大または縮小することで当該入力画像のサイズを変更するサイズ変更工程をさらに含み、第１の特徴量取得工程以降の各工程において、サイズ変更工程によるサイズ変更後の入力画像を取り扱い、判定工程において、候補エリア内に被写体が存在するか否かを複数のサイズごとにそれぞれ判定することとしたため、サイズがそれぞれ異なる姿画像が入力画像中に写りこんでいる場合であっても、それぞれの姿画像を適切に検出することができるという効果を奏する。

また、本発明によれば、第１の特徴量取得工程によって取得される特徴量が、Ｓｏｂｅｌ特徴量とＨａａｒ特徴量との積をあらわすＳｏｂｅｌ−Ｈａａｒ特徴量であり、第２の特徴量取得工程によって取得される特徴量が、それぞれＧａｂｏｌ特徴量およびＳｏｂｅｌ特徴量であることとしたため、第１の特徴量の取得に要する演算量を軽減しつつ、被写体の検出精度をさらに高めることができるという効果を奏する。

図１は、本発明に係る被写体検出手法の概要を示す図である。図２は、本実施例に係る姿検出装置の構成を示すブロック図である。図３は、ＬＤＡＡｒｒａｙ法を用いた学習処理の概要を説明するための図である。図４は、確率分布画像の生成処理について説明するための図である。図５は、マスク画像生成処理について説明するための図である。図６は、候補エリア抽出処理について説明するための図である。図７は、Ｇａｂｏｒ特徴量抽出部、Ｓｏｂｅｌ特徴量抽出部およびＬＤＡＡｒｒａｙ部の動作例を示した図である。図８は、最終判定処理について説明するための図である。図９は、姿検出装置の処理手順を示すフローチャートである。図１０は、入力画像のサイズ変更を行う場合について説明するための図である。図１１は、アダブースト手法の概要およびＬＤＡＡｒｒａｙ法の概要を示す図である。図１２は、ＬＤＡＡｒｒａｙ部のＬＤＡＡｒｒａｙによる学習時の構成の一例を示すブロック図である。図１３は、姿画像および非姿画像から特徴量を抽出する処理を示す図である。図１４は、集約判別器候補を算出する処理を示す図である。図１５は、集約判別器候補のオフセットを算出する処理を示す図である。図１６は、集約判別器選択の一例を示す図である。図１７は、集約判別器を導出する処理を示す図である。図１８は、ＬＤＡＡｒｒａｙ部が実行する処理手順を示すフローチャートである。図１９は、集約判別器決定処理の処理手順を示すフローチャートである。図２０は、アダブースト手法の概要を示す図である。

以下に、添付図面を参照して、本発明に係る被写体検出手法の好適な実施例を詳細に説明する。なお、以下では、本発明に係る被写体検出手法の概要について図１を用いて説明した後に、本発明に係る被写体検出手法を適用した姿検出装置についての実施例を説明する。

図１は、本発明に係る被写体検出手法の概要を示す図である。なお、同図の（Ａ）には、絞り込み段階における各処理について、同図の（Ｂ）には、詳細判定段階における各処理についてそれぞれ示している。

図１に示したように、本発明に係る被写体検出手法では、被写体が存在する可能性の高いエリア（候補エリア）を入力画像から抽出する絞り込み段階と、候補エリアごとに、被写体が存在するか否かを詳細に判定する詳細判定段階の２段階で姿検出を行う点に主たる特徴を有する。

また、本発明に係る被写体検出手法では、候補エリア内における被写体の存在確率の分布を示す確率分布画像を、入力画像から取得する特徴量を変えて複数種類生成し、これらを統合的に評価することによって最終的な判定結果を出力する点にも特徴を有する。

具体的には、図１の（Ａ）に示したように、本発明に係る被写体検出手法では、入力画像を受け取ると、受け取った入力画像から第１の特徴量（特徴量Ａ）を取得する（同図の（Ａ−１）参照）。ここで、入力画像から取得される第１の特徴量（特徴量Ａ）は、たとえば、Ｓｏｂｅｌ特徴量とＨａａｒ特徴量との積であらわされるＳｏｂｅｌ−Ｈａａｒ特徴量である。

つづいて、本発明に係る被写体検出手法では、抽出した特徴量に基づいて確率分布画像を生成する（図１の（Ａ−２）参照）。

具体的には、本発明に係る被写体検出手法では、被写体の存在確率を算出するための判別器（最終判別器Ｆ）を、「ＬＤＡＡｒｒａｙ法」による学習によってあらかじめ導出しておき、最終判別器Ｆを用いて入力画像における被写体の存在確率を算出することで、かかる存在確率を画素値とする確率分布画像を生成する。

なお、「ＬＤＡＡｒｒａｙ法」とは、ブースティング学習手法として広く用いられているアダブースト（AdaBoost）手法を改良した手法である。具体的には、ＬＤＡＡｒｒａｙ法は、所定個数の未２値化判別器をＬＤＡ（Linear Discriminant Analysis）法を用いて集約することで集約判別器を導出し、導出した集約判別器に基づいて最終判別器を導出する。かかるＬＤＡＡｒｒａｙ法の詳細については、図１１以降を用いて後述することとする。

つづいて、本発明に係る被写体検出手法では、生成した確率分布画像から被写体が存在する可能性のある候補エリアを抽出する（図１の（Ａ−３）参照）。具体的には、図１の（Ａ）に示したように、確率分布画像中で白くあらわされた領域が被写体の存在確率の高い領域であり、かかる領域を含む所定の矩形領域を候補エリアとして抽出する。

たとえば、図１の（Ａ）に示した場合には、候補エリアとしてエリア１〜エリア３が抽出されている。なお、その他の白くあらわされた領域についても同様に抽出されるものとする。

そして、本発明に係る被写体検出手法では、抽出した候補エリアごとに、被写体が存在するか否かをより詳細に判定する。

具体的には、図１の（Ｂ）に示したように、本発明に係る被写体検出手法では、まず、入力画像から第１の特徴量とは種類が異なる第２の特徴量（ここでは、特徴量Ｂおよび特徴量Ｃ）を取得する（図１の（Ｂ−１）参照）。

ここで、入力画像から取得される第２の特徴量（特徴量Ｂおよび特徴量Ｃ）は、たとえば、入力画像に対してＧａｂｏｒフィルタを掛けることによって取得されるＧａｂｏｒ特徴量および入力画像に対してＳｏｂｅｌフィルタを掛けることによって取得されるＳｏｂｅｌ特徴量である。

つづいて、本発明に係る被写体検出手法では、特徴量Ｂに基づいて各候補エリアの確率分布画像を生成するとともに（図１の（Ｂ−２ａ）参照）、特徴量Ｃに基づいて各候補エリアの確率分布画像を生成する（図１の（Ｂ−２ｂ）参照）。このように、本発明に係る被写体検出手法では、図１の（Ａ−３）において抽出した１つの候補エリアについて、異なる特徴量Ａ〜Ｃに基づく複数種類の確率分布画像を生成する。

そして、本発明に係る被写体検出手法では、候補エリア内に被写体が存在するか否かをこれら複数種類の確率分布画像に基づいて判定する（図１の（Ｂ−３）参照）。たとえば、本発明に係る被写体検出手法では、候補エリア内における最大値および平均値を算出し、算出した最大値および平均値を用いた線形判別分析によってかかる候補エリア内に被写体が存在するか否かを判定する。

このように、本発明に係る被写体検出手法は、入力画像から第１の特徴量を取得し、取得された第１の特徴量に基づいて確率分布画像を生成して、生成された確率分布画像から候補エリアを抽出する。また、本発明に係る被写体検出手法は、入力画像から第１の特徴量とは種類が異なる第２の特徴量を取得し、取得した第２の特徴量ごとに、候補エリア内の確率分布画像をそれぞれ生成し、候補エリアごとに、第１の特徴量に基づく確率分布画像における候補エリア部分および第２の特徴量に基づく確率分布画像を用いて候補エリア内に被写体が存在するか否かを判定することとした。したがって、本発明に係る被写体検出手法によれば、被写体の検出処理に要する時間を短縮しつつ、被写体の検出精度を高めることができる。

なお、特徴量Ｂに基づく確率分布画像の生成処理、特徴量Ｃに基づく確率分布画像の生成処理および線形判別処理もＬＤＡＡｒｒａｙ法による学習の学習結果を用いて行われるが、かかる点の詳細については、実施例において後述するものとする。

以下では、図１を用いて説明した被写体検出手法を、入力画像から人物の姿画像を検出する姿検出装置に対して適用した場合について説明する。また、以下では、人物の頭部および肩部を含んだバストショット画像を姿画像の一例として説明する。ただし、姿画像は、人物の他の部位を含んだ画像であってもよいし、全身画像であってもよい。また、本発明に係る被写体検出手法は、人の姿を検出対象とする場合に限らず、特定の被写体を検出対象とする場合についても同様に適用することができる。

図２は、本実施例に係る姿検出装置１０の構成を示すブロック図である。ここで、図２に示したメモリ２００は、不揮発性メモリやハードディスクドライブといった記憶デバイスで構成される記憶部であり、スキャナやカメラといった画像読取装置により読み取られた画像を記憶している。

なお、図２には、姿検出装置１０の特徴を説明するために必要な構成要素のみを示しており、一般的な構成要素についての記載を省略している。

図２に示すように、姿検出装置１０は、ＬＤＡＡｒｒａｙ演算部１００と、記憶部１１と、演算部１２とを備えている。また、記憶部１１は、Ｓｏｂｅｌ−Ｈａａｒ用学習情報１１ａと、Ｇａｂｏｒ用学習情報１１ｂと、Ｓｏｂｅｌ用学習情報１１ｃと、最終照合値算出用学習情報１１ｄとを記憶する。また、演算部１２は、Ｓｏｂｅｌ−Ｈａａｒ特徴量抽出部１２ａと、マスク画像生成部１２ｂと、候補エリア抽出部１２ｃと、Ｇａｂｏｒ特徴量抽出部１２ｄと、Ｓｏｂｅｌ特徴量抽出部１２ｅと、最終判定部１２ｆとを備えている。

なお、ここでは、姿検出装置１０が判定処理のみを行う場合について説明する。すなわち、姿検出装置１０は、各種の学習情報を他の装置からあらかじめ取得しておくものとする。ただし、これに限ったものではなく、姿検出装置１０は、学習処理および判定処理の両方を行う構成としてもよい。

図２に示したように、ＬＤＡＡｒｒａｙ演算部１００は、Ｓｏｂｅｌ−Ｈａａｒ特徴量抽出部１２ａからＳｏｂｅｌ−Ｈａａｒ特徴量を受け取り、受け取ったＳｏｂｅｌ−Ｈａａｒ特徴量に基づいて確率分布画像を生成してマスク画像生成部１２ｂ、候補エリア抽出部１２ｃおよび最終判定部１２ｆへ渡す処理を行う処理部である。

同様に、ＬＤＡＡｒｒａｙ演算部１００は、Ｇａｂｏｒ特徴量抽出部１２ｄからＧａｂｏｒ特徴量を受け取るとともに、候補エリア抽出部１２ｃから候補エリアを受け取り、受け取ったＧａｂｏｒ特徴量に基づいて候補エリアの確率分布画像を生成する。同様に、ＬＤＡＡｒｒａｙ演算部１００は、Ｓｏｂｅｌ特徴量抽出部１２ｅからＳｏｂｅｌ特徴量を受け取り、受け取ったＳｏｂｅｌ特徴量に基づいて候補エリアの確率分布画像を生成する。そして、ＬＤＡＡｒｒａｙ演算部１００は、これらの確率分布画像を最終判定部１２ｆへ渡す。

なお、ＬＤＡＡｒｒａｙ演算部１００は、ＬＤＡＡｒｒａｙ法による学習を実行することで各種の学習情報を導出することも可能である。ここで、ＬＤＡＡｒｒａｙ法を用いた学習処理の概要について図３を用いて説明しておく。図３は、ＬＤＡＡｒｒａｙ法を用いた学習処理の概要を説明するための図である。

図３に示したように、ＬＤＡＡｒｒａｙ法を用いた学習処理（以下、単に「学習処理」と記載する）では、姿画像サンプルおよび非姿画像サンプルに対してＳｏｂｅｌフィルタおよびＨａａｒフィルタを掛けた画像について学習を行うことで、Ｓｏｂｅｌ−Ｈａａｒ用学習情報１１ａ、たとえば、Ｓｏｂｅｌ−Ｈａａｒ特徴量に基づいて姿画像の存在確率を算出する場合に使用される最終判別器Ｆを導出することができる。

具体的には、ＳｏｂｅｌフィルタおよびＨａａｒフィルタを掛けた姿画像サンプルおよび非姿画像サンプルが最も分離される最終判別器Ｆを学習によって導出する。

なお、本実施例では、図３に示したように、入力画像に対して方向が異なる４種類のＳｏｂｅｌフィルタを掛けることとしている。そして、学習処理では、どの方向のＳｏｂｅｌフィルタに対してどの種類のＨａａｒフィルタをどの位置にどの大きさで掛ければ、姿画像サンプルおよび非姿画像サンプルが最も分離されるかといった情報も学習により決定する。なお、かかる情報は、最終判別器ＦとともにＳｏｂｅｌ−Ｈａａｒ用学習情報１１ａとして記憶部１１に記憶される。

同様にして、学習処理では、姿画像サンプルおよび非姿画像サンプルに対してＧａｂｏｒフィルタを掛けたものについて学習を行うことで、Ｇａｂｏｒ用学習情報１１ｂを導出する。また、ＬＤＡＡｒｒａｙ演算部１００は、姿画像サンプルおよび非姿画像サンプルに対してＳｏｂｅｌフィルタを掛けたものについて学習を行うことで、Ｓｏｂｅｌ用学習情報１１ｃを導出する（図２参照）。

また、学習処理では、Ｓｏｂｅｌ−Ｈａａｒ用学習情報１１ａ、Ｇａｂｏｒ用学習情報１１ｂおよびＳｏｂｅｌ用学習情報１１ｃを導出すると、これらの学習情報を用いた学習をさらに行うことによって最終照合値算出用学習情報１１ｄを導出する。

具体的には、まず、複数の姿画像が様々な大きさで写り込んでいるサンプル画像（実際の入力画像に近いサンプル画像）と、姿画像を含まないサンプル画像（たとえば、非姿画像サンプル）とをそれぞれ複数枚用意する。

つづいて、入力画像からＳｏｂｅｌ−Ｈａａｒ特徴量を抽出してから最終照合値を算出するまでの処理手順（図９において後述するステップＳ１０１〜Ｓ１１４の処理手順）を、Ｓｏｂｅｌ−Ｈａａｒ用学習情報１１ａ、Ｇａｂｏｒ用学習情報１１ｂおよびＳｏｂｅｌ用学習情報１１ｃを用いて実際に実行し、上記のサンプル画像が最も分離されるような最終照合値の各係数を決定する。

なお、最終照合値は、後述するように、Ｓｏｂｅｌ−Ｈａａｒ特徴量に基づく確率分布画像、Ｇａｂｏｒ特徴量に基づく確率分布画像およびＳｏｂｅｌ特徴量に基づく確率分布画像の最大値および平均値をそれぞれ算出し、算出した各値を用いて線形判別分析を行うことで得られるものである。すなわち、学習処理では、線形判別分析に用いる各要素（最大値および平均値）に対してどういった係数を掛ければ上記のサンプル画像が最も分離するか、言い換えれば、どの要素が重要でどの要素が重要でないかといった重み付けを学習によって決定する。そして、これらの係数は、最終照合値算出用学習情報１１ｄとして記憶部１１に記憶される。

なお、上記のＬＤＡＡｒｒａｙ法による学習処理を実行するＬＤＡＡｒｒａｙ演算部の具体的な構成および学習内容については、図１１以降を用いて後述することとする。

また、本実施例では、Ｓｏｂｅｌフィルタ、ＧａｂｏｒフィルタおよびＳｏｂｅｌ−Ｈａａｒフィルタの３種類のフィルタを使用する。これら３種類のフィルタを使用するのは、低・中・高周波成分の特徴を抽出するためである。このように、姿検出装置１０は、種類の異なる複数のフィルタを用いて入力画像から異なる特徴量を抽出する。

図２に戻り、記憶部１１について説明する。記憶部１１は、不揮発性メモリやハードディスクドライブといった記憶デバイスで構成される記憶部であり、Ｓｏｂｅｌ−Ｈａａｒ用学習情報１１ａと、Ｇａｂｏｒ用学習情報１１ｂと、Ｓｏｂｅｌ用学習情報１１ｃと、最終照合値算出用学習情報１１ｄとを含んでいる。これらは、上述したように、ＬＤＡＡｒｒａｙ演算部１００による学習によってあらかじめ決定された学習情報である。

演算部１２は、入力画像から姿画像を検出する姿画像検出処理をＬＤＡＡｒｒａｙ演算部１００を利用して行う処理部である。なお、演算部１２は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）、プログラムメモリ、ＲＡＭ（Random Access Memory）などから構成された電子回路である。そして、ＣＰＵあるいはＭＰＵは、所定のプログラムメモリ（図示せず）にあらかじめ格納された姿検出プログラムを読み出してＲＡＭ（図示せず）に展開することで、本実施例における判定処理時の特徴的な動作を実行する。

以下、判定処理時の説明を行う。Ｓｏｂｅｌ−Ｈａａｒ特徴量抽出部１２ａは、図２に示したように、メモリ２００から入力画像を取得するとともに、取得した入力画像からＳｏｂｅｌ−Ｈａａｒ特徴量を抽出してＬＤＡＡｒｒａｙ演算部１００へ渡す処理部である。

具体的には、Ｓｏｂｅｌ−Ｈａａｒ特徴量抽出部１２ａは、入力画像に対してＳｏｂｅｌフィルタおよびＨａａｒフィルタを掛け、これによって得られた特徴量をＳｏｂｅｌ−Ｈａａｒ特徴量としてＬＤＡＡｒｒａｙ演算部１００へ渡す。

なお、各Ｓｏｂｅｌフィルタ処理後の画像に対して適用すべきＨａａｒフィルタの種類や大きさあるいはＨａａｒフィルタを掛ける場所等については、ＬＤＡＡｒｒａｙ法による学習によってＳｏｂｅｌ−Ｈａａｒ用学習情報１１ａとしてあらかじめ決められている。そして、Ｓｏｂｅｌ−Ｈａａｒ特徴量抽出部１２ａは、かかるＳｏｂｅｌ−Ｈａａｒ用学習情報１１ａに基づいてＳｏｂｅｌ−Ｈａａｒ特徴量を抽出する。

一方、ＬＤＡＡｒｒａｙ演算部１００は、Ｓｏｂｅｌ−Ｈａａｒ特徴量抽出部１２ａからＳｏｂｅｌ−Ｈａａｒ特徴量を受け取ると、Ｓｏｂｅｌ−Ｈａａｒ特徴量に基づく確率分布画像の生成処理を行う。

以下では、ＬＤＡＡｒｒａｙ演算部１００による確率分布画像の生成処理について図４を用いて説明する。図４は、確率分布画像の生成処理について説明するための図である。なお、同図の（Ａ）には、サンプル枠および入力画像の一例を、同図の（Ｂ）には、確率分布画像の生成処理の処理手順を、それぞれ示している。

ここで、サンプル枠とは、図３に示した姿画像サンプルおよび非姿画像サンプルのサイズと同サイズの枠である。なお、非姿画像サンプルのサイズは、姿画像サンプルのサイズに合わせている。また、同図の（Ａ）に示したように、ここでは、入力画像中に３人の人物が姿画像サンプル中の人物のサイズと同等の大きさで写り込んでいるものとする。

図４の（Ｂ）に示したように、ＬＤＡＡｒｒａｙ演算部１００は、まず、入力画像上の所定位置にサンプル枠をセットする（図４の（Ｂ−１）参照）。ここでは、入力画像の左上の頂点とサンプル枠の左上の頂点とが一致するようにセットされている。

つづいて、ＬＤＡＡｒｒａｙ演算部１００は、記憶部１１からＳｏｂｅｌ−Ｈａａｒ用学習情報１１ａに含まれる最終判別器（Ｓｏｂｅｌ−Ｈａａｒ用判別器）を取り出し、取り出した最終判別器を用いてサンプル枠における姿画像の存在確率を算出する（図４の（Ｂ−２）参照）。

また、ＬＤＡＡｒｒａｙ演算部１００は、算出した存在確率を、サンプル枠内の所定位置に位置する画素（代表画素）の画素値として決定する。なお、ここでは、サンプル枠の左上に位置する画素を代表画素とするが、代表画素の位置は、これに限ったものではない。

つづいて、ＬＤＡＡｒｒａｙ演算部１００は、サンプル枠の位置を入力画像上で１画素ずらすとともに（図４の（Ｂ−３）参照）、ずらし後の位置において、姿画像の存在確率を再度算出する（図４の（Ｂ−４）参照）。

そして、ＬＤＡＡｒｒａｙ演算部１００は、これらの処理を入力画像の全ての画素について繰り返すことで（図４の（Ｂ−５）参照）、姿画像の存在確率を各画素値とする確率分布画像を生成する。

このように、ＬＤＡＡｒｒａｙ演算部１００が、姿画像サンプルおよび非姿画像サンプルのサイズをあらわすサンプル枠の位置を入力画像上で１画素ずつずらしていくことで、サンプル枠における姿画像の存在確率を各画素値とする確率分布画像を生成することとした。このため、入力画像のサイズとサンプル枠のサイズが異なる場合であっても、入力画像の全領域について被写体の存在確率を得ることができる。

なお、ここでは、サンプル枠の位置を１画素ずつずらすこととしたが、これに限ったものではなく、たとえば処理速度を上げたい場合には、複数画素ずつずらすこととしてもよい。

また、図１１以降で後述するＬＤＡＡｒｒａｙ演算部１００の説明では、最終判別器Ｆが、１または０の２値の判別結果を出力するものとして説明するが、ここでは、２値化する前の値が存在確率として出力されるものとする。また、ここでは、便宜上、姿画像の存在確率を０〜１の間の数値であらわすものとする。

ＬＤＡＡｒｒａｙ演算部１００は、確率分布画像を生成すると、生成した確率分布画像をマスク画像生成部１２ｂ、候補エリア抽出部１２ｃおよび最終判定部１２ｆへ渡す。なお、確率分布画像は、不揮発性メモリやハードディスクドライブといった所定の記憶部（たとえば、記憶部１１）に記憶され、この記憶部を経由して、マスク画像生成部１２ｂ、候補エリア抽出部１２ｃおよび最終判定部１２ｆへ渡されるものとする。

図２に戻り、演算部１２の構成要素について説明を続ける。マスク画像生成部１２ｂは、ＬＤＡＡｒｒａｙ演算部１００から確率分布画像を受け取ると、受け取った確率分布画像の各画素値を所定の閾値を用いて２値化することによってマスク画像を生成する処理部である。なお、所定の閾値は、不揮発性メモリやハードディスクドライブといった所定の記憶部（たとえば、記憶部１１）にあらかじめ記憶されているものとする。

また、マスク画像生成部１２ｂは、生成したマスク画像をＧａｂｏｒ特徴量抽出部１２ｄおよびＳｏｂｅｌ特徴量抽出部１２ｅへ渡す処理も併せて行う。

ここで、マスク画像生成部１２ｂによるマスク画像生成処理について図５を用いて説明する。図５は、マスク画像生成処理について説明するための図である。

図５に示したように、確率分布画像は、姿画像の存在確率が高い画素（すなわち、画素値が高い画素）ほど白く、姿画像の存在確率が低い画素（すなわち、画素値が低い画素）ほど黒くあらわしたグレースケール画像である。すなわち、姿画像は、確率分布画像の白い領域に存在する可能性が高いことになる。

マスク画像生成部１２ｂは、確率分布画像の各画素値を所定の閾値と比較することによって、１または０の何れかの画素値を持つ画素で構成された２値のマスク画像を生成する。ここでは、所定の閾値を０．８とし、０．８以上の画素値を１へ変換し、０．８未満の画素値を０へ変換するものとする。

このようにして生成されたマスク画像は、Ｇａｂｏｒ特徴量抽出部１２ｄおよびＳｏｂｅｌ特徴量１２ｅによる特徴量抽出処理を高速化するために使用される。なお、かかる点については、後述する。

図２に戻り、候補エリア抽出部１２ｃについて説明する。候補エリア抽出部１２ｃは、ＬＤＡＡｒｒａｙ演算部１００から確率分布画像を受け取ると、受け取った確率分布画像から姿画像の存在候補となる候補エリアを抽出してＬＤＡＡｒｒａｙ部１００へ渡す処理部である。

ここで、候補エリア抽出部１２ｃによる候補エリア抽出処理について図６を用いて説明する。図６は、候補エリア抽出処理を説明するための図である。同図に示すように、候補エリア抽出部１２ｃは、確率分布画像中の白い領域（すなわち、姿画像の存在確率が高い領域）を含む矩形領域を確率分布画像から抽出する。

たとえば、候補エリア抽出部１２ｃは、確率分布画像を９×９の画素エリアごとに見ていき、かかる画素エリア内の画素値の平均値が所定の閾値よりも高いものを候補エリアとして抽出する。なお、ここでは、候補エリアを９×９の画素エリアとするが、これに限ったものではなく、候補エリアのサイズや形状は、任意に設定変更可能である。

また、候補エリア抽出部１２ｃは、候補エリアの順位付けを所定の順位まで行う。具体的には、候補エリア抽出部１２ｃは、候補エリア内の画素値の平均値が高いものほど順位が高くなるように順位付けを行う。また、ここでは、候補エリアの順位付けを１位から７位（候補エリア５０ａ〜５０ｇ）まで行うものとする。

なお、ここでは、候補エリアの抽出および順位付けを画素エリア内の画素値の平均値に基づいて行うこととしたが、これに限ったものではなく、最大値等の他の要素に基づいて行うこととしてもよい。

図２に戻り、演算部１２のＧａｂｏｒ特徴量抽出部１２ｄについて説明する。Ｇａｂｏｒ特徴量抽出部１２ｄは、入力画像からＧａｂｏｒ特徴量を抽出してＬＤＡＡｒｒａｙ演算部１００へ渡す処理部である。

具体的には、本実施例では、入力画像に対してフィルタサイズが５×５のＧａｂｏｒフィルタを８枚（９０度ずつ、実部４枚、虚部４枚）それぞれ掛けることで、フィルタサイズ５×５についての実部の特徴量g_k ^realおよび虚部の特徴量g_k ^imag（ｋ＝１〜４）を得る。同様に、フィルタサイズが７×７のＧａｂｏｒフィルタを８枚（９０度ずつ、実部４枚、虚部４枚）それぞれ掛けることで、フィルタサイズ７×７についての実部の特徴量g_k ^realおよび虚部の特徴量g_k ^imag（ｋ＝１〜４）を得る。

そして、Ｇａｂｏｒ特徴量抽出部１２ｄは、これらを用いてＧａｂｏｒ特徴量を得る。具体的には、Ｇａｂｏｒ特徴量は、フィルタサイズ（５×５および７×７）ごとに各画素５次元あり、１〜４次元は、
式（１−１）のようにあらわされ、５次元目は、式（１−２）のようにあらわされる。なお、ｋはＧａｂｏｒフィルタの種類、ｉは次元数、ｊは画素の番号である。

Ｓｏｂｅｌ特徴量抽出部１２ｅは、入力画像からＳｏｂｅｌ特徴量を抽出してＬＤＡＡｒｒａｙ演算部１００へ渡す処理部である。

なお、Ｇａｂｏｒ特徴量抽出部１２ｄおよびＳｏｂｅｌ特徴量抽出部１２ｅは、Ｇａｂｏｒ特徴量を抽出する対象となる入力画像内の対象領域およびＳｏｂｅｌ特徴量を抽出する対象となる入力画像内の対象領域を、マスク画像生成部１２ｂから受け取ったマスク画像を参照することによって絞り込むことで、特徴量の抽出処理を高速化することとしている。なお、かかる点の詳細については、図７を用いて後述することとする。

また、ＬＤＡＡｒｒａｙ演算部１００では、Ｇａｂｏｒ特徴量抽出部１２ｄからＧａｂｏｒ特徴量を受け取ると、Ｇａｏｂｏｒ特徴量に基づく確率分布画像の生成処理を行う。同様に、ＬＤＡＡｒｒａｙ演算部１００では、Ｓｏｂｅｌ特徴量抽出部１２ｅからＳｏｂｅｌ特徴量を受け取ると、Ｓｏｂｅｌ特徴量に基づく確率分布画像の生成処理を行う。

ここで、Ｇａｂｏｒ特徴量抽出部１２ｄ、Ｓｏｂｅｌ特徴量抽出部１２ｅおよびＬＤＡＡｒｒａｙ演算部１００による動作について図７を用いて説明する。図７は、Ｇａｂｏｒ特徴量抽出部１２ｄ、Ｓｏｂｅｌ特徴量抽出部１２ｅおよびＬＤＡＡｒｒａｙ演算部１００の動作例を示した図である。

図７に示したように、Ｇａｂｏｒ特徴量抽出部１２ｄは、マスク画像を参照しつつ、入力画像からＧａｂｏｒ特徴量を抽出する（図７の（１ａ）参照）。

具体的には、Ｇａｂｏｒ特徴量抽出部１２ｄは、マスク画像のうち、画素値が「１」の画素（すなわち、マスク画像中の白であらわされた画素）をＧａｂｏｒ特徴量の抽出対象領域として絞り込む。言い換えれば、画素値が「０」の画素（すなわち、マスク画像中の黒であらわされた画素）は、抽出対象領域とはならない。そして、Ｇａｂｏｒ特徴量抽出部１２ｄは、入力画像のうち、抽出対象領域のみからＧａｂｏｒ特徴量を抽出する。

ただし、Ｇａｂｏｒ特徴量は、対象となる画素だけでなく、その周辺の画素（たとえば、５×５画素や７×７画素）も加味して求められる。このため、Ｇａｂｏｒ特徴量抽出部１２ｄは、たとえば、画素値が「１」の画素が１点だけ存在するような領域については、かかる画素の周辺に位置する画素値が「０」の画素も特徴量演算に使用する。

一方、Ｓｏｂｅｌ特徴量抽出部１２ｅもＧａｂｏｒ特徴量抽出部１２ｄと同様に、マスク画像を参照しつつ、入力画像からＳｏｂｅｌ特徴量を抽出する（図７の（１ｂ）参照）。すなわち、Ｓｏｂｅｌ特徴量抽出部１２ｅは、Ｓｏｂｅｌ特徴量を抽出する対象となる入力画像内の対象領域を、マスク画像生成部１２ｂから受け取ったマスク画像を参照することによって絞り込み、絞り込んだ対象領域のみからＳｏｂｅｌ特徴量を抽出する。

このように、マスク画像生成部１２ｂが、ＬＤＡＡｒｒａｙ演算部１００によって生成された確率分布画像を所定の閾値と比較することによって２値のマスク画像を生成し、Ｇａｂｏｒ特徴量抽出部１２ｄおよびＳｏｂｅｌ特徴量抽出部１２ｅが、それぞれＧａｂｏｒ特徴量およびＳｏｂｅｌ特徴量を取得する対象となる入力画像内の対象領域をマスク画像に基づいて絞り込むこととしたため、Ｇａｂｏｒ特徴量およびＳｏｂｅｌ特徴量の取得に要する時間を短縮することができる。

また、ＬＤＡＡｒｒａｙ演算部１００は、Ｇａｂｏｒ特徴量抽出部１２ｄによって抽出されたＧａｂｏｒ特徴量を用い、候補エリア抽出部１２ｃから受け取った各候補エリアの確率分布画像をＬＤＡＡｒｒａｙ法に基づき生成する（図７の（２ａ）参照）。具体的には、ＬＤＡＡｒｒａｙ演算部１００は、Ｇａｂｏｒ用学習情報１１ｂに含まれる最終判別器（Ｇａｂｏｒ用判別器）を記憶部１１から取り出し、取り出した最終判別器を用いてサンプル枠における姿画像の存在確率を算出することで、Ｇａｂｏｒ特徴量に基づく確率分布画像を生成する。

同様に、ＬＤＡＡｒｒａｙ演算部１００は、Ｓｏｂｅｌ特徴量抽出部１２ｅによって抽出されたＳｏｂｅｌ特徴量を用い、候補エリアの確率分布画像をＬＤＡＡｒｒａｙ法に基づき生成する（図７の（２ｂ）参照）。具体的には、ＬＤＡＡｒｒａｙ演算部１００は、Ｓｏｂｅｌ用学習情報１１ｃに含まれる最終判別器（Ｓｏｂｅｌ用判別器）を記憶部１１から取り出し、取り出した最終判別器を用いてサンプル枠における姿画像の存在確率を算出することで、Ｓｏｂｅｌ特徴量に基づく確率分布画像を生成する。

このように、ＬＤＡａｒｒａｙ演算部１００が、１つの姿画像をそれぞれ含んだ複数の姿画像サンプルと姿画像を含まない複数の非姿画像サンプルとを用いて特徴量の種類ごとに予め取得された学習情報に基づいて確率分布画像を生成することとしたため、特徴量の種類ごとに適切な確率分布画像を生成することができる。

また、ＬＤＡＡｒｒａｙ演算部１００は、確率分布画像の生成処理を候補エリア抽出部１２ｃによって抽出されたエリアについて実行する。すなわち、ＬＤＡＡｒｒａｙ演算部１００は、各候補エリアのうち、姿画像の存在確率が高い候補エリアから順に確率分布画像を生成する。

この結果、図７に示したように、Ｇａｂｏｒ特徴量に基づく確率分布画像およびＳｏｂｅｌ特徴量に基づく確率分布画像は、それぞれ姿画像の存在確率が高い候補エリアから順に（エリア１→エリア２→エリア３…）生成されることとなる。

また、ＬＤＡＡｒｒａｙ演算部１００は、Ｇａｂｏｒ特徴量に基づく確率分布画像およびＳｏｂｅｌ特徴量に基づく確率分布画像を生成すると、生成した確率分布画像を最終判定部１２ｆへ渡す。

図２に戻り、最終判定部１２ｆについて説明する。最終判定部１２ｆは、Ｓｏｂｅｌ−Ｈａａｒ特徴量を用いて生成された確率分布画像の候補エリア部分、Ｇａｂｏｒ特徴量を用いて生成された確率分布画像およびＳｏｂｅｌ特徴量を用いて生成された確率分布画像に基づいて候補エリア内に姿画像が存在するか否かを最終照合値算出用学習情報１１ｄを用いて判定する処理部である。

具体的には、最終判定部１２ｆは、各確率分布画像の最大値および平均値を算出し、これらの値を線形判別分析して得られる最終照合値を所定の閾値と比較することによって候補エリア内に姿画像が存在するか否かを判定する。

ここで、最終判定部１２ｆによる最終判定処理について図８を用いて説明する。図８は、最終判定処理について説明するための図である。ここでは、同図に示したように、Ｇａｂｏｒ特徴量に基づく確率分布画像における姿画像の存在確率の最大値をｍａｘ１とし、平均値をａｖｅ１とする。同様に、Ｓｏｂｅｌ特徴量に基づく確率分布画像における姿画像の存在確率の最大値および平均値をそれぞれｍａｘ２、ａｖｅ２とし、Ｓｏｂｅｌ−Ｈａａｒ特徴量に基づく確率分布画像における姿画像の存在確率の最大値および平均値をそれぞれｍａｘ３、ａｖｅ３とする。

図８に示したように、最終判定部１２ｆは、まず、各確率分布画像の最大値ｍａｘ１〜ｍａｘ３および平均値ａｖｅ１〜ａｖｅ３を求める。そして、最終判定部１２ｆは、これらの値および記憶部１１に記憶された最終照合値算出用学習情報１１ｄを用いて最終照合値を算出する。

具体的には、最終照合値は、「ａ・ｍａｘ１＋ｂ・ａｖｅ１＋ｃ・ｍａｘ２＋ｄ・ａｖｅ２＋ｅ・ｍａｘ３＋ｆ・ａｖｅ３」であらわされる。ここで、各最大値ｍａｘ１〜ｍａｘ３および各平均値ａｖｅ１〜ａｖｅ３に対して掛けられる係数ａ〜ｆが、最終照合値算出用学習情報１１ｄに相当し、上述したようにＬＤＡＡｒｒａｙ演算部１００による学習によってあらかじめ決定されている。

また、最終判定部１２ｆは、最終照合値を算出すると、算出した最終照合値と所定の閾値とを比較し、最終照合値が所定の閾値以上であれば、該当する候補エリア内に姿画像が存在すると判定する。そして、最終判定部１２ｆは、これらの処理を各候補エリアについて実行し、候補エリアごとの判定結果を出力する。

このように、最終判定部１２ｆが、候補エリア内における最大値および平均値を確率分布画像ごとに算出し、算出された最大値および平均値を用いた線形判別分析によって当該候補エリア内に被写体が存在するか否かを判定することとしたため、比較的少ない演算量で、被写体が存在するか否かを精度良く判定することができる。

なお、ここでは、演算量の削減のため、候補エリアの最大値および平均値を算出することとしたが、これに限ったものではなく、最大値および平均値以外の要素を算出することとしてもよい。

また、最終判定部１２ｆは、各候補エリアに対する最終判定処理を、ＬＤＡＡｒｒａｙ演算部１００によって確率分布画像が生成された順に実行する。すなわち、姿画像が存在する確率が高い候補エリアから順に最終判定処理が実行されるため、最終判定処理を効率的に行うことができる。すなわち、たとえば、入力画像に複数人が含まれている場合に、上位数人のみを探索する処理を容易に行うことができる。

なお、ここでは、姿画像が存在する確率が高い候補エリアから順に最終判定処理を実行することとしたが、これに限ったものではなく、最終判定部１２ｆは、各候補エリア内に被写体が存在するか否かを所定の順序で（たとえば、左上から順に）判定することとしてもよい。

次に、姿検出装置１０が実行する処理手順について図９を用いて説明する。図９は、姿検出装置１０の処理手順を示すフローチャートである。

図９に示したように、姿検出装置１０では、Ｓｏｂｅｌ−Ｈａａｒ特徴量抽出部１２ａが、入力画像からＳｏｂｅｌ−Ｈａａｒ特徴量を抽出し（ステップＳ１０１）、ＬＤＡＡｒｒａｙ演算部１００が、記憶部１１からＳｏｂｅｌ−Ｈａａｒ用学習情報１１ａを読み出し、Ｓｏｂｅｌ−Ｈａａｒ特徴量およびＳｏｂｅｌ−Ｈａａｒ用学習情報１１ａ（Ｓｏｂｅｌ−Ｈａａｒ用判別器）を用い、ＬＤＡＡｒｒａｙ法で確率分布画像を生成する（ステップＳ１０２）。

つづいて、姿検出装置１０では、マスク画像生成部１２ｂが、確率分布画像を所定の閾値と比較することで、２値のマスク画像を生成するとともに（ステップＳ１０３）、候補エリア抽出部１２ｃが、確率分布画像から候補エリアの抽出および候補エリアの順位付けを行う（ステップＳ１０４）。

つづいて、Ｇａｂｏｒ特徴量抽出部１２ｄおよびＳｏｂｅｌ特徴量抽出部１２ｅは、マスク画像を参照しつつ、入力画像のうち、マスクが「１」に設定されている部分についてＧａｂｏｒ特徴量およびＳｏｂｅｌ特徴量を抽出する（ステップＳ１０５）。また、姿検出装置１０では、ステップＳ１０４において抽出された候補エリアを順位が高い順に１つ選択する（ステップＳ１０６）。

そして、ＬＤＡＡｒｒａｙ演算部１００は、選択した１つの候補エリアについて、Ｇａｂｏｒ特徴量およびＧａｂｏｒ用学習情報１１ｂ（Ｇａｂｏｒ用判別器）を用い、ＬＤＡＡｒｒａｙ法で候補エリアの確率分布画像を生成する（ステップＳ１０７）。同様に、ＬＤＡＡｒｒａｙ演算部１００は、Ｓｏｂｅｌ特徴量およびＳｏｂｅｌ用学習情報１１ｃ（Ｓｏｂｅｌ用判別器）を用い、ＬＤＡＡｒｒａｙ法で候補エリアの確率分布画像を生成する（ステップＳ１０８）。

つづいて、ＬＤＡＡｒｒａｙ演算部１００は、ステップＳ１０６において選択した候補エリアの確率分布画像、ステップＳ１０７において生成されたＧａｂｏｒ特徴量に基づく確率分布画像およびステップＳ１０８において生成されたＳｏｂｅｌ特徴量に基づく確率分布画像からそれぞれ最大値ｍａｘ１〜ｍａｘ３および平均値ａｖｅ１〜ａｖｅ３を算出する（ステップＳ１０９）。また、ＬＤＡＡｒｒａｙ演算部１００は、算出した最大値ｍａｘ１〜ｍａｘ３および平均値ａｖｅ１〜ａｖｅ３および記憶部１１に記憶された最終照合値算出用学習情報１１ｄを用いて最終照合値を算出する（ステップＳ１１０）。

そして、姿検出装置１０では、最終判定部１２ｆが、ステップＳ１１０において算出された最終照合値が所定の閾値以上であるか否かを判定し（ステップＳ１１１）、所定の閾値以上であると判定した場合には（ステップＳ１１１、Ｙｅｓ）、ステップＳ１０６において選択した候補エリアに姿画像があると判定する（ステップＳ１１２）。一方、最終判定部１２ｆは、最終照合値が所定の閾値未満であると判定した場合には（ステップＳ１１１、Ｎｏ）、選択した候補エリアに姿画像がないと判定する（ステップＳ１１３）。

また、姿検出装置１０は、ステップＳ１１２，Ｓ１１３の処理を終えると、全ての候補エリアについてステップＳ１０６〜Ｓ１１３の処理を行ったか否かを判定し（ステップＳ１１４）、未処理の候補エリアがある場合には（ステップＳ１１４、Ｎｏ）、未処理の候補エリアについてステップＳ１０６〜Ｓ１１３の処理を繰り返す。一方、全ての候補エリアについて処理済であると判定した場合には（ステップＳ１１４、Ｙｅｓ）、姿検出装置１０は、処理を終える。

ところで、これまでは、姿画像サンプル中の人物と同等の大きさの人物が入力画像に写り込んでいる場合について説明してきた。しかしながら、入力画像には、姿画像サンプル中の人物よりも大きく写りこんでいる人物や小さく写りこんでいる人物が混在しているのが通常である。

このように、入力画像に写りこんでいる人物のサイズが姿画像サンプル中の人物のサイズと異なる場合、入力画像から姿画像を適切に検出することができないおそれがある。そこで、入力画像を様々なサイズに拡大・縮小するとともに、各サイズの入力画像についてそれぞれ絞り込み処理および詳細判定処理を行い、最終判定結果をサイズごとに出力することとしてもよい。

以下では、かかる場合について図１０を用いて説明する。図１０は、入力画像のサイズ変更を行う場合について説明するための図である。なお、同図の（Ａ）には、入力画像が拡大または縮小される様子を、同図の（Ｂ）には、サイズごとの最終判定結果の一例をそれぞれ示している。

また、以下では、姿検出装置１０の演算部１２が、サイズ変更部（図示せず）をさらに備えるものとする。サイズ変更部は、入力画像を受け取ると、受け取った入力画像を規定のサイズに変更したうえで、Ｓｏｂｅｌ−Ｈａａｒ特徴量抽出部１２ａ、Ｇａｂｏｒ特徴量抽出部１２ｄおよびＳｏｂｅｌ特徴量抽出部１２ｅへ渡す処理部である。

これにより、図１０の（Ａ）に示したように、図９に示したステップＳ１０１〜Ｓ１０９の処理が、サイズ変更部によるサイズ変更後の各入力画像について行われることとなる。

ここで、図１０の（Ａ）に示したように、入力画像を縮小することで、入力画像に大きく写りこんでいた人物のサイズが、姿画像サンプルの人物のサイズに近づくこととなり、入力画像を拡大することで、入力画像に小さく写りこんでいた人物のサイズが、姿画像サンプルの人物のサイズに近づくこととなる。

たとえば、入力画像のサイズを０．５倍に縮小した場合に、入力画像から抽出された候補エリアのエリア３に対応する人物のサイズが、姿画像サンプルの人物のサイズと同等となる。同様に、入力画像のサイズを１．５倍に拡大した場合に、入力画像から抽出された候補エリアのエリア１に対応する人物のサイズが、姿画像サンプルの人物のサイズと同等となる。なお、入力画像のサイズを変更しない場合には、入力画像から抽出された候補エリアのエリア２に対応する人物のサイズが、姿画像サンプルの人物のサイズと同等であるものとする。

この結果、図１０の（Ｂ）に示したように、入力画像のサイズを変更しなかった場合に姿画像が存在しないと判定された候補エリアのエリア１およびエリア３が、入力画像をそれぞれ１．５倍および０．５倍に変更することによって、姿画像が存在すると正しく判定されることとなる。

このように、サイズ変更部が、入力画像を拡大または縮小することで当該入力画像のサイズを変更し、Ｓｏｂｅｌ−Ｈａａｒ特徴量抽出部によるＳｏｂｅｌ−Ｈａａｒ特徴量抽出処理以降の各処理では、サイズ変更部によるサイズ変更後の入力画像を取り扱い、最終判定部が、候補エリア内に姿画像が存在するか否かを複数のサイズごとにそれぞれ判定することとしたため、サイズがそれぞれ異なる姿画像が入力画像中に写りこんでいる場合であっても、それぞれの姿画像を適切に検出することができる。

したがって、本発明に係る姿検出手法によれば、姿画像の検出精度を高めることが可能である。

ここで、上述してきた実施例では、絞り込み段階において、入力画像からＳｏｂｅｌ−Ｈａａｒ特徴量を取得することとしたが、これに限ったものではなく、絞り込み段階で取得する特徴量は、ロバーツフィルタやロビンソンフィルタなどの他のフィルタを掛けて得られる特徴量であってもよい。ただし、比較的演算量が少ないＳｏｂｅｌ−Ｈａａｒ特徴量を用いることで、絞込み段階における演算量を軽減することができる。

また、詳細判定段階において入力画像から取得する特徴量についても、Ｇａｂｏｒ特徴量およびＳｏｂｅｌ特徴量に限ったものではなく、他の特徴量であってもよい。ただし、Ｓｏｂｅｌ−Ｈａａｒ特徴量に対して、Ｇａｂｏｒ特徴量およびＳｏｂｅｌ特徴量を組み合わせることで、最も高い検出精度を得ることができる。

このように、絞り込み段階において取得される特徴量が、Ｓｏｂｅｌ特徴量とＨａａｒ特徴量との積をあらわすＳｏｂｅｌ−Ｈａａｒ特徴量であり、詳細判定段階において取得される特徴量が、それぞれＧａｂｏｒ特徴量およびＳｏｂｅｌ特徴量であることとしたため、絞り込み段階での特徴量の取得に要する演算量を軽減しつつ、姿画像の検出精度をさらに高めることができる。

上述してきたように、本実施例では、Ｓｏｂｅｌ−Ｈａａｒ特徴量抽出部が、入力画像からＳｏｂｅｌ−Ｈａａｒ特徴量を取得し、ＬＤＡＡｒｒａｙ部が、Ｓｏｂｅｌ−Ｈａａｒ特徴量に基づいて入力画像内における姿画像の存在確率の分布を示す確率分布画像を生成し、候補エリア抽出部１２ｃが、確率分布画像から姿画像の存在候補となる候補エリアを抽出する。

また、本実施例では、Ｇａｂｏｒ特徴量抽出部およびＳｏｂｅｌ特徴量抽出部が、入力画像からＳｏｂｅｌ−Ｈａａｒ特徴量とは種類が異なるＧａｂｏｒ特徴量およびＳｏｂｅｌ特徴量をそれぞれ取得し、ＬＤＡＡｒｒａｙ部が、Ｇａｂｏｒ特徴量およびＳｏｂｅｌ特徴量ごとに、候補エリア内における確率分布画像をそれぞれ生成し、最終判定部が、Ｓｏｂｅｌ−Ｈａａｒ特徴量を用いて生成した確率分布画像の候補エリア部分、Ｇａｂｏｒ特徴量を用いて生成した確率分布画像およびＳｏｂｅｌ特徴量を用いて生成した確率分布画像に基づいて候補エリア内に姿画像が存在するか否かを判定することとした。

したがって、本実施例によれば、姿画像の検出処理に要する時間を短縮しつつ、姿画像の検出精度を高めることができる。

また、本実施例では、ＬＤＡＡｒｒａｙ法を用いて確率分布画像を生成することとしたため、確率分布画像の生成に伴う演算量を削減しつつ、確率分布画像を精度良く生成することができる。

なお、ＬＤＡＡｒｒａｙ演算部１００は、後述する式（４−１）および式（４−２）に示す学習終了時の係数や特徴量の関数等を学習情報として記憶しておき、判定時には、これらを読み出して判別器を構築することとしてもよい。

また、上述してきた実施例では、入力画像から姿画像を検出する場合について説明してきたが、本発明に係る被写体検出手法は、姿画像の検出に限らず、紙幣識別や貨幣識別のような画像識別にも適用することができる。

以下では、図２に示したＬＤＡＡｒｒａｙ演算部１００の具体的構成および学習内容について説明する。なお、以下では、ブースティング学習手法として広く用いられているアダブースト（AdaBoost）手法について図２０を用いて、ＬＤＡＡｒｒａｙ法の概要について図１１を用いて、それぞれ説明した後に、図１２を用いてＬＤＡＡｒｒａｙ法を適用したＬＤＡＡｒｒａｙ演算部３００についての説明を行うこととする。

図２０は、アダブースト手法の概要を示す図である。アダブースト手法は、ＹＥＳ／ＮＯ、正／負といった２値化された判別結果を出力する２値化判別器を学習結果に基づいて多数組み合わせることによって、正答率が高い最終判別器を導出する学習手法である。

ここで、組合せ対象となる判別器は、正答率が５０％を若干超える程度の弱い判別器ｈ（以下、「弱判別器ｈ」と記載する）である。すなわち、アダブースト手法では、正答率が低い弱判別器ｈを多数組み合わせることで、正答率が高い最終判別器Ｈ（強判別器Ｈ）を学習によって導出する。

まず、アダブースト手法に用いられる数式について説明する。なお、以下では、姿画像のサンプル群をクラスＡ、非姿画像のサンプル群をクラスＢとし、クラスＡとクラスＢとを判別する場合について説明することとする。

アダブースト手法において、学習回数をｓ（１≦ｓ≦Ｓ）、各特徴量をｘ、特徴量ｘに対応する判別器をｈ-_ｓ（ｘ）、判別器ｈ_ｓ（ｘ）の重み係数をα_ｓとすると、最終判別器Ｈ（ｘ）は、
式（２−１）のようにあらわされる。

ここで、関数ｓｉｇｎ（）は、かっこ内の値が０以上であれば＋１、０未満であれば−１とする２値化関数である。また、式（２−２）に示したように、判別器ｈ_ｓ（ｘ）は、−１または＋１の値をとる２値化判別器であり、クラスＡと判別した場合には＋１の値をとり、クラスＢと判別した場合には−１の値をとる。

アダブースト手法では、式（２−１）に示した判別器ｈ_ｓ（ｘ）を１回の学習で１つずつ選択するとともに、選択した判別器ｈ_ｓ（ｘ）に対応する重み係数α_ｓを逐次決定していく処理を繰り返すことで、最終判別器Ｈ（ｘ）を導出する。以下では、アダブースト手法についてさらに詳細に説明する。

学習サンプルは、｛（ｘ_１，ｙ_１），（ｘ_２，ｙ_２），…，（ｘ_Ｎ，ｙ_Ｎ）｝とあらわされる。ここで、ｘ_ｉは各特徴量であり、ｙ_ｉは｛−１，＋１｝（上記したクラスＡは＋１、上記したクラスＢは−１）である。また、Ｎは、判別対象とする特徴量の総数である。

また、Ｄ_ｓ（ｉ）を、ｉ番目の学習サンプルに対してｓ回目の学習を行った場合のサンプル重みとすると、Ｄ_ｓ（ｉ）の初期値は、式「Ｄ_１（ｉ）＝１／Ｎ」であらわされる。そして、各特徴量ｘ_ｉに対応する判別器をｈ_ｓ（ｘ_ｉ）、各判別器の重み係数をα_ｓとすると、アダブースト手法に用いられる各数式は、
となる。ここで、ε_ｓは判別器ｈ_ｓごとの誤り率である。

以下では、図２０を用いながら、上記した式（３−１）〜式（３−４）についてそれぞれ説明する。同図の（１）に示したように、１回目の学習では、サンプル重みＤ_１（ｉ）を１／Ｎとしたうえで、判別器ｈ_ｓごとの学習サンプル分布を算出する。このようにすることで、同図に示したように、クラスＡの分布とクラスＢの分布とが得られる。

そして、図２０の（２）に示したように、式（３−１）を用いて判別器ｈ_ｓごとの誤り率（たとえば、クラスＡのサンプルをクラスＢと誤判別した確率）ε_ｓを算出し、最も誤り率ε_ｓが低い、すなわち、最も良好な判別を行った判別器ｈ_ｓを最良判別器として選択する。

つづいて、図２０の（３−１）に示したように、式（３−２）を用いて判別器ｈ_ｓ（図２０の（２）で選択された最良判別器）の重み係数α_ｓを決定する。そして、図２０の（３−２）に示したように、式（３−３）を用いて次回の学習における各学習サンプル重みＤ_ｓ＋１を更新する。なお、式（３−３）の分母であるＺ_ｓは、式（３−４）であらわされる。

このようにして、次回の学習サンプル重みＤ_ｓ＋１が更新されると、図２０の（４）に示したように、判別器ｈ_ｓごとの学習サンプル分布は、図２０の（１）に示した分布とは異なるものとなる。そして、学習回数ｓをカウントアップし、図２０の（４）で算出された分布で図２０の（１）に示した分布を更新したうえで、図２０の（２）以降の処理を繰り返す。

ここで、式（３−３）は、図２０の（２）で選択された最良判別器が、次回の学習では、誤り率が０．５である判別器となるように次回の学習サンプル重みＤ_ｓ＋１を決定することを示している。すなわち、最良判別器が最も苦手とする学習サンプル重みを用いて次の最良判別器を選択する処理を行うことになる。

このように、アダブースト手法は、学習を繰り返すことで、判別器ｈ_ｓ（ｘ）の選択と各判別器ｈ_ｓ（ｘ）の重み係数α_ｓの最適化とを行い、最終的には、正答率が高い最終判別器Ｈ（ｘ）を導出することができる。しかし、式（２−２）に示したように、アダブースト手法によって選択される判別器ｈ_ｓ（ｘ）は、２値化判別器であり、判別器内部で保持する値を最終的には２値に変換したうえで出力する。すなわち、２値変換に伴う判断分岐が必要となり、演算量がかさむという問題がある。

なお、リアルブースト（RealBoost）手法では、多値判別器を用いるので、アダブースト手法で発生する判断分岐による演算量増大の問題を回避することができるが、多値判別器が保持する多値それぞれに対応した重み係数を保持する必要があるため、メモリ使用量が増大するという問題がある。

そこで、アダブースト手法を改良することで、判断分岐による演算量増大という問題を回避するとともに、リアルブースト手法のように大きなメモリを必要とすることなく識別精度を向上させる「ＬＤＡＡｒｒａｙ法」を考案した。以下では、かかるＬＤＡＡｒｒａｙ法の概要について図１１を用いて説明する。

図１１の（Ａ）は、図２０を用いて説明したアダブースト手法の概要であり、同図の（Ｂ）は、ＬＤＡＡｒｒａｙ法の概要である。また、同図の（Ａ）に示したｈ_ｉは２値化判別器を、同図の（Ｂ）に示したｆ_ｉは、２値化判別器ｈ_ｉが所定の閾値で２値化する前の関数である未２値化判別器を、それぞれあらわしている。

図１１の（Ａ）に示したように、アダブースト手法では、１回目の学習で、誤り率が最小の２値化判別器をｈ_１として決定する（図１１の（Ａ−１）参照）。そして、２値化判別器ｈ_１の重み係数を決定し（図１１の（Ａ−２）参照）、次回の学習では、ｈ_１が、誤り率が０．５である判別器となるように、各サンプルに対するサンプル重みを更新する（図１１の（Ａ−３）参照）。

そして、判別器の選択、選択した判別器に対する重み係数の決定およびサンプル重みの更新を繰り返すことで、最終判別器を導出する。

一方、図１１の（Ｂ）に示したように、ＬＤＡＡｒｒａｙ法では、所定個数の未２値化判別器ｆｉをＬＤＡ（Linear Discriminant Analysis）法を用いて集約することで集約判別器を導出し、導出した１個または複数個の集約判別器に基づいて１個の最終判別器を導出する点に主たる特徴がある。

具体的には、所定の手順に従って未２値化判別器ｆ_ｉを集約し（図１１の（Ｂ−１）参照）、ＬＤＡを用いて集約判別器を導出する（図１１の（Ｂ−２）参照）。また、導出した集約判別器の重み係数を決定するとともに（図１１の（Ｂ−３）参照）、各サンプルに対するサンプル重みを更新する（図１１の（Ｂ−４）参照）。

そして、集約判別器の選択、選択した集約判別器に対する重み係数の決定およびサンプル重みの更新を繰り返すことで、１個の最終判別器を導出する。このように、ＬＤＡＡｒｒａｙ法では、所定数の未２値化判別器ｆ_ｉを後述の式（４−２）で説明するように線形結合するので、判別処理に伴う演算量を削減することができる。

すなわち、排除対象（上記したクラスＢ）をある程度分離することができるようになるまで未２値化判別器ｆ_ｉを集約するので、無駄な判断分岐（図１１の（Ａ）に示した２値化判別器ｈ_ｉが必ず行う２値変換に伴う判断分岐）を削減することができる。また、図１１の（Ａ）に示したアダブースト手法では考慮されていなかった特徴量間の関係を、あらたな特徴として捉えることができるので、判別精度を向上させることができる。

図１２は、ＬＤＡＡｒｒａｙ演算部３００のＬＤＡＡｒｒａｙによる学習時の構成の一例を示すブロック図である。同図に示すように、ＬＤＡＡｒｒａｙ演算部３００は、制御部３１１と、姿画像特徴量抽出部３１２ａと、非姿画像特徴量抽出部３１２ｂと、記憶部３１３とを備えている。また、制御部３１１は、アダブースト処理部３１１ａと、集約判別器導出部３１１ｂと、集約重み係数決定部３１１ｃと、サンプル重み更新部３１１ｄと、最終判別器決定部３１１ｅとをさらに備えている。そして、記憶部３１３は、姿画像サンプル３１３ａと、非姿画像サンプル３１３ｂと、集約判別器候補３１３ｃと、集約判別器３１３ｄと、集約重み係数３１３ｅと、学習情報３１３ｆとを記憶する。

姿画像特徴量抽出部３１２ａは、記憶部３１３から姿画像サンプル３１３ａを読み出し、各種特徴量を抽出してアダブースト処理部３１１ａへ出力する。また、非姿画像特徴量抽出部３１２ｂは、記憶部３１３から非姿画像サンプル３１３ｂを読み出し、各種特徴量を抽出してアダブースト処理部３１１ａへ出力する。

なお、ここでは、ＬＤＡＡｒｒａｙ演算部３００が、姿画像サンプル３１３ａおよび非姿画像サンプル３１３ｂを記憶するとともに、姿画像特徴量抽出部３１２ａおよび非姿画像特徴量抽出部３１２ｂを用いてこれらのサンプルから各種特徴量を抽出する場合について説明する。ただし、これに限ったものではなく、ＬＤＡＡｒｒａｙ演算部３００は、図２に示したように、各種特徴量を外部（図２に示した場合には、Ｓｏｂｅｌ−Ｈａａｒ特徴量抽出部１２ａ、Ｇａｂｏｒ特徴量抽出部１２ｄおよびＳｏｂｅｌ特徴量抽出部１２ｅ）から取得するようにしてもよい。

また、図１２では、ＬＤＡＡｒｒａｙ演算部３００が、制御部３１１、姿画像特徴量抽出部３１２ａ、非姿画像特徴量抽出部３１２ｂおよび記憶部３１３を備える場合について示したが、制御部３１１内の各処理部、姿画像特徴量抽出部３１２ａ、非姿画像特徴量抽出部３１２ｂを、図２に示した演算部１２内に配置するとともに、記憶部３１３が記憶する各情報を、図２に示した記憶部１１内に記憶させることとしてもよい。

制御部３１１は、上記したＬＤＡＡｒｒａｙ法を用いた学習によって最終判別器を導出する処理を行う処理部である。なお、制御部３１１は、例えば、ＣＰＵやＭＰＵ、プログラムメモリ、ＲＡＭなどから構成された電子回路である。そして、ＣＰＵあるいはＭＰＵは、所定のプログラムメモリ（図示せず）にあらかじめ格納されたＬＤＡＡｒｒａｙプログラムを読み出してＲＡＭ（図示せず）に展開することで、本実施例に特徴的な動作を実行する。

アダブースト処理部３１１ａは、図２０を用いて既に説明したアダブースト手法を実行する処理を行う処理部である。また、アダブースト処理部３１１ａは、姿画像特徴量抽出部３１２ａおよび非姿画像特徴量抽出部３１２ｂによって姿画像サンプル３１３ａおよび非姿画像サンプル３１３ｂからそれぞれ抽出されたＳｏｂｅｌ−Ｈａａｒ特徴量、Ｇａｂｏｒ特徴量、Ｓｏｂｅｌ特徴量の各種特徴量を用いて学習を繰り返し、候補の２値化判別器から２値化判別器を選択する。そして、アダブースト処理部３１１ａは、選択した２値化判別器の重み係数α_ｓを式（３−２）を用いて決定する。この過程を繰り返し、選択した２値化判別器と決定した重み係数との組を集約判別器導出部３１１ｂに渡す処理を併せて行う。

そして、アダブースト処理部３１１ａは、サンプル重み更新部３１１ｄから更新後のサンプル重みを受け取った場合には、受け取ったサンプル重みでサンプル重みＤ_ｓ（図２０参照）を更新する。つづいて、アダブースト処理部３１１ａは、２値化判別器の選択を最初からやり直す。すなわち、図２０に示した学習回数ｓを１としたうえで、２値化判別器の選択処理等を繰り返す。

ここで、アダブースト処理部３１１ａの学習に用いられる姿画像サンプル３１３ａおよび非姿画像サンプル３１３ｂから各種特徴量を抽出する姿画像特徴量抽出部３１２ａおよび非姿画像特徴量抽出部３１２ｂの動作について図１３を用いて説明しておく。図１３は、姿有サンプル画像（姿画像）と姿の無いサンプル画像（非姿画像）から特徴量を抽出する処理を示す図である。ここで、姿画像サンプル３１３ａとして記憶部３１３に記憶されている画像の一つであり、非姿画像は、非姿画像サンプル３１３ｂとして記憶部３１３に記憶されている画像の一つである。

なお、同図の（Ａ）には、姿画像から特徴量を取得する処理の流れを、同図の（Ｂ）には、背景画像のような非姿画像から特徴量を取得する処理の流れを、それぞれ示している。また、同図に示した各姿画像および各非姿画像は、事前の拡大／縮小処理によってサイズ合わせがなされているものとする。

図１３の（Ａ）に示したように、姿画像を所定サイズのブロックに分割し（図１３の（Ａ−１）参照）、各ブロックについて、エッジ方向とその強度（太さ）、全体強度といった特徴量を抽出する（図１３の（Ａ−２）参照）。

たとえば、姿画像の左肩に相当するブロック１６１については、上向きエッジ強度１６２ａ、右上向きエッジ強度１６２ｂ、右向きエッジ強度１６２ｃ、右下向きエッジ強度１６２ｄ、ブロック１６１の全体強度１６２ｅといった特徴量が抽出される。なお、１６２ａ〜１６２ｅに示した矢印の太さは強度をあらわしている。また、図１３に示した１６２ａ〜１６２ｅは、Ｇａｂｏｒ特徴量の一例であるが、姿画像特徴量抽出部３１２ａおよび非姿画像特徴量抽出部３１２ｂは、Ｓｏｂｅｌ−Ｈａａｒ特徴量やＳｏｂｅｌ特徴量といった他の特徴量の抽出も行う。

このように、各ブロックについて特徴量を抽出する処理を姿画像全体について繰り返すことで、１枚の姿画像についての特徴量が揃うことになる。そして、同様の処理を他の複数枚の姿画像に対しても行う。複数の姿画像サンプル３１３ａから姿画像の特徴量が得られる。

また、図１３の（Ｂ）に示したように、非姿画像についても姿画像と同様のブロック分割を行い（図１３の（Ｂ−１）参照）、各ブロックについて、姿画像と同様の手順で特徴量を抽出する（図１３の（Ｂ−２）参照）。たとえば、姿画像のブロック１６１に対応する位置のブロック１６３についても、上向きエッジ強度１６４ａ、右上向きエッジ強度１６４ｂ、右向きエッジ強度１６４ｃ、右下向きエッジ強度１６４ｄ、ブロック１６３の全体強度１６４ｅといった特徴量が抽出される。

このように、各ブロックについて特徴量を抽出する処理を非姿画像全体について繰り返すことで、１枚の非姿画像についての特徴量が揃うことになる。そして、同様の処理を他の複数枚の非姿画像に対しても行う。複数の非姿画像サンプル３１３ｂから非姿画像の特徴量が得られる。

集約判別器導出部３１１ｂは、上記したＬＤＡＡｒｒａｙ法における集約判別器３１３ｄを導出する処理を行う処理部である。具体的には、この集約判別器導出部３１１ｂは、アダブースト処理部３１１ａによって所定個数の２値化判別器が選択されると、選択された２値化判別器と決定された重み係数との組を受け取り、これらの２値化判別器をＬＤＡによって結合することで、集約判別器を導出する処理を行う処理部である。

また、集約判別器導出部３１１ｂは、集約判別器の候補となる集約判別器候補３１３ｃ（ｋ_ｔ）を２値化判別器の個数に応じてそれぞれ導出し、導出した集約判別器候補３１３ｃの中から１つの集約判別器３１３ｄ（Ｋ_ｔ）を決定する処理を併せて行う。

ここで、ＬＤＡＡｒｒａｙ法について各数式を用いて説明しておく。集約判別器Ｋ_ｔの導出回数をあらわす集約カウンタをｔ（１≦ｔ≦Ｔ）、特徴量をｘ、特徴量ｘに対応する集約判別器をＫ_ｔ（ｘ）、所定のオフセット値をｔｈとすると、最終判別器Ｆ（ｘ）は、
式（４−１）のようにあらわされる。ここで、関数ｓｉｇｎ（）は、かっこ内の値が０以上であれば＋１、０未満であれば−１とする２値化関数である。なお、オフセット値ｔｈは、図１５を用いて後述するｏｆｆｓｅｔ_ｔの算出手順と同様の手順で算出することができる。

また、未２値化判別器をｆ_ｔｓ（ｘ）、ＬＤＡによって算出されるｆ_ｔｓ（ｘ）の重みをβ_ｔｓ、所定のオフセット値をｏｆｆｓｅｔ_ｔとすると、集約判別器Ｋ_ｔ（ｘ）は、式（４−２）のような線形結合式であらわされる。

なお、オフセット値ｏｆｆｓｅｔ_ｔの算出手順については、図１５を用いて後述する。また、式（４−２）のオフセット値ｏｆｆｓｅｔ_ｔは必須ではなく、オフセット値ｏｆｆｓｅｔ_ｔを省略したうえで、式（４−１）のオフセット値ｔｈで最終的な調整を行うこととしてもよい。

ここで、未２値化判別器ｆ_ｓ（ｉ）と、２値化判別器ｈ_ｓ（ｉ）との関係は、
式（５）であらわされる。すなわち、未２値化判別器ｆ_ｓ（ｉ）を関数ｓｉｇｎ（）で２値化したものが２値化判別器ｈ_ｓ（ｉ）となる。

ＬＤＡａｒｒａｙ法では、集約カウンタｔごとに、複数の集約判別器候補の中から集約判別器Ｋｔ（ｘ）を１つずつ選択するとともに、選択した集約判別器Ｋ_ｔ（ｘ）に対応する重み係数α_ｔを逐次決定していく処理を繰り返すことで、最終判別器Ｆ（ｘ）を導出する。以下では、ＬＤＡａｒｒａｙ法についてさらに詳細に説明する。

また、Ｌ_ｔ（ｉ）を、ｉ番目の学習サンプルについて、ｔ回目の判別器集約を行った場合のサンプル重みとすると、Ｌｔ（ｉ）の初期値は、式「Ｌ_１（ｉ）＝１／Ｎ」であらわされる。そして、特徴量ｘ_ｉに対応する集約判別器をＫ_ｔ（ｘ_ｉ）とすると、ＬＤＡａｒｒａｙ法に用いられる各数式は、
となる。

ＬＤＡａｒｒａｙ法では、式（６−１）を用いて集約判別器Ｋ_ｔごとの誤り率（たとえば、クラスＡのサンプルをクラスＢと誤判別した確率）ε_ｔを算出する。そして、式（６−１）で算出された誤り率ε_ｔおよび式（６−２）を用いて集約判別器Ｋ_ｔの重み係数α_ｔを決定する。さらに、式（６−３）を用いて次回の集約における各学習サンプル重みＬ_ｔ＋１を更新する。なお、式（６−３）の分母であるＺ_ｔは、Ｌ_ｔ＋１を「ΣＬ_ｔ＋１（ｉ）＝１」とするための規格化因子であり、式（６−４）であらわされる。

ここで、式（６−３）は、集約判別器Ｋ_ｔが、次回の集約では、誤り率が０．５である判別器となるように次回の学習サンプル重みＬ_ｔ＋１を決定することを示している。

このようにして、次回の集約における学習サンプル重みＬ_ｔ＋１が更新されると、ＬＤＡａｒｒａｙ法では、学習サンプル重みＬ_ｔを、アダブースト処理における学習サンプル重みＤ_ｓへコピーする。そして、アダブースト処理では、ＬＤＡＡｒｒａｙ法によって更新された学習サンプル重みＤ_ｓを初期値として判別器選択処理を繰り返すことになる。

図１２の説明に戻り、集約判別器導出部３１１ｂについての説明をつづける。集約判別器導出部３１１ｂは、最小ＬＤＡ次元数（ｍｉｎ＿ｌｄａ＿ｄｉｍ）および最大ＬＤＡ次元数（ｍａｘ＿ｌｄａ＿ｄｉｍ）という２つの次元数を有している。ここで、「次元数」とは、判別器の数を表し、たとえば、特徴量の数に相当させる。また、上記した２つの次元数（最小ＬＤＡ次元数および最大ＬＤＡ次元数）としては、処理時間と精度との兼ね合いから導出した値（経験値）を用いることができる。

そして、アダブースト処理部３１１ａによって選択された判別器の個数（ｓ）が最小ＬＤＡ次元数（ｍｉｎ＿ｌｄａ＿ｄｉｍ）以上となると、ＬＤＡによって集約判別器候補３１３ｃを導出する。そして、集約判別器候補３１３ｃの導出処理を、判別器の個数（ｓ）が最大ＬＤＡ次元数（ｍａｘ＿ｌｄａ＿ｄｉｍ）と等しくなるまで繰り返す。

たとえば、最小ＬＤＡ次元数（ｍｉｎ＿ｌｄａ＿ｄｉｍ）が２であり、最大ＬＤＡ次元数（ｍａｘ＿ｌｄａ＿ｄｉｍ）が５である場合には、２個の判別器を集約した集約判別器候補３１３ｃ、３個の判別器を集約した集約判別器候補３１３ｃ、４個の判別器を集約した集約判別器候補３１３ｃ、５個の判別器を集約した集約判別器候補３１３ｃをそれぞれ導出し、導出した集約判別器候補３１３ｃの中から１つの集約判別器３１３ｄを選択する。

ここで、集約判別器導出部３１１ｂが行う集約判別器候補算出処理の概要について図１４を用いて説明しておく。図１４は、集約判別器候補を算出する処理を示す図である。なお、同図では、最小ＬＤＡ次元数（ｍｉｎ＿ｌｄａ＿ｄｉｍ）が４であり、最大ＬＤＡ次元数（ｍａｘ＿ｌｄａ＿ｄｉｍ）が２０である場合について示している。

集約判別器導出部３１１ｂは、アダブースト処理部３１１ａによって選択された判別器の個数（ｓ）が４、すなわち、最小ＬＤＡ次元数（ｍｉｎ＿ｌｄａ＿ｄｉｍ）と等しくなると、クラスＡ（姿画像サンプル３１３ａ）およびクラスＢ（非姿画像サンプル３１３ｂ）を用いてＬＤＡによる判別分析を行う。このようにして、ｓが４である場合の集約判別器の候補ｋ_ｔ４（ｘ）を算出する。そして、同様の処理をｓが２０、すなわち、最大ＬＤＡ次元数（ｍａｘ＿ｌｄａ＿ｄｉｍ）と等しくなるまで繰り返す。

ここで、図１４に示した各オフセット値（ｏｆｆｓｅｔ_ｔｓ）の算出手順について図１５を用いて説明しておく。図１５は、集約判別器候補３１３ｃのオフセットを算出する処理を示す図である。なお、同図に示すグラフ１８１ａ、１８２ａおよび１８３ａは、クラスＡ（姿画像サンプル３１３ａ）の確率密度分布をあらわすグラフを、同図に示すグラフ１８１ｂ、１８２ｂおよび１８３ｂは、クラスＢ（非姿画像サンプル３１３ｂ）の確率密度分布をあらわすグラフを、それぞれ示している。また、同図に示した横軸は各集約判別器候補（ｋ_ｓ）の値を、同図に示した縦軸は確率密度を、それぞれあらわしている。

図１５に示したように、ｏｆｆｓｅｔ_ｔ４は、クラスＡのグラフ１８１ａとクラスＢのグラフ１８１ｂとが、交差する点に対応する横軸値として算出される。すなわち、ｏｆｆｓｅｔ_ｔ４は、姿画像を非姿画像と誤認識した確率と非姿画像を姿画像と誤認識した確率とが等しいように調整される。また、誤り率ε_ｔ４は、同図に示した斜線部の面積として算出される。

なお、図１５に示したように、ＬＤＡ次元数（ｓ）の変化にともなって、ｏｆｆｓｅｔ_ｔｓの値も変化する。このため、集約判別器導出部３１１ｂは、ＬＤＡ次元数（ｓ）ごとにｏｆｆｓｅｔ_ｔｓをそれぞれ算出する。

集約判別器導出部３１１ｂは、図１４および図１５に示した処理を行うことで、各集約判別器の候補ｋ_ｔｓ（ｘ）を、それぞれ算出する。つづいて、集約判別器導出部３１１ｂは、算出した集約判別器候補３１３ｃの各集約判別器候補ｋ_ｔｓ（ｘ）の中から１つを選択し、集約判別器Ｋ_ｔｓとして記憶部３１３へ記憶する処理を行う。具体的には、集約判別器候補ｋ_ｔｓ（ｘ）のｎを記憶する。ここで、かかる選択処理の一例について図１６を用いて説明しておく。

図１６は、集約判別器選択の一例を示す図である。なお、同図には、最小ＬＤＡ次元数（ｍｉｎ＿ｌｄａ＿ｄｉｍ）から最大ＬＤＡ次元数（ｍａｘ＿ｌｄａ＿ｄｉｍ）までの間で１回だけＬＤＡ関数を実行させると仮定した場合におけるスキャン総面積（クラスＢなどのサンプル画像に対するスキャン総面積）の変化をあらわすグラフ１９１を示している。また、同図では、グラフ１９１が、ＬＤＡ次元数（ｓ）が６のときに最小値１９２をとる場合について例示している。

たとえば、ＬＤＡ関数を実行させるＬＤＡ次元数（ｓ）をｎとすると、スキャン総面積は、ｎ×画像面積＋（ｍａｘ＿ｌｄａ＿ｄｉｍ−ｎ）×（ｎ回の全面スキャンで排除できなかったエリアの面積）となる。このようにして算出されたスキャン総面積とｎとの関係は、たとえば、グラフ１９１のようになる。

ここで、図１６では、ＬＤＡ次元数（ｓ）が６の場合に最小値１９２をとる場合について示したが、集約カウンタｔが変化すると、スキャン総面積が最小となる次元数も変化する。このため、集約判別器導出部３１１ｂは、集約カウンタｔに対応する集約判別器候補３１３ｃを用いて図１６に示した判定処理を行い、スキャン総面積が最小となるＬＤＡ次元数（ｓ）の候補ｋ_ｔｓを、集約判別器Ｋ_ｔとして選択する。

なお、図１６では、スキャン総面積が最小となるＬＤＡ次元数（ｓ）を有する候補ｋ_ｔｓを、集約判別器Ｋ_ｔとして選択する場合について示したが、ＬＤＡ次元数（ｓ）を固定することとしてもよい。このようにすることで、ＬＤＡ処理の処理負荷が集約カウンタｔによって変化しないので、並列処理が可能となる。したがって、処理時間の短縮を図ることができる。

図１２の説明に戻り、集約重み係数決定部３１１ｃについて説明する。集約重み係数決定部３１１ｃは、集約判別器導出部３１１ｂが集約判別器Ｋ_ｔを導出した場合に、集約判別器Ｋ_ｔに対する重み係数（集約重み係数α_ｔ）を決定し、集約重み係数３１３ｅとして記憶部３１３へ記憶させる処理を行う処理部である。なお、集約重み係数α_ｔは、上記した式（６−２）を用いて算出される。

サンプル重み更新部３１１ｄは、集約判別器導出部３１１ｂによって導出された集約判別器Ｋ_ｔおよび集約重み係数決定部３１１ｃによって決定された集約重み係数α_ｔに基づいて次回の集約における各学習サンプル重みＬ_ｔ＋１を更新する処理（式（６−３）参照）を行う処理部である。また、サンプル重み更新部３１１ｄは、学習サンプル重みＬ_ｔを、アダブースト処理部３１１ａが用いる学習サンプル重みＤ_ｓへコピーする処理を行う処理部でもある。

このようにして、集約カウンタｔをカウントアップしながら、集約カウンタｔに対応する集約判別器３１３ｄおよび集約重み係数３１３ｅが記憶部３１３へ記憶されていく。そして、最終判別器決定部３１１ｅは、集約判別器３１３ｄ（Ｋ_ｔ）および集約重み係数３１３ｅ（α_ｔ）を用いた最終判別器Ｆの正答率が所定値以上となったことを条件として集約カウンタｔを用いたループを終了する。なお、最終判別器決定部３１１ｅは、集約対象とする２値化判別器（ｈ_ｓ）がない場合にもかかるループを終了する。

また、最終判別器決定部３１１ｅは、ループ終了時における最終判別器Ｆを学習情報３１３ｆとして記憶部３１３へ記憶する。すなわち、学習情報３１３ｆには、Ｓｏｂｅｌ−Ｈａａｒ用判別器、Ｇａｂｏｒ用判別器およびＳｏｂｅｌ用判別器がそれぞれ記憶されることとなる。なお、かかる学習情報３１３ｆは、図２および３に示した姿検出装置１０の記憶部１１にも記憶されることとなる。

ここで、制御部３１１によって行われる集約判別器導出処理についてまとめておく。図１７は、集約判別器Ｋ_ｔを導出する処理を示す図である。同図に示したように、制御部３１１は、ＬＤＡ候補（集約判別器候補）ｋ_ｔ抽出を行い（図１７の（Ａ）参照）、学習１回目の集約判別器Ｋ_１を決定する（図１７の（Ｂ）参照）。

そして、集約判別器Ｋ_１を決定したならば、つづいて、集約判別器Ｋ_２の決定処理を開始し（図１７の（Ｃ）参照）、集約判別器Ｋ_２を決定する（図１７の（Ｄ）参照）。同様にして、集約判別器Ｋ_ｔの決定処理を開始し（図１７の（Ｅ）参照）、集約判別器Ｋ_ｔを決定する。なお、図１７では、集約判別器Ｋ_１のＬＤＡ次元数が４で、集約判別器Ｋ_２のＬＤＡ次元数が５である場合について示しているが、このように、後続のＫになるほどＬＤＡ次元数が増加するとは限らない。

図１２の説明に戻り、記憶部３１３について説明する。記憶部３１３は、不揮発性メモリやハードディスクドライブといった記憶デバイスで構成される記憶部であり、姿画像サンプル３１３ａと、非姿画像サンプル３１３ｂと、集約判別器候補３１３ｃと、集約判別器３１３ｄと、集約重み係数３１３ｅと、学習情報３１３ｆとを記憶する。なお、記憶部３１３に記憶される各情報については、制御部３１１の説明において既に説明したので、ここでの説明は省略する。

次に、ＬＤＡＡｒｒａｙ演算部３００が実行する処理手順について図１８を用いて説明する。図１８は、ＬＤＡＡｒｒａｙ演算部３００が実行する処理手順を示すフローチャートである。同図に示すように、最小ＬＤＡ次元（ｍｉｎ＿ｌｄａ＿ｄｉｍ）および最大ＬＤＡ次元（ｍａｘ＿ｌｄａ＿ｄｉｍ）を設定し（ステップＳ３０１）、集約カウンタ（ｔ）を１とするとともに（ステップＳ３０２）、アダブーストカウンタ（ｓ）を１とする（ステップＳ３０３）。なお、集約カウンタ（ｔ）およびアダブーストカウンタ（ｓ）を用いて図１７における判別器ｆをあらわすと、ｆ_ｔ−ｓとなる。

そして、アダブースト処理部３１１ａは、最良判別器（ｈ_ｓ）を選択し（ステップＳ３０４）、ステップＳ３０４で選択された最良判別器（ｈ_ｓ）の重み係数（α_ｓ）を算出するとともに（ステップＳ３０５）、各サンプルに対するサンプル重み（Ｄ_ｓ）を更新する（ステップＳ３０６）。なお、このアダブースト処理の処理内容は、一般的に広く知られているものを使用することができるため、ここでの詳細説明は割愛する。

つづいて、集約判別器導出部３１１ｂは、アダブーストカウンタ（ｓ）が最小ＬＤＡ次元数（ｍｉｎ＿ｌｄａ＿ｄｉｍ）以上であるか否かを判定し（ステップＳ３０７）、アダブーストカウンタ（ｓ）が最小ＬＤＡ次元数（ｍｉｎ＿ｌｄａ＿ｄｉｍ）未満である場合には（ステップＳ３０７，Ｎｏ）、アダブーストカウンタ（ｓ）をカウントアップし（ステップＳ３１０）、ステップＳ３０４以降の処理を繰り返す。

一方、アダブーストカウンタ（ｓ）が最小ＬＤＡ次元数（ｍｉｎ＿ｌｄａ＿ｄｉｍ）以上である場合には（ステップＳ３０７，Ｙｅｓ）、未２値化判別器（ｆ_１〜ｆ_ｓ）についてＬＤＡを行い、集約判別器候補（ｋ_ｓ）を算出する（ステップＳ３０８）。

つづいて、アダブーストカウンタ（ｓ）が最大ＬＤＡ次元数（ｍａｘ＿ｌｄａ＿ｄｉｍ）と等しいか否かを判定し（ステップＳ３０９）、アダブーストカウンタ（ｓ）が最大ＬＤＡ次元数（ｍａｘ＿ｌｄａ＿ｄｉｍ）と等しくない場合には（ステップＳ３０９，Ｎｏ）、アダブーストカウンタ（ｓ）をカウントアップし（ステップＳ３１０）、ステップＳ３０４以降の処理を繰り返す。

一方、アダブーストカウンタ（ｓ）が最大ＬＤＡ次元数（ｍａｘ＿ｌｄａ＿ｄｉｍ）と等しい場合には（ステップＳ３０９，Ｙｅｓ）、集約判別器（Ｋ_ｔ）を決定する処理を行う（ステップＳ３１１）。なお、ステップＳ３１１の詳細な処理手順については、図１９を用いて後述することとする。

つづいて、集約重み係数決定部３１１ｃは、集約判別器（Ｋ_ｔ）の重み係数（α_ｔ）を決定し（ステップＳ３１２）、サンプル重み更新部３１１ｄは、サンプル重み（Ｌ_ｔ）を更新する（ステップＳ３１３）。そして、最終判別器決定部３１１ｅは、最終判別器（Ｆ）による判別結果に基づいてクラスＡとクラスＢとの分離が十分であるか、または、未集約判別器がないか、のいずれかの条件を満たすか否かを判定する（ステップＳ３１４）。

そして、ステップＳ３１４の判定条件を満たした場合には（ステップＳ３１４，Ｙｅｓ）、最終判別器（Ｆ）を決定して処理を終了する。一方、ステップＳ３１４の判定条件を満たさなかった場合には（ステップＳ３１４，Ｎｏ）、集約判別器導出部３１１ｂが用いるサンプル重み（Ｌ_ｔ）をアダブースト処理部３１１ａが用いるサンプル重み（Ｄ_ｓ）へコピーする（ステップＳ３１５）。そして、集約カウンタ（ｔ）をカウントアップし（ステップＳ３１６）、ステップＳ３０３以降の処理を繰り返す。

次に、図１８のステップＳ３１１に示した集約判別器決定処理の詳細な処理手順について図１９を用いて説明する。図１９は、集約判別器決定処理の処理手順を示すフローチャートである。同図に示すように、集約判別器導出部３１１ｂは、ＬＤＡ次元数（ｓ）の初期値を最小ＬＤＡ次元数（ｍｉｎ＿ｌｄａ＿ｄｉｍ）とし（ステップＳ４０１）、全面スキャン総面積（ｓ×全面積）を算出する（ステップＳ４０２）。

つづいて、ｓ回の全面スキャンで排除できなかったエリアの面積を残存面積としたうえで（ステップＳ４０３）、部分スキャン総面積（（ｍａｘ＿ｌｄａ＿ｄｉｍ−ｓ）×残存面積）を算出する（ステップＳ４０４）。そして、総スキャン面積（全面スキャン総面積＋部分スキャン総面積）を算出する（ステップＳ４０５）。

つづいて、ｓが最大ＬＤＡ次元数（ｍａｘ＿ｌｄａ＿ｄｉｍ）と等しいか否かを判定し（ステップＳ４０６）、ｓが最大ＬＤＡ次元数（ｍａｘ＿ｌｄａ＿ｄｉｍ）と等しくない場合には（ステップＳ４０６，Ｎｏ）、ｓをカウントアップしたうえで（ステップＳ４０７）、ステップＳ４０２以降の処理を繰り返す。一方、ｓが最大ＬＤＡ次元数（ｍａｘ＿ｌｄａ＿ｄｉｍ）と等しい場合には（ステップＳ４０６，Ｙｅｓ）、総スキャン面積が最も小さいＬＤＡ次元数（ｓ）に対応する集約判別器候補（ｋ_ｓ）を集約判別器（Ｋ_ｔ）とし（ステップＳ４０８）、処理を終了する。

このようにＬＤＡＡｒｒａｙ法によれば、アダブースト手法における判断分岐による演算量増大という問題を回避するとともに、リアルブースト手法のように大きなメモリを必要とすることなく識別精度を向上させることができる。そして、図１４に示した式ｋ_ｔｓのうち決定された式Ｋ_ｔｓが学習情報３１３ｆとして記憶される。

以上のように、本発明に係る被写体検出方法および被写体検出装置は、所定の画像から特定の被写体を検出する処理を高速に行いたい場合に有用であり、特に、背景画像から人物画像を検出する処理に適している。

１０姿検出装置
１１記憶部
１１ａＳｏｂｅｌ−Ｈａａｒ用学習情報
１１ｂＧａｂｏｒ用学習情報
１１ｃＳｏｂｅｌ用学習情報
１１ｄ最終照合値算出用学習情報
１２演算部
１２ａＳｏｂｅｌ−Ｈａａｒ特徴量抽出部
１２ｂマスク画像生成部
１２ｃ候補エリア抽出部
１２ｄＧａｂｏｒ特徴量抽出部
１２ｅＳｏｂｅｌ特徴量抽出部
１２ｆ最終判定部
１００，３００ＬＤＡＡｒｒａｙ演算部
３１１制御部
３１１ａアダブースト処理部
３１１ｂ集約判別器導出部
３１１ｃ集約重み係数決定部
３１１ｄサンプル重み更新部
３１１ｅ最終判別器決定部
３１２ａ姿画像特徴量抽出部
３１２ｂ非姿画像特徴量抽出部
３１３記憶部
３１３ａ姿画像サンプル
３１３ｂ非姿画像サンプル
３１３ｃ集約判別器候補
３１３ｄ集約判別器
３１３ｅ集約重み係数
３１３ｆ学習情報

Claims

メモリに展開された入力画像から所定の被写体を検出する被写体検出方法であって、
前記入力画像から所定の特徴量を取得する第１の特徴量取得工程と、
前記第１の特徴量取得工程によって取得された特徴量に基づいて前記入力画像内における前記被写体の存在確率の分布を示す確率分布画像を生成する第１の確率分布画像生成工程と、
前記第１の確率分布画像生成工程によって生成された前記確率分布画像から前記被写体が存在する可能性のある候補エリアを抽出する候補エリア抽出工程と、
前記入力画像から前記所定の特徴量とは種類が異なる複数種類の特徴量をそれぞれ取得する第２の特徴量取得工程と、
前記第２の特徴量取得工程によって取得された特徴量の種類ごとに、前記候補エリア内における前記被写体の存在確率の分布を示す確率分布画像をそれぞれ生成する第２の確率分布画像生成工程と、
前記第１の確率分布画像生成工程によって生成された確率分布画像における前記候補エリア部分および前記第２の確率分布画像生成工程によって生成された確率分布画像に基づいて前記候補エリア内に前記被写体が存在するか否かを判定する判定工程と
を含んだことを特徴とする被写体検出方法。
前記第１の確率分布画像生成工程によって生成された確率分布画像を、所定の記憶部にあらかじめ記憶された閾値と比較することによって２値のマスク画像を生成するマスク画像生成工程
をさらに含み、
前記第２の特徴量取得工程は、
前記特徴量を取得する対象となる前記入力画像内の対象領域を前記マスク画像に基づいて絞り込むことを特徴とする請求項１に記載の被写体検出方法。
前記第１の確率分布画像生成工程および前記第２の確率分布画像生成工程は、
１つの前記被写体をそれぞれ含んだ複数の被写体画像サンプルと前記被写体を含まない複数の非被写体画像サンプルとを用いて前記特徴量の種類ごとに予め取得された学習情報に基づいて前記確率分布画像を生成するとともに、生成した確率分布画像を所定の記憶部に記憶することを特徴とする請求項１または２に記載の被写体検出方法。
前記第１の確率分布画像生成工程および前記第２の確率分布画像生成工程は、
前記被写体画像サンプルおよび前記非被写体画像サンプルのサイズをあらわすサンプル枠の位置を前記入力画像上で所定画素ずつずらしていくことで、前記サンプル枠における前記被写体の存在確率を各画素値とする前記確率分布画像を生成することを特徴とする請求項３に記載の被写体検出方法。
前記第１の確率分布画像生成工程および前記第２の確率分布画像生成工程は、
ＬＤＡＡｒｒａｙ法を用いて前記確率分布画像を生成することを特徴とする請求項１〜４のいずれか一つに記載の被写体検出方法。
前記判定工程は、
前記候補エリア内における最大値および平均値を前記確率分布画像ごとに算出し、算出された前記最大値および前記平均値を用いた線形判別分析によって当該候補エリア内に前記被写体が存在するか否かを判定することを特徴とする請求項１〜５のいずれか一つに記載の被写体検出方法。
前記判定工程は、
各候補エリア内に前記被写体が存在するか否かを所定の順序で判定することを特徴とする請求項１〜６のいずれか一つに記載の被写体検出方法。
前記候補エリア抽出工程は、
前記第１の確率分布画像生成工程によって生成された確率分布画像の各画素における画素値に基づき、前記候補エリアの順位付けを所定の順位まで行い、
前記判定工程は、
順位が高い前記候補エリアから順に当該候補エリア内に前記被写体が存在するか否かを判定することを特徴とする請求項７に記載の被写体検出方法。
前記入力画像を拡大または縮小することで当該入力画像のサイズを変更するサイズ変更工程
をさらに含み、
前記第１の特徴量取得工程以降の各工程は、
前記サイズ変更工程によるサイズ変更後の前記入力画像を取り扱い、
前記判定工程は、
前記候補エリア内に前記被写体が存在するか否かを複数の前記サイズごとにそれぞれ判定することを特徴とする請求項１〜８のいずれか一つに記載の被写体検出方法。
前記第１の特徴量取得工程によって取得される特徴量は、
Ｓｏｂｅｌ特徴量とＨａａｒ特徴量との積をあらわすＳｏｂｅｌ−Ｈａａｒ特徴量であり、
前記第２の特徴量取得工程によって取得される特徴量は、
それぞれＧａｂｏｌ特徴量およびＳｏｂｅｌ特徴量である
ことを特徴とする請求項１〜９のいずれか一つに記載の被写体検出方法。
メモリに展開された入力画像から所定の被写体を検出する被写体検出装置であって、
前記入力画像から所定の特徴量を取得する第１の特徴量取得手段と、
前記第１の特徴量取得手段によって取得された特徴量に基づいて前記入力画像内における前記被写体の存在確率の分布を示す確率分布画像を生成する第１の確率分布画像生成手段と、
第１の確率分布画像生成手段によって生成された前記確率分布画像から前記被写体が存在する可能性のある候補エリアを抽出する候補エリア抽出手段と、
前記入力画像から前記所定の特徴量とは種類が異なる複数種類の特徴量をそれぞれ取得する第２の特徴量取得手段と、
前記第２の特徴量取得手段によって取得された特徴量の種類ごとに、前記候補エリア内における前記被写体の存在確率の分布を示す確率分布画像をそれぞれ生成する第２の確率分布画像生成手段と、
前記第１の確率分布画像生成手段によって生成された確率分布画像における前記候補エリア部分および前記第２の確率分布画像生成手段によって生成された確率分布画像に基づいて前記候補エリア内に前記被写体が存在するか否かを判定する判定手段と
を備えたことを特徴とする被写体検出装置。