JP2010061415A

JP2010061415A - 学習装置および方法、認識装置および方法、並びにプログラム

Info

Publication number: JP2010061415A
Application number: JP2008226690A
Authority: JP
Inventors: Jun Yokono; 順横野; Yuichi Hasegawa; 雄一長谷川
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2008-09-04
Filing date: 2008-09-04
Publication date: 2010-03-18
Anticipated expiration: 2028-09-04
Also published as: US8396817B2; US20100055654A1; JP4623387B2; CN101667263A

Abstract

【課題】画像からより確実に対象物体を検出できるようにする。
【解決手段】仮統合識別器生成部２７は、統計学習により求められた、複数の弱識別器からなり、画像から対象物体を検出するための服装識別器および輪郭識別器を統合して、仮の識別器である仮統合識別器を生成する。統合識別器生成部２８は、仮統合識別器を構成するいくつかの弱識別器を選択し、選択した弱識別器の線形和を特徴関数とする。さらに、統合識別器生成部２８は、生成された任意の数の特徴関数のそれぞれに、特徴量を代入して得られた値のそれぞれを、新たな特徴量とし、それらの新たな特徴量を用いた統計学習により、画像から対象物体を検出するための最終的な統合識別器を生成する。本発明は、学習装置に適用することができる。
【選択図】図１

Description

本発明は学習装置および方法、認識装置および方法、並びにプログラムに関し、特に、画像からより確実に対象物体を検出できるようにした学習装置および方法、認識装置および方法、並びにプログラムに関する。

従来、ブースティング（Boosting）による統計学習は、有効な機械学習の方法として様々な画像認識タスクに用いられてきた。例えば、そのような機械学習の方法としてAdaBoostと呼ばれる統計的な機械学習方法が知られている（例えば、非特許文献１参照）。

AdaBoostでは、検出しようとする対象物体の含まれる学習画像と、対象物体の含まれていない学習画像とがサンプルとして用いられて弱識別器（Weak Learnerとも称される）が生成され、多数の弱識別器が組み合わされて強い識別器が構築される。このようにして得られた強い識別器を用いれば、任意の画像から対象物体を検出することができるようになる。

Y. Freund, R. Schapire,"Experiments with a new boosting algorithm".IEEE Int. Conf. On Machine Learning, pp.148-156, 1996

しかしながら、上述した技術では、特に、機械学習に用いるサンプル（学習画像）の数が少ない場合、過学習（Over fitting）が生じてしまうことが知られており、画像からの対象物体の検出精度を向上させることは困難であった。

すなわち、過学習されて得られた識別器は、画像から、サンプルとしての学習画像に含まれていた対象物体によく似た対象物体を精度よく検出することはできるが、学習画像に含まれていた対象物体とはあまり似ていない対象物体（以下、非類似対象物体と称する）に対する検出精度は低いものとなってしまう。ここで、対象物体が似ているとは、対象物体を検出するときに用いられる特徴量、例えば、対象物体自体の形状、模様、色彩や、画像上における対象物体の観察方向が類似していることをいう。また、非類似対象物体とは、検出されるべき対象物体ではあるが、学習画像の対象物体とはあまり類似していない対象物体をいう。

したがって、検出の対象となる画像が、非類似対象物体の含まれる画像であるときには、本来検出されるべき対象物体が画像中に含まれているにも係らず、その非類似対象物体が画像から検出されず、誤検出が生じてしまう恐れがある。

本発明は、このような状況に鑑みてなされたものであり、画像からより確実に対象物体を検出することができるようにするものである。

本発明の第１の側面の学習装置は、認識対象の対象物体が含まれている学習画像と、前記対象物体が含まれていない学習画像とからなる複数の学習画像について、前記学習画像上の特徴点における特徴量を抽出する特徴量抽出手段と、前記学習画像と、前記学習画像から得られた前記特徴量とを用いた統計学習により、複数の弱識別器からなり、画像から前記対象物体を検出するための識別器である仮識別器を生成する仮識別器生成手段と、前記仮識別器を構成する前記弱識別器からなる特徴関数に、前記特徴量を代入して得られた値を新たな特徴量として、前記新たな特徴量および前記学習画像を用いた統計学習により、複数の弱識別器からなり、画像から前記対象物体を検出するための最終的な識別器を生成する識別器生成手段とを備える。

前記識別器生成手段には、前記仮識別器を構成する複数の前記弱識別器のうちの任意のいくつかの前記弱識別器の線形和を前記特徴関数とさせることができる。

前記識別器生成手段には、任意の複数の前記特徴関数のそれぞれを用いて、前記新たな前記特徴量のそれぞれを生成させ、前記特徴関数を構成する前記弱識別器の数は、前記特徴関数ごとに異なるようにすることができる。

本発明の第１の側面の学習方法またはプログラムは、認識対象の対象物体が含まれている学習画像と、前記対象物体が含まれていない学習画像とからなる複数の学習画像について、前記学習画像上の特徴点における特徴量を抽出し、前記学習画像と、前記学習画像から得られた前記特徴量とを用いた統計学習により、複数の弱識別器からなり、画像から前記対象物体を検出するための識別器である仮識別器を生成し、前記仮識別器を構成する前記弱識別器からなる特徴関数に、前記特徴量を代入して得られた値を新たな特徴量として、前記新たな特徴量および前記学習画像を用いた統計学習により、複数の弱識別器からなり、画像から前記対象物体を検出するための最終的な識別器を生成するステップを含む。

本発明の第１の側面においては、像とからなる複数の学習画像について、前記学習画像上の特徴点における特徴量が抽出され、前記学習画像と、前記学習画像から得られた前記特徴量とを用いた統計学習により、複数の弱識別器からなり、画像から前記対象物体を検出するための識別器である仮識別器が生成され、前記仮識別器を構成する前記弱識別器からなる特徴関数に、前記特徴量を代入して得られた値を新たな特徴量として、前記新たな特徴量および前記学習画像を用いた統計学習により、複数の弱識別器からなり、画像から前記対象物体を検出するための最終的な識別器が生成される。

本発明の第２の側面の認識装置は、入力画像上の特徴点における特徴量を抽出する特徴量抽出手段と、認識対象の対象物体が含まれている学習画像と、前記対象物体が含まれていない学習画像とからなる複数の前記学習画像が用いられて生成された、画像から前記対象物体を検出するための識別器に、前記特徴量を代入して演算を行うことにより、前記入力画像から前記対象物体を検出する検出手段とを備え、前記識別器は、前記学習画像と、前記学習画像上の特徴点における特徴量とを用いた統計学習により、複数の弱識別器からなり、画像から前記対象物体を検出するための仮の識別器である仮識別器を生成し、前記仮識別器を構成する前記弱識別器からなる特徴関数に、前記学習画像から得られた前記特徴量を代入して得られた値を新たな特徴量として、前記新たな特徴量および前記学習画像を用いて統計学習することにより生成される。

本発明の第２の側面の認識方法またはプログラムは、入力画像上の特徴点における特徴量を抽出し、認識対象の対象物体が含まれている学習画像と、前記対象物体が含まれていない学習画像とからなる複数の前記学習画像が用いられて生成された、画像から前記対象物体を検出するための識別器に、前記特徴量を代入して演算を行うことにより、前記入力画像から前記対象物体を検出するステップを含み、前記識別器は、前記学習画像と、前記学習画像上の特徴点における特徴量とを用いた統計学習により、複数の弱識別器からなり、画像から前記対象物体を検出するための仮の識別器である仮識別器を生成し、前記仮識別器を構成する前記弱識別器からなる特徴関数に、前記学習画像から得られた前記特徴量を代入して得られた値を新たな特徴量として、前記新たな特徴量および前記学習画像を用いて統計学習することにより生成される。

本発明の第２の側面においては、入力画像上の特徴点における特徴量が抽出され、認識対象の対象物体が含まれている学習画像と、前記対象物体が含まれていない学習画像とからなる複数の前記学習画像が用いられて生成された、画像から前記対象物体を検出するための識別器に、前記特徴量を代入して演算を行うことにより、前記入力画像から前記対象物体が検出される。

本発明の第１の側面によれば、画像からより確実に対象物体を検出することができる識別器を提供することができる。

また、本発明の第２の側面によれば、画像からより確実に対象物体を検出することができる。

以下、図面を参照して、本発明を適用した実施の形態について説明する。

図１は、本発明を適用した人識別システムの一実施の形態の構成例を示すブロック図である。この人識別システムは、学習装置１１、識別器記録部１２、および認識装置１３からなり、入力された画像から、対象物体として人間の画像のある領域を検出（識別）するものである。

学習装置１１は、入力された学習画像に基づいて、認識装置１３において画像上における対象物体の有無を識別する処理を行うときに用いられる、識別用特徴量および統合識別器を統計的な学習（機械学習）により生成し、識別器記録部１２に記録させる。認識装置１３は、識別器記録部１２に記録されている識別用特徴量および統合識別器を用いて、入力された入力画像に対象物体である人の画像が存在するか否かを識別し、その識別結果を出力する。

学習装置１１は、服装特徴点抽出部２１、服装特徴量計算部２２、服装識別器生成部２３、輪郭特徴点抽出部２４、輪郭特徴量計算部２５、輪郭識別器生成部２６、仮統合識別器生成部２７、および統合識別器生成部２８から構成される。

服装特徴点抽出部２１は、入力された学習画像から、その学習画像の画素のいくつかを服装識別器を生成するときに用いられる服装特徴点として抽出し、抽出した服装特徴点と学習画像とを服装特徴量計算部２２に供給する。ここで、服装識別器とは、統計学習により生成された、複数の弱識別器からなる比較的強い識別器であり、人の服装の特徴を利用して、入力された画像中に人の画像の領域が存在するか否かを識別するときに用いられる。

服装特徴量計算部２２は、服装特徴点抽出部２１からの各服装特徴点について、その服装特徴点と、他の服装特徴点とを１つのペアとするペアリングを行う。また、服装特徴量計算部２２は、服装特徴点抽出部２１からの学習画像に基づいて、服装特徴点のペアごとに、服装特徴点を含む２つの領域のテクスチャの距離を示す服装特徴量を計算し、求められた服装特徴量と学習画像とを服装識別器生成部２３に供給する。

服装識別器生成部２３は、服装特徴量計算部２２から供給された学習画像および服装特徴量に基づいて、例えばAdaboostによる統計学習処理を行い、画像中における対象物体である人を認識する服装識別器を生成する。また、服装識別器生成部２３は、学習画像、服装特徴量、および生成した服装識別器を仮統合識別器生成部２７に供給する。

輪郭特徴点抽出部２４は、入力された学習画像から、その学習画像の画素のいくつかを輪郭識別器を生成するときに用いられる輪郭特徴点として抽出し、抽出した輪郭特徴点と学習画像とを輪郭特徴量計算部２５に供給する。ここで、輪郭識別器とは、統計学習により生成された、複数の弱識別器からなる比較的強い識別器であり、人の輪郭を利用して、入力された画像中に人の画像の領域が存在するか否かを識別するときに用いられる。

輪郭特徴量計算部２５は、輪郭特徴点抽出部２４からの学習画像に基づいて、例えばステアラブルフィルタ（Steerable Filter）を用いたフィルタ処理により、輪郭特徴点ごとに、抽出された輪郭を示す輪郭特徴量を計算し、求められた輪郭特徴量と学習画像とを輪郭識別器生成部２６に供給する。輪郭識別器生成部２６は、輪郭特徴量計算部２５から供給された学習画像および輪郭特徴量に基づいて、例えばAdaboostによる統計学習処理を行い、画像中における対象物体である人を認識する輪郭識別器を生成する。また、輪郭識別器生成部２６は、学習画像、輪郭特徴量、および生成した輪郭識別器を仮統合識別器生成部２７に供給する。

仮統合識別器生成部２７は、服装識別器生成部２３からの服装識別器と、輪郭識別器生成部２６からの輪郭識別器とを統合して、仮の統合識別器である仮統合識別器を生成し、生成した仮統合識別器、服装特徴量、輪郭特徴量、および学習画像を統合識別器生成部２８に供給する。

統合識別器生成部２８は、仮統合識別器生成部２７から供給された仮統合識別器を構成するいくつかの弱識別器、つまり服装識別器または輪郭識別器を構成する弱識別器を任意に選択し、選択した弱識別器からなる関数である特徴関数を生成する。また、統合識別器生成部２８は、生成した特徴関数に、仮統合識別器生成部２７から供給された服装特徴量または輪郭特徴量を代入して得られる値を学習画像の新たな特徴量として、例えば、Adaboostによる統計学習処理を行い、最終的な統合識別器を生成する。

統合識別器生成部２８は、生成した統合識別器を識別器記録部１２に供給して記録させる。また、統合識別器生成部２８は、統合識別器を用いて対象物体の認識を行うときに用いられる服装特徴点のペアの服装特徴量、および輪郭特徴点の輪郭特徴量を、識別用特徴量として識別器記録部１２に供給し、記録させる。識別用特徴量は、統合識別器を構成する弱識別器に対応する服装特徴点または輪郭特徴点における、服装特徴量または輪郭特徴量であり、この識別用特徴量により、統合識別器の各弱識別器に代入される特徴量が求められるべき、画像上の特徴点が特定されることになる。

また、認識装置１３は、服装特徴点抽出部３１、服装特徴量計算部３２、輪郭特徴点抽出部３３、輪郭特徴量計算部３４、識別計算部３５、および識別結果出力部３６から構成される。なお、認識装置１３の服装特徴点抽出部３１乃至輪郭特徴量計算部３４のそれぞれは、対象物体を認識しようとする入力画像に対して、学習装置１１の服装特徴点抽出部２１、服装特徴量計算部２２、輪郭特徴点抽出部２４、および輪郭特徴量計算部２５のそれぞれと同様の処理を行うものであるので、その説明は省略する。

識別計算部３５は、識別器記録部１２に記録されている識別用特徴量および統合識別器を読み出す。また、識別計算部３５は、服装特徴量計算部３２からの服装特徴量、および輪郭特徴量計算部３４からの輪郭特徴量のうちの識別用特徴量に対応するものを、読み出した統合識別器に代入して演算を行う。識別結果出力部３６は、識別計算部３５における演算結果を取得し、その演算結果に基づいて、対象物体が入力画像で認識（検出）されたか否かの識別結果を出力する。

次に、図２を参照して、図１の輪郭特徴量計算部２５のより詳細な構成例について説明する。輪郭特徴量計算部２５は、１次フィルタ処理部６１、２次フィルタ処理部６２、３次フィルタ処理部６３、および特徴量生成部６４から構成される。また、輪郭特徴点抽出部２４からの学習画像は、１次フィルタ処理部６１乃至特徴量生成部６４に供給され、輪郭特徴点は、１次フィルタ処理部６１乃至３次フィルタ処理部６３に供給される。

１次フィルタ処理部６１は、供給された輪郭特徴点ごとに、輪郭特徴点に対してガウス関数Ｇの１次微分関数Ｇ₁によりフィルタ処理を施して特徴量を抽出し、特徴量生成部６４に供給する。ここで、ガウス関数Ｇ、および１次微分関数Ｇ₁は、次式（１）および式（２）により示される。

なお、式（１）において、σはガウス幅を示しており、また式（２）において、θは任意の角度、つまり計算したいフィルタの方向を示している。

例えば、１次フィルタ処理部６１は、ガウス関数Ｇのガウス幅σを３つの所定値（例えば、ガウス幅σ１，σ２，σ３＝１，２，４）に変化させ、ガウス幅σごとに所定の４方向（例えば、θ＝θ１，θ２，θ３，θ４）について式（２）を計算する。なお、方向θは４方向に限らず、８方向、例えばｐｉを８方向に等分したときの各方向などとしてもよい。

２次フィルタ処理部６２は、供給された輪郭特徴点ごとに、輪郭特徴点に対してガウス関数Ｇの２次微分関数Ｇ₂によりフィルタ処理を施して特徴量を抽出し、特徴量生成部６４に供給する。次式（３）は、２次微分関数Ｇ₂を示しており、式（３）においてθは任意の角度を示している。

また、式（３）における係数ｋ_2i（θ）（但し、ｉ＝１，２，３）は、次式（４）で示される関数である。

例えば、２次フィルタ処理部６２は、ガウス関数Ｇのガウス幅σを３つの所定値（例えば、ガウス幅σ１，σ２，σ３＝１，２，４）に変化させ、ガウス幅σごとに所定の４方向（例えば、θ＝θ１，θ２，θ３，θ４）について式（３）を計算する。

３次フィルタ処理部６３は、供給された輪郭特徴点ごとに、輪郭特徴点に対してガウス関数Ｇの３次微分関数Ｇ₃によりフィルタ処理を施して特徴量を抽出し、特徴量生成部６４に供給する。次式（５）は、３次微分関数Ｇ₃を示しており、式（５）においてθは任意の角度を示している。

また、式（５）における係数ｋ_3i（θ）（但し、ｉ＝１，２，３，４）は、次式（６）で示される関数である。

例えば、３次フィルタ処理部６３は、ガウス関数Ｇのガウス幅σを３つの所定値（例えば、ガウス幅σ１，σ２，σ３＝１，２，４）に変化させ、ガウス幅σごとに所定の４方向（例えば、θ＝θ１，θ２，θ３，θ４）について、式（５）を計算する。

特徴量生成部６４は、１次フィルタ処理部６１、２次フィルタ処理部６２、および３次フィルタ処理部６３のそれぞれから供給された、３種類のガウス幅σごとに、４つの方向θについて計算された各輪郭特徴点の特徴量の供給を受け、供給された合計３６個（＝３（次数）×４（方向）×３（ガウス幅））の特徴量を並べて輪郭特徴点における輪郭特徴量とする。また、特徴量生成部６４は、生成した輪郭特徴量と、供給された学習画像とを輪郭識別器生成部２６に供給する。

このように、輪郭特徴量計算部２５では、ガウス関数を微分して得られる、方向および周波数、つまり方向θおよびガウス幅σに選択性を持つフィルタ（基底関数）が用いられて、微分の次数ごとに異なる特徴量（輪郭）が抽出され、輪郭特徴量とされている。輪郭特徴量の抽出にステアラブルフィルタを用いる場合、方向θおよびガウス幅σの異なるフィルタを用意すれば、それらのフィルタの線形結合により、任意の方向θのフィルタ、つまりガウス関数Ｇの微分関数Ｇ_n（但し、ｎ＝１，２，３）を表現することができる。

次に、図３は、図１の服装識別器生成部２３のより詳細な構成例を示すブロック図である。服装識別器生成部２３は、サンプリング部１０１、重み設定部１０２、並び替え部１０３、識別器設定部１０４、識別器選択部１０５、および重み更新部１０６から構成される。服装識別器生成部２３では、服装特徴量計算部２２からの服装特徴量および学習画像は、サンプリング部１０１、識別器設定部１０４、および識別器選択部１０５に供給される。

サンプリング部１０１は、重み設定部１０２により設定される学習画像単位の重みに応じて、服装特徴点のペアごとに、複数の学習画像のそれぞれの同じ位置の服装特徴点のペアの服装特徴量から、Ｍ個の服装特徴量をサンプリングして並び替え部１０３に供給する。

並び替え部１０３は、各服装特徴点のペアについて、サンプリングされたＭ個の服装特徴量を昇べきの順、または降べきの順に並び替えて識別器設定部１０４に供給する。

識別器設定部１０４は、服装特徴量が抽出された学習画像に認識しようとする対象物体が含まれているか否かを示す正誤情報に基づいて、昇べきの順、または降べきの順に並び替えられた各ペアの服装特徴量のそれぞれについて、閾値を変化させながら誤り率計算部１０４ａを制御して、誤り率を計算させ、誤り率が最小となるように閾値を設定する（この閾値が、弱識別器として設定される）。さらに、識別器設定部１０４は、弱識別器ごとの誤り率を識別器選択部１０５に供給する。

なお、より詳細には、学習画像には、その学習画像に対象物体が含まれているか否かを示す正誤情報（ラベル）が付加されており、識別器設定部１０４は、服装特徴量計算部２２から供給された学習画像に付加されている正誤情報に基づいて、弱識別器の設定を行う。

識別器選択部１０５は、設定された弱識別器のうち、誤り率が最小となる弱識別器を選択して、弱識別器からなる服装識別器を更新し、学習画像、最終的な服装識別器、およびその服装識別器を構成する各弱識別器に対応する服装特徴量を仮統合識別器生成部２７に供給する。さらに、識別器選択部１０５は、選択した弱識別器の誤り率に基づいて、その弱識別器の信頼度を計算し、重み更新部１０６に供給する。

重み更新部１０６は、供給された信頼度に基づいて学習画像ごとの重みを再計算するとともに、重みを正規化して更新し、更新結果を重み設定部１０２に供給する。重み設定部１０２は、重み更新部１０６より供給されてくる重みの更新結果に基づいて、学習画像単位の重みを設定する。

なお、図１の輪郭特徴量計算部３４は、図２に示した輪郭特徴量計算部２５と同様の構成とされ、図１の輪郭識別器生成部２６は、図３に示した服装識別器生成部２３と同様の構成とされるため、その図示および説明は省略する。

さらに、図１の統合識別器生成部２８は、より詳細には図４に示すように構成される。すなわち、統合識別器生成部２８は、特徴関数生成部１３１、サンプリング部１３２、重み設定部１３３、並び替え部１３４、識別器設定部１３５、識別器選択部１３６、および重み更新部１３７から構成される。なお、サンプリング部１３２乃至重み更新部１３７のそれぞれは、図３のサンプリング部１０１乃至重み更新部１０６のそれぞれと同様であるので、その説明は、適宜省略する。

特徴関数生成部１３１は、仮統合識別器生成部２７から供給された仮統合識別器に基づいて、任意の数、例えばＰ個（但し、Ｐは自然数）の特徴関数を生成し、生成した特徴関数を構成する弱識別器に、対応する服装特徴量または輪郭特徴量を代入して得られる値を、新たな特徴量とする。特徴関数生成部１３１は、各学習画像について、特徴関数ごとに求められた新たな特徴量と、仮統合識別器生成部２７からの学習画像とをサンプリング部１３２に供給する。

サンプリング部１３２乃至識別器選択部１３６は、特徴関数生成部１３１により生成された新たな特徴量と、学習画像とを用いて統計学習処理を行い、最終的な統合識別器を生成する。そして、生成された統合識別器と、識別用特徴量とされた服装特徴量および輪郭特徴量とが識別器記録部１２に供給されて記録される。

ところで、学習装置１１に学習画像が入力され、統合識別器の生成が指示されると、学習装置１１は、学習処理を開始して統計学習により統合識別器を生成する。以下、図５のフローチャートを参照して、学習装置１１による学習処理について説明する。

ステップＳ１１において、服装特徴点抽出部２１は、入力された学習画像から服装特徴点を抽出して、抽出した服装特徴点および学習画像を服装特徴量計算部２２に供給する。

ステップＳ１２において、服装特徴量計算部２２は、服装特徴点抽出部２１から供給された服装特徴点と学習画像とに基づいて、各服装特徴点について、服装特徴点のペアリングを行う。

ステップＳ１３において、服装特徴量計算部２２は、ペアリングによりペアとされた服装特徴点の各ペアについて服装特徴量を計算し、これにより得られた服装特徴量および学習画像を服装識別器生成部２３に供給する。

例えば、図６に示す学習画像が服装特徴点抽出部２１に入力された場合、服装特徴点抽出部２１は、予め定められたマージン（のりしろ）と、サンプリングスキップ数とに基づいて、学習画像から服装特徴点を抽出する。なお、図６において、学習画像上の円は、服装特徴点とされた画素を示している。

ここで、マージンとは、学習画像において、学習画像の端から服装特徴点の抽出の対象となる領域までの画素数をいう。また、サンプリングスキップ数とは、服装特徴点とされる学習画像上の画素と画素との間隔をいう。

したがって、例えばマージンが５画素であり、サンプリングスキップ数が５画素である場合、服装特徴点抽出部２１は、学習画像の端から５画素以内の位置にある画素からなる領域を学習画像から除外し、残りの領域Ｅ１１を服装特徴点の抽出の対象とする。そして、服装特徴点抽出部２１は、領域Ｅ１１内の画素のうち、互いに５画素だけ離れている位置の画素を服装特徴点として抽出する。つまり、図中、縦方向または横方向に互いに隣り合う服装特徴点間の距離は５画素とされ、各服装特徴点は、領域Ｅ１１内の画素とされる。

次に、服装特徴量計算部２２は、予め定められた最小半径および最大半径に基づいて、各服装特徴点のペアリングを行う。例えば、最小半径がＲ１１であり、最大半径がＲ１２である場合、所定の服装特徴点ＫＴ１に注目したとき、服装特徴量計算部２２は、服装特徴点ＫＴ１からの距離が、最小半径Ｒ１１以上であり、かつ最大半径Ｒ１２以内である全ての服装特徴点について、その服装特徴点と、服装特徴点ＫＴ１とを１つのペアとする。

したがって、例えば、服装特徴点ＫＴ１からの距離が、最小半径Ｒ１１以上であり、かつ最大半径Ｒ１２以内である服装特徴点がＮ個存在する場合、服装特徴点ＫＴ１について、Ｎ個の服装特徴点のペアが得られることになる。服装特徴量計算部２２は、全ての服装特徴点について、他の服装特徴点とのペアリングを行う。

さらに、服装特徴量計算部２２は、ペアリングにより得られた服装特徴点の各ペアについて、ペアとなる各服装特徴点を中心とする所定の形の所定の大きさの領域同士のテクスチャの距離を服装特徴量として計算する。

例えば、図６に示す服装特徴点ＫＴ１と服装特徴点ＫＴ２とのペアについての服装特徴量をSSD（Sum of Square Distance）により求める場合、服装特徴量計算部２２は、服装特徴点ＫＴ１を中心とする所定の領域を領域ＴＸ１とし、服装特徴点ＫＴ２を中心とする領域ＴＸ１と同じ大きさの領域を領域ＴＸ２とする。そして、服装特徴量計算部２２は、領域ＴＸ１内の画素の画素値と、その画素に対応する領域ＴＸ２内の画素の画素値との差分の自乗和を求め、求められた差分の自乗和を服装特徴量とする。

なお、服装特徴量は、SSDに限らず、SAD（Sum of Absolute Distance）や、正規化相関などとされてもよい。

このようにして、服装特徴量計算部２２は、学習画像から抽出された服装特徴点の各ペアについて、服装特徴量を求める。なお、より詳細には、学習装置１１には、対象物体が含まれているいくつかの学習画像と、対象物体が含まれていないいくつかの学習画像とからなる複数の学習画像が入力される。そして、入力された学習画像ごとに、服装特徴点の抽出および服装特徴量の計算が行われる。

したがって、例えばＭ個（但し、Ｍは自然数）の学習画像ＰＩ₁乃至学習画像ＰＩ_Mが学習装置１１に入力された場合には、図７に示すように、Ｍ個の学習画像ＰＩ_i（但し、１≦ｉ≦Ｍ）について、服装特徴点のペアごとの服装特徴量が得られる。

図７では、１つの四角形は、１つの服装特徴点のペアの服装特徴量を表している。また、図中、縦方向に並べられた四角形の列は、１つの学習画像ＰＩ_i（但し、１≦ｉ≦Ｍ）から得られた服装特徴量の列を表しており、１つの列には、その学習画像ＰＩ_iから得られた服装特徴点のペアの数だけ服装特徴量が並んでいる。つまり、１つの学習画像ＰＩ_iから得られた服装特徴点のペアの数が、その学習画像ＰＩ_iの服装特徴量（服装特徴量を要素とするベクトル）の次元数となる。

さらに、各学習画像ＰＩ_iの服装特徴量の列の図中、下側には、その学習画像ＰＩ_iに対象物体が含まれているか否かを示すラベル（正誤情報）が示されている。例えば、学習画像ＰＩ₁の服装特徴量の列の図中、下側に示されるラベル「＋１」は、学習画像ＰＩ₁に対象物体が含まれることを表しており、学習画像ＰＩ_Mの服装特徴量の列の図中、下側に示されるラベル「−１」は、学習画像ＰＩ_Mに対象物体が含まれていないことを表している。

図５のフローチャートの説明に戻り、ステップＳ１３において、服装特徴量が求められると、ステップＳ１４において、服装識別器生成部２３は、服装識別器生成処理を行って、服装識別器を生成し、服装特徴量、学習画像、および生成した服装識別器を仮統合識別器生成部２７に供給する。なお、服装識別器生成処理の詳細は後述する。

ステップＳ１５において、輪郭特徴点抽出部２４は、入力された学習画像から輪郭特徴点を抽出し、学習画像と、抽出した輪郭特徴量とを輪郭特徴量計算部２５に供給する。

例えば、輪郭特徴点抽出部２４に図８Ａに示す学習画像が入力された場合、輪郭特徴点抽出部２４は、図８Ｂに示すように、学習画像において所定の間隔で並んでいる画素を、輪郭特徴点として抽出する。なお、図８Ｂにおいて、学習画像上の円は輪郭特徴点とされた画素を表している。

図８Ａおよび図８Ｂに示す学習画像は、図中、横方向に３２画素、縦方向に６４画素からなる学習画像であり、輪郭特徴点抽出部２４は、学習画像上の画素を、横方向および縦方向に２画素おきに輪郭特徴点とする画素として選択する。これにより、学習画像において、図中、横方向に１２画素、縦方向に２８画素、合計３３６（＝１２×２８）画素が輪郭特徴点として選択される。

ステップＳ１６において、輪郭特徴量計算部２５は、輪郭特徴量計算処理を行い、輪郭特徴点抽出部２４から供給された輪郭特徴点および学習画像に基づいて、各輪郭特徴点の輪郭特徴量を計算する。求められた輪郭特徴量、および学習画像は、輪郭特徴量計算部２５から輪郭識別器生成部２６に供給される。なお、輪郭特徴量計算処理の詳細は後述する。

ステップＳ１７において、輪郭識別器生成部２６は、輪郭特徴量計算部２５から供給された学習画像および輪郭特徴量に基づいて、輪郭識別器生成処理を行い、輪郭識別器を生成する。なお、この輪郭識別器生成処理として、服装識別器生成処理と同様の処理が行われる。

ステップＳ１８において、仮統合識別器生成部２７は、服装識別器生成部２３から供給された服装識別器と、輪郭識別器生成部２６から供給された輪郭識別器とを統合して仮統合識別器を生成する。

例えば、Adaboostによる統計学習処理により得られた識別器は、弱識別器の線形結合により表現されるので、仮統合識別器生成部２７は、服装識別器と輪郭識別器とをLate Fusion方式により統合する。

すなわち、仮統合識別器生成部２７は、次式（７）を計算することで、服装識別器Ｒ（ｘ）と、輪郭識別器Ｔ（ｘ）とを線形結合して、仮統合識別器Ｕ（ｘ）を求める。

Ｕ（ｘ）＝α・Ｒ（ｘ）＋β・Ｔ（ｘ）・・・（７）

なお、式（７）において、αおよびβは所定の定数、つまりチューニングパラメータであり、例えば統計学習処理に用いられる学習画像に対する識別率などにより求められる。

仮統合識別器生成部２７は、仮統合識別器を生成すると、仮統合識別器、服装特徴量、輪郭特徴量、および学習画像を統合識別器生成部２８に供給する。

ステップＳ１９において、統合識別器生成部２８は、仮統合識別器生成部２７からの仮統合識別器、服装特徴量、輪郭特徴量、および学習画像を用いて統合識別器生成処理を行い、統合識別器を生成する。そして、統合識別器生成部２８は、生成した統合識別器と、識別用特徴量としての服装特徴量および輪郭特徴量とを、識別器記録部１２に供給して記録させ、学習処理は終了する。なお、統合識別器生成処理の詳細は後述する。

以上のようにして、学習装置１１は、服装特徴点のペアの服装特徴量を求めて服装識別器を生成するとともに、輪郭特徴量を求めて輪郭識別器を生成する。そして、学習装置１１は、服装識別器と輪郭識別器とを線形結合により統合して、仮統合識別器とし、仮統合識別器から得られる特徴量を新たな特徴量として、最終的な統合識別器を生成する。

このように、服装識別器と輪郭識別器とを統合して仮統合識別器を生成することで、画像からより確実に対象物体を検出できる統合識別器を提供することができる。すなわち、仮統合識別器は、対象物体の服装の特徴を利用した服装識別器と、対象物体の輪郭を利用した輪郭識別器とが統合されたものであるので、入力された画像から、少なくとも一方の特徴量を充分に抽出することができれば、画像から対象物体を検出することができる。

具体的には、学習装置１１では、人の服装の特徴を利用した、人の服装のパターンの変化に対して不変な服装特徴量が画像からの人の検出に用いられている。この服装特徴量は、統計的に、人が上半身（シャツ）で同じテクスチャの繰り返しのパターンであり、下半身（ズボン）で同じテクスチャの繰り返しのパターンである洋服を着用することが多いことに着目し、新たに定義された特徴量である。

つまり、服装特徴量は、画像上の任意の２つの領域のテクスチャ、すなわち輝度のパターンの似ている度合い（類似度）を示している。例えば、人の上半身の２つの領域間のテクスチャの類似度は高く、上半身と下半身や、人の服装と背景とのテクスチャの類似度は低い。学習装置１１では、このような２つの領域のテクスチャの類似度を利用して、画像から人を検出する服装識別器が生成され、統合識別器の生成に用いられる。

したがって、例えば、入力された画像から輪郭が充分に抽出できなくても、画像から２つの領域のテクスチャの類似の特徴を充分に抽出できれば、統合識別器を用いて、画像から人を検出することができる。逆に、画像中において、人の着用している洋服が繰り返しでないパターンの服であったり、バッグなどで洋服が部分的に隠れていたりする場合には、画像からテクスチャの類似の特徴を充分に抽出できない恐れがあるが、画像から輪郭を充分に抽出することができれば、統合識別器により画像から人を検出することができる。

さらに、学習装置１１では、仮統合識別器から得られる特徴関数に、服装特徴量または輪郭特徴量を代入して得られる値を新たな特徴量として定義し、最終的な統合識別器を生成することで、過学習が防止されている。

すなわち、特に、統計学習用のサンプルとされる学習画像の数が少ない場合、過学習が生じることが多いが、特徴関数から得られる値を新たな特徴量とし、統計学習に複数の特徴量を入れ込むことで、学習処理に一種のノイズが入った状態とすることができ、過学習が生じにくくなる。したがって、新たに定義された、任意の数の特徴量を用いて統計学習を行えば、サンプルとしての学習画像に含まれていた対象物体と似た対象物体だけでなく、あまり似ていない対象物体も検出できるようになり、より識別精度の高い統合識別器が得られる。

また、仮統合識別器を構成する弱識別器を任意の個数だけ組み合わせて特徴関数を生成すれば、任意の数の新たな特徴量が得られるので、認識タスクに応じたスパースな空間を構成することができ、問題を解き易くすることができる。

次に、図９のフローチャートを参照して、図５のステップＳ１４の処理に対応する、服装識別器生成処理について説明する。

ステップＳ５１において、重み設定部１０２は、例えば、図７で示される学習画像ＰＩ_i（１≦ｉ≦Ｍ）毎の重みＷｉを全て１／Ｍに初期化し、識別器選択部１０５は、カウンタｊを１に、弱識別器の和からなる服装識別器Ｒ（ｘ）を０にそれぞれ初期化する。

ここで、ｉは、図７における学習画像ＰＩ_iを識別するものであり、１≦ｉ≦Ｍである。ステップＳ５１の処理により、全ての学習画像ＰＩ_iの重みＷｉは、いずれも正規化された同一の重み（＝１／Ｍ）とされる。また、カウンタｊは、予め定められた、服装識別器Ｒ（ｘ）を更新する回数を示している。

ステップＳ５２において、サンプリング部１０１は、各服装特徴点のペアごとに、複数の学習画像ＰＩ_iのそれぞれの同じ位置の服装特徴点のペアの服装特徴量から、学習画像ＰＩ_iの重みＷｉに応じて、Ｍ個の服装特徴量を選択し、並び替え部１０３に供給する。

例えば、服装特徴量計算部２２からサンプリング部１０１に、図１０に示すように、Ｍ個の学習画像ＰＩ₁乃至学習画像ＰＩ_Mの服装特徴量が供給されたとする。図１０では、図中、横方向に学習画像ＰＩ_i（但し、１≦ｉ≦Ｍ）から得られた服装特徴量が並べられており、学習画像を表す文字ＰＩ_iの図中、左側の数字「＋１」または「−１」は、その学習画像ＰＩ_iに付加されたラベル（正誤情報）を示している。

すなわち、例えば図中、一番上側に横方向に並んでいる（Ａ₁，Ａ₂，Ａ₃，・・・，Ａ_N）は、学習画像ＰＩ₁の服装特徴点の各ペアの服装特徴量のそれぞれを表しており、学習画像ＰＩ₁を示す文字「ＰＩ₁」の図中、左側の文字「＋１」は、学習画像ＰＩ₁に対象物体が含まれている旨のラベルを表している。

また、例えば図中、上から三番目の横方向に並んでいる（Ｃ₁，Ｃ₂，Ｃ₃，・・・，Ｃ_N）は、学習画像ＰＩ₃の服装特徴点の各ペアの服装特徴量のそれぞれを表しており、文字「ＰＩ₃」の図中、左側の文字「−１」は、学習画像ＰＩ₃に対象物体が含まれていない旨のラベルを表している。

このように、図１０の例では、１つの学習画像ＰＩ_iからは、服装特徴点のＮ個のペアのそれぞれの服装特徴量が得られる。また、図１０では、縦方向に並んだＭ個の服装特徴量Ａ_k乃至服装特徴量Ｍ_k（但し、１≦ｋ≦Ｎ）が１つのグループＧｒ_kとされており、このグループＧｒ_kに属す服装特徴量は、各学習画像ＰＩ_iにおける同じ位置の服装特徴点のペアの服装特徴量とされている。

例えば、グループＧｒ₁は、縦方向に並んだ服装特徴量Ａ₁乃至服装特徴量Ｍ₁からなり、服装特徴量Ａ₁が求められる学習画像ＰＩ₁のペアとなる２つの服装特徴点と、グループＧｒ₁に属す他の服装特徴量、例えば服装特徴量Ｍ₁が求められる学習画像ＰＩ_Mのペアとなる２つの服装特徴点とは、学習画像上の同じ位置にある。なお、以下において、各学習画像ＰＩ_iにおける服装特徴点のペアであって、グループＧｒ_k（１≦ｋ≦Ｎ）に属す服装特徴量が求まめられるペアをペアｋと称する。

サンプリング部１０１に、図１０に示される学習画像ＰＩ_iごとの服装特徴量が供給された場合、サンプリング部１０１は、ペアｋごと、つまりグループＧｒ_kごとに、そのグループに属す服装特徴量から学習画像ＰＩ_iの重みＷｉに応じて、Ｍ個の服装特徴量を抽選で選択する。例えば、サンプリング部１０１は、重みＷｉに応じて、グループＧｒ₁に属す服装特徴量Ａ₁乃至服装特徴量Ｍ₁から、Ｍ個の服装特徴量を選択する。なお、最初の処理においては、いずれの重みＷｉも１／Ｍであり、等しいため、Ｍ個が抽選されると、確率的には全ての服装特徴量が選択されることになる。そのため、ここでは、最初の処理では各グループＧｒ_kにおいて、全ての服装特徴量が選択されたものとする。もちろん、実際には、同一の服装特徴量が重複して選択されることもある。

なお、重みＷｉは、服装特徴点のペアごとのエラー計算に用いることもできる。この場合、データ重み係数（重みＷｉ）がエラー値に掛け合わされてエラー計算が行われる。

ステップＳ５３において、並び替え部１０３は、Ｎ個のグループＧｒ_kのそれぞれについて、グループＧｒ_k、つまりペアｋごとに選択されたＭ個の服装特徴量を昇べきの順、または降べきの順に並び替えて、識別器設定部１０４に供給する。例えば、図１０のグループＧｒ₁に属す服装特徴量から選択された、Ｍ個の服装特徴量が順番に並び替えられる。

ステップＳ５４において、識別器設定部１０４は、服装特徴量計算部２２から供給された学習画像に付加されている正誤情報（ラベル）に基づいて、グループＧｒ_kごと、つまり服装特徴点のペアｋごとに、閾値を変化させながら誤り率計算部１０４ａを制御して誤り率ｅ_jkを計算させ、誤り率ｅ_jkが最小となるように閾値を設定する。

ここで、服装特徴点のペアｋごとの閾値ｔｈ_jkが、１個の弱識別器ｆ_jk（ｘ）となり、識別器設定部１０４は、弱識別器ｆ_jk（ｘ）ごとの誤り率ｅ_jkを識別器選択部１０５に供給する。すなわち、Ｎ個のペアｋのそれぞれに対して、Ｎ個の弱識別器ｆ_jk（ｘ）のそれぞれが設定され、Ｎ個の弱識別器ｆ_jk（ｘ）のそれぞれについて誤り率ｅ_jkが求められることになる。

なお、弱識別器ｆ_jk（ｘ）は、認識対象の画像の特徴点の領域に、認識しようとする対象物体を含む場合に、所定の値（ａ_jk＋ｂ_jk）を出力し、認識しようとする対象物体を含まない場合、所定の値ｂ_jkを出力する関数である。

例えば、図１１に示すように、ｊ＝１であって、服装特徴点のペアｋ＝１の服装特徴量がＬ₁，Ａ₁，Ｃ₁，Ｂ₁，・・・，Ｍ₁に昇べき、または、降べきの順に並べられた場合、閾値ｔｈ₁₁が服装特徴量Ａ₁とＣ₁の間に設定される。そして、閾値ｔｈ₁₁より小さい範囲では、認識しようとする対象物体がないと認識され（「ｂ₁₁」で示されている範囲）、閾値ｔｈ₁₁より大きい範囲では、認識しようとする対象物体があると認識される（「ａ₁₁＋ｂ₁₁」で示されている範囲）とき、図中の点線で囲まれた服装特徴量Ａ₁は、認識しようとする対象物体が含まれた学習画像の服装特徴量であるので、エラーであるとみなされる。また、服装特徴量Ｃ₁，Ｍ₁は、逆に、認識しようとする対象物体が含まれていない学習画像の服装特徴量であるので、エラーであるとみなされる。

図１１の例では、閾値ｔｈ₁₁は、ペアｋにおける対象物体の認識の誤り率ｅ₁₁が最小となる位置に設定されている。例えば、図１１に示す閾値ｔｈ₁₁が、誤り率ｅ₁₁の最小となる位置ではない場合には、識別器設定部１０４は、閾値ｔｈ₁₁の位置を変化させて、各位置における誤り率ｅ₁₁を参照しながら、誤り率ｅ₁₁が最小となる閾値ｔｈ₁₁の位置を探し出し、その位置を閾値ｔｈ₁₁の位置とする。

誤り率計算部１０４ａは、以下の式（８）で示されるように、学習画像の正誤情報（ラベル）に基づいて、エラーであるとみなされた服装特徴量が抽出された学習画像の重みＷｉを加算し、誤り率ｅ_jkを計算する。

なお、式（８）において、ｙ≠ｆ_jkはエラーとなっている服装特徴点のペアｋの条件を示しており、Ｅ_wは、エラーの発生した学習画像に対する重みが加算されることを示している。

また、識別器設定部１０４は、誤り率計算部１０４ａにより求められた誤り率ｅ_jk、および閾値ｔｈ_jkを用いて、弱識別器ｆ_jk（ｘ）を求める。例えば、弱識別器ｆ_jk（ｘ）がregression stumpと呼ばれる関数とされる場合、次式（９）により弱識別器ｆ_jk（ｘ）が求められる。なお、弱識別器は、regression stumpに限らず、stumpなどの関数とされてもよい。

ｆ_jk（ｘ）＝ａ_jk（ｘ［ｄｉｍ_k］＞ｔｈ_jk）＋ｂ_jk ・・・（９）

なお、式（９）において、「ｘ［ｄｉｍ_k］」は、服装特徴点のペアｋの服装特徴量を示している。また、「ａ_jk（ｘ［ｄｉｍ_k］＞ｔｈ_jk）」は、服装特徴量ｘ［ｄｉｍ_k］が、閾値ｔｈ_jkよりも大きい場合に値がａ_jkとなり、服装特徴量ｘ［ｄｉｍ_k］が、閾値ｔｈ_jk未満である場合に値が０となる関数である。

さらに、式（９）における値ａ_jkおよび値ｂ_jkは、例えば、誤り率ｅ_jkから求められる。具体的には、例えば、値ａ_jkは、後述する信頼度ｃ_jとされる。この信頼度ｃ_jは、誤り率ｅ_jkから求められる。なお、値ａ_jkおよび値ｂ_jkは、予め求められた値とされてもよい。

このようにして、グループＧｒ_kごとに弱識別器ｆ_jk（ｘ）が設定され、誤り率ｅ_jkが識別器設定部１０４から識別器選択部１０５に供給されると、処理はステップＳ５４からステップＳ５５に進む。

ステップＳ５５において、識別器選択部１０５は、識別器設定部１０４から供給されたペアｋごとのＮ個の誤り率ｅ_jkに基づいて、Ｎ個の弱識別器ｆ_jk（ｘ）のうち、誤り率ｅ_jkが最小となる弱識別器ｆ_jk（ｘ）を選択する。そして、識別器選択部１０５は、識別器設定部１０４から選択した弱識別器ｆ_jk（ｘ）を取得する。

ステップＳ５６において、識別器選択部１０５は、選択した弱識別器ｆ_jk（ｘ）の誤り率ｅ_jkに基づいて、以下の式（１０）で示される弱識別器ｆ_jk（ｘ）の信頼度ｃ_jを計算し、その計算結果を重み更新部１０６に供給する。

なお、式（１０）において、ｅ_jは、誤り率ｅ_jkのうち、選択された弱識別器ｆ_jk（ｘ）の誤り率ｅ_jk、つまりＮ個の誤り率ｅ_jkのうちの最小の誤り率ｅ_jkを示している。また、以下において、ステップＳ５５の処理において選択されたペアｋの弱識別器を、弱識別器ｆ_j（ｘ）とも称し、その弱識別器ｆ_j（ｘ）の誤り率ｅ_jkを誤り率ｅ_jとも称する。

ステップＳ５７において、重み更新部１０６は、供給された信頼度ｃ_jに基づいて、以下の式（１１）を計算することで、学習画像ＰＩ_iごとに重みＷｉを再計算すると共に、全ての重みＷｉを正規化して更新し、更新結果を重み設定部１０２に供給する。重み設定部１０２は、重み更新部１０６より供給されてくる重みの更新結果に基づいて、学習画像ごとの重みを設定する。

すなわち、式（１１）においては、エラーの発生した服装特徴量を含む学習画像の重みＷｉが大きくなることが示されている。

ステップＳ５８において、識別器選択部１０５は、新たに求められた弱識別器ｆ_j（ｘ）を用いて、保持している服装識別器Ｒ（ｘ）を更新する。すなわち、識別器選択部１０５は、次式（１２）を計算することで服装識別器Ｒ（ｘ）を更新する。

Ｒ（ｘ）＝Ｒ’（ｘ）＋ｆ_j（ｘ）・・・（１２）

なお、式（１２）において、Ｒ’（ｘ）は、識別器選択部１０５が保持している更新前の服装識別器を表しており、ｆ_j（ｘ）は、新たに求められた弱識別器ｆ_j（ｘ）を表している。すなわち、識別器選択部１０５は、保持している服装識別器Ｒ’（ｘ）に、新たに求められた弱識別器ｆ_j（ｘ）を加算することで服装識別器を更新する。

ステップＳ５９において、識別器選択部１０５は、誤り率ｅ_jkが最小となる弱認識器ｆ_j（ｘ）に対応する服装特徴点のペアｋの服装特徴量を、弱認識器ｆ_j（ｘ）に代入されるべきペアｋにおける特徴量である仮識別用特徴量として保持する。

ステップＳ６０において、識別器選択部１０５は、カウンタｊがＬ以上であるか否かを判定する。ステップＳ６０において、カウンタｊがＬ以上でないと判定された場合、ステップＳ６１において、識別器選択部１０５は、カウンタｊをインクリメントする。そして、その後、処理はステップＳ５２に戻り、上述した処理が繰り返される。

すなわち、新たに設定された学習画像ごとの重みＷｉが用いられて、Ｎ個のペアｋについて、新たな弱識別器ｆ_jk（ｘ）が設定され、それらの弱識別器ｆ_jk（ｘ）から誤り率ｅ_jkが最小となる弱認識器ｆ_jk（ｘ）が選択される。そして、選択された弱認識器ｆ_jk（ｘ）により、服装識別器が更新される。

これに対して、ステップＳ６０において、カウンタｊがＬ以上であると判定された場合、ステップＳ６２において、識別器選択部１０５は、保持している服装識別器および仮識別用特徴と、学習画像とを仮統合識別器生成部２７に出力する。そして、その後、処理は図５のステップＳ１５に進む。

以上の処理により、Ｌ個の比較的誤り率の低い弱識別器ｆ_j（ｘ）（１≦ｊ≦Ｌ）からなる服装識別器が仮統合識別器生成部２７に供給されるとともに、それぞれの弱識別器ｆ_j（ｘ）で使用されるべき服装特徴点のペアｋの服装特徴量、つまり仮識別用特徴量が仮統合識別器生成部２７に供給される。ここでＬは、Ｌ≦Ｎである。

なお、式（１２）の服装識別器は、Ｌ個の弱識別器の出力により、画像における認識しようとする対象物体の有無、より詳細には、対象物体が含まれている画像らしさの度合いを出力する関数であると言える。また、図９のフローチャートを参照して説明した、弱識別器を付加することを繰り返し、識別器を生成する学習処理は、Descrete Adaboost Algorithmと呼ばれている。

服装識別器生成処理では、誤り率の高い学習画像の服装特徴量の重みが順次大きくなり、誤り率の低い服装特徴量の重みが小さくなるように、服装特徴点のペアごとに弱識別器と誤り率が計算される処理が繰り返されることになる。したがって、繰り返し処理（ステップＳ５２乃至Ｓ６１の処理）の中で、弱識別器を設定する際に選択される服装特徴量（ステップＳ５２で選択される服装特徴量）は、徐々に誤り率の高い学習画像のものが選択されやすくなる。そのため、認識し難い学習画像の服装特徴量がより多く選択されることになり、最終的に画像中の対象物体の認識率を高くすることが可能となる。

また、繰り返し処理（ステップＳ５２乃至Ｓ６１の処理）の中で、識別器選択部１０５は、常に誤り率の最も低いペアに対応する弱識別器を選択することになるので、学習処理の繰り返しにより、常に信頼度の最も高い服装特徴点のペアについての弱識別器が選択されて服装識別器に加算されることになり、処理が繰り返されるごとに精度の高い弱識別器が順次加算されることになる。

さらに、服装識別器は、服装特徴量を用いて画像に対象物体としての人が含まれているか否かを識別する識別器である。そして、服装識別器を構成する各弱識別器に代入される服装特徴量に対応する服装特徴点のペアは、服装特徴点のペアのうち、入力された画像から対象物体を検出するのに適したペアである。

例えば、服装識別器に代入される服装特徴量に対応するペアは、図１２に示すように、画像中の対象物体としての人の周囲にある服装特徴点のペアとされている。図１２では、点線の直線は、ペアとなる２つの服装特徴点を結ぶ直線を表しており、その点線の端を中心とする四角形は、服装特徴量を求めるときに用いられるテクスチャの領域を表している。

図１２の例では、画像上の人が身に着けている、その人の上半身の洋服内にある２つの服装特徴点からなり、テクスチャ間の距離、つまり服装特徴量が小さくなるペアや、人の洋服内の服装特徴点と、人ではなく背景上の服装特徴点とからなり、服装特徴量が大きくなるペアなどが選択されていることが分かる。

次に、図１３のフローチャートを参照して、図５のステップＳ１６の処理に対応する輪郭特徴量計算処理について説明する。この輪郭特徴量計算処理は、入力された学習画像上の各輪郭特徴点における輪郭特徴量を求める処理である。

ステップＳ１０１において、輪郭特徴量計算部２５、より詳細には、輪郭特徴量計算部２５の１次フィルタ処理部６１、２次フィルタ処理部６２、および３次フィルタ処理部６３は、それぞれ輪郭特徴点抽出部２４から供給されてきた輪郭特徴点のうち、未処理の輪郭特徴点の１つを注目画素として選択する。

ステップＳ１０２において、輪郭特徴量計算部２５は、方向θｑを示すカウンタｑを１とする。これにより、方向θｑはθ１とされる。

ステップＳ１０３において、輪郭特徴量計算部２５は、ガウス幅σｐを示すカウンタｐを１とする。これにより、ガウス幅σｐはσ１とされる。

ステップＳ１０４において、１次フィルタ処理部６１は、１次フィルタ処理を行う。すなわち、１次フィルタ処理部６１は、処理対象となる注目画素の画素値に基づいて、ガウス幅をσｐとし、かつ方向をθｑとして式（２）を演算し、フィルタ処理した結果を特徴量生成部６４に供給する。つまり、式（２）における方向θがθｑとされて演算が行われ、輪郭が抽出される。

ステップＳ１０５において、２次フィルタ処理部６２は、２次フィルタ処理を行う。すなわち、２次フィルタ処理部６２は、注目画素の画素値に基づいて、ガウス幅をσｐとし、かつ方向をθｑとして式（３）を演算し、フィルタ処理した結果を特徴量生成部６４に供給する。つまり、式（３）における方向θがθｑとされて演算が行われ、輪郭が抽出される。

ステップＳ１０６において、３次フィルタ処理部６３は、３次フィルタ処理を行う。すなわち、３次フィルタ処理部６３は、注目画素の画素値に基づいて、ガウス幅をσｐとし、かつ方向をθｑとして式（５）を演算し、フィルタ処理した結果を特徴量生成部６４に供給する。つまり、式（５）における方向θがθｑとされて演算が行われ、輪郭が抽出される。

ステップＳ１０７において、輪郭特徴量計算部２５は、ガウス幅σｐがσ３であるか、つまりカウンタｐ＝３であるか否かを判定する。ステップＳ１０７において、ガウス幅σｐがσ３でないと判定された場合、ステップＳ１０８において、輪郭特徴量計算部２５は、カウンタｐをインクリメントする。例えば、カウンタｐ＝１であった場合、カウンタｐがインクリメントされてｐ＝２とされ、これによりガウス幅σｐはσ２とされる。カウンタｐがインクリメントされると、処理はステップＳ１０４に戻り、上述した処理が繰り返される。

一方、ステップＳ１０７において、ガウス幅σｐがσ３であると判定された場合、ステップＳ１０９において、輪郭特徴量計算部２５は、方向θｑがθ４であるか否か、つまりカウンタｑ＝４であるか否かを判定する。

ステップＳ１０９において、方向θｑがθ４でないと判定された場合、ステップＳ１１０において、輪郭特徴量計算部２５は、カウンタｑをインクリメントする。例えば、カウンタｑ＝１であった場合、カウンタｑがインクリメントされてｑ＝２とされ、これにより方向θｑはθ２とされる。カウンタｑがインクリメントされると、処理はステップＳ１０３に戻り、上述した処理が繰り返される。

これに対して、ステップＳ１０９において、方向θｑがθ４であると判定された場合、ステップＳ１１１において、特徴量生成部６４は、１次フィルタ処理部６１、２次フィルタ処理部６２、および３次フィルタ処理部６３から供給された演算結果を輪郭特徴量として合成し、１つの輪郭特徴点に対する輪郭特徴量を生成する。

ステップＳ１１２において、輪郭特徴量計算部２５は、全ての輪郭特徴点について処理が終了したか否かを判定する。例えば、輪郭特徴点抽出部２４から供給された全ての輪郭特徴点について、輪郭特徴量が求められた場合、処理が終了したと判定される。

ステップＳ１１２において、全ての輪郭特徴点について処理が終了していないと判定された場合、処理はステップＳ１０１に戻り、次の輪郭特徴点が注目画素として選択される。

これに対して、ステップＳ１１２において、全ての輪郭特徴点について処理が終了したと判定された場合、特徴量生成部６４は、輪郭特徴点抽出部２４から供給された学習画像と、生成された各輪郭特徴点の輪郭特徴量とを輪郭識別器生成部２６に供給する。そして、その後、処理は図５のステップＳ１７に進む。

なお、学習画像からの輪郭特徴量の抽出には、ステアラブルフィルタに限らず、ガボアフィルタなどが用いられるようにしてもよい。

また、図５を参照して説明した学習処理では、ステップＳ１６の輪郭特徴量計算処理において、各輪郭特徴点の輪郭特徴量が求められると、ステップＳ１７において、輪郭識別器生成処理が行われる。この輪郭識別器生成処理では、輪郭識別器生成部２６は、輪郭特徴量計算部２５から供給された学習画像および輪郭特徴量に基づいて、輪郭識別器Ｔ（ｘ）を生成する。なお、この輪郭識別器生成処理は、図９を参照して説明した服装識別器生成処理と同様であるので、その説明は省略する。

すなわち、服装識別器生成処理と輪郭識別器生成処理とは、処理対象となる特徴量が服装特徴量であるか、または輪郭特徴量であるかという点のみが異なる。したがって、輪郭識別器生成処理においては、最も誤り率の低い輪郭特徴点の輪郭特徴量に対応する弱識別器の和が求められ、その和が輪郭識別器Ｔ（ｘ）とされる。そして、輪郭識別器生成部２６は、生成した輪郭識別器、仮識別用特徴量とされた輪郭特徴量、および学習画像を仮統合識別器生成部２７に出力する。

さらに、学習処理において、仮統合識別器生成部２７により、服装識別器Ｒ（ｘ）と、輪郭識別器Ｔ（ｘ）とが統合されて仮統合識別器Ｕ（ｘ）が求められる。そして、仮統合識別器生成部２７から統合識別器生成部２８に、学習画像、仮統合識別器Ｕ（ｘ）、および仮識別用特徴量（服装特徴量および輪郭特徴量）が供給されると、ステップＳ１９の統合識別器生成処理が行われる。

以下、図１４のフローチャートを参照して、図５のステップＳ１９の処理に対応する処理である統合識別器生成処理について説明する。

ステップＳ１４１において、特徴関数生成部１３１は、仮統合識別器生成部２７から供給された仮統合識別器Ｕ（ｘ）を用いて、任意の個数の特徴関数を生成する。

例えば、上述した式（７）に示した仮統合識別器Ｕ（ｘ）が、合計Ｓ個（但し、Ｓは自然数）の弱識別器からなり、次式（１３）で表されるものとする。

なお、式（１３）における弱識別器ｕ_s（ｘ）（但し、１≦ｓ≦Ｓ）は、定数αが乗算された、服装識別器Ｒ（ｘ）を構成する弱識別器、または定数βが乗算された、輪郭識別器Ｔ（ｘ）を構成する弱識別器である。

また、式（１３）の弱識別器ｕ_s（ｘ）における「ａ_s（ｘ［ｄｉｍ_s］＞ｔｈ_s）」は、仮識別用特徴量に対応する特徴点から得られた特徴量ｘ［ｄｉｍ_s］が、閾値ｔｈ_sよりも大きい場合に値がａ_sとなり、特徴量ｘ［ｄｉｍ_s］が、閾値ｔｈ_s未満である場合に値が０となる関数である。ここで、特徴量とは服装特徴量または輪郭特徴量であり、閾値ｔｈ_sは、服装識別器Ｒ（ｘ）または輪郭識別器Ｔ（ｘ）を構成する弱識別器における閾値である。

したがって、例えば、弱識別器ｕ_s（ｘ）が、服装識別器Ｒ（ｘ）を構成する弱識別器ｆ_j（ｘ）に定数αが乗算されたものである場合、閾値ｔｈ_sは、弱識別器ｆ_j（ｘ）の閾値ｔｈ_jとされ、特徴量ｘ［ｄｉｍ_s］は、弱識別器ｆ_j（ｘ）に代入されるべき服装特徴量とされる。

特徴関数生成部１３１は、このような仮統合識別器Ｕ（ｘ）を用いて、任意のＰ個（但し、Ｐは自然数）の特徴関数Ｚ_p（ｘ）（但し、１≦ｐ≦Ｐ）を生成する。

具体的には、特徴関数生成部１３１は、仮統合識別器Ｕ（ｘ）を構成するＳ個の弱識別器ｕ_s（ｘ）のなかから、任意のＲ個（但し、Ｒは自然数）の弱識別器ｕ_s（ｘ）を選択し、選択したＲ個の弱識別器ｕ_s（ｘ）の線形和を１つの特徴関数Ｚ_p（ｘ）とする。特徴関数生成部１３１は、そのような処理をＰ回繰り返し、Ｐ個の特徴関数Ｚ₁（ｘ）乃至特徴関数Ｚ_P（ｘ）を生成する。

なお、特徴関数Ｚ_p（ｘ）を構成する弱識別器の個数Ｒは、各特徴関数Ｚ_p（ｘ）を生成するたびに任意の数に変更される。つまり、各特徴関数Ｚ_p（ｘ）を構成する弱識別器の個数は同じであるとは限らない。

例えば、図１５に示すように、仮統合識別器Ｕ（ｘ）がＳ個の弱識別器ｕ_s（ｘ）からなるとすると、それらのＳ個の弱識別器ｕ_s（ｘ）のうちのいくつかが選択されて、選択された弱識別器ｕ_s（ｘ）の和が特徴関数Ｚ_p（ｘ）とされる。

図１５の例では、２つの弱識別器ｕ₁（ｘ）および弱識別器ｕ₃（ｘ）が選択されて、それらの弱識別器の和が特徴関数Ｚ₁（ｘ）とされている。また、２つの弱識別器ｕ₂（ｘ）および弱識別器ｕ_s（ｘ）が選択されて、それらの弱識別器の和が特徴関数Ｚ₂（ｘ）とされている。

ステップＳ１４２において、特徴関数生成部１３１は、生成したＰ個の特徴関数Ｚ_p（ｘ）を用いて、仮統合識別器生成部２７からの学習画像ＰＩ_i（１≦ｉ≦Ｍ）ごとの新たな特徴量Ｚ_pi（但し、１≦ｐ≦Ｐ，１≦ｉ≦Ｍ）を生成する。

すなわち、特徴関数生成部１３１は、特徴関数Ｚ_p（ｘ）に、その特徴関数Ｚ_p（ｘ）を構成する弱識別器ｕ_s（ｘ）に対応する、学習画像ＰＩ_iの仮識別用特徴量を代入して得られた値を、学習画像ＰＩ_iの１つの新たな特徴量Ｚ_piとする。これにより、１つの学習画像ＰＩ_iに対して、合計Ｐ個の新たな特徴量Ｚ_1i乃至特徴量Ｚ_Piが得られることになる。

したがって、例えば、学習画像ＰＩ₁の特徴量Ｚ₁₁乃至特徴量Ｚ_P1は、図１０における学習画像ＰＩ₁の服装特徴量Ａ₁乃至服装特徴量Ａ_Nに相当する。但し、新たな特徴量の個数Ｐは、服装特徴量や輪郭特徴量の個数と同じである必要はない。

特徴関数生成部１３１は、各学習画像ＰＩ_iの特徴量Ｚ_piを求めると、それらの特徴量Ｚ_piをサンプリング部１３２に供給する。

ステップＳ１４３において、重み設定部１３３は、例えば、学習画像ＰＩ_i（１≦ｉ≦Ｍ）毎の重みＷｉ’を全て１／Ｍに初期化し、識別器選択部１３６は、カウンタｑを１に、弱識別器の和からなる統合識別器Ｇ（ｘ）を０にそれぞれ初期化する。

ここで、ｉは学習画像ＰＩ_iを識別するものであり、１≦ｉ≦Ｍである。ステップＳ１４３の処理により、全ての学習画像ＰＩ_iの重みＷｉ’は、いずれも正規化された同一の重み（＝１／Ｍ）とされる。また、カウンタｑは、予め定められた、統合識別器Ｇ（ｘ）を更新する回数を示している。

ステップＳ１４４において、サンプリング部１３２は、特徴関数Ｚ_p（ｘ）（但し、１≦ｐ≦Ｐ）ごとに、複数の学習画像ＰＩ_iのそれぞれの特徴量Ｚ_piから、学習画像ＰＩ_iの重みＷｉ’に応じて、Ｍ個の特徴量Ｚ_piを選択し、並び替え部１３４に供給する。

例えば、特徴関数生成部１３１からサンプリング部１３２に、Ｍ個の学習画像ＰＩ₁乃至学習画像ＰＩ_Mの特徴量Ｚ_piが供給されたとし、同じ特徴関数から得られた各学習画像ＰＩ_iの特徴量Ｚ_piが１つのグループＧｒ_p（但し、１≦ｐ≦Ｐ）とされるとする。

この場合、サンプリング部１３２は、特徴関数Ｚ_p（ｘ）ごと、つまりグループＧｒ_pごとに、そのグループに属す特徴量Ｚ_piから学習画像ＰＩ_iの重みＷｉ’に応じて、Ｍ個の特徴量Ｚ_piを抽選で選択する。例えば、サンプリング部１３２は、重みＷｉ’に応じて、グループＧｒ₁に属す特徴量Ｚ₁₁乃至特徴量Ｚ_1Mから、Ｍ個の特徴量Ｚ_1iを選択する。なお、最初の処理においては、いずれの重みＷｉ’も１／Ｍであり、等しいため、Ｍ個が抽選されると、確率的には全ての特徴量が選択されることになる。そのため、ここでは、最初の処理では各グループＧｒ₁において、全ての特徴量が選択されたものとする。もちろん、実際には、同一の特徴量が重複して選択されることもある。

ステップＳ１４５において、並び替え部１３４は、Ｐ個のグループＧｒ_pのそれぞれについて、グループＧｒ_p、つまり特徴関数Ｚ_p（ｘ）ごとに選択されたＭ個の特徴量Ｚ_piを昇べきの順、または降べきの順に並び替えて、識別器設定部１３５に供給する。

ステップＳ１４６において、識別器設定部１３５は、仮統合識別器生成部２７から供給された学習画像に付加されている正誤情報（ラベル）に基づいて、グループＧｒ_pごと、つまり特徴関数Ｚ_p（ｘ）ごとに、閾値を変化させながら誤り率計算部１３５ａを制御して誤り率ｅ_qpを計算させ、誤り率ｅ_qpが最小となるように閾値を設定する。

ここで、特徴関数Ｚ_p（ｘ）ごとの閾値ｔｈ_qpが、１個の弱識別器ｇ_qp（ｘ）となり、識別器設定部１３５は、弱識別器ｇ_qp（ｘ）ごとの誤り率ｅ_qpを識別器選択部１３６に供給する。すなわち、Ｐ個の特徴関数Ｚ_p（ｘ）のそれぞれに対して、Ｐ個の弱識別器ｇ_qp（ｘ）のそれぞれが設定され、Ｐ個の弱識別器ｇ_qp（ｘ）のそれぞれについて誤り率ｅ_qpが求められることになる。

なお、弱識別器ｇ_qp（ｘ）は、認識対象の画像に、認識しようとする対象物体を含む場合に、所定の値（ａ_qp＋ｂ_qp）を出力し、認識しようとする対象物体を含まない場合、所定の値ｂ_qpを出力する関数である。例えば、特徴関数Ｚ₁（ｘ）から得られた特徴量Ｚ_1iが昇べき、または、降べきの順に並べられた場合、図１１を参照して説明した場合と同様に閾値ｔｈ_q1が設定される。

誤り率計算部１３５ａは、上述した式（８）と同様の計算を行って、学習画像の正誤情報（ラベル）に基づいて、エラーであるとみなされた特徴量Ｚ_piが抽出された学習画像の重みＷｉ’を加算し、誤り率ｅ_qpを計算する。すなわち、Ｅ_w［１（ｙ≠ｇ_qp）］を計算することにより、誤り率ｅ_qpが求められる。

また、識別器設定部１３５は、誤り率計算部１３５ａにより求められた誤り率ｅ_qpと、閾値ｔｈ_qpとを用いて弱識別器ｇ_qp（ｘ）を求める。例えば、弱識別器ｇ_qp（ｘ）がregression stumpと呼ばれる関数とされる場合、次式（１４）により弱識別器ｇ_qp（ｘ）が求められる。なお、弱識別器は、regression stumpに限らず、stumpなどの関数とされてもよい。

ｇ_qp（ｘ）＝ａ_qp（Ｚ_p（ｘ）＞ｔｈ_qp）＋ｂ_qp ・・・（１４）

なお、式（１４）において、「Ｚ_p（ｘ）」は、特徴関数Ｚ_p（ｘ）を示している。また、「ａ_qp（Ｚ_p（ｘ）＞ｔｈ_qp）」は、特徴関数Ｚ_p（ｘ）に、仮識別用特徴量に対応する服装特徴点または輪郭特徴点における服装特徴量または輪郭特徴量を代入して得られる値ｘ［ｄｉｍ_p］が、閾値ｔｈ_qpよりも大きい場合に値がａ_qpとなり、値ｘ［ｄｉｍ_p］が、閾値ｔｈ_qp未満である場合に値が０となる関数である。

さらに、式（１４）における値ａ_qpおよび値ｂ_qpは、例えば、誤り率ｅ_qpから求められる。具体的には、例えば、値ａ_qpは、後述する信頼度ｃ_qとされる。この信頼度ｃ_qは、誤り率ｅ_qpから求められる。なお、値ａ_qpおよび値ｂ_qpは予め求められた値とされてもよい。

このようにして、グループＧｒ_pごとに弱識別器ｇ_qp（ｘ）が設定され、誤り率ｅ_qpが識別器設定部１３５から識別器選択部１３６に供給されると、処理はステップＳ１４６からステップＳ１４７に進む。

ステップＳ１４７において、識別器選択部１３６は、識別器設定部１３５から供給された特徴関数Ｚ_p（ｘ）ごとのＰ個の誤り率ｅ_qpに基づいて、Ｐ個の弱識別器ｇ_qp（ｘ）のうち、誤り率ｅ_qpが最小となる弱識別器ｇ_qp（ｘ）を選択する。そして、識別器選択部１３６は、識別器設定部１３５から選択した弱識別器ｇ_qp（ｘ）を取得する。

ステップＳ１４８において、識別器選択部１３６は、選択した弱識別器ｇ_qp（ｘ）の誤り率ｅ_qpに基づいて、上述した式（１０）と同様の計算を行って信頼度ｃ_qを求め、計算結果を重み更新部１３７に供給する。

なお、この場合、誤り率ｅ_qpのうち、選択された弱識別器ｇ_qp（ｘ）の誤り率ｅ_qp、つまりＰ個の誤り率ｅ_qpのうちの最小の誤り率ｅ_qpをｅ_qとすると、上述した式（１０）におけるｅ_jがｅ_qとされて信頼度ｃ_qが求められる。また、以下において、ステップＳ１４７の処理において選択されたグループＧｒ_pの弱識別器を、弱識別器ｇ_q（ｘ）とも称し、その弱識別器ｇ_q（ｘ）の誤り率ｅ_qpを誤り率ｅ_qとも称する。

ステップＳ１４９において、重み更新部１３７は、供給された信頼度ｃ_qに基づいて、上述した式（１１）と同様の計算を行って、学習画像ＰＩ_iごとに重みＷｉ’を再計算すると共に、全ての重みＷｉ’を正規化して更新し、更新結果を重み設定部１３３に供給する。すなわち、Ｗｉ’ｅｘｐ［−ｃ_q・１（ｙ≠ｇｑ）］が計算されて重みＷｉ’が更新される。重み設定部１３３は、重み更新部１３７より供給されてくる重みの更新結果に基づいて、学習画像ごとの重みを設定する。

ステップＳ１５０において、識別器選択部１３６は、新たに求められた弱識別器ｇ_q（ｘ）を用いて、保持している統合識別器Ｇ（ｘ）を更新する。すなわち、識別器選択部１３６は、次式（１５）を計算することで統合識別器Ｇ（ｘ）を更新する。

Ｇ（ｘ）＝Ｇ’（ｘ）＋ｇ_q（ｘ）・・・（１５）

なお、式（１５）において、Ｇ’（ｘ）は、識別器選択部１３６が保持している更新前の統合識別器を表しており、ｇ_q（ｘ）は、新たに求められた弱識別器ｇ_q（ｘ）を表している。すなわち、識別器選択部１３６は、保持している統合識別器Ｇ’（ｘ）に、新たに求められた弱識別器ｇ_q（ｘ）を加算することで統合識別器を更新する。

ステップＳ１５１において、識別器選択部１３６は、誤り率ｅ_qpが最小となる弱認識器ｇ_q（ｘ）に対応する仮識別特徴量、つまり服装特徴点のペアｋの服装特徴量、または輪郭特徴点の輪郭特徴量の少なくとも何れか一方からなる特徴量を、弱認識器ｇ_q（ｘ）に代入されるべきペアｋの服装特徴点または輪郭特徴点における特徴量である識別用特徴量として保持する。

ステップＳ１５２において、識別器選択部１３６は、カウンタｑがＱ以上であるか否かを判定する。ステップＳ１５２において、カウンタｑがＱ以上でないと判定された場合、ステップＳ１５３において、識別器選択部１３６は、カウンタｑをインクリメントする。そして、その後、処理はステップＳ１４４に戻り、上述した処理が繰り返される。

すなわち、新たに設定された学習画像ごとの重みＷｉ’が用いられて、Ｐ個の特徴関数Ｚ_p（ｘ）について、新たな弱識別器ｇ_qp（ｘ）が設定され、それらの弱識別器ｇ_qp（ｘ）から誤り率ｅ_qpが最小となる弱認識器ｇ_qp（ｘ）が選択される。そして、選択された弱認識器ｇ_qp（ｘ）により、統合識別器が更新される。

これに対して、ステップＳ１５２において、カウンタｑがＱ以上であると判定された場合、ステップＳ１５４において、識別器選択部１３６は、保持している統合識別器および識別用特徴を識別器記録部１２に供給して記録させる。そして、その後、統合識別器生成処理は終了し、図５の学習処理に戻って、学習処理も終了する。

以上の処理により、Ｑ個の比較的誤り率の低い弱識別器ｇ_q（ｘ）（１≦ｑ≦Ｑ）からなる統合識別器が識別器記録部１２に供給されるとともに、それぞれの弱識別器ｇ_q（ｘ）で使用されるべき服装特徴点のペアｋの服装特徴量と、輪郭特徴点の輪郭特徴量とが識別用特徴量として識別器記録部１２に供給される。ここでＱは、Ｑ≦Ｐであり、任意の数とされる。すなわち、統合識別器Ｇ（ｘ）は、任意のＱ個の弱識別器ｇ_q（ｘ）の線形和とされる。

このようにして、学習装置１１は、統計学習して得られた仮統合識別器を構成する弱識別器のいくつか選択し、それらの弱識別器の和からなる特徴関数を生成する。そして、学習装置１１は、特徴関数に特徴量を代入して得られる値、つまり一度、統計学習した弱識別器による、対象物体の識別のスコアを新たな特徴量として定義し、さらに、それらの新たな特徴量を用いた統計学習により、最終的な統合識別器を生成する。

例えば、１つの特徴関数Ｚ_p（ｘ）が、１つの弱識別器ｕ₁（ｘ）から構成される場合、図１６に示すように、特徴関数Ｚ_p（ｘ）に、弱識別器ｕ₁（ｘ）に対応する特徴量（仮識別用特徴量）を代入して得られる特徴量Ｚ_Pの取り得る値は、（ａ₁＋ｂ₁）またはｂ₁の２通りである。なお、図１６において、縦方向は特徴量Ｚ_Pの値を示しており、横方向は特徴量ｘ［ｄｉｍ₁］の値を示している。

図１６では、特徴量Ｚ_Pの値は、対象物体が含まれている画像らしさの度合いを示している。そして、特徴量Ｚ_Pの値が、所定の基準となる閾値ＴＨ以上である場合には、画像に対象物体が含まれているとされ、特徴量Ｚ_Pの値が閾値ＴＨ未満の場合には、画像に対象物体が含まれていないとされる。

また、例えば、１つの特徴関数Ｚ_p（ｘ）が、２つの弱識別器ｕ₁（ｘ）および弱識別器ｕ₂（ｘ）から構成される場合、図１７に示すように、特徴関数Ｚ_p（ｘ）に、弱識別器ｕ₁（ｘ）および弱識別器ｕ₂（ｘ）に対応する特徴量を代入して得られる特徴量Ｚ_Pの取り得る値は、４通りである。なお、図１７において、縦方向は特徴量Ｚ_Pの値を示しており、横方向は特徴量の値を示している。

図１７では、特徴量Ｚ_Pの値は、対象物体が含まれている画像らしさの度合いを示しており、その値は（ｂ₁＋ｂ₂）、（ａ₁＋ｂ₁＋ａ₂＋ｂ₂）、（ａ₁＋ｂ₁＋ｂ₂）、または（ｂ₁＋ａ₂＋ｂ₂）の何れかとなる。また、特徴量Ｚ_Pの値が、所定の基準となる閾値ＴＨ以上である場合には、画像に対象物体が含まれているとされ、特徴量Ｚ_Pの値が閾値ＴＨ未満の場合には、画像に対象物体が含まれていないとされる。したがって、特徴量Ｚ_Pの値が（ａ₁＋ｂ₁＋ａ₂＋ｂ₂）、（ａ₁＋ｂ₁＋ｂ₂）、または（ｂ₁＋ａ₂＋ｂ₂）である場合には、画像に対象物体が含まれているとされる。

さらに、１つの特徴関数Ｚ_p（ｘ）が、Ｎ個の弱識別器ｕ_s（ｘ）から構成される場合には、特徴関数Ｚ_p（ｘ）に、各弱識別器に対応する仮識別用特徴量を代入して得られる特徴量Ｚ_Pの取り得る値は、２^N通りとなる。また、特徴量Ｚ_Pの値は、対象物体が含まれている画像らしさの度合いを示しているので、その値が大きいほど、画像に対象物体としての人が含まれていることの確からしさは大きいことになる。

このように、特徴関数Ｚ_p（ｘ）を構成する弱識別器ｕ_s（ｘ）の個数を多くすると、特徴関数Ｚ_p（ｘ）から得られる新たな特徴量Ｚ_Pの取り得る値の数も、より多くなる。したがって、特徴関数Ｚ_p（ｘ）を構成する弱識別器ｕ_s（ｘ）の個数を多くするほど、特徴量空間上における複雑なサンプル（対象物体）の特徴量分布を記述できるようになる。つまり、特徴量空間上における、画像中に対象物体がある場合に得られる特徴量（の値）からなる領域を、より正確に求めることができる。これにより、特徴量（統合識別器）による対象物体の検出精度を向上させることができる。

以上のようにして生成された統合識別器は、識別器記録部１２に記録されて、認識装置１３に提供されることになる。認識装置１３において、この統合識別器を用いて対象物体の検出を行えば、より確実に入力画像から対象物体としての人を検出できるようになる。

なお、ここで注意すべき点は、図１６および図１７の例では、同じ次元の特徴量、つまり同じ特徴点から得られる特徴量（服装特徴量または輪郭特徴量）を例に説明したが、実際には、特徴関数Ｚ_p（ｘ）には、異なる次元の特徴量が代入されることになる。

ここで、Real Adaboostと、学習装置１１による統計的な学習処理とを比較すると、Real Adaboostでは、サンプル（対象物体）の特徴量分布を学習画像から直接、求める。つまり、Real Adaboostでは、ある一次元の特徴量分布が学習される。これに対して、学習装置１１での学習処理は、最も切れやすい次元の特徴量分布、つまり学習に最も適した次元の特徴量の分布をいくつか組み合わせて、それらの特徴量分布を学習することに対応する。

ところで、認識装置１３に入力画像が入力され、対象物体としての人の検出が指示されると、認識装置１３は、人検出処理を開始して、入力画像から対象物体を検出する。以下、図１８のフローチャートを参照して、認識装置１３による人検出処理について説明する。

なお、ステップＳ２０１の処理乃至ステップＳ２０３の処理のそれぞれは、図５のステップＳ１１の処理乃至ステップＳ１３の処理のそれぞれと同様であるので、その説明は省略する。すなわち、服装特徴点抽出部３１は、入力された入力画像から服装特徴点を抽出し、服装特徴量計算部３２は、服装特徴点抽出部３１により抽出された服装特徴点のペアリングを行って、各ペアの服装特徴量を計算する。そして、服装特徴量計算部３２は、各ペアについて求めた服装特徴量を識別計算部３５に供給する。

ステップＳ２０４において、輪郭特徴点抽出部３３は、図５のステップＳ１５の処理と同様の処理を行い、入力された入力画像から輪郭特徴点を抽出し、入力画像とともに輪郭特徴量計算部３４に供給する。

ステップＳ２０５において、輪郭特徴量計算部３４は、輪郭特徴点抽出部３３からの入力画像および輪郭特徴点に基づいて、輪郭特徴量計算処理を行い、各輪郭特徴点の輪郭特徴量を計算する。そして、輪郭特徴量計算部３４は、求められた輪郭特徴量を識別計算部３５に供給する。なお、この輪郭特徴量計算処理は、図１３を参照して説明した輪郭特徴量計算処理と同様の処理であるため、その説明は省略する。

ステップＳ２０６において、識別計算部３５は、識別器記録部１２から識別用特徴量および統合識別器を読み出して、読み出した統合識別器に特徴量を代入して計算する。すなわち、識別計算部３５は、服装特徴量計算部３２からの服装特徴量、および輪郭特徴量計算部３４からの輪郭特徴量のうちの識別用特徴量に対応するものを、識別器記録部１２から取得した統合識別器Ｇ（ｘ）に代入して演算を行う。したがって、統合識別器Ｇ（ｘ）を構成する各弱識別器ｇ_q（ｘ）に、識別用特徴量に対応する服装特徴量または輪郭特徴量が代入されて演算が行われる。

ここで、統合識別器を構成する弱識別器に代入される特徴量は、識別用特徴量とされた特徴量が求められた、学習画像の服装特徴点のペアまたは輪郭特徴点と同じ位置にある、入力画像上の服装特徴点のペアまたは輪郭特徴点から求められた特徴量（服装特徴量または輪郭特徴量）である。

統合識別器に特徴量が代入されて演算が行われると、その演算の結果として、入力画像に対する、対象物体が含まれている画像らしさの度合いを示す値が得られる。識別計算部３５は、統合識別器での演算結果を識別結果出力部３６に供給する。

ステップＳ２０７において、識別結果出力部３６は、識別計算部３５からの演算結果に基づいて、人の検出結果を出力し、人検出処理は終了する。すなわち、対象物体が入力画像で認識されたか否か（入力画像から人が検出されたか否か）の識別結果が出力される。例えば、識別計算部３５から供給された演算結果の値が、予め定められた閾値以上である場合、入力画像から対象物体としての人が検出された旨のメッセージが識別結果として出力される。また、例えば、入力画像における、対象物体としての人が検出された領域が枠などで囲まれて、その枠の表示された入力画像が、識別結果として表示されてもよい。

このようにして、認識装置１３は、入力画像から服装特徴点を抽出して、服装特徴点のペアの服装特徴量を求めるとともに、入力画像から輪郭特徴点を抽出して輪郭特徴量を求める。そして、認識装置１３は、求めた服装特徴量および輪郭特徴量と、識別器記録部１２に記録されている統合識別器とを用いて、入力画像から対象物体を検出する。

このように、服装特徴量および輪郭特徴量を用いて入力画像から対象物体を検出することで、より確実に画像から対象物体を検出することができる。すなわち、入力画像から服装特徴量または輪郭特徴量の少なくとも何れか一方を充分に抽出することができれば、入力画像から対象物体を確実に検出することができる。

さらに、特徴関数から得られた新たな特徴量を用いて求められた統合識別器を用いることで、入力画像からより確実に対象物体を検出することができる。

なお、以上においては、画像から検出される対象物体が人である例について説明したが、対象物体は、人に限らず、どのようなものであってもよい。また、画像から抽出される特徴量もどのようなものであってもよい。

例えば、学習画像から輝度情報、色情報、エッジ情報などを特徴量として抽出し、抽出された特徴量と、予め用意された、対象物体の含まれるモデル画像から抽出された特徴量との相関値を求めて、その相関値を学習処理の特徴量としてもよい。そのような場合、相関値が特徴量とされて、統計学習により複数の弱識別器からなる仮の識別器が生成され、その仮の識別器を構成する弱識別器のいくつかの線形和が、１つの特徴関数とされる。さらに、その特徴関数から得られる特徴量が用いられて、統計学習により最終的な識別器が得られる。

この場合も、一度、学習により得られた仮の識別器を構成するいくつかの弱識別器からなる特徴関数により、新たな特徴量が定義されて、再度の学習により、最終的な識別器が得られるので、過学習を防止するとともに、より確実に対象物体を検出することのできる識別器が得られる。

また、図１の学習装置１１においても、服装識別器または輪郭識別器の何れか一方だけを生成して、服装識別器または輪郭識別器の何れかから特徴関数が生成されてもよい。

このように、一度、学習されて得られた識別器を構成する弱識別器を用いて新たな特徴量を定義し、再度の学習により最終的な識別器を得る方法は、汎化性能の高い学習方法であるので、画像認識に限らず、音声や運動学習などの様々な統計学習タスクに対して有効である。また、この学習方法は、カスケード接続のBoostingの各カスケードの出力は勿論のこと、任意の弱識別器のスコアを利用することができるので、Boosting学習一般に適用可能である。

上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図１９は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、キーボード、マウス、マイクロホンなどよりなる入力部５０６、ディスプレイ、スピーカなどよりなる出力部５０７、ハードディスクや不揮発性のメモリなどよりなる記録部５０８、ネットワークインターフェースなどよりなる通信部５０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア５１１を駆動するドライブ５１０が接続されている。

以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU５０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア５１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。

そして、プログラムは、リムーバブルメディア５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

本発明を適用した人識別システムの一実施の形態の構成例を示すブロック図である。輪郭特徴量計算部のより詳細な構成例を示すブロック図である。服装識別器生成部のより詳細な構成例を示すブロック図である。統合識別器生成部のより詳細な構成例を示すブロック図である。学習処理を説明するフローチャートである。服装特徴点の抽出について説明する図である。服装特徴量を説明する図である。輪郭特徴点の抽出について説明する図である。服装識別器生成処理について説明するフローチャートである。服装特徴点のペアごとの服装特徴量のサンプリングについて説明する図である。弱識別器の設定について説明する図である。服装特徴点のペアについて説明する図である。輪郭特徴量計算処理について説明するフローチャートである。統合識別器生成処理について説明するフローチャートである。特徴関数の生成について説明する図である。新たに定義される特徴量について説明する図である。新たに定義される特徴量について説明する図である。人検出処理を説明するフローチャートである。コンピュータの構成例を示すブロック図である。

符号の説明

１１学習装置，１２識別器記録部，１３認識装置，２１服装特徴点抽出部，２２服装特徴量計算部，２３服装識別器生成部，２４輪郭特徴点抽出部，２５輪郭特徴量計算部，２６輪郭識別器生成部，２７仮統合識別器生成部，２８統合識別器生成部，３５識別計算部，３６識別結果出力部，１３１特徴関数生成部，１３５識別器設定部，１３６識別器選択部

Claims

認識対象の対象物体が含まれている学習画像と、前記対象物体が含まれていない学習画像とからなる複数の学習画像について、前記学習画像上の特徴点における特徴量を抽出する特徴量抽出手段と、
前記学習画像と、前記学習画像から得られた前記特徴量とを用いた統計学習により、複数の弱識別器からなり、画像から前記対象物体を検出するための識別器である仮識別器を生成する仮識別器生成手段と、
前記仮識別器を構成する前記弱識別器からなる特徴関数に、前記特徴量を代入して得られた値を新たな特徴量として、前記新たな特徴量および前記学習画像を用いた統計学習により、複数の弱識別器からなり、画像から前記対象物体を検出するための最終的な識別器を生成する識別器生成手段と
を備える学習装置。
前記特徴関数は、前記仮識別器を構成する複数の前記弱識別器からなる
請求項１に記載の学習装置。
前記識別器生成手段は、前記仮識別器を構成する複数の前記弱識別器のうちの任意のいくつかの前記弱識別器の線形和を前記特徴関数とする
請求項２に記載の学習装置。
前記識別器生成手段は、任意の複数の前記特徴関数のそれぞれを用いて、前記新たな前記特徴量のそれぞれを生成し、
前記特徴関数を構成する前記弱識別器の数は、前記特徴関数ごとに異なる
請求項３に記載の学習装置。
認識対象の対象物体が含まれている学習画像と、前記対象物体が含まれていない学習画像とからなる複数の学習画像について、前記学習画像上の特徴点における特徴量を抽出する特徴量抽出手段と、
前記学習画像と、前記学習画像から得られた前記特徴量とを用いた統計学習により、複数の弱識別器からなり、画像から前記対象物体を検出するための識別器である仮識別器を生成する仮識別器生成手段と、
前記仮識別器を構成する前記弱識別器からなる特徴関数に、前記特徴量を代入して得られた値を新たな特徴量として、前記新たな特徴量および前記学習画像を用いた統計学習により、複数の弱識別器からなり、画像から前記対象物体を検出するための最終的な識別器を生成する識別器生成手段と
を備える学習装置の学習方法であって、
前記特徴量抽出手段が前記学習画像から前記特徴量を抽出し、
前記仮識別器生成手段が、前記学習画像と前記特徴量とを用いた統計学習により前記仮識別器を生成し、
前記識別器生成手段が、前記新たな特徴量および前記学習画像を用いた統計学習により前記最終的な識別器を生成する
ステップを含む学習方法。
認識対象の対象物体が含まれている学習画像と、前記対象物体が含まれていない学習画像とからなる複数の学習画像について、前記学習画像上の特徴点における特徴量を抽出し、
前記学習画像と、前記学習画像から得られた前記特徴量とを用いた統計学習により、複数の弱識別器からなり、画像から前記対象物体を検出するための識別器である仮識別器を生成し、
前記仮識別器を構成する前記弱識別器からなる特徴関数に、前記特徴量を代入して得られた値を新たな特徴量として、前記新たな特徴量および前記学習画像を用いた統計学習により、複数の弱識別器からなり、画像から前記対象物体を検出するための最終的な識別器を生成する
ステップを含む処理をコンピュータに実行させるプログラム。
入力画像上の特徴点における特徴量を抽出する特徴量抽出手段と、
認識対象の対象物体が含まれている学習画像と、前記対象物体が含まれていない学習画像とからなる複数の前記学習画像が用いられて生成された、画像から前記対象物体を検出するための識別器に、前記特徴量を代入して演算を行うことにより、前記入力画像から前記対象物体を検出する検出手段と
を備え、
前記識別器は、
前記学習画像と、前記学習画像上の特徴点における特徴量とを用いた統計学習により、複数の弱識別器からなり、画像から前記対象物体を検出するための仮の識別器である仮識別器を生成し、
前記仮識別器を構成する前記弱識別器からなる特徴関数に、前記学習画像から得られた前記特徴量を代入して得られた値を新たな特徴量として、前記新たな特徴量および前記学習画像を用いて統計学習することにより生成される
認識装置。
前記特徴関数は、前記仮識別器を構成する複数の前記弱識別器のうちの任意のいくつかの前記弱識別器の線形和とされる
請求項７に記載の認識装置。
任意の複数の前記特徴関数のそれぞれが用いられて、前記新たな前記特徴量のそれぞれが生成され、前記特徴関数を構成する前記弱識別器の数は、前記特徴関数ごとに異なる
請求項８に記載の認識装置。
入力画像上の特徴点における特徴量を抽出する特徴量抽出手段と、
認識対象の対象物体が含まれている学習画像と、前記対象物体が含まれていない学習画像とからなる複数の前記学習画像が用いられて生成された、画像から前記対象物体を検出するための識別器に、前記特徴量を代入して演算を行うことにより、前記入力画像から前記対象物体を検出する検出手段と
を備える認識装置の認識方法であって、
前記特徴量抽出手段が前記入力画像から前記特徴量を抽出し、
前記検出手段が前記識別器に、前記特徴量を代入して演算を行うことにより、前記入力画像から前記対象物体を検出する
ステップを含み、
前記識別器は、
前記学習画像と、前記学習画像上の特徴点における特徴量とを用いた統計学習により、複数の弱識別器からなり、画像から前記対象物体を検出するための仮の識別器である仮識別器を生成し、
前記仮識別器を構成する前記弱識別器からなる特徴関数に、前記学習画像から得られた前記特徴量を代入して得られた値を新たな特徴量として、前記新たな特徴量および前記学習画像を用いて統計学習することにより生成される
認識方法。
入力画像上の特徴点における特徴量を抽出し、
認識対象の対象物体が含まれている学習画像と、前記対象物体が含まれていない学習画像とからなる複数の前記学習画像が用いられて生成された、画像から前記対象物体を検出するための識別器に、前記特徴量を代入して演算を行うことにより、前記入力画像から前記対象物体を検出する
ステップを含む処理をコンピュータに実行させ、
前記識別器は、
前記学習画像と、前記学習画像上の特徴点における特徴量とを用いた統計学習により、複数の弱識別器からなり、画像から前記対象物体を検出するための仮の識別器である仮識別器を生成し、
前記仮識別器を構成する前記弱識別器からなる特徴関数に、前記学習画像から得られた前記特徴量を代入して得られた値を新たな特徴量として、前記新たな特徴量および前記学習画像を用いて統計学習することにより生成される
プログラム。