JP2018124963A

JP2018124963A - 画像処理装置、画像認識装置、画像処理プログラム、及び画像認識プログラム

Info

Publication number: JP2018124963A
Application number: JP2017148010A
Authority: JP
Inventors: 英夫山田; Hideo Yamada; 和宏久野; Kazuhiro Kuno; 雅聡柴田; Masaaki Shibata; 修一榎田; Shuichi Enokida; 広道大塚; Hiromichi Otsuka
Original assignee: Kyushu Institute of Technology NUC; Equos Research Co Ltd
Current assignee: Kyushu Institute of Technology NUC; Equos Research Co Ltd
Priority date: 2017-01-31
Filing date: 2017-07-31
Publication date: 2018-08-09
Anticipated expiration: 2037-07-31
Also published as: CN110235177A; JP7072765B2; EP3579182A4; US20200005467A1; EP3579182A1; CN110235177B; US11468572B2

Abstract

【課題】検出精度を高めつつ、計算コストを低減する。【解決手段】画像処理装置８は、画像の輝度勾配共起ペアを特徴面１５にプロットし、これにＥＭアルゴリズムを適用してＧＭＭを形成する機能を有している。画像処理装置８は、歩行者画像を学習して歩行者画像のＧＭＭを作成し、次いで、背景画像を学習して背景画像のＧＭＭを作成し、更に、両者の差分を計算して、これに基づく再学習用のＧＭＭを生成する。画像処理装置８は、逆関数定理を適用することにより再学習用のＧＭＭに従うサンプルを特徴面１５にプロットする。最後に、画像処理装置８は、サンプルの分布を表すＧＭＭを指定された混合数で形成することにより画像認識の基準となる基準ＧＭＭを形成する。この混合数を先に指定された混合数よりも小さく設定すると、画像を解析する際の次元が下がり、計算コストを低減することができる。【選択図】図１

Description

本発明は、画像処理装置、画像認識装置、画像処理プログラム、及び画像認識プログラムに関し、例えば、画素の輝度勾配によって画像処理を行うものに関する。

画像認識技術には、画像から画像特徴量として輝度の勾配方向の分布を抽出し、これを予め学習した画像の輝度の勾配方向の分布と比較することにより対象を認識するものがある。
例えば、特許文献１の「画像認識装置」は、予め標準画像から特徴点とその特徴量を抽出しておく。そして、入力画像中から特徴点とその特徴量を算出し、標準画像における特徴量と類似する特徴点同士を、対応点として設定する。
次いで、入力画像における各対応点（特徴点）ごとに、対応する標準画像の特徴点の特徴量（位置情報等含む）に基づいて基準点を算出して入力画像平面に投票する。
そして、ある小領域内に所定閾値以上の投票値があった場合は、入力画像中に対象物が存在していると判断する。

従来技術では特徴量として特徴点周りの輝度勾配を３６方向に量子化し、ヒストグラムを作成している。
しかし、精度を向上させる場合、量子化の間隔を細かくする必要があるが、量子化の間隔を細かくすると特徴量が膨大になり、処理時間が増加する問題があった。

特開２００８−２５７６４９号公報

本発明は、検出精度を高めつつ、計算コストを低減することを目的とする。

（１）請求項１に記載の発明では、画像を入力する画像入力手段と、前記入力した画像から２つの画素の組合せを取得する画素組合せ取得手段と、前記取得した組合せに係る２つの画素の輝度の勾配方向の共起を取得する共起取得手段と、前記取得する画素の組合せを変化させながら、前記取得する共起の出現頻度の分布を取得する出現頻度取得手段と、前記取得した出現頻度の分布に対応する確率密度関数を生成する確率密度関数生成手段と、前記生成した確率密度関数を、当該確率密度関数を規定するパラメータによって出力する確率密度関数出力手段と、を具備したことを特徴する画像処理装置を提供する。
（２）請求項２に記載の発明では、前記画像入力手段から認識対象を含む複数の認識対象画像を入力し、前記確率密度関数出力手段に前記複数の認識対象画像に基づく認識対象確率密度関数を出力させる認識対象学習手段と、前記出力させた認識対象確率密度関数を用いて前記認識対象を画像認識する基準となる基準確率密度関数を生成する基準確率密度関数生成手段と、前記生成した基準確率密度関数を、当該基準確率密度関数を規定するパラメータによって出力する基準確率密度関数出力手段と、を具備したことを特徴とする請求項１に記載の画像処理装置を提供する。
（３）請求項３に記載の発明では、前記画像入力手段から認識対象を含まない複数の非認識対象画像を入力し、前記確率密度関数出力手段に前記非認識対象画像による非認識対象確率密度関数を出力させる非認識対象学習手段と、前記出力させた前記認識対象確率密度関数と、前記非認識対象確率密度関数と、の相関を計量する計量情報を生成する計量情報生成手段と、を具備し、前記基準確率密度関数生成手段は、前記生成した計量情報を用いて前記基準確率密度関数を生成することを特徴とする請求項２に記載の画像処理装置を提供する。
（４）請求項４に記載の発明では、前記計量情報生成手段が、前記認識対象確率密度関数に対する前記非認識対象確率密度関数の計量と、前記非認識対象確率密度関数に対する前記認識対象確率密度関数の計量と、が対称性を有する前記計量情報を生成することを特徴とする請求項３に記載の画像処理装置を提供する。
（５）請求項５に記載の発明では、前記生成した計量情報に従って複数のサンプルを発生させるサンプル発生手段を具備し、前記基準確率密度関数生成手段は、前記発生させたサンプルの出現頻度の分布に基づいて前記基準確率密度関数を生成することを特徴とする請求項３、又は請求項４に記載の画像処理装置を提供する。
（６）請求項６に記載の発明では、前記認識対象確率密度関数と、前記非認識対象確率密度関数は、それぞれ所定の個数の基底関数を混合して生成されており、前記基準確率密度関数生成手段は、前記所定の個数よりも少ない個数の基底関数を混合して前記基準確率密度関数を生成することを特徴とする請求項３、請求項４又は請求項５に記載の画像処理装置を提供する。
（７）請求項７に記載の発明では、前記入力した画像の解像度を変換する解像度変換手段を具備し、前記画素組合せ取得手段は、前記解像度を変換した画素も組合せの対象とすることを特徴する請求項１から請求項６までの内の何れか１の請求項に記載の画像処理装置を提供する。
（８）請求項８に記載の発明では、前記計量情報が、前記認識対象確率密度関数と、前記非認識対象確率密度関数と、の差分を用いた差分確率密度関数であることを特徴とする請求項３、又は請求項４に記載の画像処理装置を提供する。
（９）請求項９に記載の発明では、前記計量情報が、前記認識対象確率密度関数と、前記非認識対象確率密度関数と、の比を用いた比確率密度関数であることを特徴とする請求項３、又は請求項４に記載の画像処理装置を提供する。
（１０）請求項１０に記載の発明では、前記比確率密度関数が、更に前記認識対象確率密度関数と、前記非認識対象確率密度関数と、の差分を用いていることを特徴とする請求項９に記載の画像処理装置を提供する。
（１１）請求項１１に記載の発明では、請求項２に記載の画像処理装置が出力した基準確率密度関数を取得する基準確率密度関数取得手段と、画像認識の対象となる対象画像を取得する対象画像取得手段と、前記取得した基準確率密度関数を用いて前記取得した対象画像の特徴量を取得する対象画像特徴量取得手段と、前記取得した特徴量を用いて前記対象画像が画像認識対象を含んでいるか否かを判断する判断手段と、を具備したことを特徴とする画像認識装置を提供する。
（１２）請求項１２に記載の発明では、前記対象画像特徴量取得手段は、前記取得した対象画像を請求項１に記載の画像処理装置の画像入力手段に入力して、当該画像処理装置の出現頻度取得手段から前記対象画像における勾配方向の共起の出現頻度の分布を取得し、前記取得した出現頻度の分布が前記取得した基準確率密度関数から生成される確率に基づいて前記対象画像の特徴量を取得することを特徴とする請求項７に記載の画像認識装置を提供する。
（１３）請求項１３に記載の発明では、画像を入力する画像入力機能と、前記入力した画像から２つの画素の組合せを取得する画素組合せ取得機能と、前記取得した組合せに係る２つの画素の輝度の勾配方向の共起を取得する共起取得機能と、前記取得する画素の組合せを変化させながら、前記取得する共起の出現頻度の分布を取得する出現頻度取得機能と、前記取得した出現頻度の分布に対応する確率密度関数を生成する確率密度関数生成機能と、前記生成した確率密度関数を、当該確率密度関数を規定するパラメータによって出力する確率密度関数出力機能と、をコンピュータで実現する画像処理プログラムを提供する。
（１４）請求項１４に記載の発明では、請求項２に記載の画像処理装置が出力した基準確率密度関数を取得する基準確率密度関数取得機能と、画像認識の対象となる対象画像を取得する対象画像取得機能と、前記取得した基準確率密度関数を用いて前記取得した対象画像の特徴量を取得する対象画像特徴量取得機能と、前記取得した特徴量を用いて前記対象画像が画像認識対象を含んでいるか否かを判断する判断機能と、をコンピュータで実現する画像認識プログラムを提供する。

本発明によれば、勾配方向の共起の出現頻度を確率密度関数に対応させることにより、検出精度を高めつつ、計算コストを低減することができる。

本実施の形態に係る画像処理を説明するための図である。画像処理装置が行う学習処理を説明するための図である。ｆｐ（ｘ）とｆｎ（ｘ）の差分処理を説明するための図である。基準ＧＭＭの生成について説明するための図である。画像処理装置のハードウェア的な構成の一例を示した図である。基準ＧＭＭを用いた手法によって画像認識を行った定量評価実験の結果を表したグラフである。プロット処理の手順を説明するためのフローチャートである。学習処理の手順を説明するためのフローチャートである。画像認識処理の手順を説明するためのフローチャートである。変形例１を説明するための図である。変形例２を説明するための図である。ＪＳ特徴量を用いて画像認識を行った定量評価実験の結果を表したグラフである。

（１）実施形態の概要
画像処理装置８は、輝度の勾配方向の角度を直交する座標軸の座標値に対応させた特徴面１５を用意し、画像の輝度勾配共起ペアを当該特徴面１５にプロットする。共起ペアの取得は、複数の解像度間に渡って行う。
画像処理装置８は、画像全体に渡って共起ペアをプロットした後、指定された混合数に基づいてこれらをクラスタリングして共起ペアのクラスタを形成する。

次に、画像処理装置８は、これにＥＭアルゴリズムを適用して、各クラスタでの共起ペアの分布をガウス分布に対応させたＧＭＭ（混合ガウスモデル）を形成することにより、共起ペアが生起する確率的な分布を推定する。
画像処理装置８は、共起ペアの分布に基づいてＧＭＭを動的に形成するため、ヒストグラム（ＧＭＭによる確率密度の分布）のビンの位置や幅が固定値ではなく、画像に適した値に設定することができる。

上記の手法によるＧＭＭ生成機能を有する画像処理装置８は、歩行者画像（歩行者を画像認識対象とする）を多数学習して、歩行者画像のＧＭＭを作成し、更に、背景画像（画像認識対象が写っていない画像）を多数学習して背景画像のＧＭＭを作成する。
そして、画像処理装置８は、歩行者画像のＧＭＭと背景画像のＧＭＭの差分を計算して、これに基づく再学習用のＧＭＭを形成する。
差分により両者の重なる部分が弱められ、これによって特徴的な部分だけが残り、より画像認識に適した分布が得られる。

次に、画像処理装置８は、逆関数定理を適用することにより（即ち、再学習用のＧＭＭを表す確率密度関数の累積分布関数を求め、これの逆関数に倣って一様分布乱数を発生させることにより）再学習用のＧＭＭに従うサンプルを特徴面１５にプロットする。

最後に、画像処理装置８は、サンプルの分布を表すＧＭＭを指定された混合数で形成することにより画像認識の基準となる基準ＧＭＭを形成する。
この混合数を先に指定された混合数よりも小さく設定すると、画像を解析する際の特徴次元数が下がるため、計算コストを低減することができる。
どの程度混合数を減らすかは、必要とされる画像認識の能力が得られる範囲で行う。

画像処理装置８は、画像認識の対象となる対象画像の基準ＧＭＭに対する負担率を潜在パラメータごとに計算し、得られた負担率を成分とするベクトルを当該対象画像の特徴量とする。
画像処理装置８は、当該特徴量を識別器に入力して当該対象画像に歩行者が含まれているか判断する。

以上のように、画像処理装置８は、輝度の勾配方向を量子化してヒストグラムを生成するという従来手法に代わって、量子化を行わずに共起ペアの分布を求め、これに対応する確率密度関数（ＧＭＭ）を推定する。
ＧＭＭは、母数（平均値、分散共分散行列など）などを表すパラメータによって規定されるため、量子化の細分化による特徴量の増大という問題を回避することができる。

（２）実施形態の詳細
図１は、本実施の形態に係る画像処理を説明するための図である。
本実施の形態の画像処理装置８は、画像から特徴量を抽出する画像処理装置としての機能と、これを用いて画像認識処理を行う画像認識装置としての機能を併せ持っている装置であって、同じ画像の異なる解像度間に渡る共起をみることにより画像から特徴量を抽出する。

図１（ａ）に示したように、画像処理装置８は、画像処理の対象となる元画像２の入力を受け付け、これを複数の同じ矩形形状のブロック領域３Ａ、３Ｂ、・・・に区分する。
このように画像処理装置８は、画像を入力する画像入力手段を備えている。
図では、図示しやすいように４×４に区分しているが、標準的な値は、例えば、４×８である。
なお、ブロック領域３Ａ、３Ｂ、・・・を特に区別しない場合は、単にブロック領域３と記す。

画像処理装置８は、元画像２をブロック領域３に区分すると共に、元画像２の解像度を変換し、図１（ｂ）に示したように解像度（画像サイズ）の異なる高解像度画像１１、中解像度画像１２、低解像度画像１３を生成する。元画像２の解像度が適当な場合は、元画像２をそのまま高解像度画像として使用する。
このように、画像処理装置８は、画像の解像度を変換する解像度変換手段を備えている。
図では、ブロック領域３Ａの部分の高解像度画像１１、中解像度画像１２、低解像度画像１３を示しており、升目は画素を模式的に表している。

そして、画像処理装置８は、高解像度画像１１、中解像度画像１２、低解像度画像１３のそれぞれの画素について勾配方向（低輝度から高輝度に向かう方向）を計算する。この勾配方向の角度は、０°〜３６０°の連続値である。
なお、以下では、輝度の勾配方向を単に勾配方向と記す。

画像処理装置８は、このようにして勾配方向を算出すると、基準とする画素（以下、注目画素）と、これから離れた位置にある画素（以下、オフセット画素）の勾配方向の共起を次のようにして取得する。

まず、画像処理装置８は、図１（ｃ）に示したように、高解像度画像１１に注目画素５を設定し、高解像度画像１１で注目画素５からオフセット距離１（即ち、高解像度において隣接する）にあるオフセット画素１ａ〜１ｄに着目する。
なお、画素ｎ個分の距離をオフセット距離ｎと呼ぶことにする。

そして、画像処理装置８は、注目画素５とオフセット画素１ａ〜オフセット画素３ｄとの各勾配方向の共起（勾配方向の組合せ）を取得し、これに対応する点を共起対応点５１、５１、・・・として、図１（ｄ）に示す特徴面１５（１ａ）〜１５（３ｄ）にプロットする。
なお、図１（ｄ）に示した１２の特徴面１５（１ａ）〜１５（３ｄ）は、図１（ａ）で区分したブロック領域３Ａ、３Ｂ、・・・毎に作成される。
以下、複数の特徴面全体をさす場合には特徴面１５という。

例えば、図１（ｃ）において、注目画素５とオフセット画素１ａの共起をプロットする場合、注目画素５の勾配方向が２６°で、オフセット画素１ａの勾配方向が１３５°であったとすると、画像処理装置８は、オフセット画素１ａ用の特徴面１５（１ａ）の横軸が２６°で縦軸が１３５°である位置に共起対応点５１をプロットする。

そして、画像処理装置８は、高解像度画像１１内で、注目画素５を順次移動しながら、注目画素５とオフセット画素１ａとの共起を取って特徴面１５（１ａ）にプロットする。
このように特徴面１５は、画像中にある特定のオフセット（注目画素５からの相対位置）を持つ２つの勾配方向ペアがどのような出現頻度を持つかを表現している。

なお、図１（ｃ）で、図面に向かって注目画素５の右側の画素について共起を観察するのは、まず、注目画素５を図面に向かって左上端の画素から、順次右方向の画素に移動し、右端に達すると、１段下で左端の画素から右方向に移動させるという移動経路を設定しているので、注目画素５の移動に伴って重複する共起の組合せを取得しないようにするためである。

また、注目画素５の移動はブロック領域３Ａ内（同一のブロック領域内）で行うが、オフセット画素の選択は、ブロック領域３Ａを超える場合でも行われる。
元画像２の端部では、勾配方向を算出することができないが、これについては、適当な任意の方法で処理する。

次に、画像処理装置８は、注目画素５とオフセット画素１ｂ（図１（ｃ）参照）との勾配方向の共起を取得して、これに対応する共起対応点５１を特徴面１５（１ｂ）にプロットする。
なお、画像処理装置８は、先に注目画素５とオフセット画素１ａで使用した特徴面１５（１ａ）とは、異なる新たな特徴面１５を用意し、これに投票する。このように、画像処理装置８は、注目画素５とオフセット画素の相対的な位置関係の組合せごとに特徴面１５を生成する。
そして、高解像度画像１１内で注目画素５を順次移動しながら、注目画素５とオフセット画素１ｂとの共起を取って共起対応点５１を当該特徴面１５（１ｂ）にプロットする。

以下同様に画像処理装置８は、注目画素５とオフセット画素１ｃとの組合せ、及び注目画素５とオフセット画素１ｄの組合せについても、それぞれに個別の特徴面１５（１ｃ）、１５（１ｄ）を用意して勾配方向の共起をプロットする。

このようにして、画像処理装置８は、注目画素５と、注目画素５からオフセット距離１のオフセット画素１ａ〜１ｄについての４つの特徴面１５を生成すると、次に、高解像度画像１１における注目画素５と、オフセット距離２にある中解像度画像１２のオフセット画素２ａ〜２ｄに着目する。

そして、上記の手法と同じ手法により、注目画素５とオフセット画素２ａの組合せによる特徴面１５（２ａ）、同様にオフセット画素２ｂ、２ｃ、２ｄの組合せによる特徴面１５（２ｂ）〜１５（２ｄ）を作成する。

そして、画像処理装置８は、高解像度画像１１における注目画素５と、オフセット距離３にある低解像度画像１３のオフセット画素３ａ〜３ｄについても同様に、注目画素５とオフセット画素３ａ〜３ｄの相対的な位置関係の組合せごとの特徴面１５（３ａ）〜１５（３ｄ）を生成する。
画像処理装置８は、以上の処理をブロック領域３Ｂ、３Ｃ、・・・に対しても行い、元画像２の特徴を抽出した複数の特徴面１５を生成する。
このように画像処理装置８は、ブロック領域３Ａ、３Ｂ、３Ｃ・・・毎に、複数の特徴面１５（１ａ）〜１５（３ｄ）を生成する。

このように画像処理装置８は、入力した画像から２つの画素の組合せを取得する画素組合せ取得手段と、これらの組合せに係る２つの画素の輝度の勾配方向の共起を取得する共起取得手段を備え、当該画素組合せ取得手段は、解像度を変換した画素も組合せの対象としている。
そして、画像処理装置８は、取得する画素の組合せを変化させながら、共起の出現頻度の分布を特徴面１５による散布図によって取得する出現頻度取得手段を備えており、これによって、特徴面１５で表される共起特徴空間に勾配方向ペアの出現を写像している。

画像処理装置８は、このようにして元画像２からブロック領域３ごとにオフセット画素ごとの複数の特徴面１５を生成する特徴面生成機能を有している。
そして、画像処理装置８は、これら特徴面１５の各々について、以下のようにしてＧＭＭ（混合ガウスモデル）を生成する。

なお、ここでは、説明を簡単にするため、元画像２から作成した特徴面１５からＧＭＭを生成するが、より詳細には、後述するように、多数の学習画像から取得した特徴面１５を重ね合わせたものに対してＧＭＭを生成する。

図１（ｅ）は、これら複数の特徴面１５のうちの１つを表しており、まず、画像処理装置８は、これらの共起対応点５１を近いもの同士を組合せることにより混合数Ｋ個のクラスタ（グループ）にクラスタリングする。混合数は、ＧＭＭを生成するに際して混合するガウス分布の個数を表しており、これを適当に指定すると、画像処理装置８は、自動的に指定された個数に共起対応点５１をクラスタリングする。

本実施の形態では、一例として、Ｋ＝６４に設定してある。図では、簡単化のため、Ｋ＝３とし、共起対応点５１は、クラスタ６０ａ〜６０ｃにクラスタリングされている。
特徴面１５にプロットされた共起対応点５１、５１、・・・は、画像の特徴に応じて集まる傾向があり、クラスタ６０ａ、６０ｂ、・・・は、画像の特徴を反映したものとなる。
画像認識の際の特徴次元は、混合数Ｋに依存するため、どこまで画像の特徴を損なわずに、混合数Ｋを小さくできるかは、重要な事項の一つである。

画像処理装置８は、共起対応点５１をクラスタリングした後、特徴面１５における共起対応点５１の確率密度関数５３を図１（ｆ）に示したようにＫ個のガウス分布を線形に重ね合わせた確率密度関数ｐ（ｘ｜θ）で表す。このようにガウス分布を基底関数とし、これによる線形和で表された確率密度関数５３がＧＭＭである。
なお、図１（ｆ）の縦軸では、ｐ（ｘ｜θ）をｐ（ｘ）と略記している。また、以下では、特に必要の無い場合は、確率密度関数をｐ（ｘ）と略記する。
ＧＭＭは、共起対応点が分布する確率を表す確率密度関数として機能しており、画像処理装置８は、勾配方向の共起の出現頻度の分布に対応する確率密度関数をＧＭＭで生成する確率密度関数生成手段を備えている。

確率密度関数ｐ（ｘ｜θ）の具体的な数式は、図１（ｇ）のようになる。
ここで、ｘは、共起対応点５１の分布を表すベクトル量でありθは母数（μｊ、Σｊ）（ただし、ｊ＝１、２、・・・、Ｋ）を表すベクトル量である。
πｊは、混合係数と呼ばれ、ｊ番目のガウス分布を選択する確率を表している。μｊ、Σｊは、それぞれ、ｊ番目のガウス分布の平均値と、分散共分散行列を表している。πｊとθにより確率密度関数５３、即ち、ＧＭＭが一意的に定まる。

ｚは、ＥＭアルゴリズムや負担率γを計算するのに用いられる潜在パラメータであり、混合するＫ個のガウス分布に対応してｚ１、ｚ２、・・・、ｚＫが用いられる。
ＥＭアルゴリズムは、説明は省略するが、尤度を最大化するπｊと母数（μｊ、Σｊ）を推定するアルゴリズムであり、画像処理装置８は、ＥＭアルゴリズムを適用することによりπｊ、θを決定し、これによってｐ（ｘ｜θ）を求める（推定する）。

πｊやθは、確率密度関数５３を規定するパラメータとして機能しており、画像処理装置８は、確率密度関数を、当該確率密度関数を規定するパラメータによって出力する確率密度関数出力手段を備えている。
画像処理装置８は、量子化した勾配方向による共起ヒストグラムの代わりに勾配方向の分布をＧＭＭで表すため、勾配方向ペアの分布をこれらパラメータで表すことができ、量子化の細分化に伴う情報量の増大を回避することができる。

図２は、画像処理装置８が行う学習処理を説明するための図である。
本実施の形態では、一例として、歩行者を画像認識対象とする。そこで、歩行者の特徴を学習するために、歩行者が様々な態様で写っている歩行者画像を構成する元画像２ａ、２ａ、・・・と、歩行者の背景となる背景画像を構成する元画像２ｂ、２ｂ・・・を学習画像として多数（例えば、各１万枚程度）用意する。

なお、画像処理装置８は、歩行者画像に加えて背景画像も学習することにより、画像認識処理において歩行者らしくないところを減点して精度が高める。これは、一例であって、画像処理を歩行者画像だけで行うことも可能である。

まず、画像処理装置８は、図２（ａ）に示したように、歩行者画像で構成された元画像２ａを読み込んで、これをブロック領域３に区分し（図示せず）、各ブロック領域３についてオフセット画素ごとに特徴面１５を生成する。
このようにして、画像処理装置８は、ブロック領域３ごとにオフセット画素ごとの特徴面１５を各元画像２ａ、２ａ、・・・について生成すると、対応する特徴面１５（即ち、同じブロック領域３の同じオフセット画素の特徴面１５）を重ね合わせた特徴面１５ａをブロック領域３ごと、及びオフセット画素ごとに生成する。

特徴面１５ａは、歩行者の画像に共通する特徴が共起対応点の分布によって含まれており、画像処理装置８は、特徴面１５ａの共起対応点をクラスタリングして確率密度関数ｆｐ（ｘ）から成るポジティブＧＭＭを生成する。
ここでｐは、検出対象（ここでは、画像認識対象である歩行者）が写っているという意味で、ｐｏｓｉｔｉｖｅのｐである。このような画像認識対象が写っている画像は、ポジティブ画像とも称される。
このように、画像処理装置８は、入力手段から認識対象を含む複数の認識対象画像を入力し、出力手段に当該複数の認識対象画像に基づく認識対象確率密度関数（ｆｐ（ｘ））を出力させる認識対象学習手段を備えている。

次に、画像処理装置８は、図２（ｂ）に示したように、背景画像で構成された元画像２ｂを読み込んで、これをブロック領域３に区分し（図示せず）、各ブロック領域３についてオフセット画素ごとに特徴面１５を生成する。
このようにして、画像処理装置８は、ブロック領域３ごとにオフセット画素ごとの特徴面１５を各元画像２ｂ、２ｂ、・・・について生成すると、対応する特徴面１５を重ね合わせた特徴面１５ｂをブロック領域３ごと、及びオフセット画素ごとに生成する。

特徴面１５ｂは、歩行者のいない背景に共通する特徴が共起対応点の分布によって含まれており、画像処理装置８は、特徴面１５ｂの共起対応点をクラスタリングして確率密度関数ｆｎ（ｘ）から成るネガティブＧＭＭを生成する。
ここでｎは、検出対象（ここでは、画像認識対象である歩行者）が写っていないという意味で、ｎｅｇａｔｉｖｅのｎである。このような画像認識対象が写っていない画像は、ネガティブ画像とも称される。

このように、画像処理装置８は、入力手段から認識対象を含まない複数の非認識対象画像を入力し、出力手段に非認識対象画像による非認識対象確率密度関数（ｆｎ（ｘ））を出力させる非認識対象学習手段を備えている。
以上のようにして、画像処理装置８は、歩行者画像の特徴量をｆｐ（ｘ）によって抽出すると共に、背景画像の特徴量をｆｎ（ｘ）によって抽出する。

以上のようにして得られたｆｐ（ｘ）は、歩行者の存在する確率の高い領域に基底関数が配置されたものとなり、画像に写っている歩行者を画像認識する際の判定基準として利用することができる。
一方、ｆｎ（ｘ）は、背景、即ち、歩行者ではない領域に基底関数が配置されることが考えられ、歩行者でないものの特徴を反映したものになると思われる。実際に車窓から背景を撮影すると、建造物の縦方向のエッジ部分が多いためか、歩行者とは異なる分布が得られる。

そのため、ｆｐ（ｘ）だけを用いて歩行者の識別基準とすることも可能であるが、ｆｎ（ｘ）を併せて用いて歩行者らしくないところも考慮すると、より歩行者と否歩行者を識別する特徴的な基準が得られると考えられる。
そこで、本実施の形態では、ｆｐ（ｘ）とｆｎ（ｘ）の相関を計量し、これを用いて歩行者の特徴量を規定することとした。

ここで、ｆｐ（ｘ）とｆｎ（ｘ）の相関とは、両者の関連の強弱をいい、その関連の強弱の程度を計測する尺度が計量（メトリック）である。
換言するなら、計量によりｆｐ（ｘ）とｆｎ（ｘ）が配置される計量空間が規定され、両者の相関の強弱が当該計量空間における両者の距離（即ち計量）によって決定されるのである。
計量を表す数式は、各種定義することができ、例えば、両者の差分を用いた計量、両者の比を用いた計量、あるいは、差分と比を用いた計量など、歩行者の特徴を好適に表すものを採用することができる。
ここでは、一例として、ｆｐ（ｘ）とｆｎ（ｘ）の差分によってｆｐ（ｘ）とｆｎ（ｘ）の相関を計量する。

このように、画像処理装置８は、共起分布の学習時に認識対象画像（認識対象確立密度関数）（ｆｐ（ｘ））の特徴量と、非認識対象画像（非認識対象確立密度関数）（ｆｎ（ｘ））の特徴量の相関の計量を元に共起分布を作成する。
この時、共起分布は、確率密度分布に基づいて生成されていることから、その確率密度分布が持つ情報量の差異を考慮した基準が得られる。

図３は、ｆｐ（ｘ）とｆｎ（ｘ）の相関の計量を差分によって行う差分処理を説明するための図である。
ｆｐ（ｘ）は、歩行者画像の共起対応点の分布による特徴を表しており、ｆｎ（ｘ）は、背景画像の共起対応点の分布による特徴を表しているが、両者の特徴が重なっている場合がある。

この重なっている部分では、画像認識の対象画像から抽出した特徴量が歩行者のものなのか背景のものなのか判然としないため、当該特徴量が歩行者であるとの説明力が重なりの程度に従って弱くなる。
そこで、本実施の形態では、図３（ａ）に示したように、ｇ（ｘ）＝ｆｐ（ｘ）−ｆｎ（ｘ）として両者の差分を取ることとした。

これにより、図３（ａ）で差分前と差分後の特徴面を模式図に示したように、歩行者画像と背景画像の両者に共通する特徴をその度合いに応じて弱め合い、両者で特徴的な部分が残る。
例えば、ある重なり部分の歩行者画像側の値が０．６で、背景画像側の値が０．２であった場合、この部分は、差分によって０．６−０．２＝０．４だけ歩行者の特徴量としての説明力を有するものとなり、歩行者画像側の値が０．４で、背景画像側の値が０．４であった場合、この部分は、０となって歩行者としても背景としても説明力を持たないことになる。

更に、画像処理装置８は、図３（ｂ）に示したように、差分の絶対値｜ｇ（ｘ）｜＝｜ｆｐ（ｘ）−ｆｎ（ｘ）｜で規定される確率密度関数｜ｇ（ｘ）｜から画像認識処理で用いる基準ＧＭＭを生成する。
差分の絶対値を取ることにより、ポジティブ画像に現れてネガティブ画像に現れない、また、ポジティブ画像に現れて、ネガティブ画像に現れる重要な特徴を得ることができ、検出精度を向上することができる。

このように、画像処理装置８は、出力させた認識対象確率密度関数（ｆｐ（ｘ））と、非認識対象確率密度関数（ｆｎ（ｘ））と、相関を計量する計量情報（計量により得られる情報であり、ここでは、差分確率密度関数（｜ｇ（ｘ）｜）を生成する計量情報生成手段を備えている。
そして、この例で示したの計量情報は、認識対象確率密度関数と、非認識対象確率密度関数と、の差分を用いた差分確率密度関数となっている。
なお、本実施の形態では、単純にｆｐ（ｘ）とｆｎ（ｘ）の差分を計算したが、後述の変形例で説明するＫＬ特徴量やＪＳ特徴量を用いて計量情報を計算してもよい。

図４は、基準ＧＭＭの生成について説明するための図である。
差分確率密度関数｜ｇ（ｘ）｜は、このまま用いることも可能であるが、画像処理装置８は、図４（ａ）に示したように、これを正規化したｈ（ｘ）＝｜ｇ（ｘ）｜／∫｜ｇ（ｘ）｜ｄｘを再学習して基準ＧＭＭを生成する。

画像処理装置８は、ｈ（ｘ）を生成すると、逆関数法を用いてこれに従うサンプルを多数発生させてこれらを特徴面にプロットする。
より詳細には、画像処理装置８は、ｈ（ｘ）の累積分布関数Ｈ（ｘ）＝∫ｈ（ｔ）ｄｔ（積分はｔ＝０からｔ＝ｘまで）を生成し、これの逆関数Ｈ−１（ｘ）（−１は上付文字）に従って一様分布乱数を発生させる。これにより、画像処理装置８は、ｈ（ｘ）に従ったサンプルの分布５７を得る。
このように、画像処理装置８は、計量情報（ここでは、差分確率密度関数）に従って複数のサンプルを発生させるサンプル発生手段を備えている。

次に、画像処理装置８は、図４（ｂ）に示したように、ｈ（ｘ）に従って発生させたサンプルをクラスタリングして基準確率密度関数ｇ’（ｘ）を表す基準ＧＭＭ５５を生成する。
画像処理装置８は、基準ＧＭＭ５５を規定するパラメータ（混合係数πｊ、母数θなど）をＥＭアルゴリズムによって求めて出力する。

このように、画像処理装置８は、差分確率密度関数から、認識対象を画像認識する基準となる基準確率密度関数をサンプルの出現頻度の分布に基づいて生成する基準確率密度関数生成手段と、生成した基準確率密度関数を、当該基準確率密度関数を規定するパラメータ（θなど）によって出力する基準確率密度関数出力手段と、を備えている。

また、本実施の形態では、基準ＧＭＭ５５を生成する際の混合係数をＫ＝３２としても必要な画像認識能力が担保できることが実験により確認され、混合数を学習に際して設定したＫ＝６４から混合数を半分に減らすのに成功した。

このように、認識対象確率密度関数（ｆｐ（ｘ））と、非認識対象確率密度関数（ｆｎ（ｘ））は、それぞれ所定の個数の基底関数（ガウス分布）を混合して生成されており、基準確率密度関数生成手段は、所定の個数（Ｋ＝６４）よりも少ない個数の基底関数を混合して基準確率密度関数を生成している。
画像認識の対象画像の特徴量の次元は、後述するように、混合数×オフセット画素数×解像度数×ブロック領域数となるため、混合数を減らすと特徴量の次元も減り、画像処理に要する負荷を低減することができる。

更に、画像処理装置８は、認識対象確率密度関数（ｆｐ（ｘ））を用いて認識対象を画像認識する基準となる基準確率密度関数を生成する基準確率密度関数生成手段を備えており、当該基準確率密度関数生成手段は、ｆｐ（ｘ）とｆｎ（ｘ）から生成した差分確率密度関数を用いて基準確率密度関数を生成している。

画像処理装置８は、このようにして生成した基準ＧＭＭ５５を用いて、画像認識の対象画像の特徴量を図４（ｃ）の数式に示した負担率γを用いて計算する。ここでｘは、対象画像における輝度勾配の共起対応点５１の分布を示している。
負担率γ（ｎｋ）は、ある共起対応点ｘｎがｋ番目のガウス分布から生成される確率を表している。

画像処理装置８は、負担率γを、例えば、Ｌ２正規化やパワー正規化といった正規化手法を用いて正規化して画像認識処理用の特徴量とする。
そして、画像処理装置８は、正規化した特徴量を、例えば、ＳＶＭ（サポートベクターマシン）やＡｄａＢｏｏｓｔなどの識別器に入力して画像認識の判定を行う。
なお、これは、識別器を限定するものではなく、計算コストや精度の兼ね合いから使用者が自由に選択することができる。

このように、画像処理装置８は、画像認識に際して、基準確率密度関数を取得する基準確率密度関数取得手段と、画像認識の対象となる対象画像を取得する対象画像取得手段を備えている。
そして、画像処理装置８は、学習で使用した機能を用いて対象画像から勾配方向の共起を取って負担率を求めるため、対象画像における勾配方向の共起の出現頻度の分布を取得し、当該出現頻度の分布が基準確率密度関数から生成される確率、即ち負担率に基づいて対象画像の特徴量を取得する対象画像特徴量取得手段と、当該特徴量を用いて対象画像が画像認識対象を含んでいるか否かを判断する判断手段を備えている。

図５は、画像処理装置８のハードウェア的な構成の一例を示した図である。
画像処理装置８は、例えば、パーソナルコンピュータによって構成されている。
これは一例であって、特徴量抽出用の専用のハードウェアを半導体装置で形成し、これを車載カメラなどに搭載するように構成することもできる。

画像処理装置８は、ＣＰＵ８１、ＲＯＭ８２、ＲＡＭ８３、記憶装置８４、記憶媒体駆動装置８５、入力部８６、及び出力部８７などがバスラインで接続されて構成されている。
ＣＰＵ８１は、中央処理装置であって、記憶装置８５が記憶する画像認識プログラムに従って動作し、上述した画像からの特徴量抽出する画像処理や、抽出した特徴量を用いた画像認識処理などを行う。

ＲＯＭ８２は、読み出し専用のメモリであって、ＣＰＵ８１を動作させるための基本的なプログラムやパラメータを記憶している。
ＲＡＭ８３は、読み書きが可能なメモリであって、ＣＰＵ８１が特徴量抽出処理や画像認識処理を行う際のワーキングメモリを提供する。

記憶装置８４は、ハードディスクなどの大容量の記憶媒体を用いて構成されており、画像認識プログラムや、学習用画像、及び認識対象画像の画像データなどを記憶している。
画像認識プログラムは、ＣＰＵ８１に画像処理機能や画像認識処理機能を発揮させるプログラムである。

記憶媒体駆動装置８５は、例えば、半導体記憶装置やハードディスクなどの外付けの記憶媒体を駆動する装置である。
これにより、学習用画像や認識対象画像を読み込むことができる。
入力部８６は、操作担当者からの入力を受け付けるキーボード、マウスなどの入力デバイスを備えており、各種プログラムやデータの読み込みや、操作担当者からの操作を受け付ける。
出力部８７は、操作担当者に各種の情報を提示するディスプレイ、プリンタなどの出力デバイスを備えており、画像認識プログラムの操作画面、及び、特徴量抽出処理や画像認識処理の結果を出力する。

このほかに、画像処理装置８は、通信ネットワークと接続する通信制御部や外部機器と接続するためのインターフェースなどを備えている。
通信ネットワークやインターフェースに接続したカメラから動画を受信し、これに対してリアルタイムで画像認識処理を行うこともできる。

図６は、上記の基準ＧＭＭを用いた手法によって画像認識を行った定量評価実験の結果を表したグラフである。
図６（ａ）は、基準ＧＭＭの混合数を変化させた場合の実験結果を示している。
図では、基準ＧＭＭを混合数ＫをＫ＝６４で生成した場合、Ｋ＝３２として生成した場合、及びＣｏＨＯＧ（Ｃｏ−ｏｃｃｕｒｒｅｎｃｅＨＯＧ）を用いた場合を比較している。
このグラフでは、縦軸を正検出率、横軸を誤検出率としており、実験データを示す曲線の下側の面積が大きいほど高性能と評価される。

ＣｏＨＯＧは、同一解像度内の局所領域における２画素間の勾配ペアに着目した特徴量であり、頑強性が高いとの評価を得ている手法である。ＣｏＨＯＧでは、輝度の勾配方向を例えば、８方向に量子化し、勾配ペアごとの共起ヒストグラムを画像の特徴量とする。
なお、画像処理装置８は、高解像度画像１１で注目画素５に隣接する画素、中解像度画像１２で注目画素５に隣接する画素、及び低解像度画像１３で注目画素５に隣接する画素について共起を見ているため、多重解像度での局所領域内における２画素間の勾配ペアに着目している。

グラフに示したように、Ｋ＝６４、Ｋ＝３２とした場合は、ＣｏＨＯＧよりも優位に性能が高く、Ｋ＝３２の場合は、Ｋ＝６４の場合よりも若干精度が下がるが、両者は、ほとんど同じ精度であり、Ｋによる特徴次元を半分に減らしても十分に実用に耐えることが分かる。

図６（ｂ）は、ｇ’（ｘ）（基準ＧＭＭ）を用いた場合、歩行者画像によるｆｐ（ｘ）（ポジティブＧＭＭ）を用いた場合、差分による｜ｇ（ｘ）｜を用いた場合、及びＣｏＨＯＧを用いた場合を比較している。これら３つのＧＭＭを用いた方法では、混合数をＫ＝６４とした。

グラフに示したように、ｇ’（ｘ）の場合が最も精度が高く、次いで、ｆｐ（ｘ）の場合、｜ｇ（ｘ）｜の場合、ＣｏＨＯＧの順となっている。
このようにｆｐ（ｘ）を単独で用いた場合よりも、ｆｐ（ｘ）とｆｎ（ｘ）の差分を学習させたｇ’（ｘ）を用いると、歩行者特有の特徴のみを検出することができ、より精度を高めることができる。

図７は、画像処理装置８が行うプロット処理の手順を説明するためのフローチャートである。
以下の処理は、ＣＰＵ８１が画像認識プログラムに従って行うものである。
まず、画像処理装置８は、特徴を抽出する対象となる元画像２の入力を記憶装置８４などから受け付けてＲＡＭ８３に読み込む（ステップ５）。
次に、画像処理装置８は、元画像２をブロック領域３に区分し、当該区分の位置をＲＡＭ８３に記憶する（ステップ１０）。

次に、画像処理装置８は、区分した高解像度画像１１のブロック領域３のうちの１つを選択し（ステップ１５）、これから共起対象の高解像度画像１１の画素、中解像度画像１２の画素、低解像度画像１３の画素を生成してＲＡＭ８３に記憶する（ステップ２０）。
なお、元画像２をそのまま高解像度画像１１として使用する場合は、元画像２の画素を解像度変換せずに高解像度画像１１の画素として使用する。

次に、画像処理装置８は、生成した高解像度画像１１、中解像度画像１２、低解像度画像１３の個々の画素について勾配方向を算出してＲＡＭ８３に記憶する（ステップ２５）。
次に、画像処理装置８は、高解像度画像１１内、高解像度画像１１と中解像度画像１２の間、及び高解像度画像１１と低解像度画像１３の間で勾配方向の共起を取って特徴面１５にプロットし、ＲＡＭ８３に記憶する（ステップ３０）。これにより当該ブロック領域３Ａによる特徴面１５が得られる。
次に、画像処理装置８は、全ての画素についてプロットしたか否かを判断する（ステップ３５）。
まだ、プロットを行っていない画素がある場合（ステップ３５；Ｎ）、画像処理装置８は、ステップ２０に戻って次の画素を選択し、これについて特徴面１５へのプロットを行う。

一方、当該ブロック領域３についての全画素についてプロットした場合（ステップ３５；Ｙ）、画像処理装置８は、全てのブロック領域３についてプロットしたか否かを判断する（ステップ４０）。
まだ、プロットを行っていないブロック領域３がある場合（ステップ４０；Ｎ）、画像処理装置８は、ステップ１５に戻って次のブロック領域３を選択し、これについて特徴面１５へのプロットを行う。
一方、全てのブロック領域３についてプロットした場合（ステップ４０；Ｙ）、画像処理装置８は、ＲＡＭ８３の配列から、全てのブロック領域３ごとのオフセット画素ごとに生成した特徴面１５をＲＡＭ８３に出力する（ステップ４５）。

図８は、画像処理装置８が行う学習処理の手順を説明するためのフローチャートである。
まず、画像処理装置８は、ポジティブ画像として提供されている歩行者画像を記憶装置８４から読み込んでＲＡＭ８３に記憶する（ステップ５０）。
次に、画像処理装置８は、ＲＡＭ８３に読み込んだ歩行者画像を元画像２としてプロット処理を行い、ブロック領域３ごと、オフセット画素ごとの特徴面１５を生成してＲＡＭ８３に記憶する（ステップ５５）。

次に、画像処理装置８は、提供された全ての歩行者画像についてプロット処理したか否かを判断し（ステップ６０）、まだプロット処理していない歩行者画像がある場合には（ステップ６０；Ｎ）、ステップ５０に戻って、次の歩行者画像に対してプロット処理を行う。

一方、全ての歩行者画像についてプロットした場合（ステップ６０；Ｙ）、画像処理装置８は、歩行者画像に対して生成した全ての特徴面１５をＲＡＭ８３から読み出し、対応する特徴面１５ごとに（即ち、同じブロック領域３の同じオフセット画素に対して生成された特徴面１５ごとに）重畳してＲＡＭ８３に記憶する（ステップ６５）。
そして、画像処理装置８は、重畳した歩行者画像の特徴面１５ごとにＥＭアルゴリズムを適用してｆｐ（ｘ）（ポジティブＧＭＭ）を生成して、そのパラメータをＲＡＭ８３に記憶する（ステップ７０）。

次に、画像処理装置８は、ネガティブ画像として提供されている背景画像を記憶装置８４から読み込んでＲＡＭ８３に記憶する（ステップ７５）。
次に、画像処理装置８は、ＲＡＭ８３に読み込んだ背景画像を元画像２としてプロット処理を行い、ブロック領域３ごと、オフセット画素ごとの特徴面１５を生成してＲＡＭ８３に記憶する（ステップ８０）。

次に、画像処理装置８は、提供された全ての背景画像についてプロット処理したか否かを判断し、まだプロット処理していない背景画像がある場合には（ステップ８５；Ｎ）、ステップ７５に戻って、次の背景画像に対してプロット処理を行う。

一方、全ての背景画像についてプロットした場合（ステップ８５；Ｙ）、画像処理装置８は、背景画像に対して生成した全ての特徴面１５をＲＡＭ８３から読み出し、対応する特徴面１５ごとに重畳してＲＡＭ８３に記憶する（ステップ９０）。
そして、画像処理装置８は、重畳した背景画像の特徴面１５ごとにＥＭアルゴリズムを適用してｆｎ（ｘ）（ネガティブＧＭＭ）を生成してＲＡＭ８３に記憶する（ステップ９５）。

画像処理装置８は、このようにして特徴面１５ごとのｆｐ（ｘ）とｆｎ（ｘ）を用意すると、これらの差分の絶対値｜ｇ（ｘ）｜を特徴面１５ごとに生成してＲＡＭ８３に記憶する（ステップ１００）。
更に、画像処理装置８は、ＲＡＭ８３に記憶した｜ｇ（ｘ）｜から特徴面１５ごとのｈ（ｘ）を生成し、逆関数定理を用いることによりｈ（ｘ）に従って特徴面１５ごとにサンプルを発生させてＲＡＭ８３に記憶する（ステップ１０５）。

そして、画像処理装置８は、指定された混合数ＫをＲＡＭ８３から読み出し、これに従ってサンプルから特徴面１５ごとの基準ＧＭＭ（ｇ’（ｘ））を生成してＲＡＭ８３に記憶する（ステップ１１０）。
以上の処理により、画像認識に用いる基準ＧＭＭが生成される。

図９は、画像処理装置８が行う画像認識処理の手順を説明するためのフローチャートである。
ここでは、一例として、車載カメラで歩行者を追跡する場合について説明する。
画像処理装置８は、車両に搭載されており、車外（例えば、車両前方）を被写体とするカメラと接続されている。
車両は、画像処理装置８によって歩行者を追跡してこれを車両の制御系に出力し、制御系は、これに基づいて運転者のハンドル操作やブレーキ操作などを支援して安全性を高める。

まず、カメラから送信される動画データから動画フレームを取得してＲＡＭ８３に記憶する（ステップ１５０）。
次に、画像処理装置８は、ＲＡＭ８３に記憶した動画フレームにおいて、歩行者を検出するための矩形の観測領域（注目画像領域）を設定する（ステップ１５５）。
初回の歩行者検出では、歩行者がどこに写っているかわからないため、画像処理装置８は、例えば、適当な初期値に基づいて白色雑音による乱数（パーティクル）を発生させて、これに基づいて適当な大きさの観測領域を適当な位置に設定する。

画像処理装置８は、当該観測領域に含まれる画像を画像認識の対象画像に設定し、ＲＡＭ８３に記憶する（ステップ１６０）。
次に、画像処理装置８は、対象画像を元画像２としてプロット処理を行い、勾配方向の共起による特徴量を対象画像から抽出してＲＡＭ８３に記憶する（ステップ１６５）。

次に、画像処理装置８は、基準ＧＭＭをＲＡＭ８３から読み出し、これを用いて負担率γを対象画像の特徴面１５ごとに計算する（ステップ１７０）。
そして、画像処理装置８は、特徴面１５ごとに計算した負担率γを全ての特徴面１５について連結して対象画像全体の特徴を表す特徴量とし（ステップ１７５）、これを正規化してＲＡＭ８３に記憶する（ステップ１８０）。

そして、画像処理装置８は、当該正規化した特徴量を識別器に入力し、出力された値から類否を判断する（ステップ１８５）。
次いで、画像処理装置８は、その結果をＲＡＭ８３に出力する（ステップ１９０）。
画像処理装置８は、類比の判断結果から、動画フレーム内で歩行者を当該観測領域内に認識できたかいなかを判断する（ステップ１９５）。
すなわち、類比の判断結果が類似していない場合、画像処理装置８は、動画フレーム内で歩行者を当該観測領域内に認識できなかったと判断し（ステップ１９５；Ｎ）、ステップ１５５に戻って、更に動画フレームに前回とは異なる観測領域を設定して、歩行者の認識を繰り返す。

一方、類似している場合、画像処理装置８は、動画フレーム内で歩行者を当該観測領域内に認識できたと判断し（ステップ１９５；Ｙ）、その認識結果を車両の制御系に出力する。
そして、画像処理装置８は、更に認識対象の追跡を継続するか否かを判断する（ステップ２００）。この判断は、例えば、車両が目的地に到着するなどして走行を停止した場合に追跡を継続しないと判断し、車両が走行している場合は追跡すると判断する。

追跡を継続しないと判断した場合（ステップ２００；Ｎ）、画像処理装置８は、画像認識処理を終了する。
一方、追跡を継続すると判断した場合（ステップ２００；Ｙ）、画像処理装置８は、ステップ１５０に戻って、次の動画フレームに対して同様の画像認識処理を行う。

なお、２回目以降の画像認識では、画像処理装置８は、ステップ１５５において前回の画像認識で歩行者が検出された付近に観測領域を設定する。
これは、歩行者が１つ前の動画フレームで検出された付近に今回の動画フレームでも存在すると考えられるからである。

これには、例えば、前回歩行者が検出された観測領域を中心に正規分布を成す乱数（パーティクル）を発生させ、当該乱数に対応して観測領域を次々に発生させて最も類似度の高い観測領域を探索するパーティクルフィルタの手法を用いると有効である。

以上のようにして、画像処理装置８は、車載カメラが撮影した車外画像から歩行者を検出し、これを追跡することができる。
なお、この手法は、車載カメラ以外に監視カメラや、その他の動く対象を動画に基づいて追跡するシステムに適用することができる。

また、認識対象を歩行者としたが、例えば、道路上の白線、信号機、標識などを走行しながら認識し、自動運転に適用することも可能である。
更に、前方を走行する車両を画像認識によって追跡して、これに追随走行する所謂コンボイ走行に適用することも可能である。

なお、以上に説明した実施の形態では、同一の被写体に対する３つの解像度の画像を用意して、オフセット距離１〜３までの勾配方向の共起を取得したが、これに限定するものではなく、必要な画像認識精度が得られるのであれば、２種類の解像度、あるいは、４種類以上の解像度の画像を組合せることもできる。

更に、本実施の形態では、高解像度画像１１、中解像度画像１２、低解像度画像１３の複数の解像度間に渡って勾配方向の共起を取得したが、高解像度画像１１内で共起を取り、中解像度画像１２で共起を取り、低解像度画像１３内で共起を取るといったように、各解像度内で共起を取ってそれぞれ別の特徴面１５にプロットしてもよい。
あるいは、ＣｏＨＯＧで行うように単一の解像度内で共起を取って特徴面１５を生成することもできる。

（変形例）
図１０は、変形例１を説明するための図である。
上に説明した実施の形態では、ｇ（ｘ）の絶対値｜ｇ（ｘ）｜を用いて基準ＧＭＭを生成した。
｜ｇ（ｘ）｜は、ｆｐ（ｘ）による分布とｆｎ（ｘ）による分布が混在しているため、これを正規化したｈ（ｘ）に従ってサンプルを発生させると、ｆｐ（ｘ）が寄与して発生したサンプルとｆｎ（ｘ）が寄与して発生したサンプルが混在することになる。

このように、両者のサンプルが混在した状態でクラスタリングすると、ｆｐ（ｘ）が寄与して発生したサンプルとｆｎ（ｘ）が寄与して発生したサンプルが同じクラスタにクラスタリングされる場合があり得る。
そこで、本変形例では、ｆｐ（ｘ）によるサンプルとｆｎ（ｘ）によるサンプルを別々のクラスタに分けて基準ＧＭＭを生成する。

変形例の画像処理装置８は、図１０（ａ）に示したように、ポジティブＧＭＭとネガティブＧＭＭの差分ｇ（ｘ）＝ｆｐ（ｘ）−ｆｎ（ｘ）を生成する。
そして、画像処理装置８は、図１０（ｂ）に示したように、ｇ（ｘ）＞０の部分を用いてサンプルを発生させ、混合数をＫ／２としてＧＭＭｐを生成する。
更に、画像処理装置８は、図１０（ｃ）に示したように、ｇ（ｘ）＜０の部分の符号を反転させた後、これを用いてサンプルを発生させ、混合数をＫ／２としてＧＭＭｎを生成する。

最後に、画像処理装置８は、図１０（ｄ）に示したように、ＧＭＭｐとＧＭＭｎを加算して混合数Ｋの基準ＧＭＭを生成する。
なお、サンプルを発生させる前に、ｇ（ｘ）＞０の部分と、ｇ（ｘ）＜０の部分は、例えば、∫｜ｇ（ｘ）｜ｄｘで割るなどして規格化する。

以上のようにして、ｆｐ（ｘ）によるサンプルとｆｎ（ｘ）によるサンプルを分けてクラスタリングすることができ、これによって精度の向上が期待できる。
変形例は、実施の形態に比べて計算量が増えるため、コンピュータのリソースが十分にあり、精度が必要な場合は、変形例１が適している。

図１１は、変形例２を説明するための図である。
本変形例では、ＫＬ特徴量を用いてｆｐ（ｘ）とｆｎ（ｘ）の相関を計量する。
図１１（ａ）に示したように、画像処理装置８は、ｆｐ（ｘ）とｆｎ（ｘ）を用いてｋ（ｆｐ，ｆｎ）とｋ（ｆｎ，ｆｐ）を計算する。
ｋ（ｆｐ，ｆｎ）とｋ（ｆｎ，ｆｐ）は、ＫＬ特徴量と呼ばれる量であり、ｋ（ｆｐ，ｆｎ）は、図１１（ｂ）に示した式で表される。ｋ（ｆｎ，ｆｐ）は、この式でｆｐとｆｎを入れ替えた式となる。
ｋ（ｆｐ，ｆｎ）は、ｆｐ（ｘ）から見たｆｎ（ｘ）の相関の計量を表しており、ｋ（ｆｎ，ｆｐ）は、ｆｎ（ｘ）から見たｆｐ（ｘ）の相関の計量を表している。

例えば、生起確率ｆｐ（ｘ）−ｆｎ（ｘ）が同じ０．１であっても、ｆｐ（ｘ）−ｆｎ（ｘ）＝０．２−０．１＝０．１の場合と、ｆｐ（ｘ）−ｆｎ（ｘ）＝０．９−０．８＝０．１では、割合で考えると異なっている。ｋ（ｆｐ，ｆｎ）は、このような割合も考慮してｆｐ（ｘ）とｆｎ（ｘ）がどれだけ近いかを表した距離のような量である。

ＫＬ特徴量では、ｆｐ（ｘ）とｆｎ（ｘ）がｌｏｇ（ｆｐ（ｘ）／ｆｎ（ｘ））の形で規定されており、これは、ｌｏｇ（ｆｐ（ｘ））−ｌｏｇ（ｆｎ（ｘ））に等しい。そのため、ＫＬ特徴量は、ｆｐ（ｘ）とｆｎ（ｘ）の比でもあり、差分でもある量が用いられている。
そして、ｋ（ｆｐ，ｆｎ）は、このｆｐ（ｘ）とｆｎ（ｘ）の比でもあり差分でもある量にｆｐ（ｘ）を乗じることにより、ｆｐ（ｘ）で重み付けし、ｆｐ（ｘ）が大きいところが強調されるようになっている。
このように、ＫＬ特徴量で表された計量情報は、認識対象確率密度関数と、非認識対象確率密度関数と、の比を用いた比確率密度関数であり、更に認識対象確率密度関数と、非認識対象確率密度関数と、の差分も用いている。

そして、画像処理装置８は、図１１（ｃ）に示したように、ｆｐ（ｘ）＞ｆｎ（ｘ）の領域では、ｇ（ｘ）＝ｋ（ｆｐ，ｆｎ）とし、その他の領域はｇ（ｘ）＝０としてサンプルを発生させ、混合数をＫ／２としてＧＭＭｐを生成する。
また、図１１（ｄ）に示したように、ｆｎ（ｘ）＞ｆｐ（ｘ）の領域では、ｇ（ｘ）＝ｋ（ｆｎ，ｆｐ）とし、その他の領域はｇ（ｘ）＝０としてサンプルを発生させ、混合数をＫ／２としてＧＭＭｎを生成する。
そして、画像処理装置８は、図１１（ｅ）に示したように、基準ＧＭＭ＝ＧＭＭｐ＋ＧＭＭｎによって基準ＧＭＭを生成する。
本変形例では、対数を用いて比と差分の双方を含んだ計量を規定したが、この他に、比による項と差分による項を線形、あるいは非線形に結合した計量を規定することも可能である。

次に第３変形例について説明する。
この第３変形例では、ＪＳ特徴量を用いてｆｐ（ｘ）とｆｎ（ｘ）の相関を計量する。
ＪＳ特徴量では、次の数式Ａに示したｆｐ（ｘ）とｆｎ（ｘ）の平均であるａ（ｘ）を用いて、数式Ｂで計算される。

数式Ａ：ａ（ｘ）＝（１／２）ｆｐ（ｘ）＋（１／２）ｆｎ（ｘ）
数式Ｂ：ＪＳ（ｆｐ，ｆｎ）＝（１／２）ｋ（ｆｐ，ａ）＋（１／２）ｋ（ｆｎ，ａ）

数式Ｂにおいて、ｋ（ｆｐ，ａ）、ｋ（ｆｎ，ａ）の式は、ＫＬ特徴量の式と同様であり、それぞれ、ｆｐ（ｘ）からみたａ（ｘ）の相関の計量とｆｎ（ｘ）からみたａ（ｘ）の相関の計量を表している。これらの平均がＪＳ特徴量＝ＪＳ（ｆｐ，ｆｎ）となる。

数式の形がｆｐ（ｘ）とｆｎ（ｘ）について対称となっているため（即ち、ｆｐ（ｘ）とｆｎ（ｘ）を入れ替えても式の値は変わらないため）、ＪＳ（ｆｐ，ｆｎ）とＪＳ（ｆｎ，ｆｐ）は等しくなる。即ち、ＪＳ特徴量を用いた計量では、ｆｐ（ｘ）から見たｆｎ（ｘ）の相関の計量と、ｆｎ（ｘ）から見たｆｐ（ｘ）の相関の計量が等しくなる。
一方、ＫＬ特徴量では、ｋ（ｆｐ，ｆｎ）とｋ（ｆｎ，ｆｐ）が一般に等しくなく、ｆｐ（ｘ）から見たｆｎ（ｘ）の相関の計量と、ｆｎ（ｘ）から見たｆｐ（ｘ）の相関の計量は、異なっている。

次に述べるように、ＪＳ特徴量では、計量に対称性を持たせたことにより、ＧＭＭの次元の低減に対して頑強性の高い画像認識が行えることが本願発明人の実験により明らかとなった。
このように、計量情報生成手段は、認識対象確率密度関数に対する非認識対象確率密度関数の計量と、非認識対象確率密度関数に対する認識対象確率密度関数の計量と、が対称性を有する計量情報を生成している。

図１２は、ＪＳ特徴量を用いて画像認識を行った定量評価実験の結果を表したグラフである。
図１２（ａ）は、Ｋ＝６４（Ｋは、ＧＭＭの混合数）の場合、図１２（ｂ）は、Ｋ＝３２の場合、図１２（ｃ）は、Ｋ＝１６の場合を表している。
これらの実験では、ＪＳ特徴量の他に、ＫＬ特徴量、ｆｐ（ｘ）だけを用いた場合、ＣｏＨＯＧ、ＭＲＣｏＨＯＧ（ＣｏＨＯＧを改良したもの）を用いた場合も比較のために表してある。

図１２（ａ）のグラフに示したように、Ｋ＝６４では、ＪＳ特徴量（太線の実線で表してある）を用いた手法は、ＫＬ特徴量（太線の波線で表してある）を用いた手法と同程度の画像認識能力を発揮し、他の手法よりも高い精度を達成している。
図１２（ｂ）のグラフに示したように、混合数を６４から３２に半減した場合、他の手法では、画像認識能力が軒並み低下するのに対し、ＪＳ特徴量を用いた手法では、Ｋ＝６４の場合からほとんど低下していない。
図１２（ｃ）のグラフに示したように、混合数を３２から１６に更に半減した場合、ＪＳ特徴量を用いた手法も画像認識能力が低下するものの、他の手法の低下に比べると、その程度は著しく小さい。

以上の実験から、ＪＳ特徴量を用いた画像認識処理は、混合数の低減（次元数の低減）に対して他の手法よりも頑強（ロバスト）であることが分かった。
車載カメラで車両の周囲を撮影し、歩行者を画像認識する場合、車載する画像処理装置８は、収納空間や振動に対する耐性の観点などから、なるべく小型であることが望ましい。また、ネットワーク通信を用いたサーバによる大きな画像認識処理を要するシステムよりも単純なスタンドアローンの装置が望ましい。
ＪＳ特徴量を用いた画像処理装置８は、ＧＭＭの混合数を小さくすることができるため、サーバとネットワークで通信するシステムに適用できるほか、コンパクトなスタンドアローンの車載用の画像処理装置８に好適に用いることができる。

以上に説明した実施の形態、及び変形例により、次のような効果を得ることができる。
（１）従来行われていた勾配方向の量子化と、これによる共起ヒストグラムの生成に代わって、連続値による勾配方向の共起を特徴面１５に写像してＧＭＭを生成することができる。
（２）従来例の量子化して作成された共起ヒストグラムには投票が行われないビンも存在しており、その箇所のメモリの確保、計算実行が行われ、計算コストの増加や検出精度の低下を招くことがある。これに対し、本実施形態の画像処理装置８は、検出対象物体を表現するのに特に重要な特徴をＧＭＭのパラメータによって重点的に抽出し、これを用いて計算すればよいので、計算量の増加を防ぎつつ、精度の向上を図ることができる。
（３）共起分布の学習時に歩行者画像（検出対象画像）の特徴量と背景画像（対象外画像）の特徴量の差を元に再度共起の分布を作成することで、より対象物体を表現するのに特に重要な特徴を得ることができ、検出精度を向上させることができる。
（４）ｆｐ（ｘ）とｆｎ（ｘ）の差分を取ることにより、識別に無効となるｆｐ（ｘ）とｆｎ（ｘ）が等確率となる生起確率を抑制して、生起確率に偏りがある特徴が生起しやすい確率密度分布を生成することができ、これに逆関数法を適用して再学習を行うことができる。
（５）再学習により混合数の調節が可能であるため、これによって、用途・環境・計算機リソースなどに応じて処理時間や検出精度を自由に調節することができる。
（６）ビン幅の設定による機械学習の精度への影響やビンの境界付近に蓄積される離散化誤差を回避することができる。
（７）変形例１、２では、差分の結果から、ｆｐ（ｘ）とｆｎ（ｘ）を分離することができる。
（８）変形例３では、計量に対称性を持たせたＪＳ特徴量を使用することで、低いＧＭＭ次元であっても高い画像認識を行うことができる。すなわち、ＧＭＭ次元を下げることで認識処理の負担を軽減すると共に、より高速な認識が可能になる。

２元画像
３ブロック領域
５注目画素
８画像処理装置
１１高解像度画像
１２中解像度画像
１３低解像度画像
１５特徴面
５１共起対応点
５３ＧＭＭ
５５基準ＧＭＭ
５７分布
６０クラスタ
８１ＣＰＵ
８２ＲＯＭ
８３ＲＡＭ
８４記憶装置
８５記憶媒体駆動装置
８６入力部
８７出力部

Claims

画像を入力する画像入力手段と、
前記入力した画像から２つの画素の組合せを取得する画素組合せ取得手段と、
前記取得した組合せに係る２つの画素の輝度の勾配方向の共起を取得する共起取得手段と、
前記取得する画素の組合せを変化させながら、前記取得する共起の出現頻度の分布を取得する出現頻度取得手段と、
前記取得した出現頻度の分布に対応する確率密度関数を生成する確率密度関数生成手段と、
前記生成した確率密度関数を、当該確率密度関数を規定するパラメータによって出力する確率密度関数出力手段と、
を具備したことを特徴する画像処理装置。
前記画像入力手段から認識対象を含む複数の認識対象画像を入力し、前記確率密度関数出力手段に前記複数の認識対象画像に基づく認識対象確率密度関数を出力させる認識対象学習手段と、
前記出力させた認識対象確率密度関数を用いて前記認識対象を画像認識する基準となる基準確率密度関数を生成する基準確率密度関数生成手段と、
前記生成した基準確率密度関数を、当該基準確率密度関数を規定するパラメータによって出力する基準確率密度関数出力手段と、
を具備したことを特徴とする請求項１に記載の画像処理装置。
前記画像入力手段から認識対象を含まない複数の非認識対象画像を入力し、前記確率密度関数出力手段に前記非認識対象画像による非認識対象確率密度関数を出力させる非認識対象学習手段と、
前記出力させた前記認識対象確率密度関数と、前記非認識対象確率密度関数と、の相関を計量する計量情報を生成する計量情報生成手段と、
を具備し、
前記基準確率密度関数生成手段は、前記生成した計量情報を用いて前記基準確率密度関数を生成することを特徴とする請求項２に記載の画像処理装置。
前記計量情報生成手段は、前記認識対象確率密度関数に対する前記非認識対象確率密度関数の計量と、前記非認識対象確率密度関数に対する前記認識対象確率密度関数の計量と、が対称性を有する前記計量情報を生成することを特徴とする請求項３に記載の画像処理装置。
前記生成した計量情報に従って複数のサンプルを発生させるサンプル発生手段を具備し、
前記基準確率密度関数生成手段は、前記発生させたサンプルの出現頻度の分布に基づいて前記基準確率密度関数を生成することを特徴とする請求項３又は請求項４に記載の画像処理装置。
前記認識対象確率密度関数と、前記非認識対象確率密度関数は、それぞれ所定の個数の基底関数を混合して生成されており、
前記基準確率密度関数生成手段は、前記所定の個数よりも少ない個数の基底関数を混合して前記基準確率密度関数を生成することを特徴とする請求項３、請求項４、又は請求項５に記載の画像処理装置。
前記入力した画像の解像度を変換する解像度変換手段を具備し、
前記画素組合せ取得手段は、前記解像度を変換した画素も組合せの対象とすることを特徴する請求項１から請求項６までの内の何れか１の請求項に記載の画像処理装置。
前記計量情報は、前記認識対象確率密度関数と、前記非認識対象確率密度関数と、の差分を用いた差分確率密度関数であることを特徴とする請求項３、又は請求項４に記載の画像処理装置。
前記計量情報は、前記認識対象確率密度関数と、前記非認識対象確率密度関数と、の比を用いた比確率密度関数であることを特徴とする請求項３、又は請求項４に記載の画像処理装置。
前記比確率密度関数は、更に前記認識対象確率密度関数と、前記非認識対象確率密度関数と、の差分を用いていることを特徴とする請求項９に記載の画像処理装置。
請求項２に記載の画像処理装置が出力した基準確率密度関数を取得する基準確率密度関数取得手段と、
画像認識の対象となる対象画像を取得する対象画像取得手段と、
前記取得した基準確率密度関数を用いて前記取得した対象画像の特徴量を取得する対象画像特徴量取得手段と、
前記取得した特徴量を用いて前記対象画像が画像認識対象を含んでいるか否かを判断する判断手段と、
を具備したことを特徴とする画像認識装置。
前記対象画像特徴量取得手段は、
前記取得した対象画像を請求項１に記載の画像処理装置の画像入力手段に入力して、当該画像処理装置の出現頻度取得手段から前記対象画像における勾配方向の共起の出現頻度の分布を取得し、
前記取得した出現頻度の分布が前記取得した基準確率密度関数から生成される確率に基づいて前記対象画像の特徴量を取得することを特徴とする請求項１１に記載の画像認識装置。
画像を入力する画像入力機能と、
前記入力した画像から２つの画素の組合せを取得する画素組合せ取得機能と、
前記取得した組合せに係る２つの画素の輝度の勾配方向の共起を取得する共起取得機能と、
前記取得する画素の組合せを変化させながら、前記取得する共起の出現頻度の分布を取得する出現頻度取得機能と、
前記取得した出現頻度の分布に対応する確率密度関数を生成する確率密度関数生成機能と、
前記生成した確率密度関数を、当該確率密度関数を規定するパラメータによって出力する確率密度関数出力機能と、
をコンピュータで実現する画像処理プログラム。
請求項２に記載の画像処理装置が出力した基準確率密度関数を取得する基準確率密度関数取得機能と、
画像認識の対象となる対象画像を取得する対象画像取得機能と、
前記取得した基準確率密度関数を用いて前記取得した対象画像の特徴量を取得する対象画像特徴量取得機能と、
前記取得した特徴量を用いて前記対象画像が画像認識対象を含んでいるか否かを判断する判断機能と、
をコンピュータで実現する画像認識プログラム。