JP2004178210A

JP2004178210A - 画像処理方法及び画像認識方法並びにこれらの方法をコンピュータにより実行させるプログラム

Info

Publication number: JP2004178210A
Application number: JP2002342780A
Authority: JP
Inventors: Hirotaka Niitsuma; 弘崇新妻
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2002-11-26
Filing date: 2002-11-26
Publication date: 2004-06-24

Abstract

【課題】画像内に存在する特定の認識対象の認識（発見）を行う際、認識対象の発見を精度良くかつ高速に行い、認識対象の平行移動、拡大縮小、回転移動など、広い範囲の変化にも対応できるようにする。
【解決手段】認識対象を含む画像を全て関数近似し、所定のパラメータによって表す。学習画像に係るパラメータは、最尤推定部１１で最尤推定され、さらにフィッシャースコア計算部１２で計算されてフィッシャーカーネルが生成されて、ＳＶＭ部１３で、フィッシャーカーネルから画像認識用の認識対象抽出フィルタＶが生成される。この認識対象抽出フィルタＶが画像の一致度を計算するものであり、認識対象の発見を行いたい画像に対して、テンプレートとして認識対象抽出フィルタＶを用いて計算を行い、勾配法などにより認識対象抽出フィルタＶの極大点を見つけることで、認識対象の位置や大きさのほか、拡大縮小の変化や回転移動を特定することができる。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、画像内の特定の認識対象を発見するための画像処理方法及び画像認識方法並びにこれらの方法をコンピュータにより実行させるプログラムに関する。
【０００２】
【従来の技術】
【非特許文献１】
ＫｏｃｈＣＩｔｔｉＬ．Ｆｅａｔｕｒｅｃｏｍｂｉｎａｔｉｏｎｓｔｒａｔｅｇｉｅｓｆｏｒｓａｌｉｅｎｃｙ−ｂａｓｅｄｖｉｓｕａｌａｔｔｅｎｔｉｏｎ．ＳｙｓｔｅｍｓＪｏｕｒｎａｌｏｆＥｌｅｃｔｒｏｎｉｃＩｍａｇｉｎｇ，１０：１６１−１６９，２００１．
【非特許文献２】
ＣｏｎｓｔａｎｔｉｎｅＰａｐａｇｅｏｒｇｉｏｕａｎｄＴｏｍａｓｏＰｏｇｇｉｏ．Ａｐａｔｔｅｒｎｃｌａｓｓｉｆｉｃａｔｉｏｎａｐｐｒｏａｃｈｔｏｄｙｎａｍｉｃａｌｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ．ＰｒｏｃｅｅｄｉｎｇｓｏｆＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，Ｃｏｒｆｕ，Ｇｒｅｅｃｅ，Ｓｅｐｔｅｍｂｅｒ１９９９．
【非特許文献３】
Ｔ．Ｓ．ＪａａｋｋｏｌａａｎｄＤ．Ｈａｕｓｓｌｅｒ．Ｅｘｐｌｏｉｔｉｎｇｇｅｎｅｒａｔｉｖｅｍｏｄｅｌｓｉｎｄｉｓｃｒｉｍａｔｉｖｅｃｌａｓｓｉｆｉｅｒｓ．ＮＩＰＳ，ｐａｇｅｓ４８７−４９３，１９９９．
【非特許文献４】
ＳｈａｉＡｖｉｄａｎ．Ｓｕｐｐｏｒｔｖｅｃｔｏｒｔｒａｃｋｉｎｇ．ＣＶＰＲ２００１．
【非特許文献５】
Ｋ．Ｔｓｕｄａ，Ｍ．Ｋａｗａｎａｂｅ，Ｇ．Ｒａｔｓｃｈ，Ｓ．Ｓｏｎｎｅｎｂｕｒｇ，ａｎｄＫ．−Ｒ．Ｍｕｌｌｅｒ．ＡＮｅｗＤｉｓｃｒｉｍｉｎａｔｉｖｅＫｅｒｎｅｌＦｒｏｍＰｒｏｂａｂｉｌｉｓｔｉｃＭｏｄｅｌｓ．ＮＩＰＳ，２００１．
【０００３】
非特許文献１〜非特許文献３には、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ：サポート・ベクタ・マシン）を用いて画像認識を行う画像認識方法に関する記載が存在する。図８は、従来の画像認識方法を実行するための画像認識装置の機能を模式的に示す図である。まず、画像認識を行うために、学習画像（学習用画像）から基本（比較対象）となるテンプレートを作成する必要がある。特徴抽出部５１は、複数の学習画像（学習画像の集合）のそれぞれから所定の特徴を抽出し、特徴の集合を生成する。抽出された特徴の集合は、ＳＶＭ部５２に供給され、ＳＶＭ部５２で、例えばＳＶＭを用いた画像の認識が行われる。これによって、特定の認識対象を認識するための基本的なデータとなるテンプレートが作成される。
【０００４】
次に、上記のように作成されたテンプレート（ＳＶＭの学習結果）を用いて、入力画像（特定の認識対象を含む画像）内の特定の認識対象の位置を探索する。まず、特徴抽出部５３が、入力画像から特徴の抽出を行う。そして、特徴比較手段５４が、抽出された入力画像の特徴とテンプレートとを比較して、一致の度合いＶを決定する。このとき入力画像内において、注目領域Ｉ_ｎ（特定の認識対象が存在している又は存在すると予測される領域）の候補を複数選択しておき、各注目領域に対して一致度Ｖを計算して、一致度Ｖの値が最大になる注目領域を特定の認識対象の位置とみなす。
【０００５】
また、従来、入力画像内の特定の認識対象の位置を探索する場合、テンプレートを少しずつ平行移動、拡大縮小、回転移動し、入力画像の認識枠内とテンプレートとの一致度を計算していた。図９は、従来の画像認識方法の一例を示すフローチャートである。すなわち、従来は、テンプレートに関して、平行移動、拡大縮小、回転移動の各処理のうちの１つ又はそれらの組み合わせの処理を選択的に行い（ステップＳ２０１〜Ｓ２０３）、処理後のテンプレートと入力画像の認識枠内の画像とが、一致するか否かの比較を行う（ステップＳ２０４）。そして、処理後のテンプレートと認識枠内の画像とが一致する場合（一致度が最大の場合）には、入力画像内の認識対象を発見したと判断し（ステップＳ２０５）、一方、認識枠内の画像とテンプレートとが一致しない場合には、再度、少しずつテンプレートを変化（平行移動、拡大縮小、回転移動）させて、一致する場所の探索を行うようにしている。
【０００６】
また、非特許文献４には、ＳＶＴ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＴｒａｃｋｉｎｇ：サポート・ベクター・トラッキング）に係る技術が開示されている。従来、モバイルアイなどに用いられているＳＶＴによっても、少しずつ平行移動しながら、テンプレートと入力画像との一致度を探索することが可能である。このＳＶＴによる探索は、ロバスト性を有する探索であり、比較的高速処理を行うことが可能である。
【０００７】
【発明が解決しようとする課題】
しかしながら、従来の少しずつ認識枠内の画像の移動（平行移動、拡大縮小、回転移動）を行う画像認識方法では、以下の２つの問題点が生じる。
・少しずつ移動させる移動の差分を小さく取ることによって、計算速度が遅くなり、認識対象の発見までに時間がかかってしまう。また、ＣＰＵなどの計算手段やメモリなどに非常に大きな負荷がかかってしまう。
・少しずつ移動させる移動の差分を大きくとった場合には、計算速度は速くなるが、認識対象の発見の精度が大幅に劣化する。
【０００８】
また、従来のＳＶＴによる画像認識方法は、平行移動しか扱うことができないという問題があり、拡大縮小や回転移動には対応していないという問題がある。また、従来のＳＶＭによる画像認識方法では、固定長の特徴ベクトルしか扱えず、認識対象の拡大縮小に関しては十分に対応できていないという問題がある。
【０００９】
本発明は、上記問題点に鑑み、認識対象の発見を精度良くかつ高速に行い、認識対象の平行移動、拡大縮小、回転移動など、広い範囲の変化にも対応する画像処理方法及び画像認識方法並びにこれらの方法をコンピュータにより実行させるプログラムを提供することを目的とする。
【００１０】
【課題を解決するための手段】
上記目的を達成するため、請求項１に記載の画像処理方法は、認識対象を含む画像を適当な関数近似で表し、この関数近似で用いられる関数のパラメータだけを用いて画像の認識を行うようにしている。
これにより、画像の認識を精度良くかつ高速に行うことが可能となる。
【００１１】
また、請求項２に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を所定の確率分布関数で近似し、フィッシャーカーネルを用いたＳＶＭ（サポート・ベクタ・マシン）によって画像の認識を行うようにしている。
これにより、フィッシャーカーネルを用いたＳＶＭの学習によって得られた情報を基にして、画像の認識を精度良くかつ高速に行うことが可能となる。
【００１２】
また、請求項３に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を所定の確率分布関数で近似し、ＴＯＰカーネルを用いたＳＶＭによって画像の認識を行うようにしている。
これにより、ＴＯＰカーネルを用いたＳＶＭの学習によって得られた情報を基にして、画像の認識を精度良くかつ高速に行うことが可能となる。
【００１３】
また、請求項４に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像の注目領域に山型関数による重みを加えるようにしている。
これにより、画像内に存在する認識対象を効率良く発見することが可能となり、さらに画像認識の精度を上げることが可能となる。
【００１４】
また、請求項５に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を、注目領域のみを山型関数を用いて強調した確率分布関数を用いて近似するようにしている。
これにより、画像内に存在する認識対象を効率良く発見することが可能となり、さらに画像認識の精度を上げることが可能となる。
【００１５】
また、請求項６に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を、確率分布関数
【数１４】

を用いて近似するようにしている。
これにより、画像内に存在する認識対象を効率良く発見することが可能となり、さらに画像認識の精度を上げることが可能となる。
【００１６】
また、請求項７に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を、画像の拡大縮小に対応した確率分布関数を用いて近似するようにしている。
これにより、認識対象の拡大縮小にも対応可能となり、認識対象の多様な変化に対応することが可能となる。
【００１７】
また、請求項８に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を、画像の拡大縮小に対応した確率分布関数
【数１５】

を用いて近似するようにしている。
これにより、認識対象の拡大縮小にも対応可能となり、認識対象の多様な変化に対応することが可能となる。
【００１８】
また、請求項９に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を、画像に垂直な方向を軸とする画像の回転及び画像の拡大縮小に対応した確率分布関数を用いて近似するようにしている。
これにより、認識対象の垂直方向を軸とする回転移動及び拡大縮小にも対応可能となり、認識対象の多様な変化に対応することが可能となる。
【００１９】
また、請求項１０に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を、画像に垂直な方向を軸とする画像の回転及び画像の拡大縮小に対応した確率分布関数
【数１６】

を用いて近似するようにしている。
これにより、認識対象の垂直方向を軸とする回転移動及び拡大縮小にも対応可能となり、認識対象の多様な変化に対応することが可能となる。
【００２０】
また、請求項１１に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を、画像に垂直な方向を軸とする画像の回転、画像の拡大縮小、画像に水平な方向を軸とする画像の回転に対応した確率分布関数を用いて近似するようにしている。
これにより、認識対象の垂直方向を軸とする回転移動、認識対象の水平方向を軸とする回転移動、拡大縮小にも対応可能となり、認識対象の多様な変化に対応することが可能となる。
【００２１】
また、請求項１２に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を、画像に垂直な方向を軸とする画像の回転、画像の拡大縮小、画像に水平な方向を軸とする画像の回転に対応した確率分布関数
【数１７】

を用いて近似するようにしている。
これにより、認識対象の垂直方向を軸とする回転移動、認識対象の水平方向を軸とする回転移動、拡大縮小にも対応可能となり、認識対象の多様な変化に対応することが可能となる。
【００２２】
また、請求項１３に記載の画像処理方法では、上記発明に加えて、画像を近似するための確率分布関数を適当な関数の足し合わせによって表すようにしている。
これにより、画像内に存在する認識対象をさらに効率良く発見することが可能となる。
【００２３】
また、請求項１４に記載の画像処理方法では、上記発明に加えて、確率分布関数
【数１８】

として、
【数１９】

を用いるようにしている。
これにより、画像内に存在する認識対象をさらに効率良く発見することが可能となる。
【００２４】
また、請求項１５に記載の画像処理方法では、上記発明に加えて、山型関数
【数２０】

として、多次元正規分布関数
【数２１】

を用いるようにしている。
これにより、画像内に存在する認識対象をさらに効率良く発見することが可能となる。
【００２５】
また、請求項１６に記載の画像処理方法では、上記発明に加えて、山型関数
【数２２】

として、２次関数
【数２３】

を用いるようにしている。
これにより、画像内に存在する認識対象をさらに効率良く発見することが可能となる。
【００２６】
また、請求項１７に記載の画像処理方法では、上記発明に加えて、認識対象を関数近似した確率分布関数を４次元混合正規分布で表すようにしている。
これにより、画像内に存在する認識対象をさらに効率良く発見することが可能となる。
【００２７】
また、請求項１８に記載の画像処理方法では、上記発明に加えて、
【数２４】

として、多次元正規分布関数
【数２５】

を用いるようにしている。
これにより、画像内に存在する認識対象をさらに効率良く発見することが可能となる。
【００２８】
また、請求項１９に記載の画像処理方法では、上記発明に加えて、ＳＶＭの学習時に用いられる学習用画像毎に、学習用画像内の着目位置を示すパラメータμを設定するようにしている。
これにより、確実に、画像内の認識対象の位置を特定することが可能となる。
【００２９】
また、請求項２０に記載の画像処理方法では、上記発明に加えて、ＳＶＭの学習時に用いられる学習用画像毎に、学習用画像内の着目位置を示すパラメータμ及び学習用画像内の拡大縮小を示すパラメータｌを設定するようにしている。
これにより、確実に、画像内の認識対象の位置及び拡大縮小に係る変化を特定することが可能となる。
【００３０】
また、請求項２１に記載の画像処理方法では、上記発明に加えて、ＳＶＭの学習時に用いられる学習用画像毎に、学習用画像内の着目位置を示すパラメータμ、学習用画像内の拡大縮小を示すパラメータｌ、画像に垂直な方向を軸とする画像の回転を示すパラメータθを設定するようにしている。
これにより、確実に、画像内の認識対象の位置、拡大縮小に係る変化、画像に垂直な方向を軸とする画像の回転に係る変化を特定することが可能となる。
【００３１】
また、請求項２２に記載の画像処理方法では、上記発明に加えて、ＳＶＭの学習時に用いられる学習用画像毎に、学習用画像内の着目位置を示すパラメータμ、行列Ａを設定するようにしている。
これにより、確実に、画像内の認識対象のアフィン変換に係る変化を特定することが可能となる。
【００３２】
また、請求項２３に記載の画像処理方法では、上記発明に加えて、ＳＶＭの学習時に用いられる学習用画像毎に、学習用画像内の着目位置を示すパラメータμを統計的推定で与えるようにしている。
これにより、学習用画像内の認識対象の位置のパラメータの設定に係る処理を効率良く行うことが可能となる。
【００３３】
また、請求項２４に記載の画像処理方法では、上記発明に加えて、ＳＶＭの学習時に用いられる学習用画像毎に、学習用画像内の着目位置を示すパラメータμ及び学習用画像内の拡大縮小を示すパラメータｌを統計的推定で与えるようにしている。
これにより、学習用画像内の認識対象の位置及び拡大縮小に係る変化のパラメータの設定に係る処理を効率良く行うことが可能となる。
【００３４】
また、請求項２５に記載の画像処理方法では、上記発明に加えて、ＳＶＭの学習時に用いられる学習用画像毎に、学習用画像内の着目位置を示すパラメータμ、学習用画像内の拡大縮小を示すパラメータｌ、画像に垂直な方向を軸とする画像の回転を示すパラメータθを統計的推定で与えるようにしている。
これにより、学習用画像内の認識対象の位置、拡大縮小に係る変化、画像に垂直な方向を軸とする画像の回転に係る変化のパラメータの設定に係る処理を効率良く行うことが可能となる。
【００３５】
また、請求項２６に記載の画像処理方法では、上記発明に加えて、ＳＶＭの学習時に用いられる学習用画像毎に、学習用画像内の着目位置を示すパラメータμ、行列Ａを統計的推定で与えるようにしている。
これにより、学習用画像内の認識対象のアフィン変換に係る変化のパラメータの設定に係る処理を効率良く行うことが可能となる。
【００３６】
また、請求項２７に記載の画像処理方法では、上記発明に加えて、画像を、各画素の座標及び輝度値の集合で表すようにしている。
これにより、各画素の輝度値を用いた画像の認識を行うことが可能となる。
【００３７】
また、請求項２８に記載の画像処理方法では、上記発明に加えて、動画を扱うことができるよう、時間を変数として含めて拡張するようにしている。
これにより、動画像内の認識対象の時間の特定が可能となり、パラメータを含む画像の認識が可能となる。
【００３８】
また、請求項２９に記載の画像処理方法では、上記発明に加えて、光のスペクトル分布を扱うことができるよう、光のスペクトル分布を変数として含めて拡張するようにしている。
これにより、色分布を参照した画像の認識を行うことが可能となる。
【００３９】
また、請求項３０に記載の画像処理方法では、上記発明に加えて、光のスペクトル分布を赤、青、緑の３段階の離散分布で近似するようにしている。
これにより、３つの色パラメータを扱うことによって、色分布を参照した画像の認識を行うことが可能となる。
【００４０】
また、請求項３１に記載の画像処理方法では、上記発明に加えて、前記フィッシャーカーネルの拡張として、
【数２６】

を用いるようにしている。
これにより、座標変換時に類似度が変化しない関数によって、パラメータ同士の比較ができるようになる。
【００４１】
また、請求項３２に記載の画像認識方法では、上記の画像処理方法を用いて生成された識別関数を用いて、画像の認識を行うようにしている。
これにより、識別関数（フィルタ）による演算を行うことによって、画像の認識を行うことが可能となる。
【００４２】
また、請求項３３に記載の画像認識方法では、認識対象を含む画像における識別関数の極大を求めることによって、画像の認識を行うようにしている。
これにより、識別関数の極大を示すパラメータを得ることによって、簡単に画像の認識を行うことが可能となる。
【００４３】
また、請求項３４に記載の画像認識方法では、勾配法又はニュートン法を用いて、識別関数の極大を求めるようにしている。
これにより、簡単に識別関数の極大を求めることが可能となる。
【００４４】
また、請求項３５に記載の画像認識方法では、上記発明に加えて、ＳＶＭの学習の結果として得られる画像に対する識別関数を最大とするパラメータμを求めることによって、画像内の認識対象の位置を求めるようにしている。
これにより、画像内の認識対象の位置を確実に特定することが可能となる。
【００４５】
また、請求項３６に記載の画像認識方法では、上記発明に加えて、ＳＶＭの学習の結果として得られる画像に対する識別関数を最大とするパラメータμ及びパラメータｌを求めることによって、画像内の認識対象の位置及び大きさを求めるようにしている。
これにより、画像内の認識対象の位置及び拡大縮小の変化を確実に特定することが可能となる。
【００４６】
また、請求項３７に記載の画像認識方法では、上記発明に加えて、ＳＶＭの学習の結果として得られる画像に対する識別関数を最大とするパラメータμ、パラメータｌ、パラメータθを求めることによって、画像内の認識対象の位置、大きさ、角度を求めるようにしている。
これにより、画像内の認識対象の位置、拡大縮小の変化、画像に垂直な方向を軸とする画像の回転の変化を確実に特定することが可能となる。
【００４７】
また、請求項３８に記載の画像認識方法では、上記発明に加えて、ＳＶＭの学習の結果として得られる画像に対する識別関数を最大とするパラメータμ及び行列Ａを求めることによって、画像内の認識対象の位置及び認識対象の大きさ、角度、歪みの度合いを求めるようにしている。
これにより、画像内の認識対象の位置、拡大縮小の変化、画像に垂直な方向を軸とする画像の回転の変化、座標系の回転と縦横比の変化を確実に特定することが可能となる。
【００４８】
また、請求項３９に記載のプログラムでは、上記の画像処理方法をコンピュータにより実行させるプログラムが提供される。
これにより、本発明の画像処理方法をコンピュータにより実行可能なプログラムとして実現することが可能となる。
【００４９】
また、請求項４０に記載のプログラムでは、上記の画像認識方法をコンピュータにより実行させるプログラムが提供される。
これにより、本発明の画像認識方法をコンピュータにより実行可能なプログラムとして実現することが可能となる。
【００５０】
【発明の実施の形態】
以下、図面を参照しながら、本発明の画像処理方法及び画像認識方法並びにこれらの方法をコンピュータにより実行させるプログラムの実施の形態について説明する。まず、図１を用いて、本発明の画像認識方法の概略について説明する。図１は、本発明の実施の形態に係る画像認識装置の機能を模式的に示す図である。図１に示す画像認識装置は、学習部１０と探索部２０とに大別することが可能である。
【００５１】
学習部１０は、学習画像の集合からテンプレートを生成するものである。まず、全ての学習画像（学習画像の集合）に対して、各画像内のどの部分に学習させたい対象（以下、学習対象と呼ぶ）が存在するかを特定する所定のパラメータを設定する。なお、学習画像は、認識対象に応じて適切に用意されることが好ましく、学習画像の選択の態様（使用する学習画像の数や認識対象の写り具合など）に従って、最終的な判定結果が大きく異なってくる。そして、最尤推定部１１が、全ての学習画像に係る所定のパラメータの最尤推定を行う。次に、フィッシャースコア計算部１２が、最尤推定部１１で最尤推定された各パラメータを用いて、フィッシャースコアの計算を行い、さらに、フィッシャー情報行列の計算を行う。このフィッシャー情報行列（フィッシャーカーネルとも呼ばれる）は、ＳＶＭ部１３に供給される。
【００５２】
一方、学習対象を含む学習画像と学習対象を含まない学習画像（これらを学習データと呼ぶことにする）とを用意し、ＳＶＭ部１３に供給される。なお、この設定では、例えば、学習対象を含む学習画像には、正のパラメータ（＋１）が与えられ、学習画像を含まない学習画像には、負のパラメータ（−１）が与えられる。
【００５３】
そして、ＳＶＭ部１３は、フィッシャーカーネルを用いて、この学習データをＳＶＭによって学習する。このＳＶＭ部１３における学習の結果、画像認識の際に利用可能な一致度を示す認識対象抽出フィルタＶを得ることができ、この認識対象抽出フィルタＶをテンプレートと用いることによって、入力画像内の認識対象の探索を行うことができる。
【００５４】
一方、探索部２０は、画像認識を行いたい入力画像（認識対象を含む画像）を読み込み、入力画像内から認識対象の位置や大きさを発見するための処理を行うものである。まず、入力画像の注目領域（認識枠）を定め、この認識枠を変化させながら、フィッシャースコア計算部２１によってフィッシャースコアを求め、認識対象抽出フィルタＶの計算を行う。すなわち、注目領域の画像情報と注目領域を定める位置や大きさのパラメータなどを、認識対象抽出フィルタＶに代入して計算を行う。そして、極大点探索部２２で、勾配法やニュートン法などによって認識対象抽出フィルタＶの極大点を求める（認識対象抽出フィルタＶの極大を求める計算を行う）ことによって、入力画像内の認識対象の位置、大きさ、さらには一致度Ｖなどを求めることが可能となる。
【００５５】
以上、本発明の画像認識方法の概略について説明したが、さらに、図面及び数式を参照しながら、本発明の画像認識方法の詳細について説明する。本発明は、認識対象を含む画像を関数で近似して表現することに特徴がある。例えば、学習部１０で処理される学習画像や、探索部２０で処理される入力画像などを全て関数で近似することによって、複雑な画像を少ないパラメータで表現することが可能となる。例えば、画像が２つの正規分布の重ね合わせで表された場合、画像を４×２＝８個のパラメータで表すことが可能となる。
【００５６】
また、学習画像内に存在する認識対象や入力画像内の注目領域を強調する関数近似を行うことも可能である。例えば、こうした領域だけに正規分布や２次関数のような山型関数をかけることによって、この領域を中心として山型に重みのかかった確率分布を設定することが可能となり、注目領域を優先的に表すパラメータを得ることが可能となる。
【００５７】
例えば、画像は、ある座標（ｘ，ｙ）での輝度Ｉ（ｘ，ｙ）という３つの数字（ｘ，ｙ，Ｉ）の集合によって表現することが可能である。すなわち、１つの画像を
【数２７】

で表すことが可能であり、この集合を、所定の確率分布ｐ（ｘ，ｙ，Ｉ）の測定結果とみなすことも可能である。なお、この確率分布ｐ（ｘ，ｙ，Ｉ）は、測定結果を生成する生成モデルと呼ばれている。
【００５８】
なお、山型関数を用いた近似を行った場合、この確率分布ｐ（ｘ，ｙ，Ｉ）を
【数２８】

と表すことが可能である。
【００５９】
このようにして、関数近似によって表された画像から、フィッシャー情報行列（フィッシャーカーネル）の計算が行われる。以下、フィッシャーカーネルについて説明する。今、ある画像の確率分布ｐ（ｘ，ｙ，Ｉ）と、この画像とは異なる画像の確率分布ｑ（ｘ，ｙ，Ｉ）の類似度を測定する関数
ｇ（ｐ（ｘ，ｙ，Ｉ），ｑ（ｘ，ｙ，Ｉ））
を仮定する。
【００６０】
また、確率分布ｐと確率分布ｑとは、パラメータの異なる同じ関数であると仮定する。例えば、確率分布ｐと確率分布ｑは
【数２９】

の確率分布のパラメータｓを変えたもの、すなわち、
【数３０】

というように表されているとする。
【００６１】
このようなパラメータによってかわる確率分布は、一般的に
【数３１】

というように、変数とパラメータの部分を “｜”で区切って表される。
【００６２】
ここで、
【数３２】

という確率分布ｐ及び確率分布ｑが類似している類似度ｇ（ｐ，ｑ）をパラメータθ、φの関数で表すとする。
【数３３】

【００６３】
このとき、パラメータθ、φに対して、下記の座標変換
【数３４】

を施したとき、パラメータθ、φの差が微小の場合には、座標変換Ｆが確率分布の本質的な変更を伴わない座標変換であれば、類似度ｇ（θ，φ）も変化しないような関数を導くことが可能である。このように、座標変換時に類似度が変化しない関数を、フィッシャー情報行列Ｆを使って、以下のように表すことが可能である。
【数３５】

ここで
【数３６】

であり、このＦは、フィッシャーカーネルを拡張したものである。上記のように導かれた関数によって、パラメータ同士の比較ができるようになる。
【００６４】
次に、以上のようにして可能となるパラメータ同士の比較を、実際に測定された画像に係るパラメータの集合
【数３７】

の比較に適用する。
【００６５】
上記の式の導出によって
【数３８】

というベクトルは確率分布を表す『筋の良い』特徴空間の勾配であることが予想される。以下、この特徴空間に注目して説明を行う。
【００６６】
今、フィッシャーカーネルを求める前段階で行われる最尤推定部１１における最尤推定などによって、すでにパラメータθが求まっていると仮定する。このとき、関数ｕ（ｘ，ｙ，ｌ）は測定結果（ｘ，ｙ，Ｉ）から『筋の良い』特徴空間への射影と見なすことができる。また、この特徴空間の縦、横、斜めのゆがみ（異方性）を
【数３９】

と補正することで『もっと筋の良い』特徴空間に射影することが可能となる。さらに、『もっと筋の良い』特徴空間において、
【数４０】

という比較方法を利用すると、
【数４１】

と書き表すことが可能となる。このＦＫがフィッシャーカーネルである。
【００６７】
ＳＶＭ部１３では、上記で説明したフィッシャーカーネルを用いたＳＶＭによって、パラメータで表現された画像（すなわち関数近似された画像）の学習処理を行い、学習の結果として、画像認識の際に利用可能な一致度を示す認識対象抽出フィルタＶを得る。ＳＶＭ部１３で行われる学習処理の手順を示す。なお、以下の説明では、山型関数として正規分布を使い、平行移動、回転移動、さらには、対象の３次元的回転や伸縮による縦横比の変化にも対応した生成モデルを用いて説明する。この生成モデルは下記のように表される。
【数４２】

【００６８】
また、学習画像Ｊ_１，Ｊ_２…を、以下に示す各画像における座標と輝度の集合として与える。
【数４３】

【００６９】
また、各画像内のどの部分に学習させたい認識対象（例えば、車や人の顔など）が存在しているかを、下記のように座標、角度、縦横の大きさなどのパラメータによって与える。
【数４４】

なお、ＳＶＭの学習時に用いられる学習画像毎に、学習画像内の着目位置を示すパラメータμ、学習画像に垂直な方向を軸とし、画像の回転を示すパラメータθ、学習画像内の拡大縮小（縦横の大きさ）を示すパラメータａ，ｂなどを設定することが好ましい。また、こうしたパラメータは統計的推定によって与えられることも可能であり、また、画像認識装置のオペレータによって入力されたり、任意の情報格納手段から読み出せるようにしたりすることも可能である。
【００７０】
次に、上記のパラメータに関して、下記の行列Ｂ_ｉｉ＝１，２…を計算する。
【数４５】

【００７１】
そして、全ての画像Ｊ_１、Ｊ_２…からパラメータ（ｐ_１，μ_１，Ｄ_１，ｐ_２，μ_２，Ｄ_２…）の最尤推定を行い、
【数４６】

最尤推定されたパラメータからフィッシャースコアの計算を行う。
【数４７】

【００７２】
そして、このようにして得られたフィッシャースコアから、フィッシャー情報行列Ｇの計算を行う。
【数４８】

【００７３】
一方、学習データ｛（ｕ_ｋ ^１，ｙ^１），（ｕ_ｋ ^２，ｙ^２），…｝を用意する。なお、ｙには、学習対象（認識対象）を含んでいるか否かで、その学習データに対して、正又は負の値（指標パラメータ）が設定される。
【数４９】

例えば、車両の認識を行うための認識対象抽出フィルタを生成しようとする場合、図２（ａ）に示すように、車両の画像を含む学習画像に対しては指標パラメータｙを１に設定し、図２（ｂ）に示すように、車両の画像を含まない学習画像に対しては指標パラメータｙを−１に設定する。
【００７４】
そして、上記のように作成された学習データを、フィッシャーカーネルを用いたＳＶＭで学習する。ここでフィッシャーカーネルは
【数５０】

と書き表される。
【００７５】
そして、学習の結果として、下記の認識対象抽出フィルタＶを得ることができる。
【数５１】

【００７６】
この認識対象抽出フィルタＶは、画像認識の際にテンプレートとして利用可能であり、画像間の一致度（類似度）を表す関数である。この認識対象抽出フィルタを参照することによって、入力画像内の認識対象の探索を行うことが可能となる。すなわち、認識対象抽出フィルタ
【数５２】

が最大となるようなμ，Ｂを見つけることで、画像内の認識対象の位置、大きさ、歪みの角度を判定することが可能となり、また、相対的な一致度（類似度）Ｖを判定することが可能となる。
【００７７】
図３は、本発明の実施の形態に係る車両認識時の認識対象抽出フィルタＶの極大点を示す模式図である。図３に示すように、認識対象抽出フィルタＶは、車両が存在する位置においては正の値の極大点（ピーク）を有し、一方、その周囲の何も存在しない位置、又は、ビルなどの車両以外の障害物が存在する位置では、極大とはならないか、又は、負の値となっている。すなわち、認識対象抽出フィルタＶが正の値を取り、かつ、極大となっている位置に車両が発見される可能性が高い。
【００７８】
また、動画を扱う場合には確率分布のパラメータとして時間を含ませて（例えば、正規分布に時間を含ませて）、上記と同様の手順を行うことによって、動画に係る画像認識を扱えるようにすることも可能である。さらに、光のスペクトル分布（すなわち、色分布）を変数として含ませることによって、光のスペクトル分布を扱えるようにすることが可能である。
【００７９】
光のスペクトル情報を使う場合には、例えば、次の正規分布
【数５３】

を用いることによって、光のスペクトル分布を赤、青、緑の３段階の離散分布で近似して、関数近似を行うことが可能となる。
【００８０】
また、生成モデルとして
【数５４】

を使うと、認識対象の画像に最も似ている顔文字を推定することが可能となる。また、確率分布を
【数５５】

で規定することによって、上記の方法と同様の方法で、画像の拡大縮小に対応することも可能である。
【００８１】
上記のように、本発明は、画像内の認識対象を判別するためのテンプレート作成の際、テンプレート作成の基となる学習画像を関数近似で表して学習画像をパラメータ化し、この学習画像のパラメータから画像認識処理を行う際に用いられるフィルタを作成する。そして、同様にパラメータ化された認識対象を含む画像に対してフィルタをかけ（実際には、フィルタとなる関数に、認識対象を含む画像に係る数値を代入する）、フィルタの一致度が最大となる極大点を求めることにより、テンプレートと認識対象とが、最も適切に重ね合わせられる状態を発見することを可能とする。
【００８２】
以下、本発明と従来の技術とを比較しながら、本発明の特徴について説明する。例えば、所定の画像（ここでは人間の顔の画像）を追跡する場合、従来の技術によれば、図１０に示すように、人間の顔を表すテンプレートを画面内で少しずつ平行移動させて、画像との一致度の検出を繰り返し行うことによって、人間の顔の位置を発見していた。また、画面内の人間の顔の大きさが変動する（人間の顔の大きさが拡縮する）場合には、図１１に示すように、人間の顔のテンプレートを拡大縮小させながら画像との一致度を検出することによって、人間の顔の位置を発見していた。すなわち、従来の技術では、試行錯誤的にテンプレートと画像との一致度の検出を行っていた。
【００８３】
一方、本発明では、テンプレートと画像との一致度が、図４に示すような認識対象抽出フィルタＶの特徴空間における分布によって表現され、勾配法などを用いた単なる計算によって、この認識対象抽出フィルタＶの極大点を求めるだけで、人間の顔の位置や大きさを認識することができるようになる。すなわち、図４内に描かれている矢印のように、認識対象抽出フィルタＶの特徴空間の分布の勾配が最大となる『筋の良い』方向に位置や大きさをずらし、その勾配が０となる（又は、所定の微小変化以下の勾配変動となる）位置を特定することによって、図５や図６に模式的に示す探索経路で、人間の顔の位置や大きさを精度良くかつ高速に判定することが可能となる。
【００８４】
また、従来の技術では、例えば、走行中の車載カメラが撮像した画像内に存在する道路上の車の認識を行う際、認識枠（図７の線で囲まれた部分）をあらかじめ適切に与えておく必要があった。この認識枠が適切に与えられなかった場合、例えば、認識対象である車と周囲の環境や障害物などとの判別を行うことができず、うまく認識対象を特定することができなかった。しかしながら、本発明の画像認識方法では、認識対象抽出フィルタＶ（テンプレート）の拡大・縮小・回転の処理を高速に行うことが可能であり、適切な認識枠の調節を高速で行うことが可能である。
【００８５】
また、本発明の学習部１０及び探索部２０は、ハードウェア、ソフトウェアのいずれによっても実現可能である。すなわち、各処理部（各計算部）を実現する専用のハードウェアを構築し、本発明の画像認識方法を行うことも可能であり、また、ＰＣ（パーソナル・コンピュータ：ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）のＲＯＭ（ロム：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）やハードディスクにプログラムを格納しておき、ＣＰＵ（中央処理部：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの処理部で本発明の画像認識方法を実行することも可能である。
【００８６】
また、認識対象を含む画像を関数近似し、関数のパラメータ処理を行うことによって画像認識を行う方法としては、上記のように、認識対象を含む画像を所定の確率分布関数で近似し、フィッシャーカーネルを用いたＳＶＭによって画像の認識を行う方法に加えて、認識対象を含む画像を所定の確率分布関数で近似し、ＴＯＰカーネル（非特許文献５参照）を用いたＳＶＭによって画像の認識を行う方法も考えられる。このＴＯＰカーネルは、フィッシャーカーネルと同様、パラメータ化された複数の画像間の誤差（＝一致度）を計測することを可能とする行列であり、フィッシャーカーネルが、認識対象を表す確率モデルと観測された画像との誤差を表すのに対し、ＴＯＰカーネルは、認識対象を含む画像と、その画像の背景を表す確率モデルを２つ用意して、それぞれの確率モデルからの誤差を計測する（すなわち、認識対象との一致度、及び、背景との一致度の計測）ものである。
【図面の簡単な説明】
【図１】本発明の実施の形態に係る画像認識装置の機能を模式的に示す図である。
【図２】本発明の実施の形態に係る学習画像と指標パラメータとの関係を説明するための模式図である。（ａ）車両の画像を含む学習画像に対して、指標パラメータｙを１に設定することを示す模式図（ｂ）車両の画像を含まない学習画像に対して、指標パラメータｙを−１に設定することを示す模式図
【図３】本発明の実施の形態に係る車両認識時の認識対象抽出フィルタＶの極大点を示す模式図である。
【図４】本発明の実施の形態に係る認識対象抽出フィルタＶの特徴空間における分布図である。
【図５】本発明の実施の形態に係るテンプレートの平行移動による認識対象の判定における勾配法を用いた場合の模式図である。
【図６】本発明の実施の形態に係るテンプレートの拡大縮小による認識対象の判定における勾配法を用いた場合の模式図である。
【図７】従来の画像認識方法に係る平行移動による画像認識の際の平行移動による認識枠の調節の様子を示す模式図である。
【図８】従来の画像認識方法を実行するための画像認識装置の機能を模式的に示す図である。
【図９】従来の画像認識方法の一例を示すフローチャートである。
【図１０】従来の画像認識方法に係るテンプレートの平行移動による認識対象の判定を行う様子を示す模式図である。
【図１１】従来の画像認識方法に係るテンプレートの拡大縮小による認識対象の判定を行う様子を示す模式図である。
【符号の説明】
１０学習部
１１最尤推定部
１２、２１フィッシャースコア計算部
１３、５２ＳＶＭ部
２０探索部
２２極大点探索部
５１、５３特徴抽出部
５４特徴比較手段

Claims

認識対象を含む画像を適当な関数近似で表し、前記関数近似で用いられる関数のパラメータだけを用いて、前記認識対象を認識するための識別関数を生成する画像処理方法。
前記認識対象を含む画像を所定の確率分布関数で近似し、フィッシャーカーネルを用いたＳＶＭによって、前記認識対象を認識するための識別関数を生成する請求項１に記載の画像処理方法。
前記認識対象を含む画像を所定の確率分布関数で近似し、ＴＯＰカーネルを用いたＳＶＭによって、前記認識対象を認識するための識別関数を生成する請求項１に記載の画像処理方法。
前記認識対象を含む画像の注目領域に山型関数による重みを加えることを特徴とする請求項２又は３のいずれか１つに記載の画像処理方法。
前記認識対象を含む画像を、前記注目領域のみを山型関数を用いて強調した確率分布関数を用いて近似することを特徴とする請求項４に記載の画像処理方法。
前記認識対象を含む画像を、確率分布関数

を用いて近似することを特徴とする請求項５に記載の画像処理方法。
前記認識対象を含む画像を、前記画像の拡大縮小に対応した確率分布関数を用いて近似することを特徴とする請求項４に記載の画像処理方法。
前記認識対象を含む画像を、前記画像の拡大縮小に対応した確率分布関数

を用いて近似することを特徴とする請求項７に記載の画像処理方法。
前記認識対象を含む画像を、前記画像に垂直な方向を軸とする前記画像の回転及び前記画像の拡大縮小に対応した確率分布関数を用いて近似することを特徴とする請求項４に記載の画像処理方法。
前記認識対象を含む画像を、前記画像に垂直な方向を軸とする前記画像の回転及び前記画像の拡大縮小に対応した確率分布関数

を用いて近似することを特徴とする請求項９に記載の画像処理方法。
前記認識対象を含む画像を、前記画像に垂直な方向を軸とする前記画像の回転、前記画像の拡大縮小、前記画像に水平な方向を軸とする前記画像の回転に対応した確率分布関数を用いて近似することを特徴とする請求項４に記載の画像処理方法。
前記認識対象を含む画像を、前記画像に垂直な方向を軸とする前記画像の回転、前記画像の拡大縮小、前記画像に水平な方向を軸とする前記画像の回転に対応した確率分布関数

を用いて近似することを特徴とする請求項１１に記載の画像処理方法。
前記画像を近似するための前記確率分布関数を適当な関数の足し合わせによって表すことを特徴とする請求項５から１２のいずれか１つに記載の画像処理方法。
前記確率分布関数

として、

を用いることを特徴とする請求項１３に記載の画像処理方法。
前記山型関数

として、多次元正規分布関数

を用いることを特徴とする請求項４から１４のいずれか１つに記載の画像処理方法。
前記山型関数

として、２次関数

を用いることを特徴とする請求項４から１４のいずれか１つに記載の画像処理方法。
前記認識対象を関数近似した確率分布関数を４次元混合正規分布で表すことを特徴とする請求項１３又は１４に記載の画像処理方法。
前記山型の４次元関数

として、多次元正規分布関数

を用いることを特徴とする請求項１７に記載の画像処理方法。
前記ＳＶＭの学習時に用いられる学習用画像毎に、前記学習用画像内の着目位置を示すパラメータμを設定することを特徴とする請求項５又は６に記載の画像処理方法。
前記ＳＶＭの学習時に用いられる学習用画像毎に、前記学習用画像内の着目位置を示すパラメータμ及び前記学習用画像内の拡大縮小を示すパラメータｌを設定することを特徴とする請求項７又は８に記載の画像処理方法。
前記ＳＶＭの学習時に用いられる学習用画像毎に、前記学習用画像内の着目位置を示すパラメータμ、前記学習用画像内の拡大縮小を示すパラメータｌ、前記画像に垂直な方向を軸とする前記画像の回転を示すパラメータθを設定することを特徴とする請求項９又は１０に記載の画像処理方法。
前記ＳＶＭの学習時に用いられる学習用画像毎に、前記学習用画像内の着目位置を示すパラメータμ、前記行列Ａを設定することを特徴とする請求項１１又は１２に記載の画像処理方法。
前記ＳＶＭの学習時に用いられる学習用画像毎に、前記学習用画像内の着目位置を示すパラメータμを統計的推定で与えることを特徴とする請求項５、６、１９のいずれか１つに記載の画像処理方法。
前記ＳＶＭの学習時に用いられる学習用画像毎に、前記学習用画像内の着目位置を示すパラメータμ及び前記学習用画像内の拡大縮小を示すパラメータｌを統計的推定で与えることを特徴とする請求項７、８、２０のいずれか１つに記載の画像処理方法。
前記ＳＶＭの学習時に用いられる学習用画像毎に、前記学習用画像内の着目位置を示すパラメータμ、前記学習用画像内の拡大縮小を示すパラメータｌ、前記画像に垂直な方向を軸とする前記画像の回転を示すパラメータθを統計的推定で与えることを特徴とする請求項９、１０、２１のいずれか１つに記載の画像処理方法。
前記ＳＶＭの学習時に用いられる学習用画像毎に、前記学習用画像内の着目位置を示すパラメータμ、前記行列Ａを統計的推定で与えることを特徴とする請求項１１、１２、２２のいずれか１つに記載の画像処理方法。
前記画像を、各画素の座標及び輝度値の集合で表すことを特徴とする請求項１から２６のいずれか１つに記載の画像処理方法。
動画を扱うことができるよう、時間を変数として含めて拡張することを特徴とする請求項１から２７のいずれか１つに記載の画像処理方法。
光のスペクトル分布を扱うことができるよう、前記光のスペクトル分布を変数として含めて拡張することを特徴とする請求項１から２８のいずれか１つに記載の画像処理方法。
前記光のスペクトル分布を赤、青、緑の３段階の離散分布で近似することを特徴とする請求項２９に記載の画像処理方法。
前記フィッシャーカーネルの拡張として、

を用いることを特徴とする請求項２に記載の画像処理方法。
請求項１から３１のいずれか１つに記載の画像処理方法を用いて生成された前記識別関数を用いて、画像の認識を行うことを特徴とする画像認識方法。
認識対象を含む画像における前記識別関数の極大を求めることによって、前記画像の認識を行うことを特徴とする請求項３２に記載の画像認識方法。
勾配法又はニュートン法を用いて、前記識別関数の極大を求めることを特徴とする請求項３３に記載の画像認識方法。
請求項５、６、１９、２３のいずれか１つに記載の画像処理方法を用いた前記ＳＶＭの学習の結果として得られる画像に対する前記識別関数を最大とする前記パラメータμを求めることによって、前記画像内の認識対象の位置を求める画像認識方法。
請求項７、８、２０、２４のいずれか１つに記載の画像処理方法を用いた前記ＳＶＭの学習の結果として得られる画像に対する前記識別関数を最大とする前記パラメータμ及び前記パラメータｌを求めることによって、前記画像内の認識対象の位置及び大きさを求める画像認識方法。
請求項９、１０、２１、２５のいずれか１つに記載の画像処理方法を用いた前記ＳＶＭの学習の結果として得られる画像に対する前記識別関数を最大とする前記パラメータμ、前記パラメータｌ、前記パラメータθを求めることによって、前記画像内の認識対象の位置、大きさ、角度を求める画像認識方法。
請求項１１、１２、２２、２６のいずれか１つに記載の画像処理方法を用いた前記ＳＶＭの学習の結果として得られる画像に対する前記識別関数を最大とする前記パラメータμ及び前記行列Ａを求めることによって、前記画像内の認識対象の位置及び認識対象の大きさ、角度、歪みの度合いを求める画像認識方法。
請求項１から３１のいずれか１つに記載の画像処理方法をコンピュータによって実行させるプログラム。
請求項３２から３８のいずれか１つに記載の画像認識方法をコンピュータによって実行させるプログラム。