JP2004178210A - 画像処理方法及び画像認識方法並びにこれらの方法をコンピュータにより実行させるプログラム - Google Patents
画像処理方法及び画像認識方法並びにこれらの方法をコンピュータにより実行させるプログラム Download PDFInfo
- Publication number
- JP2004178210A JP2004178210A JP2002342780A JP2002342780A JP2004178210A JP 2004178210 A JP2004178210 A JP 2004178210A JP 2002342780 A JP2002342780 A JP 2002342780A JP 2002342780 A JP2002342780 A JP 2002342780A JP 2004178210 A JP2004178210 A JP 2004178210A
- Authority
- JP
- Japan
- Prior art keywords
- image
- learning
- processing method
- image processing
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】画像内に存在する特定の認識対象の認識(発見)を行う際、認識対象の発見を精度良くかつ高速に行い、認識対象の平行移動、拡大縮小、回転移動など、広い範囲の変化にも対応できるようにする。
【解決手段】認識対象を含む画像を全て関数近似し、所定のパラメータによって表す。学習画像に係るパラメータは、最尤推定部11で最尤推定され、さらにフィッシャースコア計算部12で計算されてフィッシャーカーネルが生成されて、SVM部13で、フィッシャーカーネルから画像認識用の認識対象抽出フィルタVが生成される。この認識対象抽出フィルタVが画像の一致度を計算するものであり、認識対象の発見を行いたい画像に対して、テンプレートとして認識対象抽出フィルタVを用いて計算を行い、勾配法などにより認識対象抽出フィルタVの極大点を見つけることで、認識対象の位置や大きさのほか、拡大縮小の変化や回転移動を特定することができる。
【選択図】 図1
【解決手段】認識対象を含む画像を全て関数近似し、所定のパラメータによって表す。学習画像に係るパラメータは、最尤推定部11で最尤推定され、さらにフィッシャースコア計算部12で計算されてフィッシャーカーネルが生成されて、SVM部13で、フィッシャーカーネルから画像認識用の認識対象抽出フィルタVが生成される。この認識対象抽出フィルタVが画像の一致度を計算するものであり、認識対象の発見を行いたい画像に対して、テンプレートとして認識対象抽出フィルタVを用いて計算を行い、勾配法などにより認識対象抽出フィルタVの極大点を見つけることで、認識対象の位置や大きさのほか、拡大縮小の変化や回転移動を特定することができる。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、画像内の特定の認識対象を発見するための画像処理方法及び画像認識方法並びにこれらの方法をコンピュータにより実行させるプログラムに関する。
【0002】
【従来の技術】
【非特許文献1】
Koch C Itti L. Feature combination strategies for saliency−basedvisual attention. Systems Journal of Electronic Imaging, 10:161−169, 2001.
【非特許文献2】
Constantine Papageorgiou and Tomaso Poggio. A pattern classification approach to dynamical object detection. Proceedings of International Conference on Computer Vision, Corfu, Greece, September 1999.
【非特許文献3】
T.S.Jaakkola and D.Haussler. Exploiting generative models in discrimative classifiers. NIPS, pages 487−493, 1999.
【非特許文献4】
Shai Avidan. Support vector tracking. CVPR2001.
【非特許文献5】
K. Tsuda, M. Kawanabe, G. Ratsch, S. Sonnenburg, and K.−R. Muller. A New Discriminative Kernel From Probabilistic Models. NIPS, 2001.
【0003】
非特許文献1〜非特許文献3には、SVM(Support Vector Machine:サポート・ベクタ・マシン)を用いて画像認識を行う画像認識方法に関する記載が存在する。図8は、従来の画像認識方法を実行するための画像認識装置の機能を模式的に示す図である。まず、画像認識を行うために、学習画像(学習用画像)から基本(比較対象)となるテンプレートを作成する必要がある。特徴抽出部51は、複数の学習画像(学習画像の集合)のそれぞれから所定の特徴を抽出し、特徴の集合を生成する。抽出された特徴の集合は、SVM部52に供給され、SVM部52で、例えばSVMを用いた画像の認識が行われる。これによって、特定の認識対象を認識するための基本的なデータとなるテンプレートが作成される。
【0004】
次に、上記のように作成されたテンプレート(SVMの学習結果)を用いて、入力画像(特定の認識対象を含む画像)内の特定の認識対象の位置を探索する。まず、特徴抽出部53が、入力画像から特徴の抽出を行う。そして、特徴比較手段54が、抽出された入力画像の特徴とテンプレートとを比較して、一致の度合いVを決定する。このとき入力画像内において、注目領域In(特定の認識対象が存在している又は存在すると予測される領域)の候補を複数選択しておき、各注目領域に対して一致度Vを計算して、一致度Vの値が最大になる注目領域を特定の認識対象の位置とみなす。
【0005】
また、従来、入力画像内の特定の認識対象の位置を探索する場合、テンプレートを少しずつ平行移動、拡大縮小、回転移動し、入力画像の認識枠内とテンプレートとの一致度を計算していた。図9は、従来の画像認識方法の一例を示すフローチャートである。すなわち、従来は、テンプレートに関して、平行移動、拡大縮小、回転移動の各処理のうちの1つ又はそれらの組み合わせの処理を選択的に行い(ステップS201〜S203)、処理後のテンプレートと入力画像の認識枠内の画像とが、一致するか否かの比較を行う(ステップS204)。そして、処理後のテンプレートと認識枠内の画像とが一致する場合(一致度が最大の場合)には、入力画像内の認識対象を発見したと判断し(ステップS205)、一方、認識枠内の画像とテンプレートとが一致しない場合には、再度、少しずつテンプレートを変化(平行移動、拡大縮小、回転移動)させて、一致する場所の探索を行うようにしている。
【0006】
また、非特許文献4には、SVT(Support Vector Tracking:サポート・ベクター・トラッキング)に係る技術が開示されている。従来、モバイルアイなどに用いられているSVTによっても、少しずつ平行移動しながら、テンプレートと入力画像との一致度を探索することが可能である。このSVTによる探索は、ロバスト性を有する探索であり、比較的高速処理を行うことが可能である。
【0007】
【発明が解決しようとする課題】
しかしながら、従来の少しずつ認識枠内の画像の移動(平行移動、拡大縮小、回転移動)を行う画像認識方法では、以下の2つの問題点が生じる。
・少しずつ移動させる移動の差分を小さく取ることによって、計算速度が遅くなり、認識対象の発見までに時間がかかってしまう。また、CPUなどの計算手段やメモリなどに非常に大きな負荷がかかってしまう。
・少しずつ移動させる移動の差分を大きくとった場合には、計算速度は速くなるが、認識対象の発見の精度が大幅に劣化する。
【0008】
また、従来のSVTによる画像認識方法は、平行移動しか扱うことができないという問題があり、拡大縮小や回転移動には対応していないという問題がある。また、従来のSVMによる画像認識方法では、固定長の特徴ベクトルしか扱えず、認識対象の拡大縮小に関しては十分に対応できていないという問題がある。
【0009】
本発明は、上記問題点に鑑み、認識対象の発見を精度良くかつ高速に行い、認識対象の平行移動、拡大縮小、回転移動など、広い範囲の変化にも対応する画像処理方法及び画像認識方法並びにこれらの方法をコンピュータにより実行させるプログラムを提供することを目的とする。
【0010】
【課題を解決するための手段】
上記目的を達成するため、請求項1に記載の画像処理方法は、認識対象を含む画像を適当な関数近似で表し、この関数近似で用いられる関数のパラメータだけを用いて画像の認識を行うようにしている。
これにより、画像の認識を精度良くかつ高速に行うことが可能となる。
【0011】
また、請求項2に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を所定の確率分布関数で近似し、フィッシャーカーネルを用いたSVM(サポート・ベクタ・マシン)によって画像の認識を行うようにしている。
これにより、フィッシャーカーネルを用いたSVMの学習によって得られた情報を基にして、画像の認識を精度良くかつ高速に行うことが可能となる。
【0012】
また、請求項3に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を所定の確率分布関数で近似し、TOPカーネルを用いたSVMによって画像の認識を行うようにしている。
これにより、TOPカーネルを用いたSVMの学習によって得られた情報を基にして、画像の認識を精度良くかつ高速に行うことが可能となる。
【0013】
また、請求項4に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像の注目領域に山型関数による重みを加えるようにしている。
これにより、画像内に存在する認識対象を効率良く発見することが可能となり、さらに画像認識の精度を上げることが可能となる。
【0014】
また、請求項5に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を、注目領域のみを山型関数を用いて強調した確率分布関数を用いて近似するようにしている。
これにより、画像内に存在する認識対象を効率良く発見することが可能となり、さらに画像認識の精度を上げることが可能となる。
【0015】
また、請求項6に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を、確率分布関数
【数14】
を用いて近似するようにしている。
これにより、画像内に存在する認識対象を効率良く発見することが可能となり、さらに画像認識の精度を上げることが可能となる。
【0016】
また、請求項7に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を、画像の拡大縮小に対応した確率分布関数を用いて近似するようにしている。
これにより、認識対象の拡大縮小にも対応可能となり、認識対象の多様な変化に対応することが可能となる。
【0017】
また、請求項8に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を、画像の拡大縮小に対応した確率分布関数
【数15】
を用いて近似するようにしている。
これにより、認識対象の拡大縮小にも対応可能となり、認識対象の多様な変化に対応することが可能となる。
【0018】
また、請求項9に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を、画像に垂直な方向を軸とする画像の回転及び画像の拡大縮小に対応した確率分布関数を用いて近似するようにしている。
これにより、認識対象の垂直方向を軸とする回転移動及び拡大縮小にも対応可能となり、認識対象の多様な変化に対応することが可能となる。
【0019】
また、請求項10に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を、画像に垂直な方向を軸とする画像の回転及び画像の拡大縮小に対応した確率分布関数
【数16】
を用いて近似するようにしている。
これにより、認識対象の垂直方向を軸とする回転移動及び拡大縮小にも対応可能となり、認識対象の多様な変化に対応することが可能となる。
【0020】
また、請求項11に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を、画像に垂直な方向を軸とする画像の回転、画像の拡大縮小、画像に水平な方向を軸とする画像の回転に対応した確率分布関数を用いて近似するようにしている。
これにより、認識対象の垂直方向を軸とする回転移動、認識対象の水平方向を軸とする回転移動、拡大縮小にも対応可能となり、認識対象の多様な変化に対応することが可能となる。
【0021】
また、請求項12に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を、画像に垂直な方向を軸とする画像の回転、画像の拡大縮小、画像に水平な方向を軸とする画像の回転に対応した確率分布関数
【数17】
を用いて近似するようにしている。
これにより、認識対象の垂直方向を軸とする回転移動、認識対象の水平方向を軸とする回転移動、拡大縮小にも対応可能となり、認識対象の多様な変化に対応することが可能となる。
【0022】
また、請求項13に記載の画像処理方法では、上記発明に加えて、画像を近似するための確率分布関数を適当な関数の足し合わせによって表すようにしている。
これにより、画像内に存在する認識対象をさらに効率良く発見することが可能となる。
【0023】
また、請求項14に記載の画像処理方法では、上記発明に加えて、確率分布関数
【数18】
として、
【数19】
を用いるようにしている。
これにより、画像内に存在する認識対象をさらに効率良く発見することが可能となる。
【0024】
また、請求項15に記載の画像処理方法では、上記発明に加えて、山型関数
【数20】
として、多次元正規分布関数
【数21】
を用いるようにしている。
これにより、画像内に存在する認識対象をさらに効率良く発見することが可能となる。
【0025】
また、請求項16に記載の画像処理方法では、上記発明に加えて、山型関数
【数22】
として、2次関数
【数23】
を用いるようにしている。
これにより、画像内に存在する認識対象をさらに効率良く発見することが可能となる。
【0026】
また、請求項17に記載の画像処理方法では、上記発明に加えて、認識対象を関数近似した確率分布関数を4次元混合正規分布で表すようにしている。
これにより、画像内に存在する認識対象をさらに効率良く発見することが可能となる。
【0027】
また、請求項18に記載の画像処理方法では、上記発明に加えて、
【数24】
として、多次元正規分布関数
【数25】
を用いるようにしている。
これにより、画像内に存在する認識対象をさらに効率良く発見することが可能となる。
【0028】
また、請求項19に記載の画像処理方法では、上記発明に加えて、SVMの学習時に用いられる学習用画像毎に、学習用画像内の着目位置を示すパラメータμを設定するようにしている。
これにより、確実に、画像内の認識対象の位置を特定することが可能となる。
【0029】
また、請求項20に記載の画像処理方法では、上記発明に加えて、SVMの学習時に用いられる学習用画像毎に、学習用画像内の着目位置を示すパラメータμ及び学習用画像内の拡大縮小を示すパラメータlを設定するようにしている。
これにより、確実に、画像内の認識対象の位置及び拡大縮小に係る変化を特定することが可能となる。
【0030】
また、請求項21に記載の画像処理方法では、上記発明に加えて、SVMの学習時に用いられる学習用画像毎に、学習用画像内の着目位置を示すパラメータμ、学習用画像内の拡大縮小を示すパラメータl、画像に垂直な方向を軸とする画像の回転を示すパラメータθを設定するようにしている。
これにより、確実に、画像内の認識対象の位置、拡大縮小に係る変化、画像に垂直な方向を軸とする画像の回転に係る変化を特定することが可能となる。
【0031】
また、請求項22に記載の画像処理方法では、上記発明に加えて、SVMの学習時に用いられる学習用画像毎に、学習用画像内の着目位置を示すパラメータμ、行列Aを設定するようにしている。
これにより、確実に、画像内の認識対象のアフィン変換に係る変化を特定することが可能となる。
【0032】
また、請求項23に記載の画像処理方法では、上記発明に加えて、SVMの学習時に用いられる学習用画像毎に、学習用画像内の着目位置を示すパラメータμを統計的推定で与えるようにしている。
これにより、学習用画像内の認識対象の位置のパラメータの設定に係る処理を効率良く行うことが可能となる。
【0033】
また、請求項24に記載の画像処理方法では、上記発明に加えて、SVMの学習時に用いられる学習用画像毎に、学習用画像内の着目位置を示すパラメータμ及び学習用画像内の拡大縮小を示すパラメータlを統計的推定で与えるようにしている。
これにより、学習用画像内の認識対象の位置及び拡大縮小に係る変化のパラメータの設定に係る処理を効率良く行うことが可能となる。
【0034】
また、請求項25に記載の画像処理方法では、上記発明に加えて、SVMの学習時に用いられる学習用画像毎に、学習用画像内の着目位置を示すパラメータμ、学習用画像内の拡大縮小を示すパラメータl、画像に垂直な方向を軸とする画像の回転を示すパラメータθを統計的推定で与えるようにしている。
これにより、学習用画像内の認識対象の位置、拡大縮小に係る変化、画像に垂直な方向を軸とする画像の回転に係る変化のパラメータの設定に係る処理を効率良く行うことが可能となる。
【0035】
また、請求項26に記載の画像処理方法では、上記発明に加えて、SVMの学習時に用いられる学習用画像毎に、学習用画像内の着目位置を示すパラメータμ、行列Aを統計的推定で与えるようにしている。
これにより、学習用画像内の認識対象のアフィン変換に係る変化のパラメータの設定に係る処理を効率良く行うことが可能となる。
【0036】
また、請求項27に記載の画像処理方法では、上記発明に加えて、画像を、各画素の座標及び輝度値の集合で表すようにしている。
これにより、各画素の輝度値を用いた画像の認識を行うことが可能となる。
【0037】
また、請求項28に記載の画像処理方法では、上記発明に加えて、動画を扱うことができるよう、時間を変数として含めて拡張するようにしている。
これにより、動画像内の認識対象の時間の特定が可能となり、パラメータを含む画像の認識が可能となる。
【0038】
また、請求項29に記載の画像処理方法では、上記発明に加えて、光のスペクトル分布を扱うことができるよう、光のスペクトル分布を変数として含めて拡張するようにしている。
これにより、色分布を参照した画像の認識を行うことが可能となる。
【0039】
また、請求項30に記載の画像処理方法では、上記発明に加えて、光のスペクトル分布を赤、青、緑の3段階の離散分布で近似するようにしている。
これにより、3つの色パラメータを扱うことによって、色分布を参照した画像の認識を行うことが可能となる。
【0040】
また、請求項31に記載の画像処理方法では、上記発明に加えて、前記フィッシャーカーネルの拡張として、
【数26】
を用いるようにしている。
これにより、座標変換時に類似度が変化しない関数によって、パラメータ同士の比較ができるようになる。
【0041】
また、請求項32に記載の画像認識方法では、上記の画像処理方法を用いて生成された識別関数を用いて、画像の認識を行うようにしている。
これにより、識別関数(フィルタ)による演算を行うことによって、画像の認識を行うことが可能となる。
【0042】
また、請求項33に記載の画像認識方法では、認識対象を含む画像における識別関数の極大を求めることによって、画像の認識を行うようにしている。
これにより、識別関数の極大を示すパラメータを得ることによって、簡単に画像の認識を行うことが可能となる。
【0043】
また、請求項34に記載の画像認識方法では、勾配法又はニュートン法を用いて、識別関数の極大を求めるようにしている。
これにより、簡単に識別関数の極大を求めることが可能となる。
【0044】
また、請求項35に記載の画像認識方法では、上記発明に加えて、SVMの学習の結果として得られる画像に対する識別関数を最大とするパラメータμを求めることによって、画像内の認識対象の位置を求めるようにしている。
これにより、画像内の認識対象の位置を確実に特定することが可能となる。
【0045】
また、請求項36に記載の画像認識方法では、上記発明に加えて、SVMの学習の結果として得られる画像に対する識別関数を最大とするパラメータμ及びパラメータlを求めることによって、画像内の認識対象の位置及び大きさを求めるようにしている。
これにより、画像内の認識対象の位置及び拡大縮小の変化を確実に特定することが可能となる。
【0046】
また、請求項37に記載の画像認識方法では、上記発明に加えて、SVMの学習の結果として得られる画像に対する識別関数を最大とするパラメータμ、パラメータl、パラメータθを求めることによって、画像内の認識対象の位置、大きさ、角度を求めるようにしている。
これにより、画像内の認識対象の位置、拡大縮小の変化、画像に垂直な方向を軸とする画像の回転の変化を確実に特定することが可能となる。
【0047】
また、請求項38に記載の画像認識方法では、上記発明に加えて、SVMの学習の結果として得られる画像に対する識別関数を最大とするパラメータμ及び行列Aを求めることによって、画像内の認識対象の位置及び認識対象の大きさ、角度、歪みの度合いを求めるようにしている。
これにより、画像内の認識対象の位置、拡大縮小の変化、画像に垂直な方向を軸とする画像の回転の変化、座標系の回転と縦横比の変化を確実に特定することが可能となる。
【0048】
また、請求項39に記載のプログラムでは、上記の画像処理方法をコンピュータにより実行させるプログラムが提供される。
これにより、本発明の画像処理方法をコンピュータにより実行可能なプログラムとして実現することが可能となる。
【0049】
また、請求項40に記載のプログラムでは、上記の画像認識方法をコンピュータにより実行させるプログラムが提供される。
これにより、本発明の画像認識方法をコンピュータにより実行可能なプログラムとして実現することが可能となる。
【0050】
【発明の実施の形態】
以下、図面を参照しながら、本発明の画像処理方法及び画像認識方法並びにこれらの方法をコンピュータにより実行させるプログラムの実施の形態について説明する。まず、図1を用いて、本発明の画像認識方法の概略について説明する。図1は、本発明の実施の形態に係る画像認識装置の機能を模式的に示す図である。図1に示す画像認識装置は、学習部10と探索部20とに大別することが可能である。
【0051】
学習部10は、学習画像の集合からテンプレートを生成するものである。まず、全ての学習画像(学習画像の集合)に対して、各画像内のどの部分に学習させたい対象(以下、学習対象と呼ぶ)が存在するかを特定する所定のパラメータを設定する。なお、学習画像は、認識対象に応じて適切に用意されることが好ましく、学習画像の選択の態様(使用する学習画像の数や認識対象の写り具合など)に従って、最終的な判定結果が大きく異なってくる。そして、最尤推定部11が、全ての学習画像に係る所定のパラメータの最尤推定を行う。次に、フィッシャースコア計算部12が、最尤推定部11で最尤推定された各パラメータを用いて、フィッシャースコアの計算を行い、さらに、フィッシャー情報行列の計算を行う。このフィッシャー情報行列(フィッシャーカーネルとも呼ばれる)は、SVM部13に供給される。
【0052】
一方、学習対象を含む学習画像と学習対象を含まない学習画像(これらを学習データと呼ぶことにする)とを用意し、SVM部13に供給される。なお、この設定では、例えば、学習対象を含む学習画像には、正のパラメータ(+1)が与えられ、学習画像を含まない学習画像には、負のパラメータ(−1)が与えられる。
【0053】
そして、SVM部13は、フィッシャーカーネルを用いて、この学習データをSVMによって学習する。このSVM部13における学習の結果、画像認識の際に利用可能な一致度を示す認識対象抽出フィルタVを得ることができ、この認識対象抽出フィルタVをテンプレートと用いることによって、入力画像内の認識対象の探索を行うことができる。
【0054】
一方、探索部20は、画像認識を行いたい入力画像(認識対象を含む画像)を読み込み、入力画像内から認識対象の位置や大きさを発見するための処理を行うものである。まず、入力画像の注目領域(認識枠)を定め、この認識枠を変化させながら、フィッシャースコア計算部21によってフィッシャースコアを求め、認識対象抽出フィルタVの計算を行う。すなわち、注目領域の画像情報と注目領域を定める位置や大きさのパラメータなどを、認識対象抽出フィルタVに代入して計算を行う。そして、極大点探索部22で、勾配法やニュートン法などによって認識対象抽出フィルタVの極大点を求める(認識対象抽出フィルタVの極大を求める計算を行う)ことによって、入力画像内の認識対象の位置、大きさ、さらには一致度Vなどを求めることが可能となる。
【0055】
以上、本発明の画像認識方法の概略について説明したが、さらに、図面及び数式を参照しながら、本発明の画像認識方法の詳細について説明する。本発明は、認識対象を含む画像を関数で近似して表現することに特徴がある。例えば、学習部10で処理される学習画像や、探索部20で処理される入力画像などを全て関数で近似することによって、複雑な画像を少ないパラメータで表現することが可能となる。例えば、画像が2つの正規分布の重ね合わせで表された場合、画像を4×2=8個のパラメータで表すことが可能となる。
【0056】
また、学習画像内に存在する認識対象や入力画像内の注目領域を強調する関数近似を行うことも可能である。例えば、こうした領域だけに正規分布や2次関数のような山型関数をかけることによって、この領域を中心として山型に重みのかかった確率分布を設定することが可能となり、注目領域を優先的に表すパラメータを得ることが可能となる。
【0057】
例えば、画像は、ある座標(x,y)での輝度I(x,y)という3つの数字(x,y,I)の集合によって表現することが可能である。すなわち、1つの画像を
【数27】
で表すことが可能であり、この集合を、所定の確率分布p(x,y,I)の測定結果とみなすことも可能である。なお、この確率分布p(x,y,I)は、測定結果を生成する生成モデルと呼ばれている。
【0058】
なお、山型関数を用いた近似を行った場合、この確率分布p(x,y,I)を
【数28】
と表すことが可能である。
【0059】
このようにして、関数近似によって表された画像から、フィッシャー情報行列(フィッシャーカーネル)の計算が行われる。以下、フィッシャーカーネルについて説明する。今、ある画像の確率分布p(x,y,I)と、この画像とは異なる画像の確率分布q(x,y,I)の類似度を測定する関数
g(p(x,y,I), q(x,y,I))
を仮定する。
【0060】
また、確率分布pと確率分布qとは、パラメータの異なる同じ関数であると仮定する。例えば、確率分布pと確率分布qは
【数29】
の確率分布のパラメータsを変えたもの、すなわち、
【数30】
というように表されているとする。
【0061】
このようなパラメータによってかわる確率分布は、一般的に
【数31】
というように、変数とパラメータの部分を “|”で区切って表される。
【0062】
ここで、
【数32】
という確率分布p及び確率分布qが類似している類似度g(p,q)をパラメータθ、φの関数で表すとする。
【数33】
【0063】
このとき、パラメータθ、φに対して、下記の座標変換
【数34】
を施したとき、パラメータθ、φの差が微小の場合には、座標変換Fが確率分布の本質的な変更を伴わない座標変換であれば、類似度g(θ,φ)も変化しないような関数を導くことが可能である。このように、座標変換時に類似度が変化しない関数を、フィッシャー情報行列Fを使って、以下のように表すことが可能である。
【数35】
ここで
【数36】
であり、このFは、フィッシャーカーネルを拡張したものである。上記のように導かれた関数によって、パラメータ同士の比較ができるようになる。
【0064】
次に、以上のようにして可能となるパラメータ同士の比較を、実際に測定された画像に係るパラメータの集合
【数37】
の比較に適用する。
【0065】
上記の式の導出によって
【数38】
というベクトルは確率分布を表す『筋の良い』特徴空間の勾配であることが予想される。以下、この特徴空間に注目して説明を行う。
【0066】
今、フィッシャーカーネルを求める前段階で行われる最尤推定部11における最尤推定などによって、すでにパラメータθが求まっていると仮定する。このとき、関数u(x,y,l)は測定結果(x,y,I)から『筋の良い』特徴空間への射影と見なすことができる。また、この特徴空間の縦、横、斜めのゆがみ(異方性)を
【数39】
と補正することで『もっと筋の良い』特徴空間に射影することが可能となる。さらに、『もっと筋の良い』特徴空間において、
【数40】
という比較方法を利用すると、
【数41】
と書き表すことが可能となる。このFKがフィッシャーカーネルである。
【0067】
SVM部13では、上記で説明したフィッシャーカーネルを用いたSVMによって、パラメータで表現された画像(すなわち関数近似された画像)の学習処理を行い、学習の結果として、画像認識の際に利用可能な一致度を示す認識対象抽出フィルタVを得る。SVM部13で行われる学習処理の手順を示す。なお、以下の説明では、山型関数として正規分布を使い、平行移動、回転移動、さらには、対象の3次元的回転や伸縮による縦横比の変化にも対応した生成モデルを用いて説明する。この生成モデルは下記のように表される。
【数42】
【0068】
また、学習画像J1,J2…を、以下に示す各画像における座標と輝度の集合として与える。
【数43】
【0069】
また、各画像内のどの部分に学習させたい認識対象(例えば、車や人の顔など)が存在しているかを、下記のように座標、角度、縦横の大きさなどのパラメータによって与える。
【数44】
なお、SVMの学習時に用いられる学習画像毎に、学習画像内の着目位置を示すパラメータμ、学習画像に垂直な方向を軸とし、画像の回転を示すパラメータθ、学習画像内の拡大縮小(縦横の大きさ)を示すパラメータa,bなどを設定することが好ましい。また、こうしたパラメータは統計的推定によって与えられることも可能であり、また、画像認識装置のオペレータによって入力されたり、任意の情報格納手段から読み出せるようにしたりすることも可能である。
【0070】
次に、上記のパラメータに関して、下記の行列Bi i=1,2…を計算する。
【数45】
【0071】
そして、全ての画像J1、J2…からパラメータ(p1,μ1,D1,p2,μ2,D2…)の最尤推定を行い、
【数46】
最尤推定されたパラメータからフィッシャースコアの計算を行う。
【数47】
【0072】
そして、このようにして得られたフィッシャースコアから、フィッシャー情報行列Gの計算を行う。
【数48】
【0073】
一方、学習データ{(uk 1,y1),(uk 2,y2),…}を用意する。なお、yには、学習対象(認識対象)を含んでいるか否かで、その学習データに対して、正又は負の値(指標パラメータ)が設定される。
【数49】
例えば、車両の認識を行うための認識対象抽出フィルタを生成しようとする場合、図2(a)に示すように、車両の画像を含む学習画像に対しては指標パラメータyを1に設定し、図2(b)に示すように、車両の画像を含まない学習画像に対しては指標パラメータyを−1に設定する。
【0074】
そして、上記のように作成された学習データを、フィッシャーカーネルを用いたSVMで学習する。ここでフィッシャーカーネルは
【数50】
と書き表される。
【0075】
そして、学習の結果として、下記の認識対象抽出フィルタVを得ることができる。
【数51】
【0076】
この認識対象抽出フィルタVは、画像認識の際にテンプレートとして利用可能であり、画像間の一致度(類似度)を表す関数である。この認識対象抽出フィルタを参照することによって、入力画像内の認識対象の探索を行うことが可能となる。すなわち、認識対象抽出フィルタ
【数52】
が最大となるようなμ,Bを見つけることで、画像内の認識対象の位置、大きさ、歪みの角度を判定することが可能となり、また、相対的な一致度(類似度)Vを判定することが可能となる。
【0077】
図3は、本発明の実施の形態に係る車両認識時の認識対象抽出フィルタVの極大点を示す模式図である。図3に示すように、認識対象抽出フィルタVは、車両が存在する位置においては正の値の極大点(ピーク)を有し、一方、その周囲の何も存在しない位置、又は、ビルなどの車両以外の障害物が存在する位置では、極大とはならないか、又は、負の値となっている。すなわち、認識対象抽出フィルタVが正の値を取り、かつ、極大となっている位置に車両が発見される可能性が高い。
【0078】
また、動画を扱う場合には確率分布のパラメータとして時間を含ませて(例えば、正規分布に時間を含ませて)、上記と同様の手順を行うことによって、動画に係る画像認識を扱えるようにすることも可能である。さらに、光のスペクトル分布(すなわち、色分布)を変数として含ませることによって、光のスペクトル分布を扱えるようにすることが可能である。
【0079】
光のスペクトル情報を使う場合には、例えば、次の正規分布
【数53】
を用いることによって、光のスペクトル分布を赤、青、緑の3段階の離散分布で近似して、関数近似を行うことが可能となる。
【0080】
また、生成モデルとして
【数54】
を使うと、認識対象の画像に最も似ている顔文字を推定することが可能となる。また、確率分布を
【数55】
で規定することによって、上記の方法と同様の方法で、画像の拡大縮小に対応することも可能である。
【0081】
上記のように、本発明は、画像内の認識対象を判別するためのテンプレート作成の際、テンプレート作成の基となる学習画像を関数近似で表して学習画像をパラメータ化し、この学習画像のパラメータから画像認識処理を行う際に用いられるフィルタを作成する。そして、同様にパラメータ化された認識対象を含む画像に対してフィルタをかけ(実際には、フィルタとなる関数に、認識対象を含む画像に係る数値を代入する)、フィルタの一致度が最大となる極大点を求めることにより、テンプレートと認識対象とが、最も適切に重ね合わせられる状態を発見することを可能とする。
【0082】
以下、本発明と従来の技術とを比較しながら、本発明の特徴について説明する。例えば、所定の画像(ここでは人間の顔の画像)を追跡する場合、従来の技術によれば、図10に示すように、人間の顔を表すテンプレートを画面内で少しずつ平行移動させて、画像との一致度の検出を繰り返し行うことによって、人間の顔の位置を発見していた。また、画面内の人間の顔の大きさが変動する(人間の顔の大きさが拡縮する)場合には、図11に示すように、人間の顔のテンプレートを拡大縮小させながら画像との一致度を検出することによって、人間の顔の位置を発見していた。すなわち、従来の技術では、試行錯誤的にテンプレートと画像との一致度の検出を行っていた。
【0083】
一方、本発明では、テンプレートと画像との一致度が、図4に示すような認識対象抽出フィルタVの特徴空間における分布によって表現され、勾配法などを用いた単なる計算によって、この認識対象抽出フィルタVの極大点を求めるだけで、人間の顔の位置や大きさを認識することができるようになる。すなわち、図4内に描かれている矢印のように、認識対象抽出フィルタVの特徴空間の分布の勾配が最大となる『筋の良い』方向に位置や大きさをずらし、その勾配が0となる(又は、所定の微小変化以下の勾配変動となる)位置を特定することによって、図5や図6に模式的に示す探索経路で、人間の顔の位置や大きさを精度良くかつ高速に判定することが可能となる。
【0084】
また、従来の技術では、例えば、走行中の車載カメラが撮像した画像内に存在する道路上の車の認識を行う際、認識枠(図7の線で囲まれた部分)をあらかじめ適切に与えておく必要があった。この認識枠が適切に与えられなかった場合、例えば、認識対象である車と周囲の環境や障害物などとの判別を行うことができず、うまく認識対象を特定することができなかった。しかしながら、本発明の画像認識方法では、認識対象抽出フィルタV(テンプレート)の拡大・縮小・回転の処理を高速に行うことが可能であり、適切な認識枠の調節を高速で行うことが可能である。
【0085】
また、本発明の学習部10及び探索部20は、ハードウェア、ソフトウェアのいずれによっても実現可能である。すなわち、各処理部(各計算部)を実現する専用のハードウェアを構築し、本発明の画像認識方法を行うことも可能であり、また、PC(パーソナル・コンピュータ:Personal Computer)のROM(ロム:Read Only Memory)やハードディスクにプログラムを格納しておき、CPU(中央処理部:Central Processing Unit)などの処理部で本発明の画像認識方法を実行することも可能である。
【0086】
また、認識対象を含む画像を関数近似し、関数のパラメータ処理を行うことによって画像認識を行う方法としては、上記のように、認識対象を含む画像を所定の確率分布関数で近似し、フィッシャーカーネルを用いたSVMによって画像の認識を行う方法に加えて、認識対象を含む画像を所定の確率分布関数で近似し、TOPカーネル(非特許文献5参照)を用いたSVMによって画像の認識を行う方法も考えられる。このTOPカーネルは、フィッシャーカーネルと同様、パラメータ化された複数の画像間の誤差(=一致度)を計測することを可能とする行列であり、フィッシャーカーネルが、認識対象を表す確率モデルと観測された画像との誤差を表すのに対し、TOPカーネルは、認識対象を含む画像と、その画像の背景を表す確率モデルを2つ用意して、それぞれの確率モデルからの誤差を計測する(すなわち、認識対象との一致度、及び、背景との一致度の計測)ものである。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る画像認識装置の機能を模式的に示す図である。
【図2】本発明の実施の形態に係る学習画像と指標パラメータとの関係を説明するための模式図である。(a) 車両の画像を含む学習画像に対して、指標パラメータyを1に設定することを示す模式図(b) 車両の画像を含まない学習画像に対して、指標パラメータyを−1に設定することを示す模式図
【図3】本発明の実施の形態に係る車両認識時の認識対象抽出フィルタVの極大点を示す模式図である。
【図4】本発明の実施の形態に係る認識対象抽出フィルタVの特徴空間における分布図である。
【図5】本発明の実施の形態に係るテンプレートの平行移動による認識対象の判定における勾配法を用いた場合の模式図である。
【図6】本発明の実施の形態に係るテンプレートの拡大縮小による認識対象の判定における勾配法を用いた場合の模式図である。
【図7】従来の画像認識方法に係る平行移動による画像認識の際の平行移動による認識枠の調節の様子を示す模式図である。
【図8】従来の画像認識方法を実行するための画像認識装置の機能を模式的に示す図である。
【図9】従来の画像認識方法の一例を示すフローチャートである。
【図10】従来の画像認識方法に係るテンプレートの平行移動による認識対象の判定を行う様子を示す模式図である。
【図11】従来の画像認識方法に係るテンプレートの拡大縮小による認識対象の判定を行う様子を示す模式図である。
【符号の説明】
10 学習部
11 最尤推定部
12、21 フィッシャースコア計算部
13、52 SVM部
20 探索部
22 極大点探索部
51、53 特徴抽出部
54 特徴比較手段
【発明の属する技術分野】
本発明は、画像内の特定の認識対象を発見するための画像処理方法及び画像認識方法並びにこれらの方法をコンピュータにより実行させるプログラムに関する。
【0002】
【従来の技術】
【非特許文献1】
Koch C Itti L. Feature combination strategies for saliency−basedvisual attention. Systems Journal of Electronic Imaging, 10:161−169, 2001.
【非特許文献2】
Constantine Papageorgiou and Tomaso Poggio. A pattern classification approach to dynamical object detection. Proceedings of International Conference on Computer Vision, Corfu, Greece, September 1999.
【非特許文献3】
T.S.Jaakkola and D.Haussler. Exploiting generative models in discrimative classifiers. NIPS, pages 487−493, 1999.
【非特許文献4】
Shai Avidan. Support vector tracking. CVPR2001.
【非特許文献5】
K. Tsuda, M. Kawanabe, G. Ratsch, S. Sonnenburg, and K.−R. Muller. A New Discriminative Kernel From Probabilistic Models. NIPS, 2001.
【0003】
非特許文献1〜非特許文献3には、SVM(Support Vector Machine:サポート・ベクタ・マシン)を用いて画像認識を行う画像認識方法に関する記載が存在する。図8は、従来の画像認識方法を実行するための画像認識装置の機能を模式的に示す図である。まず、画像認識を行うために、学習画像(学習用画像)から基本(比較対象)となるテンプレートを作成する必要がある。特徴抽出部51は、複数の学習画像(学習画像の集合)のそれぞれから所定の特徴を抽出し、特徴の集合を生成する。抽出された特徴の集合は、SVM部52に供給され、SVM部52で、例えばSVMを用いた画像の認識が行われる。これによって、特定の認識対象を認識するための基本的なデータとなるテンプレートが作成される。
【0004】
次に、上記のように作成されたテンプレート(SVMの学習結果)を用いて、入力画像(特定の認識対象を含む画像)内の特定の認識対象の位置を探索する。まず、特徴抽出部53が、入力画像から特徴の抽出を行う。そして、特徴比較手段54が、抽出された入力画像の特徴とテンプレートとを比較して、一致の度合いVを決定する。このとき入力画像内において、注目領域In(特定の認識対象が存在している又は存在すると予測される領域)の候補を複数選択しておき、各注目領域に対して一致度Vを計算して、一致度Vの値が最大になる注目領域を特定の認識対象の位置とみなす。
【0005】
また、従来、入力画像内の特定の認識対象の位置を探索する場合、テンプレートを少しずつ平行移動、拡大縮小、回転移動し、入力画像の認識枠内とテンプレートとの一致度を計算していた。図9は、従来の画像認識方法の一例を示すフローチャートである。すなわち、従来は、テンプレートに関して、平行移動、拡大縮小、回転移動の各処理のうちの1つ又はそれらの組み合わせの処理を選択的に行い(ステップS201〜S203)、処理後のテンプレートと入力画像の認識枠内の画像とが、一致するか否かの比較を行う(ステップS204)。そして、処理後のテンプレートと認識枠内の画像とが一致する場合(一致度が最大の場合)には、入力画像内の認識対象を発見したと判断し(ステップS205)、一方、認識枠内の画像とテンプレートとが一致しない場合には、再度、少しずつテンプレートを変化(平行移動、拡大縮小、回転移動)させて、一致する場所の探索を行うようにしている。
【0006】
また、非特許文献4には、SVT(Support Vector Tracking:サポート・ベクター・トラッキング)に係る技術が開示されている。従来、モバイルアイなどに用いられているSVTによっても、少しずつ平行移動しながら、テンプレートと入力画像との一致度を探索することが可能である。このSVTによる探索は、ロバスト性を有する探索であり、比較的高速処理を行うことが可能である。
【0007】
【発明が解決しようとする課題】
しかしながら、従来の少しずつ認識枠内の画像の移動(平行移動、拡大縮小、回転移動)を行う画像認識方法では、以下の2つの問題点が生じる。
・少しずつ移動させる移動の差分を小さく取ることによって、計算速度が遅くなり、認識対象の発見までに時間がかかってしまう。また、CPUなどの計算手段やメモリなどに非常に大きな負荷がかかってしまう。
・少しずつ移動させる移動の差分を大きくとった場合には、計算速度は速くなるが、認識対象の発見の精度が大幅に劣化する。
【0008】
また、従来のSVTによる画像認識方法は、平行移動しか扱うことができないという問題があり、拡大縮小や回転移動には対応していないという問題がある。また、従来のSVMによる画像認識方法では、固定長の特徴ベクトルしか扱えず、認識対象の拡大縮小に関しては十分に対応できていないという問題がある。
【0009】
本発明は、上記問題点に鑑み、認識対象の発見を精度良くかつ高速に行い、認識対象の平行移動、拡大縮小、回転移動など、広い範囲の変化にも対応する画像処理方法及び画像認識方法並びにこれらの方法をコンピュータにより実行させるプログラムを提供することを目的とする。
【0010】
【課題を解決するための手段】
上記目的を達成するため、請求項1に記載の画像処理方法は、認識対象を含む画像を適当な関数近似で表し、この関数近似で用いられる関数のパラメータだけを用いて画像の認識を行うようにしている。
これにより、画像の認識を精度良くかつ高速に行うことが可能となる。
【0011】
また、請求項2に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を所定の確率分布関数で近似し、フィッシャーカーネルを用いたSVM(サポート・ベクタ・マシン)によって画像の認識を行うようにしている。
これにより、フィッシャーカーネルを用いたSVMの学習によって得られた情報を基にして、画像の認識を精度良くかつ高速に行うことが可能となる。
【0012】
また、請求項3に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を所定の確率分布関数で近似し、TOPカーネルを用いたSVMによって画像の認識を行うようにしている。
これにより、TOPカーネルを用いたSVMの学習によって得られた情報を基にして、画像の認識を精度良くかつ高速に行うことが可能となる。
【0013】
また、請求項4に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像の注目領域に山型関数による重みを加えるようにしている。
これにより、画像内に存在する認識対象を効率良く発見することが可能となり、さらに画像認識の精度を上げることが可能となる。
【0014】
また、請求項5に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を、注目領域のみを山型関数を用いて強調した確率分布関数を用いて近似するようにしている。
これにより、画像内に存在する認識対象を効率良く発見することが可能となり、さらに画像認識の精度を上げることが可能となる。
【0015】
また、請求項6に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を、確率分布関数
【数14】
を用いて近似するようにしている。
これにより、画像内に存在する認識対象を効率良く発見することが可能となり、さらに画像認識の精度を上げることが可能となる。
【0016】
また、請求項7に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を、画像の拡大縮小に対応した確率分布関数を用いて近似するようにしている。
これにより、認識対象の拡大縮小にも対応可能となり、認識対象の多様な変化に対応することが可能となる。
【0017】
また、請求項8に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を、画像の拡大縮小に対応した確率分布関数
【数15】
を用いて近似するようにしている。
これにより、認識対象の拡大縮小にも対応可能となり、認識対象の多様な変化に対応することが可能となる。
【0018】
また、請求項9に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を、画像に垂直な方向を軸とする画像の回転及び画像の拡大縮小に対応した確率分布関数を用いて近似するようにしている。
これにより、認識対象の垂直方向を軸とする回転移動及び拡大縮小にも対応可能となり、認識対象の多様な変化に対応することが可能となる。
【0019】
また、請求項10に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を、画像に垂直な方向を軸とする画像の回転及び画像の拡大縮小に対応した確率分布関数
【数16】
を用いて近似するようにしている。
これにより、認識対象の垂直方向を軸とする回転移動及び拡大縮小にも対応可能となり、認識対象の多様な変化に対応することが可能となる。
【0020】
また、請求項11に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を、画像に垂直な方向を軸とする画像の回転、画像の拡大縮小、画像に水平な方向を軸とする画像の回転に対応した確率分布関数を用いて近似するようにしている。
これにより、認識対象の垂直方向を軸とする回転移動、認識対象の水平方向を軸とする回転移動、拡大縮小にも対応可能となり、認識対象の多様な変化に対応することが可能となる。
【0021】
また、請求項12に記載の画像処理方法では、上記発明に加えて、認識対象を含む画像を、画像に垂直な方向を軸とする画像の回転、画像の拡大縮小、画像に水平な方向を軸とする画像の回転に対応した確率分布関数
【数17】
を用いて近似するようにしている。
これにより、認識対象の垂直方向を軸とする回転移動、認識対象の水平方向を軸とする回転移動、拡大縮小にも対応可能となり、認識対象の多様な変化に対応することが可能となる。
【0022】
また、請求項13に記載の画像処理方法では、上記発明に加えて、画像を近似するための確率分布関数を適当な関数の足し合わせによって表すようにしている。
これにより、画像内に存在する認識対象をさらに効率良く発見することが可能となる。
【0023】
また、請求項14に記載の画像処理方法では、上記発明に加えて、確率分布関数
【数18】
として、
【数19】
を用いるようにしている。
これにより、画像内に存在する認識対象をさらに効率良く発見することが可能となる。
【0024】
また、請求項15に記載の画像処理方法では、上記発明に加えて、山型関数
【数20】
として、多次元正規分布関数
【数21】
を用いるようにしている。
これにより、画像内に存在する認識対象をさらに効率良く発見することが可能となる。
【0025】
また、請求項16に記載の画像処理方法では、上記発明に加えて、山型関数
【数22】
として、2次関数
【数23】
を用いるようにしている。
これにより、画像内に存在する認識対象をさらに効率良く発見することが可能となる。
【0026】
また、請求項17に記載の画像処理方法では、上記発明に加えて、認識対象を関数近似した確率分布関数を4次元混合正規分布で表すようにしている。
これにより、画像内に存在する認識対象をさらに効率良く発見することが可能となる。
【0027】
また、請求項18に記載の画像処理方法では、上記発明に加えて、
【数24】
として、多次元正規分布関数
【数25】
を用いるようにしている。
これにより、画像内に存在する認識対象をさらに効率良く発見することが可能となる。
【0028】
また、請求項19に記載の画像処理方法では、上記発明に加えて、SVMの学習時に用いられる学習用画像毎に、学習用画像内の着目位置を示すパラメータμを設定するようにしている。
これにより、確実に、画像内の認識対象の位置を特定することが可能となる。
【0029】
また、請求項20に記載の画像処理方法では、上記発明に加えて、SVMの学習時に用いられる学習用画像毎に、学習用画像内の着目位置を示すパラメータμ及び学習用画像内の拡大縮小を示すパラメータlを設定するようにしている。
これにより、確実に、画像内の認識対象の位置及び拡大縮小に係る変化を特定することが可能となる。
【0030】
また、請求項21に記載の画像処理方法では、上記発明に加えて、SVMの学習時に用いられる学習用画像毎に、学習用画像内の着目位置を示すパラメータμ、学習用画像内の拡大縮小を示すパラメータl、画像に垂直な方向を軸とする画像の回転を示すパラメータθを設定するようにしている。
これにより、確実に、画像内の認識対象の位置、拡大縮小に係る変化、画像に垂直な方向を軸とする画像の回転に係る変化を特定することが可能となる。
【0031】
また、請求項22に記載の画像処理方法では、上記発明に加えて、SVMの学習時に用いられる学習用画像毎に、学習用画像内の着目位置を示すパラメータμ、行列Aを設定するようにしている。
これにより、確実に、画像内の認識対象のアフィン変換に係る変化を特定することが可能となる。
【0032】
また、請求項23に記載の画像処理方法では、上記発明に加えて、SVMの学習時に用いられる学習用画像毎に、学習用画像内の着目位置を示すパラメータμを統計的推定で与えるようにしている。
これにより、学習用画像内の認識対象の位置のパラメータの設定に係る処理を効率良く行うことが可能となる。
【0033】
また、請求項24に記載の画像処理方法では、上記発明に加えて、SVMの学習時に用いられる学習用画像毎に、学習用画像内の着目位置を示すパラメータμ及び学習用画像内の拡大縮小を示すパラメータlを統計的推定で与えるようにしている。
これにより、学習用画像内の認識対象の位置及び拡大縮小に係る変化のパラメータの設定に係る処理を効率良く行うことが可能となる。
【0034】
また、請求項25に記載の画像処理方法では、上記発明に加えて、SVMの学習時に用いられる学習用画像毎に、学習用画像内の着目位置を示すパラメータμ、学習用画像内の拡大縮小を示すパラメータl、画像に垂直な方向を軸とする画像の回転を示すパラメータθを統計的推定で与えるようにしている。
これにより、学習用画像内の認識対象の位置、拡大縮小に係る変化、画像に垂直な方向を軸とする画像の回転に係る変化のパラメータの設定に係る処理を効率良く行うことが可能となる。
【0035】
また、請求項26に記載の画像処理方法では、上記発明に加えて、SVMの学習時に用いられる学習用画像毎に、学習用画像内の着目位置を示すパラメータμ、行列Aを統計的推定で与えるようにしている。
これにより、学習用画像内の認識対象のアフィン変換に係る変化のパラメータの設定に係る処理を効率良く行うことが可能となる。
【0036】
また、請求項27に記載の画像処理方法では、上記発明に加えて、画像を、各画素の座標及び輝度値の集合で表すようにしている。
これにより、各画素の輝度値を用いた画像の認識を行うことが可能となる。
【0037】
また、請求項28に記載の画像処理方法では、上記発明に加えて、動画を扱うことができるよう、時間を変数として含めて拡張するようにしている。
これにより、動画像内の認識対象の時間の特定が可能となり、パラメータを含む画像の認識が可能となる。
【0038】
また、請求項29に記載の画像処理方法では、上記発明に加えて、光のスペクトル分布を扱うことができるよう、光のスペクトル分布を変数として含めて拡張するようにしている。
これにより、色分布を参照した画像の認識を行うことが可能となる。
【0039】
また、請求項30に記載の画像処理方法では、上記発明に加えて、光のスペクトル分布を赤、青、緑の3段階の離散分布で近似するようにしている。
これにより、3つの色パラメータを扱うことによって、色分布を参照した画像の認識を行うことが可能となる。
【0040】
また、請求項31に記載の画像処理方法では、上記発明に加えて、前記フィッシャーカーネルの拡張として、
【数26】
を用いるようにしている。
これにより、座標変換時に類似度が変化しない関数によって、パラメータ同士の比較ができるようになる。
【0041】
また、請求項32に記載の画像認識方法では、上記の画像処理方法を用いて生成された識別関数を用いて、画像の認識を行うようにしている。
これにより、識別関数(フィルタ)による演算を行うことによって、画像の認識を行うことが可能となる。
【0042】
また、請求項33に記載の画像認識方法では、認識対象を含む画像における識別関数の極大を求めることによって、画像の認識を行うようにしている。
これにより、識別関数の極大を示すパラメータを得ることによって、簡単に画像の認識を行うことが可能となる。
【0043】
また、請求項34に記載の画像認識方法では、勾配法又はニュートン法を用いて、識別関数の極大を求めるようにしている。
これにより、簡単に識別関数の極大を求めることが可能となる。
【0044】
また、請求項35に記載の画像認識方法では、上記発明に加えて、SVMの学習の結果として得られる画像に対する識別関数を最大とするパラメータμを求めることによって、画像内の認識対象の位置を求めるようにしている。
これにより、画像内の認識対象の位置を確実に特定することが可能となる。
【0045】
また、請求項36に記載の画像認識方法では、上記発明に加えて、SVMの学習の結果として得られる画像に対する識別関数を最大とするパラメータμ及びパラメータlを求めることによって、画像内の認識対象の位置及び大きさを求めるようにしている。
これにより、画像内の認識対象の位置及び拡大縮小の変化を確実に特定することが可能となる。
【0046】
また、請求項37に記載の画像認識方法では、上記発明に加えて、SVMの学習の結果として得られる画像に対する識別関数を最大とするパラメータμ、パラメータl、パラメータθを求めることによって、画像内の認識対象の位置、大きさ、角度を求めるようにしている。
これにより、画像内の認識対象の位置、拡大縮小の変化、画像に垂直な方向を軸とする画像の回転の変化を確実に特定することが可能となる。
【0047】
また、請求項38に記載の画像認識方法では、上記発明に加えて、SVMの学習の結果として得られる画像に対する識別関数を最大とするパラメータμ及び行列Aを求めることによって、画像内の認識対象の位置及び認識対象の大きさ、角度、歪みの度合いを求めるようにしている。
これにより、画像内の認識対象の位置、拡大縮小の変化、画像に垂直な方向を軸とする画像の回転の変化、座標系の回転と縦横比の変化を確実に特定することが可能となる。
【0048】
また、請求項39に記載のプログラムでは、上記の画像処理方法をコンピュータにより実行させるプログラムが提供される。
これにより、本発明の画像処理方法をコンピュータにより実行可能なプログラムとして実現することが可能となる。
【0049】
また、請求項40に記載のプログラムでは、上記の画像認識方法をコンピュータにより実行させるプログラムが提供される。
これにより、本発明の画像認識方法をコンピュータにより実行可能なプログラムとして実現することが可能となる。
【0050】
【発明の実施の形態】
以下、図面を参照しながら、本発明の画像処理方法及び画像認識方法並びにこれらの方法をコンピュータにより実行させるプログラムの実施の形態について説明する。まず、図1を用いて、本発明の画像認識方法の概略について説明する。図1は、本発明の実施の形態に係る画像認識装置の機能を模式的に示す図である。図1に示す画像認識装置は、学習部10と探索部20とに大別することが可能である。
【0051】
学習部10は、学習画像の集合からテンプレートを生成するものである。まず、全ての学習画像(学習画像の集合)に対して、各画像内のどの部分に学習させたい対象(以下、学習対象と呼ぶ)が存在するかを特定する所定のパラメータを設定する。なお、学習画像は、認識対象に応じて適切に用意されることが好ましく、学習画像の選択の態様(使用する学習画像の数や認識対象の写り具合など)に従って、最終的な判定結果が大きく異なってくる。そして、最尤推定部11が、全ての学習画像に係る所定のパラメータの最尤推定を行う。次に、フィッシャースコア計算部12が、最尤推定部11で最尤推定された各パラメータを用いて、フィッシャースコアの計算を行い、さらに、フィッシャー情報行列の計算を行う。このフィッシャー情報行列(フィッシャーカーネルとも呼ばれる)は、SVM部13に供給される。
【0052】
一方、学習対象を含む学習画像と学習対象を含まない学習画像(これらを学習データと呼ぶことにする)とを用意し、SVM部13に供給される。なお、この設定では、例えば、学習対象を含む学習画像には、正のパラメータ(+1)が与えられ、学習画像を含まない学習画像には、負のパラメータ(−1)が与えられる。
【0053】
そして、SVM部13は、フィッシャーカーネルを用いて、この学習データをSVMによって学習する。このSVM部13における学習の結果、画像認識の際に利用可能な一致度を示す認識対象抽出フィルタVを得ることができ、この認識対象抽出フィルタVをテンプレートと用いることによって、入力画像内の認識対象の探索を行うことができる。
【0054】
一方、探索部20は、画像認識を行いたい入力画像(認識対象を含む画像)を読み込み、入力画像内から認識対象の位置や大きさを発見するための処理を行うものである。まず、入力画像の注目領域(認識枠)を定め、この認識枠を変化させながら、フィッシャースコア計算部21によってフィッシャースコアを求め、認識対象抽出フィルタVの計算を行う。すなわち、注目領域の画像情報と注目領域を定める位置や大きさのパラメータなどを、認識対象抽出フィルタVに代入して計算を行う。そして、極大点探索部22で、勾配法やニュートン法などによって認識対象抽出フィルタVの極大点を求める(認識対象抽出フィルタVの極大を求める計算を行う)ことによって、入力画像内の認識対象の位置、大きさ、さらには一致度Vなどを求めることが可能となる。
【0055】
以上、本発明の画像認識方法の概略について説明したが、さらに、図面及び数式を参照しながら、本発明の画像認識方法の詳細について説明する。本発明は、認識対象を含む画像を関数で近似して表現することに特徴がある。例えば、学習部10で処理される学習画像や、探索部20で処理される入力画像などを全て関数で近似することによって、複雑な画像を少ないパラメータで表現することが可能となる。例えば、画像が2つの正規分布の重ね合わせで表された場合、画像を4×2=8個のパラメータで表すことが可能となる。
【0056】
また、学習画像内に存在する認識対象や入力画像内の注目領域を強調する関数近似を行うことも可能である。例えば、こうした領域だけに正規分布や2次関数のような山型関数をかけることによって、この領域を中心として山型に重みのかかった確率分布を設定することが可能となり、注目領域を優先的に表すパラメータを得ることが可能となる。
【0057】
例えば、画像は、ある座標(x,y)での輝度I(x,y)という3つの数字(x,y,I)の集合によって表現することが可能である。すなわち、1つの画像を
【数27】
で表すことが可能であり、この集合を、所定の確率分布p(x,y,I)の測定結果とみなすことも可能である。なお、この確率分布p(x,y,I)は、測定結果を生成する生成モデルと呼ばれている。
【0058】
なお、山型関数を用いた近似を行った場合、この確率分布p(x,y,I)を
【数28】
と表すことが可能である。
【0059】
このようにして、関数近似によって表された画像から、フィッシャー情報行列(フィッシャーカーネル)の計算が行われる。以下、フィッシャーカーネルについて説明する。今、ある画像の確率分布p(x,y,I)と、この画像とは異なる画像の確率分布q(x,y,I)の類似度を測定する関数
g(p(x,y,I), q(x,y,I))
を仮定する。
【0060】
また、確率分布pと確率分布qとは、パラメータの異なる同じ関数であると仮定する。例えば、確率分布pと確率分布qは
【数29】
の確率分布のパラメータsを変えたもの、すなわち、
【数30】
というように表されているとする。
【0061】
このようなパラメータによってかわる確率分布は、一般的に
【数31】
というように、変数とパラメータの部分を “|”で区切って表される。
【0062】
ここで、
【数32】
という確率分布p及び確率分布qが類似している類似度g(p,q)をパラメータθ、φの関数で表すとする。
【数33】
【0063】
このとき、パラメータθ、φに対して、下記の座標変換
【数34】
を施したとき、パラメータθ、φの差が微小の場合には、座標変換Fが確率分布の本質的な変更を伴わない座標変換であれば、類似度g(θ,φ)も変化しないような関数を導くことが可能である。このように、座標変換時に類似度が変化しない関数を、フィッシャー情報行列Fを使って、以下のように表すことが可能である。
【数35】
ここで
【数36】
であり、このFは、フィッシャーカーネルを拡張したものである。上記のように導かれた関数によって、パラメータ同士の比較ができるようになる。
【0064】
次に、以上のようにして可能となるパラメータ同士の比較を、実際に測定された画像に係るパラメータの集合
【数37】
の比較に適用する。
【0065】
上記の式の導出によって
【数38】
というベクトルは確率分布を表す『筋の良い』特徴空間の勾配であることが予想される。以下、この特徴空間に注目して説明を行う。
【0066】
今、フィッシャーカーネルを求める前段階で行われる最尤推定部11における最尤推定などによって、すでにパラメータθが求まっていると仮定する。このとき、関数u(x,y,l)は測定結果(x,y,I)から『筋の良い』特徴空間への射影と見なすことができる。また、この特徴空間の縦、横、斜めのゆがみ(異方性)を
【数39】
と補正することで『もっと筋の良い』特徴空間に射影することが可能となる。さらに、『もっと筋の良い』特徴空間において、
【数40】
という比較方法を利用すると、
【数41】
と書き表すことが可能となる。このFKがフィッシャーカーネルである。
【0067】
SVM部13では、上記で説明したフィッシャーカーネルを用いたSVMによって、パラメータで表現された画像(すなわち関数近似された画像)の学習処理を行い、学習の結果として、画像認識の際に利用可能な一致度を示す認識対象抽出フィルタVを得る。SVM部13で行われる学習処理の手順を示す。なお、以下の説明では、山型関数として正規分布を使い、平行移動、回転移動、さらには、対象の3次元的回転や伸縮による縦横比の変化にも対応した生成モデルを用いて説明する。この生成モデルは下記のように表される。
【数42】
【0068】
また、学習画像J1,J2…を、以下に示す各画像における座標と輝度の集合として与える。
【数43】
【0069】
また、各画像内のどの部分に学習させたい認識対象(例えば、車や人の顔など)が存在しているかを、下記のように座標、角度、縦横の大きさなどのパラメータによって与える。
【数44】
なお、SVMの学習時に用いられる学習画像毎に、学習画像内の着目位置を示すパラメータμ、学習画像に垂直な方向を軸とし、画像の回転を示すパラメータθ、学習画像内の拡大縮小(縦横の大きさ)を示すパラメータa,bなどを設定することが好ましい。また、こうしたパラメータは統計的推定によって与えられることも可能であり、また、画像認識装置のオペレータによって入力されたり、任意の情報格納手段から読み出せるようにしたりすることも可能である。
【0070】
次に、上記のパラメータに関して、下記の行列Bi i=1,2…を計算する。
【数45】
【0071】
そして、全ての画像J1、J2…からパラメータ(p1,μ1,D1,p2,μ2,D2…)の最尤推定を行い、
【数46】
最尤推定されたパラメータからフィッシャースコアの計算を行う。
【数47】
【0072】
そして、このようにして得られたフィッシャースコアから、フィッシャー情報行列Gの計算を行う。
【数48】
【0073】
一方、学習データ{(uk 1,y1),(uk 2,y2),…}を用意する。なお、yには、学習対象(認識対象)を含んでいるか否かで、その学習データに対して、正又は負の値(指標パラメータ)が設定される。
【数49】
例えば、車両の認識を行うための認識対象抽出フィルタを生成しようとする場合、図2(a)に示すように、車両の画像を含む学習画像に対しては指標パラメータyを1に設定し、図2(b)に示すように、車両の画像を含まない学習画像に対しては指標パラメータyを−1に設定する。
【0074】
そして、上記のように作成された学習データを、フィッシャーカーネルを用いたSVMで学習する。ここでフィッシャーカーネルは
【数50】
と書き表される。
【0075】
そして、学習の結果として、下記の認識対象抽出フィルタVを得ることができる。
【数51】
【0076】
この認識対象抽出フィルタVは、画像認識の際にテンプレートとして利用可能であり、画像間の一致度(類似度)を表す関数である。この認識対象抽出フィルタを参照することによって、入力画像内の認識対象の探索を行うことが可能となる。すなわち、認識対象抽出フィルタ
【数52】
が最大となるようなμ,Bを見つけることで、画像内の認識対象の位置、大きさ、歪みの角度を判定することが可能となり、また、相対的な一致度(類似度)Vを判定することが可能となる。
【0077】
図3は、本発明の実施の形態に係る車両認識時の認識対象抽出フィルタVの極大点を示す模式図である。図3に示すように、認識対象抽出フィルタVは、車両が存在する位置においては正の値の極大点(ピーク)を有し、一方、その周囲の何も存在しない位置、又は、ビルなどの車両以外の障害物が存在する位置では、極大とはならないか、又は、負の値となっている。すなわち、認識対象抽出フィルタVが正の値を取り、かつ、極大となっている位置に車両が発見される可能性が高い。
【0078】
また、動画を扱う場合には確率分布のパラメータとして時間を含ませて(例えば、正規分布に時間を含ませて)、上記と同様の手順を行うことによって、動画に係る画像認識を扱えるようにすることも可能である。さらに、光のスペクトル分布(すなわち、色分布)を変数として含ませることによって、光のスペクトル分布を扱えるようにすることが可能である。
【0079】
光のスペクトル情報を使う場合には、例えば、次の正規分布
【数53】
を用いることによって、光のスペクトル分布を赤、青、緑の3段階の離散分布で近似して、関数近似を行うことが可能となる。
【0080】
また、生成モデルとして
【数54】
を使うと、認識対象の画像に最も似ている顔文字を推定することが可能となる。また、確率分布を
【数55】
で規定することによって、上記の方法と同様の方法で、画像の拡大縮小に対応することも可能である。
【0081】
上記のように、本発明は、画像内の認識対象を判別するためのテンプレート作成の際、テンプレート作成の基となる学習画像を関数近似で表して学習画像をパラメータ化し、この学習画像のパラメータから画像認識処理を行う際に用いられるフィルタを作成する。そして、同様にパラメータ化された認識対象を含む画像に対してフィルタをかけ(実際には、フィルタとなる関数に、認識対象を含む画像に係る数値を代入する)、フィルタの一致度が最大となる極大点を求めることにより、テンプレートと認識対象とが、最も適切に重ね合わせられる状態を発見することを可能とする。
【0082】
以下、本発明と従来の技術とを比較しながら、本発明の特徴について説明する。例えば、所定の画像(ここでは人間の顔の画像)を追跡する場合、従来の技術によれば、図10に示すように、人間の顔を表すテンプレートを画面内で少しずつ平行移動させて、画像との一致度の検出を繰り返し行うことによって、人間の顔の位置を発見していた。また、画面内の人間の顔の大きさが変動する(人間の顔の大きさが拡縮する)場合には、図11に示すように、人間の顔のテンプレートを拡大縮小させながら画像との一致度を検出することによって、人間の顔の位置を発見していた。すなわち、従来の技術では、試行錯誤的にテンプレートと画像との一致度の検出を行っていた。
【0083】
一方、本発明では、テンプレートと画像との一致度が、図4に示すような認識対象抽出フィルタVの特徴空間における分布によって表現され、勾配法などを用いた単なる計算によって、この認識対象抽出フィルタVの極大点を求めるだけで、人間の顔の位置や大きさを認識することができるようになる。すなわち、図4内に描かれている矢印のように、認識対象抽出フィルタVの特徴空間の分布の勾配が最大となる『筋の良い』方向に位置や大きさをずらし、その勾配が0となる(又は、所定の微小変化以下の勾配変動となる)位置を特定することによって、図5や図6に模式的に示す探索経路で、人間の顔の位置や大きさを精度良くかつ高速に判定することが可能となる。
【0084】
また、従来の技術では、例えば、走行中の車載カメラが撮像した画像内に存在する道路上の車の認識を行う際、認識枠(図7の線で囲まれた部分)をあらかじめ適切に与えておく必要があった。この認識枠が適切に与えられなかった場合、例えば、認識対象である車と周囲の環境や障害物などとの判別を行うことができず、うまく認識対象を特定することができなかった。しかしながら、本発明の画像認識方法では、認識対象抽出フィルタV(テンプレート)の拡大・縮小・回転の処理を高速に行うことが可能であり、適切な認識枠の調節を高速で行うことが可能である。
【0085】
また、本発明の学習部10及び探索部20は、ハードウェア、ソフトウェアのいずれによっても実現可能である。すなわち、各処理部(各計算部)を実現する専用のハードウェアを構築し、本発明の画像認識方法を行うことも可能であり、また、PC(パーソナル・コンピュータ:Personal Computer)のROM(ロム:Read Only Memory)やハードディスクにプログラムを格納しておき、CPU(中央処理部:Central Processing Unit)などの処理部で本発明の画像認識方法を実行することも可能である。
【0086】
また、認識対象を含む画像を関数近似し、関数のパラメータ処理を行うことによって画像認識を行う方法としては、上記のように、認識対象を含む画像を所定の確率分布関数で近似し、フィッシャーカーネルを用いたSVMによって画像の認識を行う方法に加えて、認識対象を含む画像を所定の確率分布関数で近似し、TOPカーネル(非特許文献5参照)を用いたSVMによって画像の認識を行う方法も考えられる。このTOPカーネルは、フィッシャーカーネルと同様、パラメータ化された複数の画像間の誤差(=一致度)を計測することを可能とする行列であり、フィッシャーカーネルが、認識対象を表す確率モデルと観測された画像との誤差を表すのに対し、TOPカーネルは、認識対象を含む画像と、その画像の背景を表す確率モデルを2つ用意して、それぞれの確率モデルからの誤差を計測する(すなわち、認識対象との一致度、及び、背景との一致度の計測)ものである。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る画像認識装置の機能を模式的に示す図である。
【図2】本発明の実施の形態に係る学習画像と指標パラメータとの関係を説明するための模式図である。(a) 車両の画像を含む学習画像に対して、指標パラメータyを1に設定することを示す模式図(b) 車両の画像を含まない学習画像に対して、指標パラメータyを−1に設定することを示す模式図
【図3】本発明の実施の形態に係る車両認識時の認識対象抽出フィルタVの極大点を示す模式図である。
【図4】本発明の実施の形態に係る認識対象抽出フィルタVの特徴空間における分布図である。
【図5】本発明の実施の形態に係るテンプレートの平行移動による認識対象の判定における勾配法を用いた場合の模式図である。
【図6】本発明の実施の形態に係るテンプレートの拡大縮小による認識対象の判定における勾配法を用いた場合の模式図である。
【図7】従来の画像認識方法に係る平行移動による画像認識の際の平行移動による認識枠の調節の様子を示す模式図である。
【図8】従来の画像認識方法を実行するための画像認識装置の機能を模式的に示す図である。
【図9】従来の画像認識方法の一例を示すフローチャートである。
【図10】従来の画像認識方法に係るテンプレートの平行移動による認識対象の判定を行う様子を示す模式図である。
【図11】従来の画像認識方法に係るテンプレートの拡大縮小による認識対象の判定を行う様子を示す模式図である。
【符号の説明】
10 学習部
11 最尤推定部
12、21 フィッシャースコア計算部
13、52 SVM部
20 探索部
22 極大点探索部
51、53 特徴抽出部
54 特徴比較手段
Claims (40)
- 認識対象を含む画像を適当な関数近似で表し、前記関数近似で用いられる関数のパラメータだけを用いて、前記認識対象を認識するための識別関数を生成する画像処理方法。
- 前記認識対象を含む画像を所定の確率分布関数で近似し、フィッシャーカーネルを用いたSVMによって、前記認識対象を認識するための識別関数を生成する請求項1に記載の画像処理方法。
- 前記認識対象を含む画像を所定の確率分布関数で近似し、TOPカーネルを用いたSVMによって、前記認識対象を認識するための識別関数を生成する請求項1に記載の画像処理方法。
- 前記認識対象を含む画像の注目領域に山型関数による重みを加えることを特徴とする請求項2又は3のいずれか1つに記載の画像処理方法。
- 前記認識対象を含む画像を、前記注目領域のみを山型関数を用いて強調した確率分布関数を用いて近似することを特徴とする請求項4に記載の画像処理方法。
- 前記認識対象を含む画像を、前記画像の拡大縮小に対応した確率分布関数を用いて近似することを特徴とする請求項4に記載の画像処理方法。
- 前記認識対象を含む画像を、前記画像に垂直な方向を軸とする前記画像の回転及び前記画像の拡大縮小に対応した確率分布関数を用いて近似することを特徴とする請求項4に記載の画像処理方法。
- 前記認識対象を含む画像を、前記画像に垂直な方向を軸とする前記画像の回転、前記画像の拡大縮小、前記画像に水平な方向を軸とする前記画像の回転に対応した確率分布関数を用いて近似することを特徴とする請求項4に記載の画像処理方法。
- 前記画像を近似するための前記確率分布関数を適当な関数の足し合わせによって表すことを特徴とする請求項5から12のいずれか1つに記載の画像処理方法。
- 前記認識対象を関数近似した確率分布関数を4次元混合正規分布で表すことを特徴とする請求項13又は14に記載の画像処理方法。
- 前記SVMの学習時に用いられる学習用画像毎に、前記学習用画像内の着目位置を示すパラメータμを設定することを特徴とする請求項5又は6に記載の画像処理方法。
- 前記SVMの学習時に用いられる学習用画像毎に、前記学習用画像内の着目位置を示すパラメータμ及び前記学習用画像内の拡大縮小を示すパラメータlを設定することを特徴とする請求項7又は8に記載の画像処理方法。
- 前記SVMの学習時に用いられる学習用画像毎に、前記学習用画像内の着目位置を示すパラメータμ、前記学習用画像内の拡大縮小を示すパラメータl、前記画像に垂直な方向を軸とする前記画像の回転を示すパラメータθを設定することを特徴とする請求項9又は10に記載の画像処理方法。
- 前記SVMの学習時に用いられる学習用画像毎に、前記学習用画像内の着目位置を示すパラメータμ、前記行列Aを設定することを特徴とする請求項11又は12に記載の画像処理方法。
- 前記SVMの学習時に用いられる学習用画像毎に、前記学習用画像内の着目位置を示すパラメータμを統計的推定で与えることを特徴とする請求項5、6、19のいずれか1つに記載の画像処理方法。
- 前記SVMの学習時に用いられる学習用画像毎に、前記学習用画像内の着目位置を示すパラメータμ及び前記学習用画像内の拡大縮小を示すパラメータlを統計的推定で与えることを特徴とする請求項7、8、20のいずれか1つに記載の画像処理方法。
- 前記SVMの学習時に用いられる学習用画像毎に、前記学習用画像内の着目位置を示すパラメータμ、前記学習用画像内の拡大縮小を示すパラメータl、前記画像に垂直な方向を軸とする前記画像の回転を示すパラメータθを統計的推定で与えることを特徴とする請求項9、10、21のいずれか1つに記載の画像処理方法。
- 前記SVMの学習時に用いられる学習用画像毎に、前記学習用画像内の着目位置を示すパラメータμ、前記行列Aを統計的推定で与えることを特徴とする請求項11、12、22のいずれか1つに記載の画像処理方法。
- 前記画像を、各画素の座標及び輝度値の集合で表すことを特徴とする請求項1から26のいずれか1つに記載の画像処理方法。
- 動画を扱うことができるよう、時間を変数として含めて拡張することを特徴とする請求項1から27のいずれか1つに記載の画像処理方法。
- 光のスペクトル分布を扱うことができるよう、前記光のスペクトル分布を変数として含めて拡張することを特徴とする請求項1から28のいずれか1つに記載の画像処理方法。
- 前記光のスペクトル分布を赤、青、緑の3段階の離散分布で近似することを特徴とする請求項29に記載の画像処理方法。
- 請求項1から31のいずれか1つに記載の画像処理方法を用いて生成された前記識別関数を用いて、画像の認識を行うことを特徴とする画像認識方法。
- 認識対象を含む画像における前記識別関数の極大を求めることによって、前記画像の認識を行うことを特徴とする請求項32に記載の画像認識方法。
- 勾配法又はニュートン法を用いて、前記識別関数の極大を求めることを特徴とする請求項33に記載の画像認識方法。
- 請求項5、6、19、23のいずれか1つに記載の画像処理方法を用いた前記SVMの学習の結果として得られる画像に対する前記識別関数を最大とする前記パラメータμを求めることによって、前記画像内の認識対象の位置を求める画像認識方法。
- 請求項7、8、20、24のいずれか1つに記載の画像処理方法を用いた前記SVMの学習の結果として得られる画像に対する前記識別関数を最大とする前記パラメータμ及び前記パラメータlを求めることによって、前記画像内の認識対象の位置及び大きさを求める画像認識方法。
- 請求項9、10、21、25のいずれか1つに記載の画像処理方法を用いた前記SVMの学習の結果として得られる画像に対する前記識別関数を最大とする前記パラメータμ、前記パラメータl、前記パラメータθを求めることによって、前記画像内の認識対象の位置、大きさ、角度を求める画像認識方法。
- 請求項11、12、22、26のいずれか1つに記載の画像処理方法を用いた前記SVMの学習の結果として得られる画像に対する前記識別関数を最大とする前記パラメータμ及び前記行列Aを求めることによって、前記画像内の認識対象の位置及び認識対象の大きさ、角度、歪みの度合いを求める画像認識方法。
- 請求項1から31のいずれか1つに記載の画像処理方法をコンピュータによって実行させるプログラム。
- 請求項32から38のいずれか1つに記載の画像認識方法をコンピュータによって実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002342780A JP2004178210A (ja) | 2002-11-26 | 2002-11-26 | 画像処理方法及び画像認識方法並びにこれらの方法をコンピュータにより実行させるプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002342780A JP2004178210A (ja) | 2002-11-26 | 2002-11-26 | 画像処理方法及び画像認識方法並びにこれらの方法をコンピュータにより実行させるプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004178210A true JP2004178210A (ja) | 2004-06-24 |
Family
ID=32704737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002342780A Pending JP2004178210A (ja) | 2002-11-26 | 2002-11-26 | 画像処理方法及び画像認識方法並びにこれらの方法をコンピュータにより実行させるプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004178210A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2413207A (en) * | 2004-04-15 | 2005-10-19 | Imagination Tech Ltd | Narrowcast / addressable DAB system |
JP2008065393A (ja) * | 2006-09-04 | 2008-03-21 | Research Organization Of Information & Systems | グループ判別装置及びグループ判別方法 |
WO2014105724A1 (en) * | 2012-12-28 | 2014-07-03 | Intel Corporation | Generating canonical imaging functions |
CN111079724A (zh) * | 2020-03-25 | 2020-04-28 | 速度时空信息科技股份有限公司 | 一种基于无人机的海漂垃圾识别方法 |
WO2023273853A1 (zh) * | 2021-07-01 | 2023-01-05 | 北京字跳网络技术有限公司 | 一种图像处理方法、装置、设备及存储介质 |
-
2002
- 2002-11-26 JP JP2002342780A patent/JP2004178210A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2413207A (en) * | 2004-04-15 | 2005-10-19 | Imagination Tech Ltd | Narrowcast / addressable DAB system |
JP2008065393A (ja) * | 2006-09-04 | 2008-03-21 | Research Organization Of Information & Systems | グループ判別装置及びグループ判別方法 |
WO2014105724A1 (en) * | 2012-12-28 | 2014-07-03 | Intel Corporation | Generating canonical imaging functions |
CN111079724A (zh) * | 2020-03-25 | 2020-04-28 | 速度时空信息科技股份有限公司 | 一种基于无人机的海漂垃圾识别方法 |
WO2023273853A1 (zh) * | 2021-07-01 | 2023-01-05 | 北京字跳网络技术有限公司 | 一种图像处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alp Guler et al. | Densereg: Fully convolutional dense shape regression in-the-wild | |
JP7040278B2 (ja) | 顔認識のための画像処理装置の訓練方法及び訓練装置 | |
US8467596B2 (en) | Method and apparatus for object pose estimation | |
CN110675487B (zh) | 基于多角度二维人脸的三维人脸建模、识别方法及装置 | |
US9429418B2 (en) | Information processing method and information processing apparatus | |
US8447114B2 (en) | Method and apparatus for calculating pixel features of image data | |
JP4972201B2 (ja) | サインに基づくマンマシンインタラクション | |
JP4595750B2 (ja) | 画像処理装置および方法、並びにプログラム | |
JP4321350B2 (ja) | パラメタ推定方法、パラメタ推定装置および照合方法 | |
JP5261501B2 (ja) | 不変の視覚場面及び物体の認識 | |
JP2008191816A (ja) | 画像処理装置、および画像処理方法、並びにコンピュータ・プログラム | |
CN112966725B (zh) | 匹配模板图像的方法、装置及终端设备 | |
Vretos et al. | 3D facial expression recognition using Zernike moments on depth images | |
JP6880618B2 (ja) | 画像処理プログラム、画像処理装置、及び画像処理方法 | |
CN110070096B (zh) | 针对非刚性形状匹配的局部频域描述子生成方法及装置 | |
JP6296205B2 (ja) | 画像処理装置、画像処理方法およびそのプログラムを記憶する記憶媒体 | |
CN111507908A (zh) | 图像矫正处理方法、装置、存储介质及计算机设备 | |
Sahin et al. | A learning-based variable size part extraction architecture for 6D object pose recovery in depth images | |
CN116051873A (zh) | 关键点匹配方法、装置及电子设备 | |
JP2004178210A (ja) | 画像処理方法及び画像認識方法並びにこれらの方法をコンピュータにより実行させるプログラム | |
CN111178266A (zh) | 一种生成人脸关键点的方法及装置 | |
JP6996200B2 (ja) | 画像処理方法、画像処理装置、および画像処理プログラム | |
JP2001143072A (ja) | 物体形状識別装置 | |
JP6946912B2 (ja) | 推定プログラム、推定装置、及び推定方法 | |
JP6894398B2 (ja) | オブジェクト追跡装置、オブジェクト追跡方法、及びオブジェクト追跡プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071002 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080215 |