JP2012238119A

JP2012238119A - 物体認識装置、物体認識装置の制御方法、およびプログラム

Info

Publication number: JP2012238119A
Application number: JP2011105647A
Authority: JP
Inventors: Kotaro Yano; 光太郎矢野
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2011-05-10
Filing date: 2011-05-10
Publication date: 2012-12-06
Anticipated expiration: 2031-05-10
Also published as: US9036863B2; US20120288152A1; JP5719230B2

Abstract

【課題】画像中から物体を追跡する処理において、一旦追跡を中止して背景の異なるシーンで追跡を再開する場合においても適切な認識モデルを使用した高精度の物体検出を行う。
【解決手段】画像を逐次取得する取得部と、画像から部分領域を抽出して当該部分領域から特徴量を抽出する抽出部と、抽出された特徴量と、対象物体を示す正事例の特徴量および対象物体の背景を示す負事例の特徴量を含む第１の認識モデルまたは正事例の特徴量を含む第２の認識モデルとに基づいて、部分領域が対象物体か否か認識する認識部と、認識の結果に基づいて、抽出された特徴量を第１の認識モデルへ追加して更新する更新部と、対象物体と認識された物体領域を出力する出力部と、を備え、認識部は、取得部により取得された前の画像について物体領域が出力されている場合、第１の認識モデルに基づいて認識し、前の画像について物体領域が出力されていない場合、第２の認識モデルに基づいて認識する。
【選択図】図１

Description

本発明は、入力画像から所定の物体を検出する物体認識装置、物体認識装置の制御方法、およびプログラムに関する。

近年、デジタルスチルカメラやカムコーダにおいて、撮影中の画像から人の顔を検出して、物体を追跡する機能が急速に普及している。このような顔検出・追跡機能は、撮影対象の物体に自動的にピントや露出を合せるために非常に有用である。画像から顔を検出する技術は、非特許文献１で提案されているような技術を用いて、実用化が進んでいる。

一方、このような認識技術の応用においては使用状況やユーザ毎に認識したい対象は様々である。そして、様々な物体の認識を実現するためには、認識したい物体に応じて辞書を用意する必要がある。しかしながら、認識対象が多岐に及ぶ場合には、認識対象を含む画像パターンおよび認識対象を含まない画像パターンを人手で収集することは事実上不可能である。そこで、画像中の認識対象である物体を指定して、指定した物体を追跡することで使用状況やユーザ個別の物体の検出を行うアプローチが採られてきた。更に、指定した物体の追跡において、物体の見えの変化や背景によるドリフトに対応するために、非特許文献２では物体パターンを正事例、背景パターンを負事例としてオンラインで学習しながら追跡する方法が提案されている。

特開２００８−２１７７６８号公報

Viola and Jones, "Rapid Object Detection using Boosted Cascade of Simple Features", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR2001) Grabner and Bischof, "On-line Boosting and Vision", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR2006) Lin et al, "Adaptive discriminative generative model and its applications", Neural Information Processing Systems Conference, 2004 Grabner et al, "Eigenboosting: Combining Discriminative and Generative Information", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR2007)

しかし、物体を見失った場合など、一旦追跡を中止して背景の異なるシーンで追跡を再開しようとすると物体を再指定しなければならない。指定なしで画像中から物体を検出しようとすると、未学習の背景であるため誤検出が発生するという課題がある。これは、追跡中止前の背景パターンに偏って負事例を学習に使用したことが原因である。

上記の課題に鑑み、本発明は、一旦追跡が中止して背景の異なるシーンで追跡を再開する場合においても、適切な認識モデルを使用した高精度の物体検出を行うことを目的とする。

上記の目的を達成する本発明に係る物体認識装置は、
画像を逐次取得する取得手段と、
前記画像から部分領域を抽出して当該部分領域から特徴量を抽出する抽出手段と、
前記抽出された特徴量と、対象物体を示す正事例の特徴量および前記対象物体の背景を示す負事例の特徴量を含む第１の認識モデルまたは前記正事例の特徴量を含む第２の認識モデルとに基づいて、前記部分領域が前記対象物体か否か認識する認識手段と、
前記認識の結果に基づいて、前記抽出された特徴量を前記第１の認識モデルへ追加して更新する更新手段と、
前記対象物体と認識された物体領域を出力する出力手段と、を備え、
前記認識手段は、前記取得手段により取得された前の画像について前記物体領域が出力されている場合、前記第１の認識モデルに基づいて認識し、前記前の画像について前記物体領域が出力されていない場合、前記第２の認識モデルに基づいて認識することを特徴とする。

本発明によれば、一旦追跡が中止して背景の異なるシーンで追跡を再開する場合においても、適切な認識モデルを使用した高精度の物体検出を行うことができる。

本実施形態に係る物体認識装置の機能構成を示す図。本実施形態に係る認識モデル作成の処理を説明する図。本実施形態に係る追跡処理を説明する図。本実施形態に係る検出処理を説明する図。

（第１実施形態）
以下、添付図面を参照して、本発明の第１実施形態について説明する。本実施形態では、前の時刻の物体領域が分かっているような物体追跡時には特定の背景である負事例の重みが大きい条件で追加学習した認識モデルを使用して物体を認識する。一方、物体を見失った場合など、前の時刻の物体領域が分からない場合には、負事例の重みが小さい条件（または重みがゼロの条件）で追加学習した認識モデルを使用して物体を認識する。これにより、一旦追跡を中止して背景の異なるシーンで追跡を再開する場合においても、適切な認識モデルを使用して物体を検出する。

図１は、本実施形態に係る物体認識装置の機能構成を示す。物体認識装置は、画像取得部１０と、領域抽出部２０と、特徴抽出部３０と、物体認識部４０と、物体領域出力部５０と、第１の認識モデル記憶部６０および第２の認識モデル記憶部７０と、認識モデル更新部８０と、統計量記憶部９０と、検出処理制御部１００と、認識モデル切替部１１０と、を備える。

画像取得部１０は、カメラ等の撮像部で撮像した画像データを逐次取得する。領域抽出部２０は、画像取得部１０で取得した画像データから物体認識を行う部分領域画像を抽出して切り出す。

特徴抽出部３０は、領域抽出部２０で切り出した部分領域画像から所望の対象物体を認識するための特徴量を求める。物体認識部４０は、特徴抽出部３０で求めた特徴量から領域抽出部２０で切り出した部分領域画像が認識対象である物体かどうかを判別する。

物体領域出力部５０は、物体認識部４０で認識した結果を出力する。例えば、物体認識部４０で所望の物体であると判別した部分領域を他の画像領域と区別できるようにディスプレイに表示する。

第１の認識モデル記憶部６０および第２の認識モデル記憶部７０は、特徴抽出部３０で求めた特徴量から物体認識部４０で物体判別を行うための第１の認識モデルおよび第２の認識モデルを記憶するメモリである。

認識モデル更新部８０は、物体認識部４０で認識した結果から第１の認識モデル記憶部６０および第２の認識モデル記憶部７０に記憶されている第１の認識モデルおよび第２の認識モデルを更新する。

統計量記憶部９０は、認識対象である物体のサンプル（正事例）および非認識対象のサンプル（負事例）の特徴量の統計量を記憶するメモリである。検出処理制御部１００は、画像取得部１０で取得した画像データから領域抽出部２０で部分領域画像を切り出す処理の制御を行う。

認識モデル切替部１１０は、第１の認識モデルおよび第２の認識モデルを記憶する第１の認識モデル記憶部６０および第２の認識モデル記憶部７０から、物体認識部４０が物体判別を行う際に使用される認識モデルを切り替える。

以下、デジタルスチルカメラ等の撮像部で特定人物を認識する場合を想定する。最初に画像中の人物を指定し、指定した人物を追跡する。そして、追跡中に人物を見失い、新たなシーンに背景が変わった場合に自動的に画像中から人物を検出して追跡を再開する場合の本実施形態の処理動作を説明する。

まず、図２を参照して、画像中の人物を指定して認識モデルを作成する処理について説明する。

Ｓ２０１において、画像取得部１０は、カメラ等の撮像部で撮像した画像データを取得する。取得した画像データは画像取得部１０のメモリに記憶される。

Ｓ２０２において、画像取得部１０は、更に、取得した画像データを所望の画像サイズに縮小する。例えば、取得した画像データに対して０．８倍、更にその０．８倍（即ち０．８２倍）、…、となるよう所定回数だけ縮小処理を行い、作成された異なる倍率の縮小画像を画像取得部１０のメモリに記憶するようにする。これは、画像中から異なるサイズの物体を認識するためである。

Ｓ２０３において、画像取得部１０で取得した画像データは不図示のディスプレイに表示され、認識対象の物体が現れたフレームにおいて、ユーザは不図示の入力インターフェースを介して認識対象とする物体を指定する。例えば、指定方法としては物体（ここでは人物）を囲む矩形領域をユーザが指定する。

Ｓ２０４において、領域抽出部２０は、画像データ中でユーザが物体画像として指定した領域を部分領域画像として切り出す。このとき、ユーザが指定する領域の大きさや形状は様々である。そのため、指定された矩形領域が所定サイズに収まるように、Ｓ２０２で作成された縮小画像の中から最適な倍率の縮小画像を求めて、求めた縮小画像の最適な位置から認識を行う部分領域を切り出すようにする。また、検出処理制御部１００は、ここで求めた部分領域の近傍の縮小画像（即ち、倍率）および位置の部分領域についても切り出すように制御を行う。

例えば、部分領域のサイズは２０×２０画素程度の領域とし、ユーザが指定した矩形領域に対して部分領域の９０％以上が互いにオーバーラップするような範囲で部分領域を切り出す。切り出した部分領域の縮小画像の倍率と画像中の物体の位置を物体状態として記憶しておく。

Ｓ２０５において、特徴抽出部３０は、領域抽出部２０で切り出した物体画像である部分領域画像から特徴量を求める。部分領域のサイズが２０×２０画素の場合は、部分領域画像から輝度データを抽出し、４００次元の特徴ベクトルに変換する。特徴ベクトルに変換する前にヒストグラム平滑化等の方法を用いて輝度データを正規化すれば撮影時の照明条件によらず安定した認識を行うことができる。また、特徴量としては輝度データの他に色、エッジを抽出しても良いし、それらを組合せて一つの特徴ベクトルとしても良い。ここで求めた特徴量は正事例の特徴量として認識モデル更新部８０に出力する。

Ｓ２０４およびＳ２０５の各処理は、検出処理制御部１００によって各部分領域画像に対して順次繰り返して行われるように制御される。

Ｓ２０６において、一方、領域抽出部２０は、画像データ中のユーザが指定した以外の領域から部分領域画像を非物体画像として切り出す。ここでは非物体画像として人物以外の背景画像を切り出す。このとき、検出処理制御部１００が切り出す部分領域のサイズは、Ｓ２０４で切り出された部分領域のサイズと同じである。また、切り出す範囲については、例えば、ユーザが指定した矩形領域に対して部分領域の９０％以上がオーバーラップしない範囲で部分領域を切り出す。

Ｓ２０７において、特徴抽出部３０は、Ｓ２０５と同様にして、領域抽出部２０により切り出された非物体画像である部分領域画像から特徴量を求める。ここで求めた特徴量は負事例の特徴量として認識モデル更新部８０に出力する。

Ｓ２０６およびＳ２０７の各処理は、検出処理制御部１００によって各部分領域画像に対して順次繰り返して行われるように制御される。Ｓ２０８において、認識モデル更新部８０は、特徴抽出部３０により求められた正事例および負事例の特徴量から統計量を更新し、認識モデルを更新する。

本実施形態では、非特許文献３で提案されている適応的な学習が可能な認識モデルを用いて認識を行う場合について、本実施形態への適用方法を説明する。正事例の特徴量については、ここで収集された正事例の特徴ベクトルからその平均ベクトルおよび共分散行列を求める。そして、共分散行列を固有値分解し、大きい方から所定数の固有値および対応する固有ベクトルを統計量として平均ベクトルと共に統計量記憶部９０に記憶する。固有値の数は、例えば、５０程度である。

一方、負事例の特徴量については、一般的に背景パターンとなりうる様々な画像パターンを領域抽出部２０で切り出す部分領域のサイズに合せて事前に収集しておき、特徴抽出部３０により特徴量を求める。そして、正事例の特徴量と同様にして、固有値および固有ベクトルを統計量として平均ベクトルと共に統計量記憶部９０に記憶しておく。更に、認識モデル更新部８０は、非特許文献３で提案されている方法により、Ｓ２０７で求められた負事例の特徴量を追加サンプルとして負事例の特徴量の統計量を更新する。即ち、統計量記憶部９０に事前に記憶された負事例の特徴量の統計量である平均ベクトル、固有値および固有ベクトルと、追加した負事例の特徴量とから更新を行い、新たに統計量記憶部９０に記憶する。このとき、事前に求めておいた負事例の特徴量の統計量は記憶したままで、それとは別に更新した負事例の特徴量の統計量を記憶するようにする。なお、非特許文献３ではサンプルを追加して固有値および固有ベクトルを更新する際に忘却係数をパラメータとしている。この忘却係数を用いることにより、追加する負事例の重みを変えることができる。予め記憶されている負事例の特徴量の統計量に対して忘却係数の大きいものと小さいものとを用いた複数の更新処理により複数の負事例の特徴量の統計量を求めて統計量記憶部９０に記憶するようにしてもよい。忘却係数が０（小さい）の場合は、事前に求めておいた負事例の特徴量の統計量を更新しないでそのまま記憶することに相当する。

認識モデル更新部８０は、統計量記憶部９０に記憶されている正事例および負事例の特徴量の統計量を用いて認識モデルを更新する。第１の認識モデルは、正事例の特徴量の統計量と、Ｓ２０７で求められた負事例の特徴量を追加して更新した負事例の特徴量の統計量と、により求められ、第１の認識モデル記憶部６０に記憶される。一方、第２の認識モデルは、正事例の特徴量の統計量と、事前に一般的な背景パターンから求められた負事例の特徴量の統計量と、により求められ、第２の認識モデル記憶部７０に記憶される。なお、この代わりに、第１の認識モデルを求める負事例の特徴量の統計量として、大きい忘却係数を用いて更新したもの、第２の認識モデルを求める負事例の特徴量の統計量として、小さい忘却係数を用いて更新したものを用いてもよい。ここで第１および第２の認識モデルは、それぞれ射影行列として記憶され、物体認識部４０が判別処理を行うために用いられる。

次に、図３を参照して、画像中から人物を追跡する処理について説明する。

Ｓ３０１において、画像取得部１０は、図２におけるＳ２０１と同様に、カメラ等の撮像部で撮像した画像データを取得する。

Ｓ３０２において、画像取得部１０は、更に、Ｓ２０２と同様に、取得した画像データを所望の画像サイズに縮小する。

Ｓ３０３において、領域抽出部２０は、物体認識を行う処理対象領域である部分領域画像を画像データ中から切り出す。このとき、検出処理制御部１００は、画像取得部１０により取得された画像および複数の縮小画像から、順次、前の時刻のフレームにおける人物領域の近傍の縮小画像および位置の部分領域を切り出すように制御を行う。即ち、前の時刻のフレームにおける物体の状態から画像中の物体の状態を推定して認識できるように部分領域を抽出する。例えば、前の時刻のフレームにおける物体領域に対して、ここで抽出する部分領域の５０％以上が互いにオーバーラップするような範囲で物体認識を行うようにする。

Ｓ３０４において、特徴抽出部３０は、Ｓ２０５と同様に、領域抽出部２０により切り出された部分領域画像から所望の物体を認識するための特徴量を求める。

Ｓ３０５において、物体認識部４０は、特徴抽出部３０により求められた特徴量から領域抽出部２０により切り出された部分領域画像が認識対象である物体かどうかを判別する。このとき、認識モデル切替部１１０は、物体認識部４０が第１の認識モデル記憶部６０に記憶されている第１の認識モデルを参照して処理を行うように認識モデルを切り替える。物体認識部４０は、特徴抽出部３０により求められた特徴ベクトルを射影行列を用いて射影し、射影平面との距離が所定の閾値以下のものを物体であると判別し、それ以外を物体でないと判別する。判別結果は処理を行った部分領域の位置や倍率の情報とともに物体領域出力部５０に出力される。ここで、物体認識部４０は、シーンに特有の負事例を追加して学習を行った認識モデルを使用して判別処理を行っているので同一のシーンにおいて精度良く判別ができる。また、物体認識部４０により物体と判別された特徴量は正事例の特徴量として、物体でないと判別された特徴量は負事例の特徴量として、認識モデル更新部８０に出力される。

Ｓ３０３乃至Ｓ３０５までの各処理が検出処理制御部１００によって各部分領域画像に対して順次繰り返して行われるように制御される。Ｓ３０６において、物体領域出力部５０は、物体認識部４０による認識結果を出力する。このとき、画像中から所定の人物として認識された部分領域が複数ある場合は最も判別結果が高い（即ち、物体認識部４０の距離算出結果が小さい値となる）部分領域を出力するようにする。

Ｓ３０７において、一方、認識モデル更新部８０は、Ｓ２０８と同様に、特徴抽出部３０により求められた正事例および負事例の特徴量から統計量を更新し、認識モデルを更新する。このとき、正事例においてもサンプルが追加されるので、負事例の特徴量における統計量の更新と同様にして正事例の特徴量の統計量を更新する。但し、正事例の特徴量の統計量は一般的にシーンに依存しないので本実施形態では一つの統計量を逐次更新していくようにする。もちろん、シーンに依存して人物や物体を区別したい場合には、負事例の特徴量の統計量と同様に追加サンプルの重みが異なる複数の統計量を求めるようにしてもよい。

Ｓ３０８において、不図示の制御部は、追跡すべき人物を見失ったか否かを判定する。追跡すべき人物を見失っていないと判定された場合（Ｓ３０８；ＹＥＳ）、Ｓ３０１へ戻る。Ｓ３０１からＳ３０７までの各処理は、ＣＰＵ等の不図示の制御部により制御されており、画像取得部１０が取得する入力フレームにおいて順次繰り返して行われる。一方、追跡すべき人物を見失ったと判定された場合（Ｓ３０８；ＮＯ）、処理を終了する。

次に、図４を参照して、追跡中に人物を見失い、新たなシーンに背景が変わった場合に行う人物を検出する処理について説明する。

Ｓ４０１において、画像取得部１０は、Ｓ２０１と同様に、カメラ等の撮像部で撮像した画像データを取得する。Ｓ４０２において、画像取得部１０は、更に、Ｓ２０２と同様に、取得した画像データを所望の複数の画像サイズに縮小する。

Ｓ４０３において、領域抽出部２０は、物体認識を行う処理対象領域である部分領域画像を画像データ中から切り出す。このとき、検出処理制御部１００は、画像取得部１０により取得された画像および複数の縮小画像のそれぞれについて、順次、画像の上左端から下右端まで所定サイズの部分領域を所定量だけ位置をずらして切り出すように制御を行う。即ち、画像中から様々な位置、倍率の物体を認識できるように網羅的に部分領域を抽出する。事前に情報がなく、人物がどのような状態（位置、倍率）にあるのか推定できないためである。例えば、部分領域の縦横９０％がオーバーラップするように切り出し位置をずらしていく。

Ｓ４０４において、特徴抽出部３０は、Ｓ２０５と同様に、領域抽出部２０により切り出された部分領域画像から所望の物体を認識するための特徴量を求める。

Ｓ４０５において、物体認識部４０は、Ｓ３０５と同様に、特徴抽出部３０により求められた特徴量から、領域抽出部２０で切り出した部分領域画像が認識対象である物体かどうかを判別する。但し、認識モデル切替部１１０は、物体認識部４０が第２の認識モデル記憶部７０に記憶されている第２の認識モデルを参照して処理を行うように認識モデルを切り替える。ここで、物体認識部４０は、シーンに特有の負事例を追加しないで学習を行った認識モデルを使用して判別処理を行っているので新たに出現したシーンにおいて精度良く判別ができる。即ち、以前のシーンで偏った負事例の追加によって学習した認識モデルを使用しないので誤検出の発生を低減できる。

Ｓ４０３乃至Ｓ４０５までの各処理は、検出処理制御部１００によって画像中から様々な位置、倍率の部分領域で順次繰り返して行われるよう制御される。

Ｓ４０６において、物体領域出力部５０は、Ｓ３０６と同様に、物体認識部４０により認識された結果を出力する。Ｓ４０７において、一方、認識モデル更新部８０は、Ｓ３０７と同様に、特徴抽出部３０により求められた正事例および負事例の特徴量から統計量を更新し、認識モデルを更新する。

Ｓ４０８において、不図示の制御部は、画像中から人物を検出したか否かを判定する。画像中から人物を検出したと判定された場合（Ｓ４０８；ＹＥＳ）、本処理を終了して、図３を参照して説明した追跡処理へ移る。一方、画像中から人物を検出していないと判定された場合（Ｓ４０８；ＮＯ）、Ｓ４０１へ戻る。Ｓ４０１からＳ４０７までの各処理は、ＣＰＵ等の不図示の制御部により制御されており、画像取得部１０が逐次取得する入力フレームにおいて順次繰り返して行われる。

本実施形態では、追跡処理を行う場合はシーン特有の背景を負事例として学習した認識モデルを用いて認識を行い、検出処理を行う場合は一般的な背景を負事例として学習した認識モデルを用いて認識を行うようにした。従って、一旦追跡を中止して背景の異なるシーンで追跡を再開する場合においても、適切な認識モデルを使用して物体を検出することができる。

また、検出対象とする物体の正事例および負事例の特徴量の統計量を夫々別々に記憶するようにし、更には追加した負事例の重みが異なる複数の負事例の統計量を別々に記憶するようにした。これにより記憶した統計量を用いて、追加した負事例の重みが異なる複数の認識モデルを容易に更新することが可能となり、前述したように追跡処理および検出処理で適切な認識モデルを使用することができる。

なお、本実施形態ではサンプルを追加して学習を行い、認識を行う方法として非特許文献３に提案されている方法を適用する例を示したが、学習、認識の方法はそれに限定されるものではない。例えば、非特許文献２に提案されているオンラインのブースティング学習に基づく方法を適用することも可能である。例えば、非特許文献２を改良した特許文献１に提案されている学習、認識の方法は、ブースティング判別器を構成する弱判別器を追加サンプルに適応させるよう構成している。特許文献１における負事例の特徴量に関する記憶の期間が異なる統計量を用いて夫々認識モデルを更新し、追跡処理と検出処理で選択的に参照することができる。特許文献１における記憶の期間はサンプルの忘却を制御するという意味で本実施形態における負事例の重みと等価に用いられる。

（第２実施形態）
以下、添付図面を参照して、本発明の第２実施形態について説明する。本実施形態では、前の時刻の物体領域が分かっているような物体追跡時には特定の背景から抽出した負事例の特徴量を追加学習した認識モデルを使用して物体を認識する。一方、物体を見失った場合など、前の時刻の物体領域が分からない場合には、特定の背景に認識の特性が偏ることのないように正事例のみで学習した認識モデルを使用して物体を認識する。これにより、一旦追跡を中止して背景の異なるシーンで追跡を再開する場合においても、適切な認識モデルを使用して物体を検出する。

本実施形態に係る物体認識装置の機能構成は、第１実施形態で説明した構成と同様であるため、説明を省略する。以下、デジタルスチルカメラ等の撮像部で特定人物を認識する場合を想定する。最初に画像中の人物を指定し、指定した人物を追跡する。そして、追跡中に人物を見失い、新たなシーンに背景が変わった場合に自動的に画像中から人物を検出して追跡を再開する場合の本実施形態の処理動作を説明する。

まず、第１実施形態と同様に、図２を参照して、画像中の人物を指定して認識モデルを作成する処理について説明する。なお、第１実施形態と同様の処理については説明を省略し、異なる点について説明する。

Ｓ２０１乃至Ｓ２０３の各処理は、第１実施形態と同様である。Ｓ２０４において、領域抽出部２０は、部分領域画像を物体画像として画像データ中のユーザが指定した領域から切り出す。このとき、ユーザが指定する領域の大きさや形状は様々である。そのため、指定された矩形領域が所定サイズに収まるようにＳ２０２で作成した縮小画像の中から最適な倍率の縮小画像を求めて、求めた縮小画像の最適な位置から認識を行う部分領域を切り出すようにする。また、検出処理制御部１００はここで求めた部分領域の近傍の縮小画像（即ち、倍率）および位置の部分領域についても切り出すように制御を行う。例えば、ユーザが指定した矩形領域のサイズが２００×１００画素程度であれば概略同じ領域に相当する４０×２０画素の矩形領域を縮小画像の中から求め、部分領域の９０％以上が互いにオーバーラップするような範囲で部分領域を切り出す。切り出した部分領域の縮小画像の倍率と画像中の物体の位置を物体状態として記憶しておく。

Ｓ２０５において、特徴抽出部３０は、領域抽出部２０で切り出した物体画像である部分領域画像から特徴量を求める。部分領域のサイズが４０×２０画素の場合は、部分領域画像から輝度データを抽出し、８００次元の特徴ベクトルに変換する。ここで求めた特徴量は正事例の特徴量として認識モデル更新部８０に出力する。

Ｓ２０６およびＳ２０７の各処理は、第１実施形態と同様である。Ｓ２０８において、認識モデル更新部８０は、特徴抽出部３０で求めた正事例および負事例の特徴量から統計量および認識モデルを求める。正事例の特徴量については、ここで収集した正事例の特徴ベクトルからその平均ベクトルおよび共分散行列を求める。そして、共分散行列を固有値分解し、大きい方から所定数の固有値および対応する固有ベクトルを統計量として平均ベクトルと共に統計量記憶部９０に記憶する。固有値の数は、例えば、５０程度である。一方、負事例の特徴量についても同様にして、固有値および固有ベクトルを統計量として平均ベクトルと共に統計量記憶部９０に記憶する。そして、統計量記憶部９０に記憶した正事例および負事例の特徴量の統計量を用いて認識モデルを求める。第１の認識モデルは正事例の特徴量の統計量と負事例の特徴量の統計量により求め、認識モデル記憶部７０に記憶する。一方、第２の認識モデルは正事例の特徴量の統計量から求め、認識モデル記憶部６０に記憶する。ここで第１の認識モデルおよび第２の認識モデルは夫々射影行列として記憶され、物体認識部４０で判別処理を行うために用いられる。

次に、図３を参照して、画像中から人物を追跡する処理について説明する。なお、第１実施形態と同様の処理については説明を省略し、異なる点について説明する。

Ｓ３０１乃至Ｓ３０４の各処理は、第１実施形態と同様である。Ｓ３０５において、物体認識部４０は、特徴抽出部３０で求めた特徴量から領域抽出部２０で切り出した部分領域画像が認識対象である物体かどうかを判別する。このとき、認識モデル切替部１１０は物体認識部４０が第１の認識モデル記憶部６０に記憶されている第１の認識モデルを参照して処理を行うように認識モデルを切り替える。物体認識部４０では特徴抽出部３０で求めた特徴ベクトルを射影行列を用いて射影し、射影平面との距離が所定の閾値以下のものを物体、それ以外を物体でないと判別する。判別結果は処理を行った部分領域の位置や倍率の情報とともに物体領域出力部５０に出力される。ここで、物体認識部４０は物体パターンである正事例とシーンに特有の負事例で学習を行った認識モデルを使用して判別処理を行っているので同一のシーンにおいて精度良く判別ができる。また、物体認識部４０で物体と判別された特徴量は正事例の特徴量として、物体でないと判別された特徴量は負事例の特徴量として認識モデル更新部８０に出力される。

Ｓ３０６の処理は、第１実施形態と同様である。Ｓ３０７において、認識モデル更新部８０は、特徴抽出部３０で求めた正事例および負事例の特徴量を追加して統計量を更新し、認識モデルを更新する。本実施形態では非特許文献３で提案されている適応的な学習を用いる。正事例の特徴量については、Ｓ３０５で判別された正事例の特徴量を追加して統計量記憶部９０に記憶されている正事例の特徴量の統計量である平均ベクトル、固有値および固有ベクトルの更新を行う。負事例の特徴量についても同様にして統計量の更新を行う。夫々更新した特徴量は統計量記憶部９０に記憶される。そして、Ｓ２０８と同様にして、統計量記憶部９０に記憶した更新された正事例および負事例の特徴量の統計量を用いて認識モデルの更新を行う。Ｓ３０８の処理は、第１実施形態と同様である。

次に、図４を参照して、追跡中に人物を見失い、新たなシーンに背景が変わった場合に行う人物を検出する処理について説明する。なお、第１実施形態と同様の処理については説明を省略し、異なる点について説明する。

Ｓ４０１乃至Ｓ４０４の各処理は、第１実施形態と同様である。Ｓ４０５において、物体認識部４０は、Ｓ３０５と同様に、特徴抽出部３０で求めた特徴量から領域抽出部２０で切り出した部分領域画像が認識対象である物体かどうかを判別する。但し、認識モデル切替部１１０は物体認識部４０が第２の認識モデル記憶部７０に記憶されている第２の認識モデルを参照して処理を行うように認識モデルを切り替える。ここで、物体認識部４０はシーンに特有の負事例を追加しないで正事例のみで学習を行った認識モデルを使用して判別処理を行っているので新たに出現したシーンにおいて精度良く判別ができる。即ち、以前のシーンで偏った負事例の追加によって学習した認識モデルを使用しないので誤検出の発生を低減できる。

Ｓ４０６の処理は、第１実施形態と同様である。Ｓ４０７において、一方、認識モデル更新部８０は、特徴抽出部３０で求めた正事例および負事例の特徴量から統計量を更新し、認識モデルを更新する。正事例の特徴量については、Ｓ３０７と同様に、Ｓ４０５で判別された正事例の特徴量を追加して統計量記憶部９０に記憶されている正事例の特徴量の統計量である平均ベクトル、固有値および固有ベクトルの更新を行う。一方、負事例の特徴量については、一旦、統計量記憶部９０に記憶されている負事例の特徴量の統計量を初期化する。そして、Ｓ２０８と同様に、Ｓ４０５で判別された負事例の特徴量からその統計量を求めるようにする。即ち、正事例の特徴量の統計量は一般的にシーンに依存しないのでシーンが変わっても統計量を逐次更新していくようした。一方、負事例の特徴量の統計量はシーンに依存するので統計量を初期化して、シーンが変わった後の特徴量から統計量を求めるようした。Ｓ４０８の処理は、第１実施形態と同様である。

本実施形態では、追跡処理を行う場合は物体パターンである正事例と共にシーン特有の背景を負事例として学習した認識モデルを用いて認識を行い、検出処理を行う場合は正事例で学習した認識モデルを用いて認識を行うようにした。従って、一旦追跡を中止して背景の異なるシーンで追跡を再開する場合においても、適切な認識モデルを使用して物体を検出することができる。

また、検出対象とする物体の正事例および負事例の特徴量の統計量を夫々別々に記憶するようにした。それにより、記憶した統計量を用いて追加した正事例、負事例から正事例にもとづく認識モデルおよび正事例と負事例にもとづく認識モデル（識別モデル）を容易に更新することができる。その結果、前述のように追跡処理と検出処理で適切な認識モデルを使用することができる。

また、シーンが変わった場合に、背景に相当する負事例の特徴量の統計量を初期化するようにした。それにより、シーンが変わった場合に新たに求めた識別モデルによって高精度に対象とする物体を認識することができる。

なお、本実施例ではサンプルを追加して学習を行い、認識を行う方法として非特許文献３に提案されている方法を本発明に適用する例を示したが、学習、認識の方法はそれに限定されるものではない。

例えば、非特許文献４では正事例サンプルの学習をベースにした生成モデルと正事例および負事例の学習をベースにした識別モデルを組合せてブースティング判別器を構成する弱判別器を学習する方法が提案されている。ここではブースティング学習に用いる誤差関数を生成モデルによる誤差と識別モデルによる誤差を組合せて認識モデルを学習するようにしている。本実施形態に適用するには、夫々の誤差の組合せの重みを変えることで更新した正事例および負事例の特徴量の統計量から本実施例の第１の認識モデルまたは第２の認識モデルを学習するようにすればよい。即ち、誤差関数を生成モデルによる誤差のみで定義すれば第２の認識モデルを学習することができる。また、誤差関数を識別モデルによる誤差のみで定義すれば第１の認識モデルを学習することができる。また、それ以外に非特許文献４で提案されているような夫々の誤差を組合せた誤差関数で学習した認識モデルを追加して第１の認識モデルとするようにしてもよい。

（その他の実施形態）
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

画像を逐次取得する取得手段と、
前記画像から部分領域を抽出して当該部分領域から特徴量を抽出する抽出手段と、
前記抽出された特徴量と、対象物体を示す正事例の特徴量および前記対象物体の背景を示す負事例の特徴量を含む第１の認識モデルまたは前記正事例の特徴量を含む第２の認識モデルとに基づいて、前記部分領域が前記対象物体か否か認識する認識手段と、
前記認識の結果に基づいて、前記抽出された特徴量を前記第１の認識モデルへ追加して更新する更新手段と、
前記対象物体と認識された物体領域を出力する出力手段と、を備え、
前記認識手段は、前記取得手段により取得された前の画像について前記物体領域が出力されている場合、前記第１の認識モデルに基づいて認識し、前記前の画像について前記物体領域が出力されていない場合、前記第２の認識モデルに基づいて認識することを特徴とする物体認識装置。
前記抽出手段は、前記前の画像について前記物体領域が出力されている場合、前記前の画像から前記対象物体の位置を推定して前記部分領域を抽出することを特徴とする請求項１に記載の物体認識装置。
前記第１の認識モデルは、前記正事例の特徴量の統計量および前記負事例の特徴量の統計量を含むことを特徴とする請求項１または２に記載の物体認識装置。
前記前の画像について前記物体領域が出力されなくなった場合、前記負事例の特徴量の統計量を初期化することを特徴とする請求項３に記載の物体認識装置。
前記第２の認識モデルは、予め収集された背景パターンの特徴量をさらに含むことを特徴とする請求項１に記載の物体認識装置。
前記第２の認識モデルは、前記正事例の特徴量の統計量を含むことを特徴とする請求項５に記載の物体認識装置。
取得手段と、抽出手段と、認識手段と、更新手段と、出力手段とを備える物体認識装置の制御方法であって、
前記取得手段が、画像を逐次取得する取得工程と、
前記抽出手段が、前記画像から部分領域を抽出して当該部分領域から特徴量を抽出する抽出工程と、
前記認識手段が、前記抽出された特徴量と、対象物体を示す正事例の特徴量および前記対象物体の背景を示す負事例の特徴量を含む第１の認識モデルまたは前記正事例の特徴量を含む第２の認識モデルとに基づいて、前記部分領域が前記対象物体か否か認識する認識工程と、
前記更新手段が、前記認識の結果に基づいて、前記抽出された特徴量を前記第１の認識モデルへ追加して更新する更新工程と、
前記出力手段が、前記対象物体と認識された物体領域を出力する出力工程と、を備え、
前記認識工程では、前記取得工程により取得された前の画像について前記物体領域が出力されている場合、前記第１の認識モデルに基づいて認識し、前記前の画像について前記物体領域が出力されていない場合、前記第２の認識モデルに基づいて認識することを特徴とする物体認識装置の制御方法。
コンピュータに請求項７に記載の物体認識装置の制御方法の各工程を実行させるためのプログラム。