JP4086422B2

JP4086422B2 - 被写体認識装置

Info

Publication number: JP4086422B2
Application number: JP20676499A
Authority: JP
Inventors: クリピングデル・サイモン; 崇之伊藤
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 1999-07-21
Filing date: 1999-07-21
Publication date: 2008-05-14
Anticipated expiration: 2019-07-21
Also published as: JP2001034756A

Description

【０００１】
【発明の属する技術分野】
本発明は、被写体認識装置および記録媒体に関し、パターン認識、持に人物の類やその他の一般物体を対象とした画像情報処理および画像認識に特徴を有する被写体認識装置および記録媒体に関する。
【０００２】
【従来の技術】
（静止画像認識）
静止画像の認識で、これまでのところ最も性能が高そうなシステムはElastic graph matching（EBGM）（Wiskott等1996参照）である。本発明は、EBGMシステムを元にして、入力が静止画ではなく動画像である場合へ拡張する。EBGMシステムは、認識用特徴として、本発明のシステムと同じようなガボール・ウェーブレットを採用している。顔にいくつかの特徴点の場所を指定して、そこでウェーブレット係数を計算し、係数集合と特徴点の位置で顔を表現する。係数の位相で位置ずれを推定できる。
【０００３】
（被写体の追跡）
被写体を追跡するシステムのほとんどは、例えば顔を例にとると、眼、口などの顔の構成部品のモデル又は画像テンプレートを用いて、入力画像中でそれらの構成部品の位置を推定し、その結果から被写体の位置や大きさなどのパラメータを推定する（JebaraとPentland 1997参照）。しかしこういうアプローチは限定された状況にしか応用できない（例えば向きがほとんど正面であり、サイズが大体知られている場合等）。
【０００４】
顔は複雑な三次元構成と可変性を持つ物体であるため、普通のカルマン・フィルターを用いて顔画像を追跡することは困難であり、一度対象特徴を見失うと回復できない。最近開発された輪郭の動きを学習するＣＯＮＤＥＮＳＡＴＩＯＮアルゴリズム（IsardとB1ake 1996参照）は、同時にいくつかの仮説を持ち、間違えても回復性能が高いが、モデルが単純なため認識には応用できない。
【０００５】
超低ビットレート符号化等のため、三次元モデルを用いた追跡システムが開発されている（Forchheimer 参照）。各特徴点が個別のトラックにならないように、推定された特徴点の位置と動きを三次元モデルに射影する必要がある（JebaraとPentland 1997も参照）。
【０００６】
ガボールウェーブレットを用いた追跡システムも存在している。Maurerとvon der Malsburg（1996参照）はウェーブレット係数の位相を用いた追跡の実験を行なったが、それぞれの特徴点を最初から独立に処理するため、特徴点相互の位置関係が乱れて、物体としての構成を失う場合もある。最近、もう一つこういったシステムが出来た（McKenna等1997参照）。これは主成分分析を用いて学習集合のPDM（Point Distribution Model）（Cootes等1992参照）を計算し、それで入力映像中の特徴点の集合を制約する。認識にはまだ応用されていない。
【０００７】
信頼度が低いと思われるデータの推定への影響を小さくする原理はロバスト推定という分野に属する（Black参照）。本願請求項３の手法は、ロバスト推定の手法の一つと言える。
【０００８】
【発明が解決しようとする課題】
画像認識が困難である最大の理由は、認識対象の可変性が多いという問題である。この因子として、被写体自体の可変性（顔の場合であれば表情等で変形する）だけでなく、それに加えて６自由度の動きによる画像内の被写体の位置、サイズ、及び向きの変化があげられる。さらに照明、陰影、背景、認識対象の数も不明である。従来の画像認識システムでは、そういった自由度を減少させるために、多くのパラメータを固定して画像を取得する必要があった。放送で用いられる映像では、条件を限定して撮影できることはまれであるから、このような可変性の多さに対応できる認識手法を確立する必要がある。
【０００９】
本発明は被写体の向き、位置、サイズなど変化するパラメータによらないで動画像中で動いたりする物体を認識することが主な目的である。それに加えて、変化するパラメータの値を追跡し、ほかの用途にその情報を使用可能にするという目的もある。
【００１０】
【課題を解決するための手段】
被写体の動きで画像内の被写体の位置、サイズ、向きが変化することは、従来の認識システムにとって最大の問題であった。一方、本発明では、動画像の時間的な連続性を利用し画像領域における被写体の位置、サイズ、向きを追跡することにより、入力フレーム数枚を使って被写体のアイデンティティについての情報を蓄え、各フレーム毎に得られる新しい情報によって、蓄積された情報によるアイデンティティの推定を修正する。すなわち、対象物の動きは認識に障害となるものではなく、追跡可能な限り、複数のフレームの情報、複数の向きなどが認識に使用可能になるという意味で逆に役立つ。
【００１１】
請求項１の発明は、被写体認識装置であって、被写体の画像または画像特徴を蓄積するデータベース（５）と、前記被写体認識装置に入力される映像フレームを検出することにより生成される該映像フレーム内の被写体における各特徴点の位置の情報を少なくとも含む認識候補の仮説情報を蓄積する仮説情報蓄積手段（７）と、各映像フレーム毎の入力画像または画像特徴と、データベース内の複数の解像度の画像または画像特徴とをそれぞれマッチング処理して、複数の解像度での類似度を算出するマッチング処理手段（２）と、前記マッチング処理の結果、予め定められた閾値を超える場合に、前記仮説情報蓄積手段内のすでにある認識候補の仮説情報を前記マッチング処理により算出された複数の解像度での類似度に基づいて修正することによって認識候補の仮説情報を新たに生成する仮説情報処理手段（３）と、前記仮説情報蓄積手段に蓄積された前記認識候補の仮説情報のうち証拠値の高い仮説情報を平滑化して、該平滑化した仮説情報を被写体認識出力として取り出す手段（４）とを具え、前記仮説情報処理手段が行う前記修正は、前記複数の解像度のうち相対的に低い解像度から順次前記マッチング処理を行って前記類似度を算出し、前記類似度が前記閾値を超える場合に前記証拠値を増加させ、前記類似度が前記閾値を超えない場合に前記仮説情報蓄積手段内のすでにある認識候補の仮説情報に前記証拠値を附属させることであり、前記証拠値は、前記複数の解像度のうち相対的に低い解像度から始めた前記マッチング処理により算出された前記類似度が前記閾値を超えなくなるまでの、複数の解像度で算出された類似度を示す値であることを特徴とする。
【００１２】
上記の請求項１によれば、本発明は追跡と認識を一連の処理として統一することにより、動きベクトル抽出などの追跡のみの手法に比べて追跡性能を高くし、同時にそのフレームでの認識ミスを過去のフレームからの追跡により補完することによって高精度な認識が可能となる。
【００１３】
請求項２の発明は、請求項１において、各映像フレーム毎に前記データベース内の各画像または画像特徴が持つ特徴点集合から前記仮説情報蓄積手段内の一つの仮説情報が持つ特徴点集合への拡大・回転・平行移動量を推定する推定手段と、前記推定手段による推定量に応答して補正した特徴点集合の位置を当該画像または画像特徴の特徴点集合として初期化する初期化手段と、前記初期化手段により初期化された前記画像または画像特徴を前記マッチング処理手段に供給する手段とを有することを特徴とする。
【００１４】
上記の請求項２によれば、探索の初期化手法により追跡される顔又は対象物体の特徴点の全体的位置関係が途中で乱れて失われないことで、追跡性能が高くなる。
【００１５】
請求項３の発明は、請求項２において、前記推定手段は、各特徴点毎に、前のフレームで計算した特徴点毎の特徴との間の類似度を求め、高い類似度を持つ特徴点ほど前記拡大・回転・平行移動量の推定における重みを高くすることを特徴とする。
【００１６】
上記の請求項３によれば、ノイズなどである特徴点の追跡を間違えても、対象物体全体の追跡にあまり影響を及ぼさないことにより追跡の性能が高くなる。
【００１７】
請求項４の発明は、請求項１〜３のいずれかにおいて、被写体の画像特徴を複数の解像度で前記データベースに蓄積する際に、所定の閾値以上の類似度を持つ低解像度画像特徴群を、その中の１つもしくは所定の平均で代表させる手段をさらに有することを特徴とする。
【００１８】
上記の請求項４によれば、データベースを実際に構成するに当って、構成画像数を減少させることにより、認識速度が高速化する。
【００２３】
【発明の実施の形態】
図１は、本発明の実施形態にかかる認識装置の構成を示す。本認識装置は、専用の装置構成とすることもできるが、例えば、汎用のパーソナルコンピュータ、ワークステーション等も適用できる。図１において、本認識装置は、ＣＰＵ２１，システムメモリ２２，ディスプレイ２３，ハードディスク記憶装置（ＨＤＤ）２４，キーボード２５，マウス２６，入出力インターフェース２７を有する。これらは、システムバスを介して相互に接続されている。認識の対象となる映像信号は、入出力インターフェース２７を介して入力される。
【００２４】
ＣＰＵ２１は、システムメモリ２２に格納されたプログラムに基づき、後述する各処理を含む本認識装置全体の処理を制御する。システムメモリ２２は、後述する被写体の初期検出、追跡、認識等の処理を行う際に使用するフレームメモリおよびＣＰＵ１の作業領域を提供する。
【００２５】
図２は、本認識装置を用いて実現される機能を示す機能ブロック図であって、これらの機能は、後述するような各処理のプログラムの実行に伴って実現される。図２に示すように、仮説によるデータベースの位置情報修正機能１では、データベース５中の特徴点配列（詳細は後述）を仮説集合（詳細は後述）７によって修正し、多重解像度可変テンプレートマッチング機能２では、入力フレームと、仮説によるデータベースの位置情報修正機能１により修正したデータベーステンプレートとを、多重解像度ガボールウェーブレットの可変テンプレートマッチングにより照合し（詳細は後述）、ウェーブレット係数の位相で位置のずれを推定して映像フレーム中の被写体を追跡する。仮説の修正・生成機能３によって、多重解像度可変テンプレートマッチング機能２によって得られた、閾値を越えたマッチング結果は、仮説集合７内の仮説の修正または新しい仮説の生成に用いられる。すべての仮説について入力フレームとマッチング終了後、時間的・空間的フィルタリング機能４により仮説集合７内の証拠値の高い仮説のみを平滑化して、平滑化された仮説が認識結果として出力される。被写体の初期検出による仮説追加機能６では、システムのスタート時とその後適当な間隔で、入力フレーム中の被写体の初期検出を行い、その結果を仮説集合７に追加する。計算量を減らすために、データベース（テンプレート）に関して、低解像度情報については類似したものを統合して数を減らす。すなわち似ている被写体テンプレートの低解像度ウェーブレット係数と特徴点の位置を一つにする。
【００２６】
（特徴の表現）
本実施形態では、画像の特徴量として、被写体上に配置される特徴点の位置とその位置での多重解像度ガボールウェーブレット係数群（以下ではこの係数群を「ガボールジェット」と呼ぶ）という２種類の情報（参考文献１参照：参考文献は最後に一括掲載）を用いる。その場合、ガボールジェットは、以下の式で表されるガボールウェーブレット関数と特徴点の回りの画像との畳み込みにより求める。
【００２７】
方位がn、解像度がrのガボールウェーブレット関数は
【００２８】
【数１】

【００２９】
により与えられる。ここでσは空間的幅であり、
【００３０】
【数２】

【００３１】
は二次元空間周波数ベクトル（nは方位番号、rは周波数番号、k^rは絶対値）であり、以下のように表される。
【００３２】
【数３】

【００３３】
（データベースの構成）
データベースを生成するため、色々な向きで撮影された被写体の画像を用意し、入出力インターフェース２７から入力して、ＨＤＤ２４に格納する。その格納した画像をディスプレイ２３上に表示し、表示した各画像ごとに特徴点の位置をマウス２６で指定する。本実施例では２０人、１９のポーズ（左横顔から右横顔まで、１０度毎）を用いる。特徴点の数はN_nodes＝９であり、顔の内部の二次元情報がある場所（髪の毛が邪魔せず、それに輪郭等ではない）を使用する（図４（ａ）参照）。
【００３４】
各特徴点毎に、（N_resns＝５つの解像度）×（N_orns＝８つの方位）のガボールウェーブレット係数を計算する。N_resnsとN_ornsの数は参考文献１と８で用いられているものと同じである。係数ベクトル（その次元数はN_resns×N_orns×２（ガボールウェーブレット係数の実数部と虚数部）×N_nodesである）と特徴点の位置ベクトル（その次元数はN_nodes×２（x，y座標）である）が一つの基本データレコードになる。後の処理が照度の影響を受けないようにするため、この段階で各解像度毎に、ガボールウェーブレット係数ベクトルを正規化する。
【００３５】
（データベースレコードの統合）
多重解像度可変テンプレートマッチング機能２での計算量を減少させるため、最低解像度だけで各レコードの一対毎に類似度を測定し、類似度がしきい値を越えた場合、その２つのレコードを統合する。レコードＡ，Ｂの類似度を
【００３６】
【数４】

【００３７】
で定義する。ここで〈γ_A，γ_B〉は最低解像度だけの係数ベクトルの内積を示し、E_ABは2つのレコードの特徴点のずれ量（対応すべき特徴点同士の距離の和）を示す。λはそのバランスを調節するパラメータである。また‖γ_A‖，‖γ_B‖はベクトルγ_A，γ_Bの大きさを表す。類似度S（A，B）がしきい値を越えた場合、特徴点の位置を２つのレコードの重み付き平均位置に置き換え、最低解像度の係数ベクトルのγ_A，γ_Bをその重み付き角度平均値に置き換えることにより、２つのレコードを統合する。
【００３８】
複数のレコードが統合された場合、新しいレコードと別のレコードの類似度を計算する時、その二つのレコードのメンバーどうしの最小類似度を用いる。従ってマージの規準はminimaxになる。このようにすると任意のメンバーとその代表レコードの誤差が、ある値を越えないことが保証される。
【００３９】
最低解像度レコードの統合が終ったら、統合されたレコード毎のメンバーに対して、次の解像度で同じ処理を繰り返す。最終的にはデータベース構成は図５の３１に示すように木（ツリー）構成を持つ。なお、図５は、本発明のシステムの概念を示す。
【００４０】
（被写体の初期検出）
入力フレーム中の被写体の初期検出法には、多くの可能性がある。例えば顔の場合、肌の色で顔の位置とサイズを推定する手法は高速検出が期待できる。応用に応じてそのようなプリプロセッサを追加することも可能であるが、ここでは、特徴としてガボールジェットと特徴点の位置だけを用いる例を述べる。
【００４１】
画像中の顔の位置とサイズが予め分からないので、いくつかのサイズと位置で探索する必要がある。しかし最低解像度の統合されたデータベースを用いることにより、計算量はかなり減少する。例えば、１０フレーム毎に以下の処理をする。各方位毎に：
１．二次元ＦＦＴ（Fast Fourier Transform）で入力フレームの周波数ドメイン多重解像度ピラミッドを生成する。
【００４２】
２．各ピラミッド・レベル（オクターブ）毎に、いくつか（現状で６つ）のサイズで周波数ドメインのガボールウェーブレットを掛ける。
【００４３】
３．その出力に、原点を中心とした正方領域を重ね掛ける。これは空間ドメインのサブサンプリングと等価であり、後の逆ＦＦＴは縮小サイズで実行できる。
【００４４】
４．サブサンプルされたガボールウェーブレット係数を逆ＦＦＴで得る。
【００４５】
５．係数の絶対値を計算する。
【００４６】
６．各最低解像度データベースレコード毎の特徴点の位置で、入力フレームのサブサンプルされた位置でのウェーブレット係数の絶対値ベクトルとレコードの絶対値ベクトルの内積を求め、類似度を計測する。
【００４７】
７．しきい値を越えた類似度の局所的な最大値があれば、新しい仮説を生成する。仮説Hの内容は下記のとおりである：
（a）ポーズ（顔の向き）p^H；
（b）各特徴点ごとに、
【００４８】
【外１】

【００４９】
（これが後の処理の中で重みを決める）；
（c）検出した画像領域の中心位置と推定拡大率（x，y，r）。
【００５０】
（顔の追跡）
以下では、図３にしたがって順に動作を説明する。
【００５１】
ある仮説Hが既存しているとする（図３の１１）。そのポーズをp^Hと呼び、各特徴点の位置が
【００５２】
【外２】

【００５３】
であるとする。
【００５４】
新しく読み込まれたフレームに対して、空間ドメインの処理で多重解像度ピラミッドを作成する。
【００５５】
ポーズp^H−w_Pからp^H＋w_Pまでの各ポーズ毎に、そのポーズを持つ全ての最低解像度データベースレコードDB_mを選び出し（図３の１２）、その特徴点の位置
【００５６】
【外３】

【００５７】
への拡大、回転及び平行移動の変換を、重み付き最小自乗法で推定し、実行する。この結果が探索用の初期位置になる（図３の１３）。このように初期化された特徴点集合は、現在のデータベースレコードDB_mの特徴点位置のグローバルな位置関係に従うことが保証される。
【００５８】
次に、適当なウェーブレット・サイズ（推定拡大率から分かる）を選び、射影された特徴点の位置で入力フレームの最低解像度ウェーブレット係数ベクトルを測定する。この係数の位相から、各特徴点毎に仮説から入力フレームまでの位置ずれを、重み付き最小自乗法で推定する（参考文献１）。同計算で、ずらした特徴点のデータベースレコードとの類似度が与えられる。これを繰り返して類似度が最大になるまで続ける（図３の１４）。類似度の最大値がその特徴点の重みを決める。
【００５９】
ロバスト推定（参考文献１０）は、信頼性が高ければ高い程そのデータの重みを高くし、信頼性が低そうに見えるデータ（outlier）の重みを低くすることにより、推定結果へのノイズ等の影響を減らす手法である。もちろん、信頼性そのものを推定するのは重要な課題であるが、例えば周りのデータの平均値に近いデータがおそらく信頼性が高い。
【００６０】
本実施形態の場合、各特徴点毎に類似度が求められるので、類似度が高ければ高い程この特徴点がデータベースレコードに合致していると言える。類似度が高ければその推定位置の信頼性が高いと考えられるので、グローバル変換（拡大、回転、平行移動）を推定する時、この特徴点の推定位置の重みを高くすれば良い。類似度が低い場合、特徴点を間違えているか他の物体と重なっていて見えない（特徴点の消失）可能性があるので、その重みを低くすれば良い。
【００６１】
（顔の認識）
追跡処理によりずらされた特徴点の位置とそのデータベースレコードとの類似度が与えられる。式（３）に示す全体類似度を計算するため：
１．特徴点類似度を大きい順にN₀個選び、その平均を、式（３）の右辺の一項目とする。その結果類似度が低いN_nodes−N₀個の特徴点は無視され、ノイズ又は特徴点の消失に対してロバスト（頑健）になる。
【００６２】
２．ずれた特徴点の位置に関して、再度データベースレコードに重み付き最小自乗射影（拡大、回転、平行移動）を計算する。計算の結果得られる射影の誤差を数式（３）の右辺の第二項とする。
【００６３】
データベースレコードとの類似度がしきい値を越えた場合、このデータベースレコードにヒットがあったと言う。ヒットがなかったら、このデータベースレコードの処理は終了する。ヒットがあった場合、次の解像度まで進む（図３の１５）。その意味は下記のとおりである：
１．データベースレコードとして、図５の３１に示されているように、現在のレコードの下にある次の解像度のレコードを順番に処理する。
【００６４】
２．処理内容は、先に説明したのと同じく、以下の順に行う：
（a）重み付き射影
（b）ウェーブレット係数の測定
（c）特徴点の位置ずらしと新しい類似度の計算
（d）各特徴点毎の類似度と重み付き射影の誤差から、全体類似度の計算
３．ただし、上記の処理の説明において“仮説が持つ特徴点の位置”の替わりに、“一つ前の解像度での特徴点の最終位置”を用いる。
【００６５】
４．全体類似度がしきい値を越えた場合、ヒットとなって、さらに次の解像度に進む。
【００６６】
途中でヒットがあった全てのデータベースレコード毎に、そのレコードのメンバーの附属証拠値を増やす（図３の１６）。（データベースに入っている人物に加え、‘データベースに入っていない人物’というバーチャル人物も含まれている。この人物は最低解像度データベースレコードだけのメンバーであり、最低解像度レコードでヒットがあっても高解像度レコードでヒットがない時、この人物の証拠値が上がる。）
この処理を繰り返し、ある解像度までヒットがあったがそれ以下ではヒットがなかったデータベースレコード（terminating node）毎に、新しい仮説を作成する。蓄積された証拠値をこの仮説に附属させる（図３の１７）。
【００６７】
（空間的、時間的フィルタリング）
新しい仮説集合の中には、入力フレームの同じ領域を占める仮説がいくつか存在することが普通である。そういった仮説をグループ化し、グループ内のメンバー仮説がお互いに競合するしくみを作ってある。このため、競合の後では各グループ毎に、証拠値が高い順にいくつかの仮説しか残らないようになる。
【００６８】
これらの仮説グループの仮説内容を時間的フィルタリングし、Bayes法によって生成、修正したものを平滑化仮説と呼ぶ。領域の中心位置とサイズ、及びポーズと各人物の推定確率が付いている。システムの出力はこれら平滑化仮説のパラメータの中から必要なものを選ぶことができる。
【００６９】
図４は特徴点の配置例、検出、追跡、出力の例を示す図である。図４の（ａ）は、指定された特徴点の場所を示す。9点を使用した例である。図４の（ｂ）は検出後の特徴点集合の例を示す。図４の（ｃ）は追跡処理の結果の例を示す。図４の（ｂ）よりほとんどの特徴点の推定位置は正確であることが分かる。右上の特徴点が顔の目尻から少し離れているので、そこのテンプレートとの類似度が比較的低いことが予想される。次のフレームの追跡の際には、（顔の追跡）の項で説明したように、その特徴点の影響が小さくなるので、全体の追跡性能は高くなる。図４の（ｄ）はシステム出力の例を示す。四角は顔領域の位置とサイズを表す。登録人物一人ずつの推定確率の中の最大値（“Prob”）とその人物のID番号（“ID”）と顔の推定された向き（“pose”）が四角の下に示されている。これは一例であり、どの情報をシステムから出力するか変わる可能性がある。
【００７０】
【発明の効果】
以上説明したように、本発明によれば、動画像であっても、画像中の被写体を高精度で認識することができる。
【００７１】
（参考文献）
１．Wiskott，L．，Fellous，J‐M．，Kruger，N．，von der Malsburg，C．Face Recognition by E1astic Bunch Graph Matching．TR96-08，Institut fur Neuroinformatik，Ruhr-Universitat Bochum, 1996．
２．Clippingdale, S., 伊藤崇之．動画像の顔検出・追跡・認識への統一されたアプローチ．電子通信学会、パターン認識・メディア理解研究会prmu98-200、1999.
３．Okada,K.,Steffens,J.,Maurer, T.,Hong, H., Elagin, E., Neven, H., von der Malsburg, C. Bochum/USC Face Recognition System And How it Fared in the FERET Phase III Test. Face Recognition: From Theory to Applications, Springer-Verlag, in press.
４．Jebara, A., Pentland, A. Parametrized Structure from Motion for 3D Adaptive Feedback Tracking of faces. Proc. IEEE CVPR'97.
５．Isard, M., Blake, A. Contour tracking by stochastic propagation of conditional density. Proc. ECCV'96, 343-356, Cambridge, UK, 1996.
６．Li, H., Roivainen, P., Forchheimer, R. 3-D Motion Estimation in Model-Based Facial Image Coding. IEEE Trans. PAMI, 15(6),545-555, 1993.
７．Maurer, T., von der Malsburg, C. Tracking and Learning Graphs and Pose on Image Sequences of Faces. Proc. 2nd Int. Conf. On Automatic Face and Gesture Recognition, Vermont, 1996.
【００７２】
【外４】

【００７３】
９．Cootes, T., Taylor, C., Cooper, D., Graham, J. Training models of shape from sets of examples. Proc. BMVC'92, 9-18, 1992.
１０．Black, M., Anandan, P. A framework for the robust estimation of optical flow. Proc. ICCV'93, Berlin,231-236,1993.
【図面の簡単な説明】
【図１】本発明の実施形態の構成を示す図である。
【図２】本実施形態の機能ブロック図である。
【図３】特徴点の追跡・修正手順を説明する図である。
【図４】特徴点の配置例、検出、追跡、出力の例を示す図である。
【図５】本発明の概念を説明する図である。
【符号の説明】
１仮説によるデータベースの位置情報修正機能
２多重解像度可変テンプレートマッチング
３仮説の修正・生成機能
４時間的・空間的フィルタリング機能
５データベース
７仮説集合
２１ＣＰＵ
２２システムメモリ
２３ディスプレイ
２４ハードディスク記憶装置（ＨＤＤ）
２６マウス

Claims

被写体認識装置であって、
被写体の画像または画像特徴を蓄積するデータベースと、
前記被写体認識装置に入力される映像フレームを検出することにより生成される該映像フレーム内の被写体における各特徴点の位置の情報を少なくとも含む認識候補の仮説情報を蓄積する仮説情報蓄積手段と、
各映像フレーム毎の入力画像または画像特徴と、データベース内の複数の解像度の画像または画像特徴とをそれぞれマッチング処理して、複数の解像度での類似度を算出するマッチング処理手段と、
前記マッチング処理の結果、予め定められた閾値を超える場合に、前記仮説情報蓄積手段内のすでにある認識候補の仮説情報を前記マッチング処理により算出された複数の解像度での類似度に基づいて修正することによって認識候補の仮説情報を新たに生成する仮説情報処理手段と、
前記仮説情報蓄積手段に蓄積された前記認識候補の仮説情報のうち証拠値の高い仮説情報を平滑化して、該平滑化した仮説情報を被写体認識出力として取り出す手段と
を具え、
前記仮説情報処理手段が行う前記修正は、前記複数の解像度のうち相対的に低い解像度から順次前記マッチング処理を行って前記類似度を算出し、前記類似度が前記閾値を超える場合に前記証拠値を増加させ、前記類似度が前記閾値を超えない場合に前記仮説情報蓄積手段内のすでにある認識候補の仮説情報に前記証拠値を附属させることであり、
前記証拠値は、前記複数の解像度のうち相対的に低い解像度から始めた前記マッチング処理により算出された前記類似度が前記閾値を超えなくなるまでの、複数の解像度で算出された類似度を示す値であることを特徴とする被写体認識装置。
請求項１において、
各映像フレーム毎に前記データベース内の各画像または画像特徴が持つ特徴点集合から前記仮説情報蓄積手段内の一つの仮説情報が持つ特徴点集合への拡大・回転・平行移動量を推定する推定手段と、
前記推定手段による推定量に応答して補正した特徴点集合の位置を当該画像または画像特徴の特徴点集合として初期化する初期化手段と、
前記初期化手段により初期化された前記画像または画像特徴を前記マッチング処理手段に供給する手段と
を有することを特徴とする被写体認識装置。
請求項２において、
前記推定手段は、各特徴点毎に、前のフレームで計算した特徴点毎の特徴との間の類似度を求め、高い類似度を持つ特徴点ほど前記拡大・回転・平行移動量の推定における重みを高くすることを特徴とする被写体認識装置。
請求項１〜３のいずれかにおいて、
被写体の画像特徴を複数の解像度で前記データベースに蓄積する際に、所定の閾値以上の類似度を持つ低解像度画像特徴群を、その中の１つもしくは所定の平均で代表させる手段をさらに有することを特徴とする被写体認識装置。