JP2001034756A

JP2001034756A - 被写体認識装置および記録媒体

Info

Publication number: JP2001034756A
Application number: JP11206764A
Authority: JP
Inventors: Simon Clipingdel; クリピングデル・サイモン; Takayuki Ito; 崇之伊藤
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 1999-07-21
Filing date: 1999-07-21
Publication date: 2001-02-09
Anticipated expiration: 2019-07-21
Also published as: JP4086422B2

Abstract

(57)【要約】【課題】動画像中の被写体を高精度で認識すること。【解決手段】データベース５中の特徴点配列を仮説集
合７によって修正し（１）、入力フレームと、修正した
データベーステンプレートとを、多重解像度ガボールウ
ェーブレットの可変テンプレートマッチングにより照合
し（２）、ウェーブレット係数の位相で位置のずれを推
定して映像フレーム中の被写体を追跡する。閾値を越え
たマッチング結果は、仮説集合７内の仮説の修正または
新しい仮説の生成に用いられる。すべての仮説について
入力フレームとマッチング終了後、時間的・空間的フィ
ルタリング４により仮説集合７内の証拠値の高い仮説の
みを平滑化して、平滑化した仮説を認識結果として出力
する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、被写体認識装置お
よび記録媒体に関し、パターン認識、持に人物の類やそ
の他の一般物体を対象とした画像情報処理および画像認
識に特徴を有する被写体認識装置および記録媒体に関す
る。

【０００２】

【従来の技術】（静止画像認識）静止画像の認識で、こ
れまでのところ最も性能が高そうなシステムはElasticg
raph matching（EBGM）（Wiskott等1996参照）であ
る。本発明は、EBGMシステムを元にして、入力が静止画
ではなく動画像である場合へ拡張する。EBGMシステム
は、認識用特徴として、本発明のシステムと同じような
ガボール・ウェーブレットを採用している。顔にいくつ
かの特徴点の場所を指定して、そこでウェーブレット係
数を計算し、係数集合と特徴点の位置で顔を表現する。
係数の位相で位置ずれを推定できる。

【０００３】（被写体の追跡）被写体を追跡するシステ
ムのほとんどは、例えば顔を例にとると、眼、口などの
顔の構成部品のモデル又は画像テンプレートを用いて、
入力画像中でそれらの構成部品の位置を推定し、その結
果から被写体の位置や大きさなどのパラメータを推定す
る（JebaraとPentland 1997参照）。しかしこういうア
プローチは限定された状況にしか応用できない（例えば
向きがほとんど正面であり、サイズが大体知られている
場合等）。

【０００４】顔は複雑な三次元構成と可変性を持つ物体
であるため、普通のカルマン・フィルターを用いて顔画
像を追跡することは困難であり、一度対象特徴を見失う
と回復できない。最近開発された輪郭の動きを学習する
ＣＯＮＤＥＮＳＡＴＩＯＮアルゴリズム（IsardとB1ake
1996参照）は、同時にいくつかの仮説を持ち、間違え
ても回復性能が高いが、モデルが単純なため認識には応
用できない。

【０００５】超低ビットレート符号化等のため、三次元
モデルを用いた追跡システムが開発されている（Forchh
eimer 参照）。各特徴点が個別のトラックにならない
ように、推定された特徴点の位置と動きを三次元モデル
に射影する必要がある（JebaraとPentland 1997も参
照）。

【０００６】ガボールウェーブレットを用いた追跡シス
テムも存在している。Maurerとvonder Malsburg（1996
参照）はウェーブレット係数の位相を用いた追跡の実験
を行なったが、それぞれの特徴点を最初から独立に処理
するため、特徴点相互の位置関係が乱れて、物体として
の構成を失う場合もある。最近、もう一つこういったシ
ステムが出来た（McKenna等1997参照）。これは主成分
分析を用いて学習集合のPDM（Point Distribution Mo
del）（Cootes等1992参照）を計算し、それで入力映像
中の特徴点の集合を制約する。認識にはまだ応用されて
いない。

【０００７】信頼度が低いと思われるデータの推定への
影響を小さくする原理はロバスト推定という分野に属す
る（Black参照）。本願請求項３の手法は、ロバスト推
定の手法の一つと言える。

【０００８】

【発明が解決しようとする課題】画像認識が困難である
最大の理由は、認識対象の可変性が多いという問題であ
る。この因子として、被写体自体の可変性（顔の場合で
あれば表情等で変形する）だけでなく、それに加えて６
自由度の動きによる画像内の被写体の位置、サイズ、及
び向きの変化があげられる。さらに照明、陰影、背景、
認識対象の数も不明である。従来の画像認識システムで
は、そういった自由度を減少させるために、多くのパラ
メータを固定して画像を取得する必要があった。放送で
用いられる映像では、条件を限定して撮影できることは
まれであるから、このような可変性の多さに対応できる
認識手法を確立する必要がある。

【０００９】本発明は被写体の向き、位置、サイズなど
変化するパラメータによらないで動画像中で動いたりす
る物体を認識することが主な目的である。それに加え
て、変化するパラメータの値を追跡し、ほかの用途にそ
の情報を使用可能にするという目的もある。

【００１０】

【課題を解決するための手段】被写体の動きで画像内の
被写体の位置、サイズ、向きが変化することは、従来の
認識システムにとって最大の問題であった。一方、本発
明では、動画像の時間的な連続性を利用し画像領域にお
ける被写体の位置、サイズ、向きを追跡することによ
り、入力フレーム数枚を使って被写体のアイデンティテ
ィについての情報を蓄え、各フレーム毎に得られる新し
い情報によって、蓄積された情報によるアイデンティテ
ィの推定を修正する。すなわち、対象物の動きは認識に
障害となるものではなく、追跡可能な限り、複数のフレ
ームの情報、複数の向きなどが認識に使用可能になると
いう意味で逆に役立つ。

【００１１】請求項１の発明は、被写体の画像または画
像特徴を蓄積するデータベースと、認識候補の仮説情報
を蓄積する仮説情報蓄積手段と、各映像フレーム毎の入
力画像または画像特徴とデータベース内の画像または画
像特徴とをマッチング処理するマッチング処理手段と、
前記マッチング処理の結果から、認識候補の仮説情報を
生成するか、または前記仮説情報蓄積手段内のすでにあ
る認識候補の仮説情報を修正する仮説情報処理手段と、
前記仮説情報蓄積手段から被写体認識出力を取り出す手
段とを具えたことを特徴とする。

【００１２】上記の請求項１によれば、本発明は追跡と
認識を一連の処理として統一することにより、動きベク
トル抽出などの追跡のみの手法に比べて追跡性能を高く
し、同時にそのフレームでの認識ミスを過去のフレーム
からの追跡により補完することによって高精度な認識が
可能となる。

【００１３】請求項２の発明は、請求項１において、各
映像フレーム毎に前記データベース内の各画像または画
像特徴が持つ特徴点集合から前記仮説情報蓄積手段内の
一つの仮説情報が持つ特徴点集合への拡大・回転・平行
移動量を推定する推定手段と、前記推定手段による推定
量に応答して補正した特徴点集合の位置を当該画像また
は画像特徴の特徴点集合として初期化する初期化手段
と、前記初期化手段により初期化された前記画像または
画像特徴を前記マッチング処理手段に供給する手段とを
有することを特徴とする。

【００１４】上記の請求項２によれば、探索の初期化手
法により追跡される顔又は対象物体の特徴点の全体的位
置関係が途中で乱れて失われないことで、追跡性能が高
くなる。

【００１５】請求項３の発明は、請求項２において、前
記推定手段は、各特徴点毎に、前のフレームで計算した
特徴点毎の特徴との間の類似度を求め、高い類似度を持
つ特徴点ほど前記拡大・回転・平行移動量の推定におけ
る重みを高くすることを特徴とする。

【００１６】上記の請求項３によれば、ノイズなどであ
る特徴点の追跡を間違えても、対象物体全体の追跡にあ
まり影響を及ぼさないことにより追跡の性能が高くな
る。

【００１７】請求項４の発明は、請求項１〜３のいずれ
かにおいて、被写体の画像特徴を複数の解像度で前記デ
ータベースに蓄積する際に、所定の閾値以上の類似度を
持つ低解像度画像特徴群を、その中の１つもしくは所定
の平均で代表させる手段をさらに有することを特徴とす
る。

【００１８】上記の請求項４によれば、データベースを
実際に構成するに当って、構成画像数を減少させること
により、認識速度が高速化する。

【００１９】請求項５の発明は、映像フレーム中の被写
体を認識する認識装置のコンピュータにより実行する認
識プログラムを記録した記録媒体において、前記プログ
ラムは、各映像フレーム毎の入力画像または画像特徴と
データベース内の画像または画像特徴とをマッチング処
理するステップと、前記マッチング処理の結果から、認
識候補の仮説情報を生成するか、または仮説情報蓄積手
段内のすでにある認識候補の仮説情報を修正するステッ
プと、前記仮説情報蓄積手段から被写体認識出力を取り
出すステップとを具えたことを特徴とする。

【００２０】請求項６の発明は、請求項５において、各
映像フレーム毎に前記データベース内の各画像または画
像特徴が持つ特徴点集合から前記仮説情報蓄積手段内の
一つの仮説情報が持つ特徴点集合への拡大・回転・平行
移動量を推定するステップと、前記推定量に応答して補
正した特徴点集合の位置を当該画像または画像特徴の特
徴点集合として初期化するステップと、前記初期化され
た前記画像または画像特徴を前記マッチング処理に供給
するステップとを有することを特徴とする。

【００２１】請求項７の発明は、請求項６において、前
記推定ステップは、各特徴点毎に、前のフレームで計算
した特徴点毎の特徴との間の類似度を求め、高い類似度
を持つ特徴点ほど前記拡大・回転・平行移動量の推定に
おける重みを高くすることを特徴とする。

【００２２】請求項８の発明は、請求項５〜７のいずれ
かにおいて、被写体の画像特徴を複数の解像度で前記デ
ータベースに蓄積する際に、所定の閾値以上の類似度を
持つ低解像度画像特徴群を、その中の１つもしくは所定
の平均で代表させるステップを有することを特徴とす
る。

【００２３】

【発明の実施の形態】図１は、本発明の実施形態にかか
る認識装置の構成を示す。本認識装置は、専用の装置構
成とすることもできるが、例えば、汎用のパーソナルコ
ンピュータ、ワークステーション等も適用できる。図１
において、本認識装置は、ＣＰＵ２１，システムメモリ
２２，ディスプレイ２３，ハードディスク記憶装置（Ｈ
ＤＤ）２４，キーボード２５，マウス２６，入出力イン
ターフェース２７を有する。これらは、システムバスを
介して相互に接続されている。認識の対象となる映像信
号は、入出力インターフェース２７を介して入力され
る。

【００２４】ＣＰＵ２１は、システムメモリ２２に格納
されたプログラムに基づき、後述する各処理を含む本認
識装置全体の処理を制御する。システムメモリ２２は、
後述する被写体の初期検出、追跡、認識等の処理を行う
際に使用するフレームメモリおよびＣＰＵ１の作業領域
を提供する。

【００２５】図２は、本認識装置を用いて実現される機
能を示す機能ブロック図であって、これらの機能は、後
述するような各処理のプログラムの実行に伴って実現さ
れる。図２に示すように、仮説によるデータベースの位
置情報修正機能１では、データベース５中の特徴点配列
（詳細は後述）を仮説集合（詳細は後述）７によって修
正し、多重解像度可変テンプレートマッチング機能２で
は、入力フレームと、仮説によるデータベースの位置情
報修正機能１により修正したデータベーステンプレート
とを、多重解像度ガボールウェーブレットの可変テンプ
レートマッチングにより照合し（詳細は後述）、ウェー
ブレット係数の位相で位置のずれを推定して映像フレー
ム中の被写体を追跡する。仮説の修正・生成機能３によ
って、多重解像度可変テンプレートマッチング機能２に
よって得られた、閾値を越えたマッチング結果は、仮説
集合７内の仮説の修正または新しい仮説の生成に用いら
れる。すべての仮説について入力フレームとマッチング
終了後、時間的・空間的フィルタリング機能４により仮
説集合７内の証拠値の高い仮説のみを平滑化して、平滑
化された仮説が認識結果として出力される。被写体の初
期検出による仮説追加機能６では、システムのスタート
時とその後適当な間隔で、入力フレーム中の被写体の初
期検出を行い、その結果を仮説集合７に追加する。計算
量を減らすために、データベース（テンプレート）に関
して、低解像度情報については類似したものを統合して
数を減らす。すなわち似ている被写体テンプレートの低
解像度ウェーブレット係数と特徴点の位置を一つにす
る。

【００２６】（特徴の表現）本実施形態では、画像の特
徴量として、被写体上に配置される特徴点の位置とその
位置での多重解像度ガボールウェーブレット係数群（以
下ではこの係数群を「ガボールジェット」と呼ぶ）とい
う２種類の情報（参考文献１参照：参考文献は最後に一
括掲載）を用いる。その場合、ガボールジェットは、以
下の式で表されるガボールウェーブレット関数と特徴点
の回りの画像との畳み込みにより求める。

【００２７】方位がn、解像度がrのガボールウェーブレ
ット関数は

【００２８】

【数１】

【００２９】により与えられる。ここでσは空間的幅で
あり、

【００３０】

【数２】

【００３１】は二次元空間周波数ベクトル（nは方位番
号、rは周波数番号、k^rは絶対値）であり、以下のよう
に表される。

【００３２】

【数３】

【００３３】（データベースの構成）データベースを生
成するため、色々な向きで撮影された被写体の画像を用
意し、入出力インターフェース２７から入力して、ＨＤ
Ｄ２４に格納する。その格納した画像をディスプレイ２
３上に表示し、表示した各画像ごとに特徴点の位置をマ
ウス２６で指定する。本実施例では２０人、１９のポー
ズ（左横顔から右横顔まで、１０度毎）を用いる。特徴
点の数はN_nodes＝９であり、顔の内部の二次元情報があ
る場所（髪の毛が邪魔せず、それに輪郭等ではない）を
使用する（図４（ａ）参照）。

【００３４】各特徴点毎に、（N_resns＝５つの解像度）
×（N_orns＝８つの方位）のガボールウェーブレット係
数を計算する。N_resnsとN_ornsの数は参考文献１と８で
用いられているものと同じである。係数ベクトル（その
次元数はN_resns×N_orns×２（ガボールウェーブレット
係数の実数部と虚数部）×N_nodesである）と特徴点の位
置ベクトル（その次元数はN_nodes×２（x，y座標）であ
る）が一つの基本データレコードになる。後の処理が照
度の影響を受けないようにするため、この段階で各解像
度毎に、ガボールウェーブレット係数ベクトルを正規化
する。

【００３５】（データベースレコードの統合）多重解像
度可変テンプレートマッチング機能２での計算量を減少
させるため、最低解像度だけで各レコードの一対毎に類
似度を測定し、類似度がしきい値を越えた場合、その２
つのレコードを統合する。レコードＡ，Ｂの類似度を

【００３６】

【数４】

【００３７】で定義する。ここで〈γ_A，γ_B〉は最低解
像度だけの係数ベクトルの内積を示し、E_ABは2つのレコ
ードの特徴点のずれ量（対応すべき特徴点同士の距離の
和）を示す。λはそのバランスを調節するパラメータで
ある。また‖γ_A‖，‖γ_B‖はベクトルγ_A，γ_Bの大き
さを表す。類似度S（A，B）がしきい値を越えた場合、
特徴点の位置を２つのレコードの重み付き平均位置に置
き換え、最低解像度の係数ベクトルのγ_A，γ_Bをその重
み付き角度平均値に置き換えることにより、２つのレコ
ードを統合する。

【００３８】複数のレコードが統合された場合、新しい
レコードと別のレコードの類似度を計算する時、その二
つのレコードのメンバーどうしの最小類似度を用いる。
従ってマージの規準はminimaxになる。このようにする
と任意のメンバーとその代表レコードの誤差が、ある値
を越えないことが保証される。

【００３９】最低解像度レコードの統合が終ったら、統
合されたレコード毎のメンバーに対して、次の解像度で
同じ処理を繰り返す。最終的にはデータベース構成は図
５の３１に示すように木（ツリー）構成を持つ。なお、
図５は、本発明のシステムの概念を示す。

【００４０】（被写体の初期検出）入力フレーム中の被
写体の初期検出法には、多くの可能性がある。例えば顔
の場合、肌の色で顔の位置とサイズを推定する手法は高
速検出が期待できる。応用に応じてそのようなプリプロ
セッサを追加することも可能であるが、ここでは、特徴
としてガボールジェットと特徴点の位置だけを用いる例
を述べる。

【００４１】画像中の顔の位置とサイズが予め分からな
いので、いくつかのサイズと位置で探索する必要があ
る。しかし最低解像度の統合されたデータベースを用い
ることにより、計算量はかなり減少する。例えば、１０
フレーム毎に以下の処理をする。各方位毎に：１．二次元ＦＦＴ（Fast Fourier Transform）で入力フ
レームの周波数ドメイン多重解像度ピラミッドを生成す
る。

【００４２】２．各ピラミッド・レベル（オクターブ）
毎に、いくつか（現状で６つ）のサイズで周波数ドメイ
ンのガボールウェーブレットを掛ける。

【００４３】３．その出力に、原点を中心とした正方領
域を重ね掛ける。これは空間ドメインのサブサンプリン
グと等価であり、後の逆ＦＦＴは縮小サイズで実行でき
る。

【００４４】４．サブサンプルされたガボールウェーブ
レット係数を逆ＦＦＴで得る。

【００４５】５．係数の絶対値を計算する。

【００４６】６．各最低解像度データベースレコード毎
の特徴点の位置で、入力フレームのサブサンプルされた
位置でのウェーブレット係数の絶対値ベクトルとレコー
ドの絶対値ベクトルの内積を求め、類似度を計測する。

【００４７】７．しきい値を越えた類似度の局所的な最
大値があれば、新しい仮説を生成する。仮説Hの内容は
下記のとおりである：（a）ポーズ（顔の向き）p^H；（b）各特徴点ごとに、

【００４８】

【外１】

【００４９】（これが後の処理の中で重みを決める）；（c）検出した画像領域の中心位置と推定拡大率（x，
y，r）。

【００５０】（顔の追跡）以下では、図３にしたがって
順に動作を説明する。

【００５１】ある仮説Hが既存しているとする（図３の
１１）。そのポーズをp^Hと呼び、各特徴点の位置が

【００５２】

【外２】

【００５３】であるとする。

【００５４】新しく読み込まれたフレームに対して、空
間ドメインの処理で多重解像度ピラミッドを作成する。

【００５５】ポーズp^H−w_Pからp^H＋w_Pまでの各ポーズ毎
に、そのポーズを持つ全ての最低解像度データベースレ
コードDB_mを選び出し（図３の１２）、その特徴点の位
置

【００５６】

【外３】

【００５７】への拡大、回転及び平行移動の変換を、重
み付き最小自乗法で推定し、実行する。この結果が探索
用の初期位置になる（図３の１３）。このように初期化
された特徴点集合は、現在のデータベースレコードDB_m
の特徴点位置のグローバルな位置関係に従うことが保証
される。

【００５８】次に、適当なウェーブレット・サイズ（推
定拡大率から分かる）を選び、射影された特徴点の位置
で入力フレームの最低解像度ウェーブレット係数ベクト
ルを測定する。この係数の位相から、各特徴点毎に仮説
から入力フレームまでの位置ずれを、重み付き最小自乗
法で推定する（参考文献１）。同計算で、ずらした特徴
点のデータベースレコードとの類似度が与えられる。こ
れを繰り返して類似度が最大になるまで続ける（図３の
１４）。類似度の最大値がその特徴点の重みを決める。

【００５９】ロバスト推定（参考文献１０）は、信頼性
が高ければ高い程そのデータの重みを高くし、信頼性が
低そうに見えるデータ（outlier）の重みを低くするこ
とにより、推定結果へのノイズ等の影響を減らす手法で
ある。もちろん、信頼性そのものを推定するのは重要な
課題であるが、例えば周りのデータの平均値に近いデー
タがおそらく信頼性が高い。

【００６０】本実施形態の場合、各特徴点毎に類似度が
求められるので、類似度が高ければ高い程この特徴点が
データベースレコードに合致していると言える。類似度
が高ければその推定位置の信頼性が高いと考えられるの
で、グローバル変換（拡大、回転、平行移動）を推定す
る時、この特徴点の推定位置の重みを高くすれば良い。
類似度が低い場合、特徴点を間違えているか他の物体と
重なっていて見えない（特徴点の消失）可能性があるの
で、その重みを低くすれば良い。

【００６１】（顔の認識）追跡処理によりずらされた特
徴点の位置とそのデータベースレコードとの類似度が与
えられる。式（３）に示す全体類似度を計算するため：１．特徴点類似度を大きい順にN₀個選び、その平均を、
式（３）の右辺の一項目とする。その結果類似度が低い
N_nodes−N₀個の特徴点は無視され、ノイズ又は特徴点の
消失に対してロバスト（頑健）になる。

【００６２】２．ずれた特徴点の位置に関して、再度デ
ータベースレコードに重み付き最小自乗射影（拡大、回
転、平行移動）を計算する。計算の結果得られる射影の
誤差を数式（３）の右辺の第二項とする。

【００６３】データベースレコードとの類似度がしきい
値を越えた場合、このデータベースレコードにヒットが
あったと言う。ヒットがなかったら、このデータベース
レコードの処理は終了する。ヒットがあった場合、次の
解像度まで進む（図３の１５）。その意味は下記のとお
りである：１．データベースレコードとして、図５の３
１に示されているように、現在のレコードの下にある次
の解像度のレコードを順番に処理する。

【００６４】２．処理内容は、先に説明したのと同じ
く、以下の順に行う：（a）重み付き射影（b）ウェーブレット係数の測定（c）特徴点の位置ずらしと新しい類似度の計算（d）各特徴点毎の類似度と重み付き射影の誤差から、
全体類似度の計算３．ただし、上記の処理の説明において“仮説が持つ特
徴点の位置”の替わりに、“一つ前の解像度での特徴点
の最終位置”を用いる。

【００６５】４．全体類似度がしきい値を越えた場合、
ヒットとなって、さらに次の解像度に進む。

【００６６】途中でヒットがあった全てのデータベース
レコード毎に、そのレコードのメンバーの附属証拠値を
増やす（図３の１６）。（データベースに入っている人
物に加え、‘データベースに入っていない人物’という
バーチャル人物も含まれている。この人物は最低解像度
データベースレコードだけのメンバーであり、最低解像
度レコードでヒットがあっても高解像度レコードでヒッ
トがない時、この人物の証拠値が上がる。）この処理を繰り返し、ある解像度までヒットがあったが
それ以下ではヒットがなかったデータベースレコード
（terminating node）毎に、新しい仮説を作成する。蓄
積された証拠値をこの仮説に附属させる（図３の１
７）。

【００６７】（空間的、時間的フィルタリング）新しい
仮説集合の中には、入力フレームの同じ領域を占める仮
説がいくつか存在することが普通である。そういった仮
説をグループ化し、グループ内のメンバー仮説がお互い
に競合するしくみを作ってある。このため、競合の後で
は各グループ毎に、証拠値が高い順にいくつかの仮説し
か残らないようになる。

【００６８】これらの仮説グループの仮説内容を時間的
フィルタリングし、Bayes法によって生成、修正したも
のを平滑化仮説と呼ぶ。領域の中心位置とサイズ、及び
ポーズと各人物の推定確率が付いている。システムの出
力はこれら平滑化仮説のパラメータの中から必要なもの
を選ぶことができる。

【００６９】図４は特徴点の配置例、検出、追跡、出力
の例を示す図である。図４の（ａ）は、指定された特徴
点の場所を示す。9点を使用した例である。図４の
（ｂ）は検出後の特徴点集合の例を示す。図４の（ｃ）
は追跡処理の結果の例を示す。図４の（ｂ）よりほとん
どの特徴点の推定位置は正確であることが分かる。右上
の特徴点が顔の目尻から少し離れているので、そこのテ
ンプレートとの類似度が比較的低いことが予想される。
次のフレームの追跡の際には、（顔の追跡）の項で説明
したように、その特徴点の影響が小さくなるので、全体
の追跡性能は高くなる。図４の（ｄ）はシステム出力の
例を示す。四角は顔領域の位置とサイズを表す。登録人
物一人ずつの推定確率の中の最大値（“Prob”）とその
人物のID番号（“ID”）と顔の推定された向き（“pos
e”）が四角の下に示されている。これは一例であり、
どの情報をシステムから出力するか変わる可能性があ
る。

【００７０】

【発明の効果】以上説明したように、本発明によれば、
動画像であっても、画像中の被写体を高精度で認識する
ことができる。

【００７１】（参考文献）１．Wiskott，L．，Fellous，J‐M．，Kruger，N．，vo
n der Malsburg，C．Face Recognition by E1astic B
unch Graph Matching．TR96-08，Institut fur Neuroin
formatik，Ruhr-Universitat Bochum, 1996．２．Clippingdale, S., 伊藤崇之．動画像の顔検出・追
跡・認識への統一されたアプローチ．電子通信学会、パ
ターン認識・メディア理解研究会prmu98-200、1999. 3.Okada,K.,Steffens,J.,Maurer, T.,Hong, H., Elagi
n, E., Neven, H., vonder Malsburg, C. Bochum/USC F
ace Recognition System And How it Fared inthe FERE
T Phase III Test. Face Recognition: From Theory to
Applications, Springer-Verlag, in press. ４．Jebara, A., Pentland, A. Parametrized Structur
e from Motion for 3D Adaptive Feedback Tracking of
faces. Proc. IEEE CVPR'97. ５．Isard, M., Blake, A. Contour tracking by stoch
astic propagation of conditional density. Proc. EC
CV'96, 343-356, Cambridge, UK, 1996. ６．Li, H., Roivainen, P., Forchheimer, R. 3-D Mot
ion Estimation in Model-Based Facial Image Coding.
IEEE Trans. PAMI, 15(6),545-555, 1993. ７．Maurer, T., von der Malsburg, C. Tracking and
Learning Graphs and Pose on Image Sequences of Fac
es. Proc. 2nd Int. Conf. On Automatic Face and Ges
ture Recognition, Vermont, 1996.

【００７２】

【外４】

【００７３】９．Cootes, T., Taylor, C., Cooper,
D., Graham, J. Training models of shape from sets
of examples. Proc. BMVC'92, 9-18, 1992. １０．Black, M., Anandan, P. A framework for the r
obust estimation of optical flow. Proc. ICCV'93, B
erlin,231-236,1993.

【図面の簡単な説明】

【図１】本発明の実施形態の構成を示す図である。

【図２】本実施形態の機能ブロック図である。

【図３】特徴点の追跡・修正手順を説明する図である。

【図４】特徴点の配置例、検出、追跡、出力の例を示す
図である。

【図５】本発明の概念を説明する図である。

【符号の説明】

１仮説によるデータベースの位置情報修正機能２多重解像度可変テンプレートマッチング３仮説の修正・生成機能４時間的・空間的フィルタリング機能５データベース７仮説集合２１ＣＰＵ２２システムメモリ２３ディスプレイ２４ハードディスク記憶装置（ＨＤＤ）２６マウス

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 5L096 DA02 EA06 EA13 EA14 EA15 EA16 EA39 FA15 FA32 FA69 GA32 GA51 GA55 HA03 JA03 JA09 JA11 JA13 KA03 KA09 9A001 BB01 BB03 BB04 FF03 GG05 HH03 HH05 HH07 HH21 HH23 HH24 HH29 HH30 KK37

Claims

【特許請求の範囲】

【請求項１】被写体の画像または画像特徴を蓄積する
データベースと、認識候補の仮説情報を蓄積する仮説情報蓄積手段と、各映像フレーム毎の入力画像または画像特徴とデータベ
ース内の画像または画像特徴とをマッチング処理するマ
ッチング処理手段と、前記マッチング処理の結果から、認識候補の仮説情報を
生成するか、または前記仮説情報蓄積手段内のすでにあ
る認識候補の仮説情報を修正する仮説情報処理手段と、前記仮説情報蓄積手段から被写体認識出力を取り出す手
段とを具えたことを特徴とする被写体認識装置。
【請求項２】請求項１において、各映像フレーム毎に前記データベース内の各画像または
画像特徴が持つ特徴点集合から前記仮説情報蓄積手段内
の一つの仮説情報が持つ特徴点集合への拡大・回転・平
行移動量を推定する推定手段と、前記推定手段による推定量に応答して補正した特徴点集
合の位置を当該画像または画像特徴の特徴点集合として
初期化する初期化手段と、前記初期化手段により初期化された前記画像または画像
特徴を前記マッチング処理手段に供給する手段とを有す
ることを特徴とする被写体認識装置。
【請求項３】請求項２において、前記推定手段は、各特徴点毎に、前のフレームで計算し
た特徴点毎の特徴との間の類似度を求め、高い類似度を
持つ特徴点ほど前記拡大・回転・平行移動量の推定にお
ける重みを高くすることを特徴とする被写体認識装置。
【請求項４】請求項１〜３のいずれかにおいて、被写体の画像特徴を複数の解像度で前記データベースに
蓄積する際に、所定の閾値以上の類似度を持つ低解像度
画像特徴群を、その中の１つもしくは所定の平均で代表
させる手段をさらに有することを特徴とする被写体認識
装置。
【請求項５】映像フレーム中の被写体を認識する認識
装置のコンピュータにより実行する認識プログラムを記
録した記録媒体において、前記プログラムは、各映像フレーム毎の入力画像または
画像特徴とデータベース内の画像または画像特徴とをマ
ッチング処理するステップと、前記マッチング処理の結果から、認識候補の仮説情報を
生成するか、または仮説情報蓄積手段内のすでにある認
識候補の仮説情報を修正するステップと、前記仮説情報蓄積手段から被写体認識出力を取り出すス
テップとを具えたことを特徴とする記録媒体。
【請求項６】請求項５において、各映像フレーム毎に前記データベース内の各画像または
画像特徴が持つ特徴点集合から前記仮説情報蓄積手段内
の一つの仮説情報が持つ特徴点集合への拡大・回転・平
行移動量を推定するステップと、前記推定量に応答して補正した特徴点集合の位置を当該
画像または画像特徴の特徴点集合として初期化するステ
ップと、前記初期化された前記画像または画像特徴を前記マッチ
ング処理に供給するステップとを有することを特徴とす
る記録媒体。
【請求項７】請求項６において、前記推定ステップは、各特徴点毎に、前のフレームで計
算した特徴点毎の特徴との間の類似度を求め、高い類似
度を持つ特徴点ほど前記拡大・回転・平行移動量の推定
における重みを高くすることを特徴とする記録媒体。
【請求項８】請求項５〜７のいずれかにおいて、被写体の画像特徴を複数の解像度で前記データベースに
蓄積する際に、所定の閾値以上の類似度を持つ低解像度
画像特徴群を、その中の１つもしくは所定の平均で代表
させるステップを有することを特徴とする記録媒体。