JP4086422B2 - 被写体認識装置 - Google Patents

被写体認識装置 Download PDF

Info

Publication number
JP4086422B2
JP4086422B2 JP20676499A JP20676499A JP4086422B2 JP 4086422 B2 JP4086422 B2 JP 4086422B2 JP 20676499 A JP20676499 A JP 20676499A JP 20676499 A JP20676499 A JP 20676499A JP 4086422 B2 JP4086422 B2 JP 4086422B2
Authority
JP
Japan
Prior art keywords
image
similarity
feature point
hypothesis information
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP20676499A
Other languages
English (en)
Other versions
JP2001034756A (ja
Inventor
クリピングデル・サイモン
崇之 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP20676499A priority Critical patent/JP4086422B2/ja
Publication of JP2001034756A publication Critical patent/JP2001034756A/ja
Application granted granted Critical
Publication of JP4086422B2 publication Critical patent/JP4086422B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Geometry (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、被写体認識装置および記録媒体に関し、パターン認識、持に人物の類やその他の一般物体を対象とした画像情報処理および画像認識に特徴を有する被写体認識装置および記録媒体に関する。
【0002】
【従来の技術】
(静止画像認識)
静止画像の認識で、これまでのところ最も性能が高そうなシステムはElastic graph matching(EBGM)(Wiskott等1996参照)である。本発明は、EBGMシステムを元にして、入力が静止画ではなく動画像である場合へ拡張する。EBGMシステムは、認識用特徴として、本発明のシステムと同じようなガボール・ウェーブレットを採用している。顔にいくつかの特徴点の場所を指定して、そこでウェーブレット係数を計算し、係数集合と特徴点の位置で顔を表現する。係数の位相で位置ずれを推定できる。
【0003】
(被写体の追跡)
被写体を追跡するシステムのほとんどは、例えば顔を例にとると、眼、口などの顔の構成部品のモデル又は画像テンプレートを用いて、入力画像中でそれらの構成部品の位置を推定し、その結果から被写体の位置や大きさなどのパラメータを推定する(JebaraとPentland 1997参照)。しかしこういうアプローチは限定された状況にしか応用できない(例えば向きがほとんど正面であり、サイズが大体知られている場合等)。
【0004】
顔は複雑な三次元構成と可変性を持つ物体であるため、普通のカルマン・フィルターを用いて顔画像を追跡することは困難であり、一度対象特徴を見失うと回復できない。最近開発された輪郭の動きを学習するCONDENSATIONアルゴリズム(IsardとB1ake 1996参照)は、同時にいくつかの仮説を持ち、間違えても回復性能が高いが、モデルが単純なため認識には応用できない。
【0005】
超低ビットレート符号化等のため、三次元モデルを用いた追跡システムが開発されている(Forchheimer 参照)。各特徴点が個別のトラックにならないように、推定された特徴点の位置と動きを三次元モデルに射影する必要がある(JebaraとPentland 1997も参照)。
【0006】
ガボールウェーブレットを用いた追跡システムも存在している。Maurerとvon der Malsburg(1996参照)はウェーブレット係数の位相を用いた追跡の実験を行なったが、それぞれの特徴点を最初から独立に処理するため、特徴点相互の位置関係が乱れて、物体としての構成を失う場合もある。最近、もう一つこういったシステムが出来た(McKenna等1997参照)。これは主成分分析を用いて学習集合のPDM(Point Distribution Model)(Cootes等1992参照)を計算し、それで入力映像中の特徴点の集合を制約する。認識にはまだ応用されていない。
【0007】
信頼度が低いと思われるデータの推定への影響を小さくする原理はロバスト推定という分野に属する(Black参照)。本願請求項3の手法は、ロバスト推定の手法の一つと言える。
【0008】
【発明が解決しようとする課題】
画像認識が困難である最大の理由は、認識対象の可変性が多いという問題である。この因子として、被写体自体の可変性(顔の場合であれば表情等で変形する)だけでなく、それに加えて6自由度の動きによる画像内の被写体の位置、サイズ、及び向きの変化があげられる。さらに照明、陰影、背景、認識対象の数も不明である。従来の画像認識システムでは、そういった自由度を減少させるために、多くのパラメータを固定して画像を取得する必要があった。放送で用いられる映像では、条件を限定して撮影できることはまれであるから、このような可変性の多さに対応できる認識手法を確立する必要がある。
【0009】
本発明は被写体の向き、位置、サイズなど変化するパラメータによらないで動画像中で動いたりする物体を認識することが主な目的である。それに加えて、変化するパラメータの値を追跡し、ほかの用途にその情報を使用可能にするという目的もある。
【0010】
【課題を解決するための手段】
被写体の動きで画像内の被写体の位置、サイズ、向きが変化することは、従来の認識システムにとって最大の問題であった。一方、本発明では、動画像の時間的な連続性を利用し画像領域における被写体の位置、サイズ、向きを追跡することにより、入力フレーム数枚を使って被写体のアイデンティティについての情報を蓄え、各フレーム毎に得られる新しい情報によって、蓄積された情報によるアイデンティティの推定を修正する。すなわち、対象物の動きは認識に障害となるものではなく、追跡可能な限り、複数のフレームの情報、複数の向きなどが認識に使用可能になるという意味で逆に役立つ。
【0011】
請求項1の発明は、被写体認識装置であって、被写体の画像または画像特徴を蓄積するデータベース(5)と、前記被写体認識装置に入力される映像フレームを検出することにより生成される該映像フレーム内の被写体における各特徴点の位置の情報を少なくとも含む認識候補の仮説情報を蓄積する仮説情報蓄積手段(7)と、各映像フレーム毎の入力画像または画像特徴とデータベース内の複数の解像度の画像または画像特徴とをそれぞれマッチング処理して、複数の解像度での類似度を算出するマッチング処理手段(2)と、前記マッチング処理の結果、予め定められた閾値を超える場合に、前記仮説情報蓄積手段内のすでにある認識候補の仮説情報を前記マッチング処理により算出された複数の解像度での類似度に基づいて修正することによって認識候補の仮説情報を新たに生成する仮説情報処理手段(3)と、前記仮説情報蓄積手段に蓄積された前記認識候補の仮説情報のうち証拠値の高い仮説情報を平滑化して、該平滑化した仮説情報を被写体認識出力として取り出す手段(4)とを具え、前記仮説情報処理手段が行う前記修正は、前記複数の解像度のうち相対的に低い解像度から順次前記マッチング処理を行って前記類似度を算出し、前記類似度が前記閾値を超える場合に前記証拠値を増加させ、前記類似度が前記閾値を超えない場合に前記仮説情報蓄積手段内のすでにある認識候補の仮説情報に前記証拠値を附属させることであり、前記証拠値は、前記複数の解像度のうち相対的に低い解像度から始めた前記マッチング処理により算出された前記類似度が前記閾値を超えなくなるまでの、複数の解像度で算出された類似度を示す値であることを特徴とする。
【0012】
上記の請求項1によれば、本発明は追跡と認識を一連の処理として統一することにより、動きベクトル抽出などの追跡のみの手法に比べて追跡性能を高くし、同時にそのフレームでの認識ミスを過去のフレームからの追跡により補完することによって高精度な認識が可能となる。
【0013】
請求項2の発明は、請求項1において、各映像フレーム毎に前記データベース内の各画像または画像特徴が持つ特徴点集合から前記仮説情報蓄積手段内の一つの仮説情報が持つ特徴点集合への拡大・回転・平行移動量を推定する推定手段と、前記推定手段による推定量に応答して補正した特徴点集合の位置を当該画像または画像特徴の特徴点集合として初期化する初期化手段と、前記初期化手段により初期化された前記画像または画像特徴を前記マッチング処理手段に供給する手段とを有することを特徴とする。
【0014】
上記の請求項2によれば、探索の初期化手法により追跡される顔又は対象物体の特徴点の全体的位置関係が途中で乱れて失われないことで、追跡性能が高くなる。
【0015】
請求項3の発明は、請求項2において、前記推定手段は、各特徴点毎に、前のフレームで計算した特徴点毎の特徴との間の類似度を求め、高い類似度を持つ特徴点ほど前記拡大・回転・平行移動量の推定における重みを高くすることを特徴とする。
【0016】
上記の請求項3によれば、ノイズなどである特徴点の追跡を間違えても、対象物体全体の追跡にあまり影響を及ぼさないことにより追跡の性能が高くなる。
【0017】
請求項4の発明は、請求項1〜3のいずれかにおいて、被写体の画像特徴を複数の解像度で前記データベースに蓄積する際に、所定の閾値以上の類似度を持つ低解像度画像特徴群を、その中の1つもしくは所定の平均で代表させる手段をさらに有することを特徴とする。
【0018】
上記の請求項4によれば、データベースを実際に構成するに当って、構成画像数を減少させることにより、認識速度が高速化する。
【0023】
【発明の実施の形態】
図1は、本発明の実施形態にかかる認識装置の構成を示す。本認識装置は、専用の装置構成とすることもできるが、例えば、汎用のパーソナルコンピュータ、ワークステーション等も適用できる。図1において、本認識装置は、CPU21,システムメモリ22,ディスプレイ23,ハードディスク記憶装置(HDD)24,キーボード25,マウス26,入出力インターフェース27を有する。これらは、システムバスを介して相互に接続されている。認識の対象となる映像信号は、入出力インターフェース27を介して入力される。
【0024】
CPU21は、システムメモリ22に格納されたプログラムに基づき、後述する各処理を含む本認識装置全体の処理を制御する。システムメモリ22は、後述する被写体の初期検出、追跡、認識等の処理を行う際に使用するフレームメモリおよびCPU1の作業領域を提供する。
【0025】
図2は、本認識装置を用いて実現される機能を示す機能ブロック図であって、これらの機能は、後述するような各処理のプログラムの実行に伴って実現される。図2に示すように、仮説によるデータベースの位置情報修正機能1では、データベース5中の特徴点配列(詳細は後述)を仮説集合(詳細は後述)7によって修正し、多重解像度可変テンプレートマッチング機能2では、入力フレームと、仮説によるデータベースの位置情報修正機能1により修正したデータベーステンプレートとを、多重解像度ガボールウェーブレットの可変テンプレートマッチングにより照合し(詳細は後述)、ウェーブレット係数の位相で位置のずれを推定して映像フレーム中の被写体を追跡する。仮説の修正・生成機能3によって、多重解像度可変テンプレートマッチング機能2によって得られた、閾値を越えたマッチング結果は、仮説集合7内の仮説の修正または新しい仮説の生成に用いられる。すべての仮説について入力フレームとマッチング終了後、時間的・空間的フィルタリング機能4により仮説集合7内の証拠値の高い仮説のみを平滑化して、平滑化された仮説が認識結果として出力される。被写体の初期検出による仮説追加機能6では、システムのスタート時とその後適当な間隔で、入力フレーム中の被写体の初期検出を行い、その結果を仮説集合7に追加する。計算量を減らすために、データベース(テンプレート)に関して、低解像度情報については類似したものを統合して数を減らす。すなわち似ている被写体テンプレートの低解像度ウェーブレット係数と特徴点の位置を一つにする。
【0026】
(特徴の表現)
本実施形態では、画像の特徴量として、被写体上に配置される特徴点の位置とその位置での多重解像度ガボールウェーブレット係数群(以下ではこの係数群を「ガボールジェット」と呼ぶ)という2種類の情報(参考文献1参照:参考文献は最後に一括掲載)を用いる。その場合、ガボールジェットは、以下の式で表されるガボールウェーブレット関数と特徴点の回りの画像との畳み込みにより求める。
【0027】
方位がn、解像度がrのガボールウェーブレット関数は
【0028】
【数1】
Figure 0004086422
【0029】
により与えられる。ここでσは空間的幅であり、
【0030】
【数2】
Figure 0004086422
【0031】
は二次元空間周波数ベクトル(nは方位番号、rは周波数番号、krは絶対値)であり、以下のように表される。
【0032】
【数3】
Figure 0004086422
【0033】
(データベースの構成)
データベースを生成するため、色々な向きで撮影された被写体の画像を用意し、入出力インターフェース27から入力して、HDD24に格納する。その格納した画像をディスプレイ23上に表示し、表示した各画像ごとに特徴点の位置をマウス26で指定する。本実施例では20人、19のポーズ(左横顔から右横顔まで、10度毎)を用いる。特徴点の数はNnodes=9であり、顔の内部の二次元情報がある場所(髪の毛が邪魔せず、それに輪郭等ではない)を使用する(図4(a)参照)。
【0034】
各特徴点毎に、(Nresns=5つの解像度)×(Norns=8つの方位)のガボールウェーブレット係数を計算する。NresnsとNornsの数は参考文献1と8で用いられているものと同じである。係数ベクトル(その次元数はNresns×Norns×2(ガボールウェーブレット係数の実数部と虚数部)×Nnodesである)と特徴点の位置ベクトル(その次元数はNnodes×2(x,y座標)である)が一つの基本データレコードになる。後の処理が照度の影響を受けないようにするため、この段階で各解像度毎に、ガボールウェーブレット係数ベクトルを正規化する。
【0035】
(データベースレコードの統合)
多重解像度可変テンプレートマッチング機能2での計算量を減少させるため、最低解像度だけで各レコードの一対毎に類似度を測定し、類似度がしきい値を越えた場合、その2つのレコードを統合する。レコードA,Bの類似度を
【0036】
【数4】
Figure 0004086422
【0037】
で定義する。ここで〈γA,γB〉は最低解像度だけの係数ベクトルの内積を示し、EABは2つのレコードの特徴点のずれ量(対応すべき特徴点同士の距離の和)を示す。λはそのバランスを調節するパラメータである。また‖γA‖,‖γB‖はベクトルγA,γBの大きさを表す。類似度S(A,B)がしきい値を越えた場合、特徴点の位置を2つのレコードの重み付き平均位置に置き換え、最低解像度の係数ベクトルのγA,γBをその重み付き角度平均値に置き換えることにより、2つのレコードを統合する。
【0038】
複数のレコードが統合された場合、新しいレコードと別のレコードの類似度を計算する時、その二つのレコードのメンバーどうしの最小類似度を用いる。従ってマージの規準はminimaxになる。このようにすると任意のメンバーとその代表レコードの誤差が、ある値を越えないことが保証される。
【0039】
最低解像度レコードの統合が終ったら、統合されたレコード毎のメンバーに対して、次の解像度で同じ処理を繰り返す。最終的にはデータベース構成は図5の31に示すように木(ツリー)構成を持つ。なお、図5は、本発明のシステムの概念を示す。
【0040】
(被写体の初期検出)
入力フレーム中の被写体の初期検出法には、多くの可能性がある。例えば顔の場合、肌の色で顔の位置とサイズを推定する手法は高速検出が期待できる。応用に応じてそのようなプリプロセッサを追加することも可能であるが、ここでは、特徴としてガボールジェットと特徴点の位置だけを用いる例を述べる。
【0041】
画像中の顔の位置とサイズが予め分からないので、いくつかのサイズと位置で探索する必要がある。しかし最低解像度の統合されたデータベースを用いることにより、計算量はかなり減少する。例えば、10フレーム毎に以下の処理をする。各方位毎に:
1.二次元FFT(Fast Fourier Transform)で入力フレームの周波数ドメイン多重解像度ピラミッドを生成する。
【0042】
2.各ピラミッド・レベル(オクターブ)毎に、いくつか(現状で6つ)のサイズで周波数ドメインのガボールウェーブレットを掛ける。
【0043】
3.その出力に、原点を中心とした正方領域を重ね掛ける。これは空間ドメインのサブサンプリングと等価であり、後の逆FFTは縮小サイズで実行できる。
【0044】
4.サブサンプルされたガボールウェーブレット係数を逆FFTで得る。
【0045】
5.係数の絶対値を計算する。
【0046】
6.各最低解像度データベースレコード毎の特徴点の位置で、入力フレームのサブサンプルされた位置でのウェーブレット係数の絶対値ベクトルとレコードの絶対値ベクトルの内積を求め、類似度を計測する。
【0047】
7.しきい値を越えた類似度の局所的な最大値があれば、新しい仮説を生成する。仮説Hの内容は下記のとおりである:
(a)ポーズ(顔の向き)pH
(b)各特徴点ごとに、
【0048】
【外1】
Figure 0004086422
【0049】
(これが後の処理の中で重みを決める);
(c)検出した画像領域の中心位置と推定拡大率(x,y,r)。
【0050】
(顔の追跡)
以下では、図3にしたがって順に動作を説明する。
【0051】
ある仮説Hが既存しているとする(図3の11)。そのポーズをpHと呼び、各特徴点の位置が
【0052】
【外2】
Figure 0004086422
【0053】
であるとする。
【0054】
新しく読み込まれたフレームに対して、空間ドメインの処理で多重解像度ピラミッドを作成する。
【0055】
ポーズpH−wPからpH+wPまでの各ポーズ毎に、そのポーズを持つ全ての最低解像度データベースレコードDBmを選び出し(図3の12)、その特徴点の位置
【0056】
【外3】
Figure 0004086422
【0057】
への拡大、回転及び平行移動の変換を、重み付き最小自乗法で推定し、実行する。この結果が探索用の初期位置になる(図3の13)。このように初期化された特徴点集合は、現在のデータベースレコードDBmの特徴点位置のグローバルな位置関係に従うことが保証される。
【0058】
次に、適当なウェーブレット・サイズ(推定拡大率から分かる)を選び、射影された特徴点の位置で入力フレームの最低解像度ウェーブレット係数ベクトルを測定する。この係数の位相から、各特徴点毎に仮説から入力フレームまでの位置ずれを、重み付き最小自乗法で推定する(参考文献1)。同計算で、ずらした特徴点のデータベースレコードとの類似度が与えられる。これを繰り返して類似度が最大になるまで続ける(図3の14)。類似度の最大値がその特徴点の重みを決める。
【0059】
ロバスト推定(参考文献10)は、信頼性が高ければ高い程そのデータの重みを高くし、信頼性が低そうに見えるデータ(outlier)の重みを低くすることにより、推定結果へのノイズ等の影響を減らす手法である。もちろん、信頼性そのものを推定するのは重要な課題であるが、例えば周りのデータの平均値に近いデータがおそらく信頼性が高い。
【0060】
本実施形態の場合、各特徴点毎に類似度が求められるので、類似度が高ければ高い程この特徴点がデータベースレコードに合致していると言える。類似度が高ければその推定位置の信頼性が高いと考えられるので、グローバル変換(拡大、回転、平行移動)を推定する時、この特徴点の推定位置の重みを高くすれば良い。類似度が低い場合、特徴点を間違えているか他の物体と重なっていて見えない(特徴点の消失)可能性があるので、その重みを低くすれば良い。
【0061】
(顔の認識)
追跡処理によりずらされた特徴点の位置とそのデータベースレコードとの類似度が与えられる。式(3)に示す全体類似度を計算するため:
1.特徴点類似度を大きい順にN0個選び、その平均を、式(3)の右辺の一項目とする。その結果類似度が低いNnodes−N0個の特徴点は無視され、ノイズ又は特徴点の消失に対してロバスト(頑健)になる。
【0062】
2.ずれた特徴点の位置に関して、再度データベースレコードに重み付き最小自乗射影(拡大、回転、平行移動)を計算する。計算の結果得られる射影の誤差を数式(3)の右辺の第二項とする。
【0063】
データベースレコードとの類似度がしきい値を越えた場合、このデータベースレコードにヒットがあったと言う。ヒットがなかったら、このデータベースレコードの処理は終了する。ヒットがあった場合、次の解像度まで進む(図3の15)。その意味は下記のとおりである:
1.データベースレコードとして、図5の31に示されているように、現在のレコードの下にある次の解像度のレコードを順番に処理する。
【0064】
2.処理内容は、先に説明したのと同じく、以下の順に行う:
(a)重み付き射影
(b)ウェーブレット係数の測定
(c)特徴点の位置ずらしと新しい類似度の計算
(d)各特徴点毎の類似度と重み付き射影の誤差から、全体類似度の計算
3.ただし、上記の処理の説明において“仮説が持つ特徴点の位置”の替わりに、“一つ前の解像度での特徴点の最終位置”を用いる。
【0065】
4.全体類似度がしきい値を越えた場合、ヒットとなって、さらに次の解像度に進む。
【0066】
途中でヒットがあった全てのデータベースレコード毎に、そのレコードのメンバーの附属証拠値を増やす(図3の16)。(データベースに入っている人物に加え、‘データベースに入っていない人物’というバーチャル人物も含まれている。この人物は最低解像度データベースレコードだけのメンバーであり、最低解像度レコードでヒットがあっても高解像度レコードでヒットがない時、この人物の証拠値が上がる。)
この処理を繰り返し、ある解像度までヒットがあったがそれ以下ではヒットがなかったデータベースレコード(terminating node)毎に、新しい仮説を作成する。蓄積された証拠値をこの仮説に附属させる(図3の17)。
【0067】
(空間的、時間的フィルタリング)
新しい仮説集合の中には、入力フレームの同じ領域を占める仮説がいくつか存在することが普通である。そういった仮説をグループ化し、グループ内のメンバー仮説がお互いに競合するしくみを作ってある。このため、競合の後では各グループ毎に、証拠値が高い順にいくつかの仮説しか残らないようになる。
【0068】
これらの仮説グループの仮説内容を時間的フィルタリングし、Bayes法によって生成、修正したものを平滑化仮説と呼ぶ。領域の中心位置とサイズ、及びポーズと各人物の推定確率が付いている。システムの出力はこれら平滑化仮説のパラメータの中から必要なものを選ぶことができる。
【0069】
図4は特徴点の配置例、検出、追跡、出力の例を示す図である。図4の(a)は、指定された特徴点の場所を示す。9点を使用した例である。図4の(b)は検出後の特徴点集合の例を示す。図4の(c)は追跡処理の結果の例を示す。図4の(b)よりほとんどの特徴点の推定位置は正確であることが分かる。右上の特徴点が顔の目尻から少し離れているので、そこのテンプレートとの類似度が比較的低いことが予想される。次のフレームの追跡の際には、(顔の追跡)の項で説明したように、その特徴点の影響が小さくなるので、全体の追跡性能は高くなる。図4の(d)はシステム出力の例を示す。四角は顔領域の位置とサイズを表す。登録人物一人ずつの推定確率の中の最大値(“Prob”)とその人物のID番号(“ID”)と顔の推定された向き(“pose”)が四角の下に示されている。これは一例であり、どの情報をシステムから出力するか変わる可能性がある。
【0070】
【発明の効果】
以上説明したように、本発明によれば、動画像であっても、画像中の被写体を高精度で認識することができる。
【0071】
(参考文献)
1.Wiskott,L.,Fellous,J‐M.,Kruger,N.,von der Malsburg,C.Face Recognition by E1astic Bunch Graph Matching.TR96-08,Institut fur Neuroinformatik,Ruhr-Universitat Bochum, 1996.
2.Clippingdale, S., 伊藤崇之.動画像の顔検出・追跡・認識への統一されたアプローチ.電子通信学会、パターン認識・メディア理解研究会prmu98-200、1999.
3.Okada,K.,Steffens,J.,Maurer, T.,Hong, H., Elagin, E., Neven, H., von der Malsburg, C. Bochum/USC Face Recognition System And How it Fared in the FERET Phase III Test. Face Recognition: From Theory to Applications, Springer-Verlag, in press.
4.Jebara, A., Pentland, A. Parametrized Structure from Motion for 3D Adaptive Feedback Tracking of faces. Proc. IEEE CVPR'97.
5.Isard, M., Blake, A. Contour tracking by stochastic propagation of conditional density. Proc. ECCV'96, 343-356, Cambridge, UK, 1996.
6.Li, H., Roivainen, P., Forchheimer, R. 3-D Motion Estimation in Model-Based Facial Image Coding. IEEE Trans. PAMI, 15(6),545-555, 1993.
7.Maurer, T., von der Malsburg, C. Tracking and Learning Graphs and Pose on Image Sequences of Faces. Proc. 2nd Int. Conf. On Automatic Face and Gesture Recognition, Vermont, 1996.
【0072】
【外4】
Figure 0004086422
【0073】
9.Cootes, T., Taylor, C., Cooper, D., Graham, J. Training models of shape from sets of examples. Proc. BMVC'92, 9-18, 1992.
10.Black, M., Anandan, P. A framework for the robust estimation of optical flow. Proc. ICCV'93, Berlin,231-236,1993.
【図面の簡単な説明】
【図1】本発明の実施形態の構成を示す図である。
【図2】本実施形態の機能ブロック図である。
【図3】特徴点の追跡・修正手順を説明する図である。
【図4】特徴点の配置例、検出、追跡、出力の例を示す図である。
【図5】本発明の概念を説明する図である。
【符号の説明】
1 仮説によるデータベースの位置情報修正機能
2 多重解像度可変テンプレートマッチング
3 仮説の修正・生成機能
4 時間的・空間的フィルタリング機能
5 データベース
7 仮説集合
21 CPU
22 システムメモリ
23 ディスプレイ
24 ハードディスク記憶装置(HDD)
26 マウス

Claims (4)

  1. 被写体認識装置であって、
    被写体の画像または画像特徴を蓄積するデータベースと、
    前記被写体認識装置に入力される映像フレームを検出することにより生成される該映像フレーム内の被写体における各特徴点の位置の情報を少なくとも含む認識候補の仮説情報を蓄積する仮説情報蓄積手段と、
    各映像フレーム毎の入力画像または画像特徴とデータベース内の複数の解像度の画像または画像特徴とをそれぞれマッチング処理して、複数の解像度での類似度を算出するマッチング処理手段と、
    前記マッチング処理の結果、予め定められた閾値を超える場合に、前記仮説情報蓄積手段内のすでにある認識候補の仮説情報を前記マッチング処理により算出された複数の解像度での類似度に基づいて修正することによって認識候補の仮説情報を新たに生成する仮説情報処理手段と、
    前記仮説情報蓄積手段に蓄積された前記認識候補の仮説情報のうち証拠値の高い仮説情報を平滑化して、該平滑化した仮説情報を被写体認識出力として取り出す手段と
    を具え
    前記仮説情報処理手段が行う前記修正は、前記複数の解像度のうち相対的に低い解像度から順次前記マッチング処理を行って前記類似度を算出し、前記類似度が前記閾値を超える場合に前記証拠値を増加させ、前記類似度が前記閾値を超えない場合に前記仮説情報蓄積手段内のすでにある認識候補の仮説情報に前記証拠値を附属させることであり、
    前記証拠値は、前記複数の解像度のうち相対的に低い解像度から始めた前記マッチング処理により算出された前記類似度が前記閾値を超えなくなるまでの、複数の解像度で算出された類似度を示す値であることを特徴とする被写体認識装置。
  2. 請求項1において、
    各映像フレーム毎に前記データベース内の各画像または画像特徴が持つ特徴点集合から前記仮説情報蓄積手段内の一つの仮説情報が持つ特徴点集合への拡大・回転・平行移動量を推定する推定手段と、
    前記推定手段による推定量に応答して補正した特徴点集合の位置を当該画像または画像特徴の特徴点集合として初期化する初期化手段と、
    前記初期化手段により初期化された前記画像または画像特徴を前記マッチング処理手段に供給する手段と
    を有することを特徴とする被写体認識装置。
  3. 請求項2において、
    前記推定手段は、各特徴点毎に、前のフレームで計算した特徴点毎の特徴との間の類似度を求め、高い類似度を持つ特徴点ほど前記拡大・回転・平行移動量の推定における重みを高くすることを特徴とする被写体認識装置。
  4. 請求項1〜3のいずれかにおいて、
    被写体の画像特徴を複数の解像度で前記データベースに蓄積する際に、所定の閾値以上の類似度を持つ低解像度画像特徴群を、その中の1つもしくは所定の平均で代表させる手段をさらに有することを特徴とする被写体認識装置。
JP20676499A 1999-07-21 1999-07-21 被写体認識装置 Expired - Lifetime JP4086422B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20676499A JP4086422B2 (ja) 1999-07-21 1999-07-21 被写体認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20676499A JP4086422B2 (ja) 1999-07-21 1999-07-21 被写体認識装置

Publications (2)

Publication Number Publication Date
JP2001034756A JP2001034756A (ja) 2001-02-09
JP4086422B2 true JP4086422B2 (ja) 2008-05-14

Family

ID=16528712

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20676499A Expired - Lifetime JP4086422B2 (ja) 1999-07-21 1999-07-21 被写体認識装置

Country Status (1)

Country Link
JP (1) JP4086422B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030040701A (ko) * 2001-11-15 2003-05-23 엘지전자 주식회사 3차원 다면체 표면의 변형 추정 방법
KR20040042501A (ko) * 2002-11-14 2004-05-20 엘지전자 주식회사 형판 정합 기반 얼굴 검출방법
JP4690190B2 (ja) * 2004-12-22 2011-06-01 富士フイルム株式会社 画像処理方法および装置並びにプログラム
JP4142732B2 (ja) 2005-06-08 2008-09-03 富士通株式会社 画像処理装置
US8098885B2 (en) 2005-11-02 2012-01-17 Microsoft Corporation Robust online face tracking
EP1977374A4 (en) * 2005-11-30 2012-09-05 Seeing Machines Pty Ltd VISUAL TRACKING OF GLASSES IN VISUAL HEAD AND EYE TRACKING SYSTEMS
EP1850270B1 (en) * 2006-04-28 2010-06-09 Toyota Motor Europe NV Robust interest point detector and descriptor
US8300887B2 (en) * 2007-05-10 2012-10-30 Honda Motor Co., Ltd. Object detection apparatus, object detection method and object detection program
JP4660534B2 (ja) * 2007-12-21 2011-03-30 株式会社東芝 顔画像による顔領域追跡方法及びその装置
KR101043061B1 (ko) 2008-10-21 2011-06-21 충북대학교 산학협력단 이산 웨이블렛 변환을 이용한 smd 검사 방법
JP5337667B2 (ja) * 2009-10-30 2013-11-06 大日本印刷株式会社 画像処理装置、画像処理方法及び画像処理プログラム
WO2011086594A1 (ja) * 2010-01-13 2011-07-21 株式会社 東芝 画像処理装置、及びその方法
JP5702663B2 (ja) * 2011-05-10 2015-04-15 日本放送協会 顔画像認識装置及び顔画像認識プログラム
KR101381439B1 (ko) 2011-09-15 2014-04-04 가부시끼가이샤 도시바 얼굴 인식 장치 및 얼굴 인식 방법

Also Published As

Publication number Publication date
JP2001034756A (ja) 2001-02-09

Similar Documents

Publication Publication Date Title
US8358806B2 (en) Fast crowd segmentation using shape indexing
JP4644248B2 (ja) 多重視野特徴記述子を用いた同時位置決め及びマッピング
US9619704B2 (en) Fast articulated motion tracking
US20060291696A1 (en) Subspace projection based non-rigid object tracking with particle filters
JP4086422B2 (ja) 被写体認識装置
US20090041297A1 (en) Human detection and tracking for security applications
Ratan et al. Object detection and localization by dynamic template warping
JP2005165791A (ja) 対象物の追跡方法及び追跡システム
Kervrann et al. Robust tracking of stochastic deformable models in long image sequences
Zhang et al. Real time feature based 3-d deformable face tracking
Zhu et al. Robust pose invariant facial feature detection and tracking in real-time
Clippingdale et al. A unified approach to video face detection, tracking and recognition
Bouaynaya et al. A complete system for head tracking using motion-based particle filter and randomly perturbed active contour
Shakeri et al. Detection of small moving objects using a moving camera
Dornaika et al. Face and facial feature tracking using deformable models
Ni et al. A hybrid framework for 3-D human motion tracking
Demirdjian Combining geometric-and view-based approaches for articulated pose estimation
Lee et al. Multisensor fusion-based object detection and tracking using active shape model
Daubney et al. Estimating pose of articulated objects using low-level motion
Tissainayagam et al. Contour tracking with automatic motion model switching
Shafiee et al. Model-based tracking: Temporal conditional random fields
Georgescu et al. Multi-model component-based tracking using robust information fusion
Raskin et al. Using gaussian processes for human tracking and action classification
Raskin et al. Tracking and classifying of human motions with gaussian process annealed particle filter
Martínez et al. Tracking human body parts using particle filters constrained by human biomechanics

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070810

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071009

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080219

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110228

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4086422

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120229

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130228

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140228

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term