JP2001034756A - 被写体認識装置および記録媒体 - Google Patents

被写体認識装置および記録媒体

Info

Publication number
JP2001034756A
JP2001034756A JP11206764A JP20676499A JP2001034756A JP 2001034756 A JP2001034756 A JP 2001034756A JP 11206764 A JP11206764 A JP 11206764A JP 20676499 A JP20676499 A JP 20676499A JP 2001034756 A JP2001034756 A JP 2001034756A
Authority
JP
Japan
Prior art keywords
image
feature point
feature
database
hypothesis information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11206764A
Other languages
English (en)
Other versions
JP4086422B2 (ja
Inventor
Simon Clipingdel
クリピングデル・サイモン
Takayuki Ito
崇之 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP20676499A priority Critical patent/JP4086422B2/ja
Publication of JP2001034756A publication Critical patent/JP2001034756A/ja
Application granted granted Critical
Publication of JP4086422B2 publication Critical patent/JP4086422B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Geometry (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 動画像中の被写体を高精度で認識すること。 【解決手段】 データベース5中の特徴点配列を仮説集
合7によって修正し(1)、入力フレームと、修正した
データベーステンプレートとを、多重解像度ガボールウ
ェーブレットの可変テンプレートマッチングにより照合
し(2)、ウェーブレット係数の位相で位置のずれを推
定して映像フレーム中の被写体を追跡する。閾値を越え
たマッチング結果は、仮説集合7内の仮説の修正または
新しい仮説の生成に用いられる。すべての仮説について
入力フレームとマッチング終了後、時間的・空間的フィ
ルタリング4により仮説集合7内の証拠値の高い仮説の
みを平滑化して、平滑化した仮説を認識結果として出力
する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、被写体認識装置お
よび記録媒体に関し、パターン認識、持に人物の類やそ
の他の一般物体を対象とした画像情報処理および画像認
識に特徴を有する被写体認識装置および記録媒体に関す
る。
【0002】
【従来の技術】(静止画像認識)静止画像の認識で、こ
れまでのところ最も性能が高そうなシステムはElasticg
raph matching(EBGM)(Wiskott等1996参照)であ
る。本発明は、EBGMシステムを元にして、入力が静止画
ではなく動画像である場合へ拡張する。EBGMシステム
は、認識用特徴として、本発明のシステムと同じような
ガボール・ウェーブレットを採用している。顔にいくつ
かの特徴点の場所を指定して、そこでウェーブレット係
数を計算し、係数集合と特徴点の位置で顔を表現する。
係数の位相で位置ずれを推定できる。
【0003】(被写体の追跡)被写体を追跡するシステ
ムのほとんどは、例えば顔を例にとると、眼、口などの
顔の構成部品のモデル又は画像テンプレートを用いて、
入力画像中でそれらの構成部品の位置を推定し、その結
果から被写体の位置や大きさなどのパラメータを推定す
る(JebaraとPentland 1997参照)。しかしこういうア
プローチは限定された状況にしか応用できない(例えば
向きがほとんど正面であり、サイズが大体知られている
場合等)。
【0004】顔は複雑な三次元構成と可変性を持つ物体
であるため、普通のカルマン・フィルターを用いて顔画
像を追跡することは困難であり、一度対象特徴を見失う
と回復できない。最近開発された輪郭の動きを学習する
CONDENSATIONアルゴリズム(IsardとB1ake
1996参照)は、同時にいくつかの仮説を持ち、間違え
ても回復性能が高いが、モデルが単純なため認識には応
用できない。
【0005】超低ビットレート符号化等のため、三次元
モデルを用いた追跡システムが開発されている(Forchh
eimer 参照)。各特徴点が個別のトラックにならない
ように、推定された特徴点の位置と動きを三次元モデル
に射影する必要がある(JebaraとPentland 1997も参
照)。
【0006】ガボールウェーブレットを用いた追跡シス
テムも存在している。Maurerとvonder Malsburg(1996
参照)はウェーブレット係数の位相を用いた追跡の実験
を行なったが、それぞれの特徴点を最初から独立に処理
するため、特徴点相互の位置関係が乱れて、物体として
の構成を失う場合もある。最近、もう一つこういったシ
ステムが出来た(McKenna等1997参照)。これは主成分
分析を用いて学習集合のPDM(Point Distribution Mo
del)(Cootes等1992参照)を計算し、それで入力映像
中の特徴点の集合を制約する。認識にはまだ応用されて
いない。
【0007】信頼度が低いと思われるデータの推定への
影響を小さくする原理はロバスト推定という分野に属す
る(Black参照)。本願請求項3の手法は、ロバスト推
定の手法の一つと言える。
【0008】
【発明が解決しようとする課題】画像認識が困難である
最大の理由は、認識対象の可変性が多いという問題であ
る。この因子として、被写体自体の可変性(顔の場合で
あれば表情等で変形する)だけでなく、それに加えて6
自由度の動きによる画像内の被写体の位置、サイズ、及
び向きの変化があげられる。さらに照明、陰影、背景、
認識対象の数も不明である。従来の画像認識システムで
は、そういった自由度を減少させるために、多くのパラ
メータを固定して画像を取得する必要があった。放送で
用いられる映像では、条件を限定して撮影できることは
まれであるから、このような可変性の多さに対応できる
認識手法を確立する必要がある。
【0009】本発明は被写体の向き、位置、サイズなど
変化するパラメータによらないで動画像中で動いたりす
る物体を認識することが主な目的である。それに加え
て、変化するパラメータの値を追跡し、ほかの用途にそ
の情報を使用可能にするという目的もある。
【0010】
【課題を解決するための手段】被写体の動きで画像内の
被写体の位置、サイズ、向きが変化することは、従来の
認識システムにとって最大の問題であった。一方、本発
明では、動画像の時間的な連続性を利用し画像領域にお
ける被写体の位置、サイズ、向きを追跡することによ
り、入力フレーム数枚を使って被写体のアイデンティテ
ィについての情報を蓄え、各フレーム毎に得られる新し
い情報によって、蓄積された情報によるアイデンティテ
ィの推定を修正する。すなわち、対象物の動きは認識に
障害となるものではなく、追跡可能な限り、複数のフレ
ームの情報、複数の向きなどが認識に使用可能になると
いう意味で逆に役立つ。
【0011】請求項1の発明は、被写体の画像または画
像特徴を蓄積するデータベースと、認識候補の仮説情報
を蓄積する仮説情報蓄積手段と、各映像フレーム毎の入
力画像または画像特徴とデータベース内の画像または画
像特徴とをマッチング処理するマッチング処理手段と、
前記マッチング処理の結果から、認識候補の仮説情報を
生成するか、または前記仮説情報蓄積手段内のすでにあ
る認識候補の仮説情報を修正する仮説情報処理手段と、
前記仮説情報蓄積手段から被写体認識出力を取り出す手
段とを具えたことを特徴とする。
【0012】上記の請求項1によれば、本発明は追跡と
認識を一連の処理として統一することにより、動きベク
トル抽出などの追跡のみの手法に比べて追跡性能を高く
し、同時にそのフレームでの認識ミスを過去のフレーム
からの追跡により補完することによって高精度な認識が
可能となる。
【0013】請求項2の発明は、請求項1において、各
映像フレーム毎に前記データベース内の各画像または画
像特徴が持つ特徴点集合から前記仮説情報蓄積手段内の
一つの仮説情報が持つ特徴点集合への拡大・回転・平行
移動量を推定する推定手段と、前記推定手段による推定
量に応答して補正した特徴点集合の位置を当該画像また
は画像特徴の特徴点集合として初期化する初期化手段
と、前記初期化手段により初期化された前記画像または
画像特徴を前記マッチング処理手段に供給する手段とを
有することを特徴とする。
【0014】上記の請求項2によれば、探索の初期化手
法により追跡される顔又は対象物体の特徴点の全体的位
置関係が途中で乱れて失われないことで、追跡性能が高
くなる。
【0015】請求項3の発明は、請求項2において、前
記推定手段は、各特徴点毎に、前のフレームで計算した
特徴点毎の特徴との間の類似度を求め、高い類似度を持
つ特徴点ほど前記拡大・回転・平行移動量の推定におけ
る重みを高くすることを特徴とする。
【0016】上記の請求項3によれば、ノイズなどであ
る特徴点の追跡を間違えても、対象物体全体の追跡にあ
まり影響を及ぼさないことにより追跡の性能が高くな
る。
【0017】請求項4の発明は、請求項1〜3のいずれ
かにおいて、被写体の画像特徴を複数の解像度で前記デ
ータベースに蓄積する際に、所定の閾値以上の類似度を
持つ低解像度画像特徴群を、その中の1つもしくは所定
の平均で代表させる手段をさらに有することを特徴とす
る。
【0018】上記の請求項4によれば、データベースを
実際に構成するに当って、構成画像数を減少させること
により、認識速度が高速化する。
【0019】請求項5の発明は、映像フレーム中の被写
体を認識する認識装置のコンピュータにより実行する認
識プログラムを記録した記録媒体において、前記プログ
ラムは、各映像フレーム毎の入力画像または画像特徴と
データベース内の画像または画像特徴とをマッチング処
理するステップと、前記マッチング処理の結果から、認
識候補の仮説情報を生成するか、または仮説情報蓄積手
段内のすでにある認識候補の仮説情報を修正するステッ
プと、前記仮説情報蓄積手段から被写体認識出力を取り
出すステップとを具えたことを特徴とする。
【0020】請求項6の発明は、請求項5において、各
映像フレーム毎に前記データベース内の各画像または画
像特徴が持つ特徴点集合から前記仮説情報蓄積手段内の
一つの仮説情報が持つ特徴点集合への拡大・回転・平行
移動量を推定するステップと、前記推定量に応答して補
正した特徴点集合の位置を当該画像または画像特徴の特
徴点集合として初期化するステップと、前記初期化され
た前記画像または画像特徴を前記マッチング処理に供給
するステップとを有することを特徴とする。
【0021】請求項7の発明は、請求項6において、前
記推定ステップは、各特徴点毎に、前のフレームで計算
した特徴点毎の特徴との間の類似度を求め、高い類似度
を持つ特徴点ほど前記拡大・回転・平行移動量の推定に
おける重みを高くすることを特徴とする。
【0022】請求項8の発明は、請求項5〜7のいずれ
かにおいて、被写体の画像特徴を複数の解像度で前記デ
ータベースに蓄積する際に、所定の閾値以上の類似度を
持つ低解像度画像特徴群を、その中の1つもしくは所定
の平均で代表させるステップを有することを特徴とす
る。
【0023】
【発明の実施の形態】図1は、本発明の実施形態にかか
る認識装置の構成を示す。本認識装置は、専用の装置構
成とすることもできるが、例えば、汎用のパーソナルコ
ンピュータ、ワークステーション等も適用できる。図1
において、本認識装置は、CPU21,システムメモリ
22,ディスプレイ23,ハードディスク記憶装置(H
DD)24,キーボード25,マウス26,入出力イン
ターフェース27を有する。これらは、システムバスを
介して相互に接続されている。認識の対象となる映像信
号は、入出力インターフェース27を介して入力され
る。
【0024】CPU21は、システムメモリ22に格納
されたプログラムに基づき、後述する各処理を含む本認
識装置全体の処理を制御する。システムメモリ22は、
後述する被写体の初期検出、追跡、認識等の処理を行う
際に使用するフレームメモリおよびCPU1の作業領域
を提供する。
【0025】図2は、本認識装置を用いて実現される機
能を示す機能ブロック図であって、これらの機能は、後
述するような各処理のプログラムの実行に伴って実現さ
れる。図2に示すように、仮説によるデータベースの位
置情報修正機能1では、データベース5中の特徴点配列
(詳細は後述)を仮説集合(詳細は後述)7によって修
正し、多重解像度可変テンプレートマッチング機能2で
は、入力フレームと、仮説によるデータベースの位置情
報修正機能1により修正したデータベーステンプレート
とを、多重解像度ガボールウェーブレットの可変テンプ
レートマッチングにより照合し(詳細は後述)、ウェー
ブレット係数の位相で位置のずれを推定して映像フレー
ム中の被写体を追跡する。仮説の修正・生成機能3によ
って、多重解像度可変テンプレートマッチング機能2に
よって得られた、閾値を越えたマッチング結果は、仮説
集合7内の仮説の修正または新しい仮説の生成に用いら
れる。すべての仮説について入力フレームとマッチング
終了後、時間的・空間的フィルタリング機能4により仮
説集合7内の証拠値の高い仮説のみを平滑化して、平滑
化された仮説が認識結果として出力される。被写体の初
期検出による仮説追加機能6では、システムのスタート
時とその後適当な間隔で、入力フレーム中の被写体の初
期検出を行い、その結果を仮説集合7に追加する。計算
量を減らすために、データベース(テンプレート)に関
して、低解像度情報については類似したものを統合して
数を減らす。すなわち似ている被写体テンプレートの低
解像度ウェーブレット係数と特徴点の位置を一つにす
る。
【0026】(特徴の表現)本実施形態では、画像の特
徴量として、被写体上に配置される特徴点の位置とその
位置での多重解像度ガボールウェーブレット係数群(以
下ではこの係数群を「ガボールジェット」と呼ぶ)とい
う2種類の情報(参考文献1参照:参考文献は最後に一
括掲載)を用いる。その場合、ガボールジェットは、以
下の式で表されるガボールウェーブレット関数と特徴点
の回りの画像との畳み込みにより求める。
【0027】方位がn、解像度がrのガボールウェーブレ
ット関数は
【0028】
【数1】
【0029】により与えられる。ここでσは空間的幅で
あり、
【0030】
【数2】
【0031】は二次元空間周波数ベクトル(nは方位番
号、rは周波数番号、krは絶対値)であり、以下のよう
に表される。
【0032】
【数3】
【0033】(データベースの構成)データベースを生
成するため、色々な向きで撮影された被写体の画像を用
意し、入出力インターフェース27から入力して、HD
D24に格納する。その格納した画像をディスプレイ2
3上に表示し、表示した各画像ごとに特徴点の位置をマ
ウス26で指定する。本実施例では20人、19のポー
ズ(左横顔から右横顔まで、10度毎)を用いる。特徴
点の数はNnodes=9であり、顔の内部の二次元情報があ
る場所(髪の毛が邪魔せず、それに輪郭等ではない)を
使用する(図4(a)参照)。
【0034】各特徴点毎に、(Nresns=5つの解像度)
×(Norns=8つの方位)のガボールウェーブレット係
数を計算する。NresnsとNornsの数は参考文献1と8で
用いられているものと同じである。係数ベクトル(その
次元数はNresns×Norns×2(ガボールウェーブレット
係数の実数部と虚数部)×Nnodesである)と特徴点の位
置ベクトル(その次元数はNnodes×2(x,y座標)であ
る)が一つの基本データレコードになる。後の処理が照
度の影響を受けないようにするため、この段階で各解像
度毎に、ガボールウェーブレット係数ベクトルを正規化
する。
【0035】(データベースレコードの統合)多重解像
度可変テンプレートマッチング機能2での計算量を減少
させるため、最低解像度だけで各レコードの一対毎に類
似度を測定し、類似度がしきい値を越えた場合、その2
つのレコードを統合する。レコードA,Bの類似度を
【0036】
【数4】
【0037】で定義する。ここで〈γA,γB〉は最低解
像度だけの係数ベクトルの内積を示し、EABは2つのレコ
ードの特徴点のずれ量(対応すべき特徴点同士の距離の
和)を示す。λはそのバランスを調節するパラメータで
ある。また‖γA‖,‖γB‖はベクトルγA,γBの大き
さを表す。類似度S(A,B)がしきい値を越えた場合、
特徴点の位置を2つのレコードの重み付き平均位置に置
き換え、最低解像度の係数ベクトルのγA,γBをその重
み付き角度平均値に置き換えることにより、2つのレコ
ードを統合する。
【0038】複数のレコードが統合された場合、新しい
レコードと別のレコードの類似度を計算する時、その二
つのレコードのメンバーどうしの最小類似度を用いる。
従ってマージの規準はminimaxになる。このようにする
と任意のメンバーとその代表レコードの誤差が、ある値
を越えないことが保証される。
【0039】最低解像度レコードの統合が終ったら、統
合されたレコード毎のメンバーに対して、次の解像度で
同じ処理を繰り返す。最終的にはデータベース構成は図
5の31に示すように木(ツリー)構成を持つ。なお、
図5は、本発明のシステムの概念を示す。
【0040】(被写体の初期検出)入力フレーム中の被
写体の初期検出法には、多くの可能性がある。例えば顔
の場合、肌の色で顔の位置とサイズを推定する手法は高
速検出が期待できる。応用に応じてそのようなプリプロ
セッサを追加することも可能であるが、ここでは、特徴
としてガボールジェットと特徴点の位置だけを用いる例
を述べる。
【0041】画像中の顔の位置とサイズが予め分からな
いので、いくつかのサイズと位置で探索する必要があ
る。しかし最低解像度の統合されたデータベースを用い
ることにより、計算量はかなり減少する。例えば、10
フレーム毎に以下の処理をする。各方位毎に: 1.二次元FFT(Fast Fourier Transform)で入力フ
レームの周波数ドメイン多重解像度ピラミッドを生成す
る。
【0042】2.各ピラミッド・レベル(オクターブ)
毎に、いくつか(現状で6つ)のサイズで周波数ドメイ
ンのガボールウェーブレットを掛ける。
【0043】3.その出力に、原点を中心とした正方領
域を重ね掛ける。これは空間ドメインのサブサンプリン
グと等価であり、後の逆FFTは縮小サイズで実行でき
る。
【0044】4.サブサンプルされたガボールウェーブ
レット係数を逆FFTで得る。
【0045】5.係数の絶対値を計算する。
【0046】6.各最低解像度データベースレコード毎
の特徴点の位置で、入力フレームのサブサンプルされた
位置でのウェーブレット係数の絶対値ベクトルとレコー
ドの絶対値ベクトルの内積を求め、類似度を計測する。
【0047】7.しきい値を越えた類似度の局所的な最
大値があれば、新しい仮説を生成する。仮説Hの内容は
下記のとおりである: (a)ポーズ(顔の向き)pH; (b)各特徴点ごとに、
【0048】
【外1】
【0049】(これが後の処理の中で重みを決める); (c)検出した画像領域の中心位置と推定拡大率(x,
y,r)。
【0050】(顔の追跡)以下では、図3にしたがって
順に動作を説明する。
【0051】ある仮説Hが既存しているとする(図3の
11)。そのポーズをpHと呼び、各特徴点の位置が
【0052】
【外2】
【0053】であるとする。
【0054】新しく読み込まれたフレームに対して、空
間ドメインの処理で多重解像度ピラミッドを作成する。
【0055】ポーズpH−wPからpH+wPまでの各ポーズ毎
に、そのポーズを持つ全ての最低解像度データベースレ
コードDBmを選び出し(図3の12)、その特徴点の位
【0056】
【外3】
【0057】への拡大、回転及び平行移動の変換を、重
み付き最小自乗法で推定し、実行する。この結果が探索
用の初期位置になる(図3の13)。このように初期化
された特徴点集合は、現在のデータベースレコードDBm
の特徴点位置のグローバルな位置関係に従うことが保証
される。
【0058】次に、適当なウェーブレット・サイズ(推
定拡大率から分かる)を選び、射影された特徴点の位置
で入力フレームの最低解像度ウェーブレット係数ベクト
ルを測定する。この係数の位相から、各特徴点毎に仮説
から入力フレームまでの位置ずれを、重み付き最小自乗
法で推定する(参考文献1)。同計算で、ずらした特徴
点のデータベースレコードとの類似度が与えられる。こ
れを繰り返して類似度が最大になるまで続ける(図3の
14)。類似度の最大値がその特徴点の重みを決める。
【0059】ロバスト推定(参考文献10)は、信頼性
が高ければ高い程そのデータの重みを高くし、信頼性が
低そうに見えるデータ(outlier)の重みを低くするこ
とにより、推定結果へのノイズ等の影響を減らす手法で
ある。もちろん、信頼性そのものを推定するのは重要な
課題であるが、例えば周りのデータの平均値に近いデー
タがおそらく信頼性が高い。
【0060】本実施形態の場合、各特徴点毎に類似度が
求められるので、類似度が高ければ高い程この特徴点が
データベースレコードに合致していると言える。類似度
が高ければその推定位置の信頼性が高いと考えられるの
で、グローバル変換(拡大、回転、平行移動)を推定す
る時、この特徴点の推定位置の重みを高くすれば良い。
類似度が低い場合、特徴点を間違えているか他の物体と
重なっていて見えない(特徴点の消失)可能性があるの
で、その重みを低くすれば良い。
【0061】(顔の認識)追跡処理によりずらされた特
徴点の位置とそのデータベースレコードとの類似度が与
えられる。式(3)に示す全体類似度を計算するため: 1.特徴点類似度を大きい順にN0個選び、その平均を、
式(3)の右辺の一項目とする。その結果類似度が低い
Nnodes−N0個の特徴点は無視され、ノイズ又は特徴点の
消失に対してロバスト(頑健)になる。
【0062】2.ずれた特徴点の位置に関して、再度デ
ータベースレコードに重み付き最小自乗射影(拡大、回
転、平行移動)を計算する。計算の結果得られる射影の
誤差を数式(3)の右辺の第二項とする。
【0063】データベースレコードとの類似度がしきい
値を越えた場合、このデータベースレコードにヒットが
あったと言う。ヒットがなかったら、このデータベース
レコードの処理は終了する。ヒットがあった場合、次の
解像度まで進む(図3の15)。その意味は下記のとお
りである:1.データベースレコードとして、図5の3
1に示されているように、現在のレコードの下にある次
の解像度のレコードを順番に処理する。
【0064】2.処理内容は、先に説明したのと同じ
く、以下の順に行う: (a)重み付き射影 (b)ウェーブレット係数の測定 (c)特徴点の位置ずらしと新しい類似度の計算 (d)各特徴点毎の類似度と重み付き射影の誤差から、
全体類似度の計算 3.ただし、上記の処理の説明において“仮説が持つ特
徴点の位置”の替わりに、“一つ前の解像度での特徴点
の最終位置”を用いる。
【0065】4.全体類似度がしきい値を越えた場合、
ヒットとなって、さらに次の解像度に進む。
【0066】途中でヒットがあった全てのデータベース
レコード毎に、そのレコードのメンバーの附属証拠値を
増やす(図3の16)。(データベースに入っている人
物に加え、‘データベースに入っていない人物’という
バーチャル人物も含まれている。この人物は最低解像度
データベースレコードだけのメンバーであり、最低解像
度レコードでヒットがあっても高解像度レコードでヒッ
トがない時、この人物の証拠値が上がる。) この処理を繰り返し、ある解像度までヒットがあったが
それ以下ではヒットがなかったデータベースレコード
(terminating node)毎に、新しい仮説を作成する。蓄
積された証拠値をこの仮説に附属させる(図3の1
7)。
【0067】(空間的、時間的フィルタリング)新しい
仮説集合の中には、入力フレームの同じ領域を占める仮
説がいくつか存在することが普通である。そういった仮
説をグループ化し、グループ内のメンバー仮説がお互い
に競合するしくみを作ってある。このため、競合の後で
は各グループ毎に、証拠値が高い順にいくつかの仮説し
か残らないようになる。
【0068】これらの仮説グループの仮説内容を時間的
フィルタリングし、Bayes法によって生成、修正したも
のを平滑化仮説と呼ぶ。領域の中心位置とサイズ、及び
ポーズと各人物の推定確率が付いている。システムの出
力はこれら平滑化仮説のパラメータの中から必要なもの
を選ぶことができる。
【0069】図4は特徴点の配置例、検出、追跡、出力
の例を示す図である。図4の(a)は、指定された特徴
点の場所を示す。9点を使用した例である。図4の
(b)は検出後の特徴点集合の例を示す。図4の(c)
は追跡処理の結果の例を示す。図4の(b)よりほとん
どの特徴点の推定位置は正確であることが分かる。右上
の特徴点が顔の目尻から少し離れているので、そこのテ
ンプレートとの類似度が比較的低いことが予想される。
次のフレームの追跡の際には、(顔の追跡)の項で説明
したように、その特徴点の影響が小さくなるので、全体
の追跡性能は高くなる。図4の(d)はシステム出力の
例を示す。四角は顔領域の位置とサイズを表す。登録人
物一人ずつの推定確率の中の最大値(“Prob”)とその
人物のID番号(“ID”)と顔の推定された向き(“pos
e”)が四角の下に示されている。これは一例であり、
どの情報をシステムから出力するか変わる可能性があ
る。
【0070】
【発明の効果】以上説明したように、本発明によれば、
動画像であっても、画像中の被写体を高精度で認識する
ことができる。
【0071】(参考文献) 1.Wiskott,L.,Fellous,J‐M.,Kruger,N.,vo
n der Malsburg,C.Face Recognition by E1astic B
unch Graph Matching.TR96-08,Institut fur Neuroin
formatik,Ruhr-Universitat Bochum, 1996. 2.Clippingdale, S., 伊藤崇之.動画像の顔検出・追
跡・認識への統一されたアプローチ.電子通信学会、パ
ターン認識・メディア理解研究会prmu98-200、1999. 3.Okada,K.,Steffens,J.,Maurer, T.,Hong, H., Elagi
n, E., Neven, H., vonder Malsburg, C. Bochum/USC F
ace Recognition System And How it Fared inthe FERE
T Phase III Test. Face Recognition: From Theory to
Applications, Springer-Verlag, in press. 4.Jebara, A., Pentland, A. Parametrized Structur
e from Motion for 3D Adaptive Feedback Tracking of
faces. Proc. IEEE CVPR'97. 5.Isard, M., Blake, A. Contour tracking by stoch
astic propagation of conditional density. Proc. EC
CV'96, 343-356, Cambridge, UK, 1996. 6.Li, H., Roivainen, P., Forchheimer, R. 3-D Mot
ion Estimation in Model-Based Facial Image Coding.
IEEE Trans. PAMI, 15(6),545-555, 1993. 7.Maurer, T., von der Malsburg, C. Tracking and
Learning Graphs and Pose on Image Sequences of Fac
es. Proc. 2nd Int. Conf. On Automatic Face and Ges
ture Recognition, Vermont, 1996.
【0072】
【外4】
【0073】9.Cootes, T., Taylor, C., Cooper,
D., Graham, J. Training models of shape from sets
of examples. Proc. BMVC'92, 9-18, 1992. 10.Black, M., Anandan, P. A framework for the r
obust estimation of optical flow. Proc. ICCV'93, B
erlin,231-236,1993.
【図面の簡単な説明】
【図1】本発明の実施形態の構成を示す図である。
【図2】本実施形態の機能ブロック図である。
【図3】特徴点の追跡・修正手順を説明する図である。
【図4】特徴点の配置例、検出、追跡、出力の例を示す
図である。
【図5】本発明の概念を説明する図である。
【符号の説明】
1 仮説によるデータベースの位置情報修正機能 2 多重解像度可変テンプレートマッチング 3 仮説の修正・生成機能 4 時間的・空間的フィルタリング機能 5 データベース 7 仮説集合 21 CPU 22 システムメモリ 23 ディスプレイ 24 ハードディスク記憶装置(HDD) 26 マウス
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5L096 DA02 EA06 EA13 EA14 EA15 EA16 EA39 FA15 FA32 FA69 GA32 GA51 GA55 HA03 JA03 JA09 JA11 JA13 KA03 KA09 9A001 BB01 BB03 BB04 FF03 GG05 HH03 HH05 HH07 HH21 HH23 HH24 HH29 HH30 KK37

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 被写体の画像または画像特徴を蓄積する
    データベースと、 認識候補の仮説情報を蓄積する仮説情報蓄積手段と、 各映像フレーム毎の入力画像または画像特徴とデータベ
    ース内の画像または画像特徴とをマッチング処理するマ
    ッチング処理手段と、 前記マッチング処理の結果から、認識候補の仮説情報を
    生成するか、または前記仮説情報蓄積手段内のすでにあ
    る認識候補の仮説情報を修正する仮説情報処理手段と、 前記仮説情報蓄積手段から被写体認識出力を取り出す手
    段とを具えたことを特徴とする被写体認識装置。
  2. 【請求項2】 請求項1において、 各映像フレーム毎に前記データベース内の各画像または
    画像特徴が持つ特徴点集合から前記仮説情報蓄積手段内
    の一つの仮説情報が持つ特徴点集合への拡大・回転・平
    行移動量を推定する推定手段と、 前記推定手段による推定量に応答して補正した特徴点集
    合の位置を当該画像または画像特徴の特徴点集合として
    初期化する初期化手段と、 前記初期化手段により初期化された前記画像または画像
    特徴を前記マッチング処理手段に供給する手段とを有す
    ることを特徴とする被写体認識装置。
  3. 【請求項3】 請求項2において、 前記推定手段は、各特徴点毎に、前のフレームで計算し
    た特徴点毎の特徴との間の類似度を求め、高い類似度を
    持つ特徴点ほど前記拡大・回転・平行移動量の推定にお
    ける重みを高くすることを特徴とする被写体認識装置。
  4. 【請求項4】 請求項1〜3のいずれかにおいて、 被写体の画像特徴を複数の解像度で前記データベースに
    蓄積する際に、所定の閾値以上の類似度を持つ低解像度
    画像特徴群を、その中の1つもしくは所定の平均で代表
    させる手段をさらに有することを特徴とする被写体認識
    装置。
  5. 【請求項5】 映像フレーム中の被写体を認識する認識
    装置のコンピュータにより実行する認識プログラムを記
    録した記録媒体において、 前記プログラムは、各映像フレーム毎の入力画像または
    画像特徴とデータベース内の画像または画像特徴とをマ
    ッチング処理するステップと、 前記マッチング処理の結果から、認識候補の仮説情報を
    生成するか、または仮説情報蓄積手段内のすでにある認
    識候補の仮説情報を修正するステップと、 前記仮説情報蓄積手段から被写体認識出力を取り出すス
    テップとを具えたことを特徴とする記録媒体。
  6. 【請求項6】 請求項5において、 各映像フレーム毎に前記データベース内の各画像または
    画像特徴が持つ特徴点集合から前記仮説情報蓄積手段内
    の一つの仮説情報が持つ特徴点集合への拡大・回転・平
    行移動量を推定するステップと、 前記推定量に応答して補正した特徴点集合の位置を当該
    画像または画像特徴の特徴点集合として初期化するステ
    ップと、 前記初期化された前記画像または画像特徴を前記マッチ
    ング処理に供給するステップとを有することを特徴とす
    る記録媒体。
  7. 【請求項7】 請求項6において、 前記推定ステップは、各特徴点毎に、前のフレームで計
    算した特徴点毎の特徴との間の類似度を求め、高い類似
    度を持つ特徴点ほど前記拡大・回転・平行移動量の推定
    における重みを高くすることを特徴とする記録媒体。
  8. 【請求項8】 請求項5〜7のいずれかにおいて、 被写体の画像特徴を複数の解像度で前記データベースに
    蓄積する際に、所定の閾値以上の類似度を持つ低解像度
    画像特徴群を、その中の1つもしくは所定の平均で代表
    させるステップを有することを特徴とする記録媒体。
JP20676499A 1999-07-21 1999-07-21 被写体認識装置 Expired - Lifetime JP4086422B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20676499A JP4086422B2 (ja) 1999-07-21 1999-07-21 被写体認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20676499A JP4086422B2 (ja) 1999-07-21 1999-07-21 被写体認識装置

Publications (2)

Publication Number Publication Date
JP2001034756A true JP2001034756A (ja) 2001-02-09
JP4086422B2 JP4086422B2 (ja) 2008-05-14

Family

ID=16528712

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20676499A Expired - Lifetime JP4086422B2 (ja) 1999-07-21 1999-07-21 被写体認識装置

Country Status (1)

Country Link
JP (1) JP4086422B2 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030040701A (ko) * 2001-11-15 2003-05-23 엘지전자 주식회사 3차원 다면체 표면의 변형 추정 방법
KR20040042501A (ko) * 2002-11-14 2004-05-20 엘지전자 주식회사 형판 정합 기반 얼굴 검출방법
JP2006202276A (ja) * 2004-12-22 2006-08-03 Fuji Photo Film Co Ltd 画像処理方法および装置並びにプログラム
WO2007055999A1 (en) * 2005-11-02 2007-05-18 Microsoft Corporation Robust online face tracking
JP2008112462A (ja) * 2007-12-21 2008-05-15 Toshiba Corp 顔画像による顔領域追跡方法及びその装置
JP2008282386A (ja) * 2007-05-10 2008-11-20 Honda Motor Co Ltd 物体検出装置、物体検出方法及び物体検出プログラム
JP2009517745A (ja) * 2005-11-30 2009-04-30 シーイング・マシーンズ・プロプライエタリー・リミテッド 視覚的に頭と目を追跡するシステムにおける眼鏡の視覚的追跡
JP2009535680A (ja) * 2006-04-28 2009-10-01 トヨタ モーター ヨーロッパ ナムローゼ フェンノートシャップ ロバスト(robust)関心点検出器および記述子
JP2011096121A (ja) * 2009-10-30 2011-05-12 Dainippon Printing Co Ltd 画像処理装置、画像処理方法及び画像処理プログラム
KR101043061B1 (ko) 2008-10-21 2011-06-21 충북대학교 산학협력단 이산 웨이블렛 변환을 이용한 smd 검사 방법
WO2011086594A1 (ja) * 2010-01-13 2011-07-21 株式会社 東芝 画像処理装置、及びその方法
JP2012238111A (ja) * 2011-05-10 2012-12-06 Nippon Hoso Kyokai <Nhk> 顔画像認識装置及び顔画像認識プログラム
US8401333B2 (en) 2005-06-08 2013-03-19 Fujitsu Limited Image processing method and apparatus for multi-resolution feature based image registration
US9098760B2 (en) 2011-09-15 2015-08-04 Kabushiki Kaisha Toshiba Face recognizing apparatus and face recognizing method

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030040701A (ko) * 2001-11-15 2003-05-23 엘지전자 주식회사 3차원 다면체 표면의 변형 추정 방법
KR20040042501A (ko) * 2002-11-14 2004-05-20 엘지전자 주식회사 형판 정합 기반 얼굴 검출방법
JP4690190B2 (ja) * 2004-12-22 2011-06-01 富士フイルム株式会社 画像処理方法および装置並びにプログラム
JP2006202276A (ja) * 2004-12-22 2006-08-03 Fuji Photo Film Co Ltd 画像処理方法および装置並びにプログラム
US8401333B2 (en) 2005-06-08 2013-03-19 Fujitsu Limited Image processing method and apparatus for multi-resolution feature based image registration
WO2007055999A1 (en) * 2005-11-02 2007-05-18 Microsoft Corporation Robust online face tracking
US8098885B2 (en) 2005-11-02 2012-01-17 Microsoft Corporation Robust online face tracking
JP2009517745A (ja) * 2005-11-30 2009-04-30 シーイング・マシーンズ・プロプライエタリー・リミテッド 視覚的に頭と目を追跡するシステムにおける眼鏡の視覚的追跡
US8165347B2 (en) 2005-11-30 2012-04-24 Seeing Machines Pty Ltd Visual tracking eye glasses in visual head and eye tracking systems
JP2009535680A (ja) * 2006-04-28 2009-10-01 トヨタ モーター ヨーロッパ ナムローゼ フェンノートシャップ ロバスト(robust)関心点検出器および記述子
JP2008282386A (ja) * 2007-05-10 2008-11-20 Honda Motor Co Ltd 物体検出装置、物体検出方法及び物体検出プログラム
JP4660534B2 (ja) * 2007-12-21 2011-03-30 株式会社東芝 顔画像による顔領域追跡方法及びその装置
JP2008112462A (ja) * 2007-12-21 2008-05-15 Toshiba Corp 顔画像による顔領域追跡方法及びその装置
KR101043061B1 (ko) 2008-10-21 2011-06-21 충북대학교 산학협력단 이산 웨이블렛 변환을 이용한 smd 검사 방법
JP2011096121A (ja) * 2009-10-30 2011-05-12 Dainippon Printing Co Ltd 画像処理装置、画像処理方法及び画像処理プログラム
WO2011086594A1 (ja) * 2010-01-13 2011-07-21 株式会社 東芝 画像処理装置、及びその方法
JPWO2011086594A1 (ja) * 2010-01-13 2013-05-16 株式会社東芝 画像処理装置、及びその方法
JP5431501B2 (ja) * 2010-01-13 2014-03-05 株式会社東芝 画像処理装置、及びその方法
US8693804B2 (en) 2010-01-13 2014-04-08 Kabushiki Kaisha Toshiba Image processing apparatus and method
JP2012238111A (ja) * 2011-05-10 2012-12-06 Nippon Hoso Kyokai <Nhk> 顔画像認識装置及び顔画像認識プログラム
US9098760B2 (en) 2011-09-15 2015-08-04 Kabushiki Kaisha Toshiba Face recognizing apparatus and face recognizing method

Also Published As

Publication number Publication date
JP4086422B2 (ja) 2008-05-14

Similar Documents

Publication Publication Date Title
US10460463B2 (en) Modelling a three-dimensional space
Zhang et al. Motion analysis
Dockstader et al. Multiple camera tracking of interacting and occluded human motion
JP4644248B2 (ja) 多重視野特徴記述子を用いた同時位置決め及びマッピング
US7755619B2 (en) Automatic 3D face-modeling from video
US6400828B2 (en) Canonical correlation analysis of image/control-point location coupling for the automatic location of control points
US7376246B2 (en) Subspace projection based non-rigid object tracking with particle filters
US7817822B2 (en) Bi-directional tracking using trajectory segment analysis
US20060285770A1 (en) Direct method for modeling non-rigid motion with thin plate spline transformation
JP4086422B2 (ja) 被写体認識装置
JP2005165791A (ja) 対象物の追跡方法及び追跡システム
Zhang et al. Real time feature based 3-d deformable face tracking
Kervrann et al. Robust tracking of stochastic deformable models in long image sequences
Clippingdale et al. A unified approach to video face detection, tracking and recognition
Chang et al. Visual tracking in high-dimensional state space by appearance-guided particle filtering
Bouaynaya et al. A complete system for head tracking using motion-based particle filter and randomly perturbed active contour
Dornaika et al. Face and facial feature tracking using deformable models
Demirdjian Combining geometric-and view-based approaches for articulated pose estimation
Fei et al. Joint bayes filter: A hybrid tracker for non-rigid hand motion recognition
Georgescu et al. Multi-model component-based tracking using robust information fusion
Raskin et al. Using gaussian processes for human tracking and action classification
Raskin et al. Tracking and classifying of human motions with gaussian process annealed particle filter
Fossati et al. Tracking articulated bodies using generalized expectation maximization
Goldenstein et al. When occlusions are outliers
Vilaplana et al. Face tracking using a region-based mean-shift algorithm with adaptive object and background models

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070810

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071009

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080219

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110228

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4086422

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120229

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130228

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140228

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term