JP2009217855A - 視覚型動き解析及び視覚型追跡のためのアピアランスモデル - Google Patents

視覚型動き解析及び視覚型追跡のためのアピアランスモデル Download PDF

Info

Publication number
JP2009217855A
JP2009217855A JP2009155784A JP2009155784A JP2009217855A JP 2009217855 A JP2009217855 A JP 2009217855A JP 2009155784 A JP2009155784 A JP 2009155784A JP 2009155784 A JP2009155784 A JP 2009155784A JP 2009217855 A JP2009217855 A JP 2009217855A
Authority
JP
Japan
Prior art keywords
image
component
data
appearance model
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009155784A
Other languages
English (en)
Other versions
JP4824791B2 (ja
Inventor
Allan D Jepson
ディー ジェプソン アラン
David J Fleet
ジェイ フリート デビッド
Thomas F El-Maraghi
エフ エル マラギー トーマス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2009217855A publication Critical patent/JP2009217855A/ja
Application granted granted Critical
Publication of JP4824791B2 publication Critical patent/JP4824791B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

【課題】複雑な自然オブジェクトの動きベースの追跡のための堅牢な適応型アピアランス・モデルを提供する。
【解決手段】アピアランス・モデル120は、長い時間経過にわたって学習される安定モデル・コンポーネント(S)、および比較的短い時間経過(たとえば2−フレームの動きコンポーネント(W)および/またはアウトライア処理コンポーネント(L))にわたって学習される推移コンポーネント(W/L)を含む。オンラインEMアルゴリズムが使用されて、経時的にアピアランス・モデル・パラメータの適応が行われる。このアプローチの実装は、ステアラブル・ピラミッドからのフィルタ応答に基づいて展開されている。アピアランス・モデルは、動きベースの追跡アルゴリズム110内において使用され、オクルージョンによって生じるようなイメージのアウトライアに抗して堅牢性を提供する。
【選択図】図1

Description

本発明は、概して、アピアランス・モデルを生成し、かつ更新するためのプロセッサ−ベースのテクニックに関し、より詳細には、複数のモデル・コンポーネントを使用してアピアランス・モデルを生成するためのプロセスに関する。
自動化された視覚型追跡システムがしばしば使用されて、一連のイメージ・フレーム内に現れるターゲット・イメージの追跡が行われる。概して、ターゲット・オブジェクトが識別された後は、追跡システムが、当該ターゲット・オブジェクトを背景ならびにそのほかの非ターゲット・イメージ・データから区別することによって、連続するそれぞれのイメージ・フレーム内における当該ターゲット・オブジェクトのポジションを決定する。この種の追跡システムは、しばしば動き評価アルゴリズムを使用し、新しい(カレント)イメージ・フレーム内のターゲット・オブジェクトの動きを、当該新しいフレームに先行する2ないしはそれを超える数のイメージ・フレーム内におけるターゲット・オブジェクトの動きのパターンを解析することによって予測している。
必ずしもそれそのものとして述べられてはいないが、従来の動き評価および追跡システムは、何らかの形式のアピアランス・モデルを具体化しており、それが使用されて各イメージ・フレーム内のターゲット・オブジェクトが識別される。概して、アピアランス・モデルは、ターゲット・オブジェクトの記述であって、動き評価/追跡システムは、それを使用して、各イメージ・フレーム内のターゲット・オブジェクトを、当該ターゲット・オブジェクトを囲む非ターゲット・オブジェクトから区別することができる。ターゲット・オブジェクトがロケーションを変化させるとき、動き評価/追跡システムは、アピアランス・モデルによって提供されるすでに確立済みの記述を満足する新しいフレームの領域を識別することにより、それぞれの新しいロケーションを識別する。
動き評価および追跡システムのパフォーマンスを制限する主要な要因の1つは、アピアランス・モデルがターゲット・オブジェクトのアピアランスの変化に対する適応に失敗することである。3次元(3D)空間内に配置された3Dターゲット・オブジェクトによって2次元イメージ・フレーム内に伝えられるイメージは、通常、ターゲット・オブジェクトとイメージ・フレーム生成デバイス(たとえばカメラ)の間の相対的な変位によってもたらされるイメージのひずみの影響を受ける。たとえば、カメラとターゲット・オブジェクトのポジションの間の距離が変化するとターゲット・オブジェクトのサイズがより大きく、またはより小さくなる。同様に、形状および/またはターゲット・オブジェクトから反射される光についても、通常、カメラに対する相対的なターゲット・オブジェクトの向きの変化(たとえばターゲット・オブジェクトまたはカメラの回転もしくは平行移動)に起因して変化する。それに加えて、非ターゲット・オブジェクトによるターゲット・オブジェクトの部分的もしくは完全なオクルージョン(つまり、ターゲット・オブジェクトとカメラの間への介挿)が発生した場合にもイメージのひずみを生じる。さらに、複雑な自然オブジェクト(つまり、アピアランスが、顔の表情等の、ターゲット・オブジェクトとカメラの間における相対的な変位と独立した変化の影響を受けやすいオブジェクト)が、追加のアピアランスのバリエーションをもたらし、それについてもアピアランス・モデルによって説明が得られなければならない。以下に追加の詳細を述べるが、テンプレート・マッチング・モデル、グローバル統計モデル、2−フレームの動き評価、および時間的にフィルタリングされた動き補償イメージ・モデルといった従来のアピアランス・モデルは、これらのひずみの1ないしは複数の説明に失敗しており、その結果、動き評価および追跡システムが最終的にターゲット・オブジェクトの追跡を逃している。
テンプレート・マッチング・アピアランス・モデルは、ターゲット・オブジェクトの、あらかじめ学習済みの固定イメージ・モデル(「テンプレート」)であり、それが追跡システムによって使用されて、イメージ・フレーム内のターゲット・オブジェクトが識別(「マッチング」)され、それによってそのロケーションが決定される。この種の追跡システムは、短期間(つまり、ターゲット・オブジェクトのアピアランスが固定イメージ・モデルと無矛盾を維持する間)にわたって信頼に足るものとなり得るが、多くの応用に共通して生じる、より長い期間にわたるターゲット・オブジェクトのアピアランスの変化に良好に対処できない。これらの追跡システムの信頼性は、テンプレート内において各ピクセルの変動性を表現することによって改善することができる(特許文献1参照)。しかしながら、追跡に先行して学習段階が必要となり、そこではトレーニング・イメージ・データに関して各ピクセルにおけるイメージの輝度の分散の評価が行われる。
追跡システムの信頼性は、アピアランスの部分空間モデルの使用を伴って強化されることもある(たとえば、特許文献2参照)。一般に基本コンポーネント解析を用いて学習されるこの種のビュー・ベースのモデルは、ポーズおよび照明におけるバリエーションのモデリングに利点を有する。これらは、サーチだけでなく、逐次追跡にも使用することができる。しかしながら同時にそれらは、それらがオブジェクト固有であるという不利点、および部分空間の学習のために追跡に先行して行われるトレーニングを必要とするという不利点も有している。
カラー・ヒストグラム等のローカルならびにグローバル・イメージ統計も、ターゲット・オブジェクトの追跡のための粗いアピアランス・モデルとして使用されてきた(たとえば特許文献3参照)。これらのアピアランス・モデルは、イメージのひずみおよびオクルージョンが生じたときの堅牢性を提供し、学習が高速であり、かつサーチだけでなく追跡に使用することもできる。しかしながら、グローバルな統計的記述は、アピアランスの空間構造が欠けている;言い換えると、多数の類似するカラー・ピクセル(たとえば、高い比率の赤および青のピクセル)をそれらのカラー・ピクセルの空間的な関係(たとえば、青いズボンの上に配置される赤いシャツのイメージに関連付けされる青ピクセルのグループの上に垂直に配置される赤ピクセルのグループ)から区別する能力に欠けている。この表現能力の欠如は、多くの場合にグローバルな統計的記述の、ターゲット・オブジェクトにアピアランス・モデルを正確にレジストする能力を制限する。それに加えて、これらの粗いアピアランス・モデルは、類似の統計を近隣の領域と共有する注目領域内におけるオブジェクトの正確な追跡に失敗する可能性も有する。
動きベースの追跡方法は、時間を通して動き評価を調整する。2−フレームの動き評価の場合は、それぞれの連続するフレームのペアの間において動きが計算される。それぞれの連続するフレームのペアの間において動きが計算されることから、動きベースの追跡システムによって使用されるアピアランスの唯一のモデルは、最後のフレーム内の注目領域内におけるターゲット・オブジェクトのアピアランスである。その結果、この方法の誤差は、時間とともに急速に累積される可能性がある。2−フレームの動き評価におけるアピアランス・モデルは、アピアランスの急な変化に適応することができる。しかしながら、ターゲット・オブジェクトがアピアランスをすばやく変化させるときには、しばしばアピアランス・モデルがターゲット・オブジェクトからドリフトして離れる。その結果、しばしば注目領域がターゲット・オブジェクトからスライドして、背景もしくは別のオブジェクト上にはずれる。これは、特に、ターゲット・オブジェクトと背景の動きが類似しているときに問題をもたらすものとなる。
動きベースの追跡方法は、時間的に適応型アピアランス・モデルを蓄積することによって改善された。実際、最適動き評価を、同時的な動きおよびアピアランス両方の評価として公式化することが可能である(特許文献4参照)。この意味においては、前述の学習済みの部分空間アプローチと同様に、最適動き評価が、時間を通じて獲得されるアピアランス・モデルに対してイメージをレジストすることによって達成される。たとえば、安定化後のイメージのシーケンスを、動き評価から形成し、アピアランス・モデルを学習させることができる。この安定化後のイメージ・シーケンスは、IIRロー・パス・フィルタ等の再帰ロー・パス・フィルタを用いてスムージングし、いくつかのノイズの除去およびもっとも新しいフレームのアップ・ウェイトを行うことができる。しかしながら、線形フィルタリングは、オクルージョンおよび局所的なアピアランスのひずみに関して堅牢性をもたらす安定性の尺度を提供しない。
2000年6月にヒルトン・ヘッドで開催されたIEEE Conference on Computer Vision and Pattern Recognition(コンピュータの視覚およびパターン認識に関するIEEE会議)の会報、第I巻、185〜192ページにあるB.Frey(B.フレイ)による「Filling in Scenes by Propagating Probabilities Through Layers into Appearance Models(レイヤを介したアピアランス・モデル内への確率の伝播によるシーン内のフィリング)」 1998年のInternational Journal of Computer Vision(インターナショナル・ジャーナル・オブ・コンピュータ・ビジョン)26(1):63〜84にあるM.J.Black(M.J.ブラック)およびA.D.Jepson(A.D.ジェプソン)による「EigenTracking: Robust Matching and Tracking of Articulated Objects using a View Based Representation(固有追跡:ビュー−ベース表現を使用する連節オブジェクトの堅牢なマッチングおよび追跡)」 1998年6月にサンタバーバラで開催されたIEEE Conference on Computer Vision and Pattern Recognition(コンピュータの視覚およびパターン認識に関するIEEE会議)の会報、232〜237ページにあるS.Birchfield(S.バーチフィールド)による「Elliptical Head Tracking Using Intensity Gradients and Color Histograms(明暗度グラディエントおよびカラー・ヒストグラムを使用する長円頭部追跡)」 2001年、ケンブリッジ、MITプレスのProbabilistic Models of the Brain: Perception and Natural Function(脳の蓋然論的モデル:知覚および自然関数)の81〜100ページにあるY.Weiss(Y.バイス)およびD.J.Fleet(D.J.フリート)による「Velocity Likelihoods in Biological and Machine Vision(生物学的およびマシンの視覚における速度尤度)」
必要とされているものは、複雑な自然オブジェクトの動きベースの追跡のための堅牢な適応型アピアランス・モデルである。そのアピアランス・モデルは、緩やかに変化するアピアランスをはじめ、観測されるイメージ構造の安定性の自然な評価の、追跡の間にわたる維持に適応する必要がある。またアピアランス・モデルは、オクルージョン、著しいイメージのひずみ、および顔の表情ならびに衣類に伴って生じるような自然なアピアランスの変化に関して堅牢である必要がある。アピアランス・モデルのフレームワークは、局所的な特徴追跡等の可能性のある各種応用に関する追跡および正確なイメージ・アライメントをサポートし、かつ人体の肢等の相対的なアライメントおよびポジションが重要になるモデルの追跡をサポートする必要がある。
本発明は、複数の連続したイメージフレーム内に提供されるイメージデータを使用するアピアランスモデルを生成するための方法であって、前記アピアランスモデルが、第1の混合確率及び比較的多数の連続したイメージフレーム内に提供されるイメージデータによって定義される第1のデータパラメータを含む安定コンポーネントによって定義され、かつ前記アピアランスモデルが、第2の混合確率及び比較的少数の連続したイメージフレーム内に提供されるイメージデータによって定義される第2のデータパラメータを有する推移コンポーネントを包含し、前記方法が、複数の連続したイメージフレームの、もっとも新しいイメージフレームに対応するイメージデータを受け取るステップと、前記安定コンポーネントに関する第1の尤度値及び前記推移コンポーネントに関する第2の尤度値の決定であって、前記第1の尤度値が前記イメージデータと前記第1のデータパラメータの間における相対的な一致を示し、第2の尤度値が前記イメージデータと前記第2のデータパラメータの間における相対的な一致を示すものとするステップと、前記第1および第2の尤度値をそれぞれ使用して、前記安定コンポーネントの前記混合確率及び前記推移コンポーネントの前記第2の混合確率を更新するステップを含む。
また、本発明は、選択されたターゲットオブジェクトを追跡するための方法であって、前記ターゲットオブジェクトに関連付けされたイメージデータを含むカレントイメージフレームを受け取るステップと、ターゲットオブジェクトの動きを、時間的に前記カレントイメージフレームに先行する比較的多数のイメージフレームにわたって受け取られたイメージデータによって定義されるパラメータを有する第1のイメージコンポーネント及び時間的に前記カレントイメージフレームに先行する比較的少数の連続するイメージフレームにわたるイメージデータによって定義されるパラメータを有する第2のイメージコンポーネントを含む適応型アピアランスモデルを使用して評価するステップと、前記第1及び第2のイメージコンポーネントを更新するステップを含む。
また、本発明の適応型アピアランスモデルは、プロセッサによりコントロールされるマシン上に実装される、複数の連続したイメージフレーム内に現れるオブジェクトを識別するための適応型アピアランスモデルであって、比較的多数の連続したイメージフレームにわたって安定を保つイメージデータによって定義されるパラメータを有する第1のイメージコンポーネントと、比較的少数の連続したイメージフレームによって定義されるパラメータを有する第2のイメージコンポーネントを含み、かつ、複数の連続したイメージフレームのカレントイメージフレームを受け取った後に、前記第1のイメージコンポーネントを更新するための手段とを包含する。
発明の実施態様に従ったアピアランス・モデルを含む追跡システムを図示したブロック図である。 図1の追跡システム内において使用されるアピアランス・モデルの概略の動作を図示したフローチャートである。 アピアランス・モデルによって処理されるいくつかのイメージのひずみを示した写真である。 アピアランス・モデルによって処理されるいくつかのイメージのひずみを示した写真である。 アピアランス・モデルによって処理されるいくつかのイメージのひずみを示した写真である。 アピアランス・モデルによって処理されるいくつかのイメージのひずみを示した写真である。 イメージ・データおよび関連するアピアランス・モデルの混合パラメータを示した説明図である。 イメージ・データおよび関連するアピアランス・モデルの混合パラメータを示した説明図である。 一連の時間値および関連するイメージ・データ値をリストした表である。 比較的安定した初期期間に応答して生成されたアピアランス・モデルのコンポーネント・パラメータを示した説明図である。 比較的安定した初期期間に応答して生成されたアピアランス・モデルのコンポーネント・パラメータを示した説明図である。 比較的安定した初期期間に応答して生成されたアピアランス・モデルのコンポーネント・パラメータを示した説明図である。 短いオクルージョンに応答して生成されたアピアランス・モデルのコンポーネント・パラメータを示した説明図である。 漸進的に変化するイメージ・データに応答して生成されたアピアランス・モデルのコンポーネント・パラメータを示した説明図である。 長い期間にわたるイメージのひずみに応答して生成されたアピアランス・モデルのコンポーネント・パラメータを示した説明図である。 長い期間にわたるイメージのひずみに応答して生成されたアピアランス・モデルのコンポーネント・パラメータを示した説明図である。 振り返る3Dターゲット・オブジェクトの追跡を示したイメージである。 振り返る3Dターゲット・オブジェクトの追跡を示したイメージである。 振り返る3Dターゲット・オブジェクトの追跡を示したイメージである。 図17のイメージに関連付けされる混合確率および平均イメージ・データ値を示した説明図である。 図17のイメージに関連付けされる混合確率および平均イメージ・データ値を示した説明図である。 図18のイメージに関連付けされる混合確率および平均イメージ・データ値を示した説明図である。 図18のイメージに関連付けされる混合確率および平均イメージ・データ値を示した説明図である。 図19のイメージに関連付けされる混合確率および平均イメージ・データ値を示した説明図である。 図19のイメージに関連付けされる混合確率および平均イメージ・データ値を示した説明図である。 カメラに向かって移動する3Dオブジェクトの追跡を示した合成写真である。 カメラに向かって移動する3Dオブジェクトの追跡を示した合成写真である。 オクルージョンの前のターゲット・オブジェクトに関連付けされるイメージ・データを含む写真である。 図28に示されているイメージ・データに関連付けされる混合確率、を示した説明図である。 図28に示されているイメージ・データに関連付けされる平均データ値を示した説明図である。 図28に示されているイメージ・データに関連付けされるオーナーシップ・データを示した説明図である。 オクルージョンの開始時における図28のターゲット・オブジェクトに関連付けされるイメージ・データを含む写真である。 図32に示されているイメージ・データに関連付けされる混合確率を示した説明図である。 図32に示されているイメージ・データに関連付けされる平均データ値を示した説明図である。 図32に示されているイメージ・データに関連付けされるオーナーシップ・データを示した説明図である。 オクルージョンの比較的長い期間の後における図28のターゲット・オブジェクトに関連付けされるイメージ・データを含む写真である。 図36に示されているイメージ・データに関連付けされる混合確率を示した説明図である。 図36に示されているイメージ・データに関連付けされる平均データ値を示した説明図である。 図36に示されているイメージ・データに関連付けされるオーナーシップ・データを示した説明図である。 オクルージョンが解消された後における図28のターゲット・オブジェクトに関連付けされるイメージ・データを含む写真である。 図40に示されているイメージ・データに関連付けされる混合確率を示した説明図である。 図40に示されているイメージ・データに関連付けされる平均データ値を示した説明図である。 図40に示されているイメージ・データに関連付けされるオーナーシップ・データを示した説明図である。 自然なひずみを見せている対象の追跡を示したイメージである。 自然なひずみを見せている対象の追跡を示したイメージである。 自然なひずみを見せている対象の追跡を示したイメージである。 図44のイメージに関連付けされる混合確率を示した説明図である。 図44のイメージに関連付けされる平均イメージ・データ値を示した説明図である。 図45のイメージに関連付けされる混合確率を示した説明図である。 図45のイメージに関連付けされる平均イメージ・データ値を示した説明図である。 図46のイメージに関連付けされる混合確率を示した説明図である。 図46のイメージに関連付けされる平均イメージ・データ値を示した説明図である。
本発明は、コンピュータまたはワークステーションによって生成され、かつ更新され、当該コンピュータ/ワークステーションが読むことのできる1ないしは複数のメモリ・デバイスにストアされたパラメータによって定義されるアピアランス・モデルに指向されている。アピアランス・モデルの動作については、以下に、追跡システムとの関連から説明し、本発明の有益な特徴がいかにして複雑な自然のオブジェクトの動きベースの追跡を容易にするかということを例証する。しかしながら、追跡システムの範囲において説明されてはいるものの、本発明のアピアランス・モデルが、この機能に限定されることはなく、別の目的にも使用される可能性もある。たとえば、アピアランス・モデルを使用して、複雑な自然のオブジェクト(たとえば人間)の識別に用いることができる動的なイメージ・シグニチャを生成することができる。したがって、付随する特許請求の範囲は、限定が明示的に引用されている場合を除いて、本発明のアピアランス・モデルを追跡システムに、もしくは動き評価アプリケーションに限定するものと解釈されるべきではない。
図1は、イメージ追跡システム110を実装するべく構成されたコンピュータ100を示した簡略化したブロック図であり、このイメージ追跡システムは、アピアランス・モデル120を使用して時間的に連続する一連のイメージ・データ・フレーム101内に現れる選択されたターゲット・オブジェクトを追跡するが、これらのイメージ・データ・フレームは、従来の方法の使用を介して適切にディジタル化され、コンピュータ100内に入力される。また追跡システム110は、オプションの、カレント・イメージ・フレームを表すイメージ・ピクセル・データの配列に関連付けされた1ないしは複数のデータ・ストリームを生成するフィルタ/プロセッサ・サブシステム150、動きエスティメータ160、イメージ・ワーピング・ツール170、およびアピアランスモデル更新ツール180を含む複数のソフトウエア・サブシステム(ツール)を包含している。これらのサブシステムによって実行される個別の機能については後述する。これらのサブシステムは、協働して追跡機能を実行し、追加の詳細を以下に説明する方法に従ってアピアランス・モデル120を更新する。ここで注意が必要であるが、図1に示されている独立のサブシステム・ブロックは説明のみを目的として提供されており、これらのサブシステムのいくつかによって実行される少なくとも一部の機能が、公知のテクニックを使用して別のサブシステムに統合されることはあり得る。
本発明の一実施態様によれば、アピアランス・モデル120が、1ないしは複数のデータ・ストリームに関して、安定(S)コンポーネント130および1ないしは複数の推移コンポーネント140(たとえば「遊動」(W)コンポーネント140Aおよび/または「迷子」(L)コンポーネント140B)を含んでおり、それらが集合的に選択されたターゲット・オブジェクトのオンライン・ディジタル表現を定義する。ここで用いている用語「オンライン」は、選択されたターゲット・オブジェクトのディジタル表現がカレント(つまりもっとも新しい)イメージ・フレームからのデータを使用して逐次更新されることを意味する。特に、最初の一連のイメージ・フレーム内において受け取ったデータを使用して(安定コンポーネント130および推移コンポーネント140のパラメータによって定義されるように)ターゲット・オブジェクトのディジタル表現を確立した後、確立済みディジタル表現が、新しいイメージ・フレームからの対応するデータと比較され、その後、先行する確立済みディジタル表現と新しいデータの間における差に従って確立済みディジタル表現が更新(変更)され、その結果、逐次「新しい」確立済みのディジタル表現が生成される。つまり、1ないしは複数のイメージ・フレームから以前に受け取ったデータ、およびカレント・フレームからの新しいデータの両方によって定義されるという意味において、このディジタル表現は「オンライン」である。
概して、安定コンポーネント130によって定義されるディジタル表現のコンポーネントが、推移コンポーネント140によるそれに比べて長い時間履歴(つまり、より長い時間スケール)に基づくことから、安定コンポーネント130と推移コンポーネント140は異なる。つまり、安定コンポーネント130のパラメータは、逐次確立されるディジタル表現のそれぞれにおけるイメージ・データの「安定性」を反映している。これらの用語「安定性」および「安定(した)」は、比較的長い時間スケールにわたって(たとえば5ないしはそれを超える数の連続イメージ・フレームにわたって)比較的変化しないイメージ・データ値を記述するためにここで用いられている。これに対して、推移コンポーネント140のパラメータは、逐次確立されるディジタル表現のそれぞれにおけるイメージ・データの相対的な推移を反映している。したがって、この用語「推移」は、不安定なイメージ・データ値(たとえばアウトライア)、あるいは比較的短い時間スケール(たとえば、5より少ない数の連続イメージ・フレーム)の間においてのみ安定しているイメージ・データを記述するためにここで用いられている。たとえば、以下に説明する例示の実施態様においては、Wコンポーネント140Aが、カレント・イメージ・フレームおよびカレント・イメージ・フレームの直前に先行するイメージ・フレームのみを使用してパラメータが計算されるという点において従来の2−フレームの動きエスティメータと類似の態様で動作する。変形実施態様においては、Wコンポーネント140Aを、カレント・イメージ・フレームに先行する少数の(たとえば2もしくは3)フレームからのデータとの比較を行うべく修正することもできる。それに代わり、以下に示す例示の実施態様の中で説明するように、Lコンポーネント140Bがアウトライア・データのストアに使用されて、したがって単一のイメージ・フレーム(つまりカレント・イメージ・フレーム)からのデータを使用して更新される。
本発明の別の側面によれば、選択されたデータ・ストリームからのイメージ・データの各断片が(たとえば、関連する表示ピクセルの相対的な輝度またはフィルタ出力を表すデータ)、安定コンポーネント130および推移コンポーネント140の両方によって集合的に表現される。言い換えると、安定コンポーネント130および推移コンポーネント140のそれぞれは、関連するコンポーネントによって表される関連するデータ値のパーセンテージを示す寄与パラメータ(たとえば混合確率)を含む。たとえば、所定のイメージ・データの断片は、寄与パラメータ132によって示される量の安定コンポーネント130、および対応する寄与パラメータ142Aおよび142B(それぞれWコンポーネント140AおよびLコンポーネント140Bに関連付けされる)によって示される推移コンポーネント140で表される。アピアランス・モデル120を構成するすべてのコンポーネントの寄与パラメータ132、142Aおよび142Bの合計は1(つまり100パーセント)に等しい。これらの寄与パラメータは、所定のデータ値がターゲット・オブジェクトを記述している信頼性の尺度を示す。たとえば、詳細を後述するように、データ値が長時間にわたって安定していれば、寄与パラメータ132が、一時的な寄与パラメータ142Aおよび142Bに比較して相対的に高くなる。これに対して、データ値が急峻に変化するとき、あるいはすばやい変化があるとき、通常は一時的な寄与パラメータ142Aおよび142Bによって表されるパーセンテージが増加し、安定した寄与パラメータ132によって表されるパーセンテージが、それに応じて減少する。
本発明のさらに別の側面によれば、安定コンポーネント130が1ないしは複数の安定データ・パラメータ134を含み、それが使用されて、新しいデータが以前に受け取られたイメージ・データをどの程度良好に模しているかということが決定される。前述したように、安定コンポーネント130は、比較的多くのイメージ・フレームに基づいたターゲット・イメージのディジタル表現である。したがって、以下に説明する実施態様においては、統計的な方法を使用し、安定データ・パラメータ134が平均値μおよび標準偏差σパラメータとして表され、それらは、現在受け取っているイメージ・フレームに先行するあらかじめ決定済みの数(たとえば15)のイメージ・フレームにわたって受け取られたデータ値を使用して計算され、計算に使用されるデータについては、あらかじめ決定済みの平均値の範囲内に含まれることを前提とする(つまりアウトライアが除外される)。それに代えて、安定データ・パラメータ134を、選択した(たとえば2つ置きに)データ値の平均等の代替方法を使用して計算することもできる。追加の詳細を以下に示すように、安定データ・パラメータ134は、新しいデータのそれぞれと比較され、比較の結果は、寄与パラメータ132、142A、および142Bの更新に使用される。つまり、前述したように、安定データ・パラメータ134が新しいデータとまったく同一である場合には、新しいデータは、比較的安定であることを示し、寄与パラメータ132が増加する(あるいは最大値を維持する)傾向を持つ。その逆に、新しいデータが、安定データ・パラメータ134と著しく異なる場合には、寄与パラメータ132が減少する傾向となり、推移寄与パラメータ142Aおよび142Bの一方もしくは両方の、それに応じた増加という結果がもたらされる。
本発明のさらに別の側面によれば、推移コンポーネント140が1ないしは複数の推移データ・パラメータ144Aおよび144Bを含んでおり、それらはオプションで使用されて新しいデータが以前に受け取られたイメージ・データをどの程度良好に模しているかということについてさらに決定がなされる。たとえば、アピアランス・モデル120において使用される場合には、コンポーネント140Aが平均μおよび標準偏差σパラメータを含み、それらが、比較的少数のフレームにわたって計算される。それに代えて、以下に説明する例示の実施態様において使用されているように、「平均」を単純に先行して受け取られているデータ値とし、「標準偏差」をあらかじめ決定済みの固定範囲とする。ここで注意が必要であるが、Lコンポーネント140Bについては、詳細を以下に述べるが、「平均」パラメータμが使用されることもあれば、省略されることもある。
再度図1を参照するが、追跡システム110は、概略において次のように動作する。イメージ・データ101がフィルタ/プロセッサ150に渡され、それが、たとえばノイズまたはそのほかの不要データを除去する確立済みのテクニックに従って当該イメージ・データのフィルタリングおよび/または処理を行う。以下に説明する例示の実施態様においては、このフィルタリング・プロセスが、続く追跡オペレーションに適した方法でイメージ・データを修正するウェーブレット−ベースのフィルタリング・テクニックを使用する。フィルタリング後/処理後のイメージ・データ(または、フィルタ/プロセッサが使用されない場合には生データ)は、続いて動きエスティメータ160に渡されるが、そこでは、アピアランス・モデル120によってストアされた現存するイメージ記述も受け取られる。動きエスティメータ160は、アピアランス・モデル120、およびターゲット・オブジェクトに関連付けされた動きの履歴を使用してカレント・イメージ・フレーム内におけるターゲット・オブジェクトの場所を決定するが、この履歴は、確立済みのテクニックに従って動きエスティメータ160によって生成される。イメージ・フレーム内のターゲット・オブジェクトのロケーションが決定されると、イメージ・ワーピング・ツール170が使用されてアピアランス・モデル120(もしくは新しいイメージ・データ)が修正され、動きベースのひずみ(たとえば、サイズおよび/または軸回転)の説明が行われる。ワーピングの実行後は、アピアランス・モデル120内に提供されるイメージ記述がモデル更新ツール180に渡され、それがアピアランス・モデル120を、ここで述べている方法に従って更新する。その後は、更新後のアピアランス・モデルのパラメータが使用されて、その後に続いて受け取られるデータ・フレームが処理される。
図2は、本発明の一実施態様に従ってアピアランス・モデル120(図1)の生成ならびに更新に使用される概略プロセスを示したフローチャートである。この単純化したフローチャートは、各繰り返しの間に単一のデータ・ポイントが処理されること、および追跡に関連付けされた機能(たとえば、動き評価およびイメージ・ワーピング)が省略されることを前提としている。次に、この例示のプロセスをより詳細に説明する。
図2の上側部分を参照すると、このプロセスは安定コンポーネントならびに推移コンポーネントのパラメータを初期化することによって開始する(ブロック210)。たとえば図1を参照すると、安定コンポーネント130の安定寄与コンポーネント132および安定データ・コンポーネント134を、あらかじめ決定済みの値にセットすることができる。ここで注意が必要であるが、安定寄与コンポーネント132用のあらかじめ決定済みの値は、リセット・オペレーション(後述)において使用される。
図2に戻るが、初期化の後、イメージ・データが前述の方法に従って受け取られ(ブロック220)、続いて確立済みコンポーネント・パラメータと比較される(ブロック230)。本発明の一実施態様によれば、この比較の間にログ尤度(「尤度」)値が、当該データと現存するデータ・パラメータ(1ないしは複数)の間における差に基づき、周知の統計学的方法に従って、それぞれのコンポーネントに関して計算される。この尤度値は、当該データが確立済みデータ・パラメータにどの程度良好に整合しているかを示す。たとえば、安定データ・パラメータが14の平均値μおよび標準偏差2を有していると仮定する。そのときデータが14に等しければ、計算される尤度値は、その安定コンポーネントに関して最大化される。それに対して、データが24に等しいとすれば、尤度値は相対的に極めて低くなる。尤度値は、Wコンポ(使用される場合)に関しても類似の態様に従って計算されるが、Lコンポーネント(使用される場合)については省略されることがある。
続いてデータと確立済みデータ・パラメータの間における比較の結果が使用されて寄与パラメータ(以下、混合確率と言う)が更新され、さらにアピアランス・モデル・コンポーネントのそれぞれに関する新しいデータ・パラメータが生成される(ブロック240)。一実施態様においては、このプロセスが尤度値を使用する各コンポーネントに関するオーナーシップ値の計算を行うオプションのステップ(ブロック242)を含むが、それについての追加の詳細は後述する。次に(あるいは、それに代えて)それぞれのコンポーネントについて、新しい混合確率が、オーナーシップ確率および/または尤度値を使用して計算される(ブロック244)。その後、新しく計算された安定寄与値(たとえば、m)と、あらかじめ定義済みの最小値の比較が行われる(ブロック245)。新しく計算された安定寄与値が、あらかじめ定義済みの最小値より小さい場合(YES)には、すべてのコンポーネント・パラメータがあらかじめ定義済みの値にリセットされる(ブロック246)。これに対して、新しく計算された安定寄与値が、あらかじめ定義済みの最小値より大きい場合(ブロック245のNO)には、各コンポーネントのデータ・パラメータが更新されて、新しいデータが反映される(ブロック248)。
その後、上記のシーケンスが、新しいデータ・ストリームに関連付けされた新しいデータごとに繰り返される。ここで注意が必要であるが、コンポーネント・パラメータを更新するプロセス(ブロック240)は、最終的な結果を損なうことなく、データ・パラメータの再計算(ブロック248)の後に最小値の決定(ブロック245)を行う形に変形することができる。
新しく、かつ有益なアピアランス・モデルが、図2を参照して説明したプロセスとの組み合わせにおいて安定コンポーネントならびに少なくとも1つの推移コンポーネントを用いて生成されるが、現在のところ好ましい本発明の実施態様は、安定(S)コンポーネント130、遊動(W)コンポーネント140A、および迷子(L)コンポーネント140B(図1参照)を以下の説明に従ってすべて組み込んだアピアランス・モデルを含む。その種のアピアランス・モデルを、ここでは「WSLアピアランス・モデル」と呼んでいる。
本発明のWSLアピアランス・モデルについて、次に、単一の実数値のデータ観測を引用して紹介する。単一データ値を参照したWSLアピアランス・モデルの動作の説明の後に、全データ・フレームの処理に向けて説明を移行させる。
図3〜6は、単純なパラメトリック動きモデルを使用した追跡領域(ターゲット・オブジェクト)として顔を示したイメージ・データ・フレームの断続シーケンスを表しており、WSLアピアランス・モデルによって説明されなければならない、典型的な、イメージをひずませる現象が図示されている。図3は、最初の、WSLアピアランス・モデルが安定することが許される、比較的安定した期間を表している。ここで、高いコントラストの領域、たとえば額領域310および口領域320等が、極めて安定したイメージ・データを生成する傾向にあることに注意されたい。図4は、部分的なオクルージョンを示しており、その間に対象の手が短時間にわたって口領域320の上に置かれたが、額領域310は、比較的ひずみを受けない状態に保たれている。図5は、リスタートを招く著しいアピアランスの不連続を表している(つまり、突然かつ急激な頭部の動きであり、その間に対象の頭部が傾けられ、カメラから離れる方向にすばやく動き、さらに目領域330からメガネが外された)。最後の図6は、自然のひずみの例として表情の変化を示している。特に領域340において、対象が大げさにほほえんでいるが、そのほかには目立った動きがない(図3の口領域310と対比)。
図3〜6に示した現象は、WSLアピアランス・モデルの各種のコンポーネント・データ・パラメータを誘導する。図3に示されている比較的安定したイメージは、Sコンポーネントを誘導し、それには、時間的に安定したイメージの観測の振る舞いを、それらが生じている時点および場所で取り込むことが意図されている。より詳細に述べれば、各フレームtにおけるデータ値をdで表し、安定コンポーネントが観測dを生成したと仮定すると、dに関する確率密度は、ガウス密度p(d|μs,t,σ s,t)によってモデリングされる。これにおいて、μs,t,σ s,tは、区分的に、緩やかに変化する関数であり、ガウス・モデルの平均および分散を指定する。
WSLアピアランス・モデルの第2のコンポーネントは、データのアウトライアを説明するが、これらは追跡の失敗またはオクルージョンに起因して生じることが予想される。前述したように、対応するランダム・プロセスを、ここではWSLアピアランス・モデルの「迷子」またはLコンポーネントと呼んでいる。Lコンポーネントの確率密度、すなわちp(d)は、観測ドメインにわたって均一に分布しているものと考える。
図7に示した合成信号は、単一データ・ストリームに関するこれらの発生プロセスの理想化した例を示している。破線は、区分的に緩やかに変化するアピアランス信号ASを表している。観測されたデータODは、ガウス密度p(d|μs,t,σ s,t)およびLコンポーネントに関する広い分布p(d)の混合から形成されるテールの長いノイズによって改ざんされている。太い実線のラインは、Sコンポーネントに関する評価後の平均EMである。前述の説明に従うと、イメージ・データ・フレームのシーケンスは、領域400において開始され、その後、図3に関連付けされる比較的安定した段階(領域410)に入る。合成信号の領域420は、図4のオクルージョンに相似の、フレーム300と315の間におけるアウトライアのバーストを示している。領域430は、図5のアピアランスの不連続に相似のフレーム600におけるリスタートを示している。最後の領域440は、図6の顔の表情の変化によって生成された、局所的な信号のひずみを示している。
WSLアピアランス・モデルのWコンポーネントは、アピアランス・モデルとイメージ−ベースの追跡アルゴリズムの統合に対する要求によって誘導される。つまり、選択されたイメージ領域に関して、ゴールは、その領域内の支配的な安定したイメージ構造に対してモデルを倣わせることであり、同時にそれを追跡することである。これは、最初の安定したアピアランス・モデルが提供されない場合、もしくはオブジェクトがどのように動くかについての情報が提供されない場合に困難なものとなる。Wコンポーネントは、その種の状態において何が追跡されるべきかを決定する。前述したように、実際上、Wコンポーネントは、アピアランス・モデルが充分な過去のデータ観測について説明しないとき、追跡システム(後述)が、2−フレームの動きトラッカまで優雅に低下することを可能にする。
Wコンポーネントは、Sコンポーネント・パラメータの信頼性のある評価に必要となる場合に比べて、より急峻な一時的な変動およびより短時間の履歴を許容する必要がある。そのためdに関する確率密度が、それがWコンポーネントによって生成されているとして、ガウス密度p(d|dt−1)となるように選択される。ここでは、平均が単純に以前のフレームdt−1からの観測となり、分散がσ に固定される。
3つのコンポーネントW、S、およびLは、dに関する蓋然論的混合モデル内において結合される。
これにおいて、
m=(m,m,m)は混合確率であり、
=(μs,t,σ s,t
は、このモデルの安定コンポーネントの平均ならびに分散パラメータを含む。
従来の追跡システムにおいてこのWSLアピアランス・モデルを実装するためには、式(1)における発生モデルのパラメータ、すなわちデータdの予測の平均および分散を、安定プロセス
q=(μ,σ
および混合確率
m=(m,m,m
によって評価することが必要になる。さらに、フィルタ応答に評価スキームを適用するためには、各観測に関して比較的小さなメモリしか必要としない単純な演算アルゴリズムが求められる。
再帰的定式化を予測し、モデル・パラメータの時間的適合を許容して、現在時にロケートされた指数包絡線、k≦tに関するS(k)=αe−(t−k)/τの下においてデータ観測を考える。これにおいてτ=ηs/log2であり、ηはフレーム内の包絡線の半減期であり、α=1−e−1/τであり、その結果、包絡線の重みS(k)の合計は1になる。この包絡線を用いると、観測履歴のログ尤度
={d k=0
を、式(1)における密度に従って表すことができる。
これにおいて

および

は、時間的な台の包絡線S(k)の下におけるデータに関係するパラメータを表す。これらのパラメータは時間的に緩やかに変化するが、EMアルゴリズム(たとえば、1977年のJ.Royal Statistical Society Series B(王立統計学会シリーズB),39:1〜38の、A.P.Dempster(A.P.ディムスター)、N.M.Laird(N.M.ラード)、およびD.B.Rubin(ルービン)による「Maximum Likelihood from Incomplete Data Via the EM Algorithm(EMアルゴリズムを介した不完全データからの最大尤度)」を参照されたい)が

および

の評価に考慮され、それにおいては、これらが時間ウインドウの下に一定であることが仮定される。これらのEM更新の形式は、ここで述べているオンライン方法に関する基礎を提供する。
状態変数

および

に関する現在の推測(時間ウインドウにわたって一定)を前提とするとE−ステップは、i∈{w,s,l}に関して、各観測dに関するオーナーシップ確率を提供する。
これらのオーナーシップを条件とし、続いてM−ステップが、新しい最大尤度評価を

および

に関して計算する。まず、更新された最大確率mは、i∈{w,s,l}に関し、次式によって与えられる(表記
i,t
は、再利用されて更新された値を表す)。
同様に、平均および分散に関するM−ステップは次のようになる。
これにおいてMj,tは、オーナーシップの重み付けがなされた、次式によって定義されるj次のデータ・モーメントである。
ここで、ゼロ番目のデータ・モーメント、すなわち安定プロセスの時間平均オーナーシップが、正確にWSLアピアランス・モデルのSコンポーネントに関する混合比率となり、M0,t=Ms,tとなることは注目に値する。したがって、標準EMアルゴリズムは、式(3)〜(6)に概説したステップの繰り返しからなる。
このEMアルゴリズムは、先行する時間からのデータが保持されてos,t(d)の計算が行われることを必要とし、オンライン・アプローチにとってそれは実際的ではない。それに代えて式(3)〜(6)の近似が採用される。そのため、指数の台S(k)に関する帰納式が利用されて次式が得られる。
過去のデータを保持しなければならないという要件を回避するために、過去のデータのカレント・オーナーシップが、そのデータが最初に観測された時点におけるオーナーシップによって近似される。すなわち、os,t(d)がos,k(d)に置き換えられて、次の近似モーメントが得られる。
また、混合確率についても同様にi∈{s,w,s,l}に関して次のように近似される。
これらの式からの1つの大きなずれが使用されて単一の状態が回避される;すなわち、非ゼロの低い境界が、混合確率およびσs,tに強制される。
式(3)〜(6)内のバッチEMに対するこの近似においては、前述したように、過去の観測のオーナーシップが更新されない。したがって、モデル・パラメータが急激に変化したとき、このオンライン近似は不充分なものとなる。好都合にも、一般にこれは、データが安定でないときに現れ、通常はいずれの場合においてもSコンポーネントに関する低い混合確率および広い分散をもたらす。これに対して、平均および分散が緩やかにドリフトしているときのオンライン近似は、通常、非常に良好なものとなる(図7参照)。
アピアランス内に急激な変化、または不安定なデータがあると、Sコンポーネントがしばしば平均の追跡を逃し、小さい混合確率が与えられる(後述する図8を参照されたい)。つまり、アピアランス・モデルを臨時にリスタートすることが必要になる。ここでは、安定した混合確率ms,tが固定スレッショルド(たとえば0.1)を下回ると必ずWSLアピアランス・モデルがリスタートされる。これは、すべての状態変数の値を単純にリセットすることによってなされる。一実施態様においては、混合確率に関して使用される新しい値mi,tが、i=w、s、lについてそれぞれ0.4、0.15、および0.45になる。ms,tに対応する値が小さいことは、Sコンポーネントに関する初期の不確定性を反映している。モーメントMj,tに関する新しい値は、j=0、1、2について、それぞれms,t、ds,tおよびσ s,0s,tとなるように取られる。実際、これが、カレント観測dによって与えられる平均、および一定のσ s,0によって与えられる分散を用いてSコンポーネントをリスタートする。ここでは、σs,0=σ/1.5が使用される。これらと同じ値が、最初のフレームにおける初期化に使用されている。
図8は、半減期ns=8を使用する図7の1Dの例を参照するEMプロシージャを例示している。領域405に示されているスタートアップ期間(図7の領域400に対応する)において、W、S、およびLコンポーネントのそれぞれは、あらかじめ決定済みのリセット値を仮定する。最初は、Wコンポーネントの混合確率がリセット値から増加しており、領域415(図7の領域410に対応する)によって示されるようにSコンポーネントが信頼性を得るまでの、そのデータの比較的より大きなオーナーシップを示す。領域425は、フレーム300におけるアウトライアのバースト(図7の領域420に対応する)の間に、Lコンポーネントの混合確率が増加し、その後、安定な戻りとして降下することを示している。ここで、このオクルージョンは、オクルージョンを生じていない安定イメージ・データ(たとえば図4における領域310)のために、リスタートを起動するほど充分なものにならなかったことに注意が必要である。領域435は、フレーム600におけるアピアランスの不連続(図7の領域430に対応する)に対する応答を示しており、それにおいてSコンポーネントはデータの予測に関して不充分であり、その混合確率が急速に低下している。ここで注意が必要であるが、Wコンポーネントがデータを説明できることから、その混合確率が増加している。フレーム625においては、Sコンポーネントの混合確率がプロシージャのリスタートに充分な低さまで下がっており、その後、Sコンポーネントが真の状態に戻ってロックする。
図9〜16は、別の簡略化した例を使用する、本発明のWSLアピアランス・モデルにおける各種のデータ変化の効果を図示している。図9は、時間tとt16の間に延びる時間シーケンスの間における選択されたピクセルの輝度(グレイスケール)を記述した連続データを示している。ここに示された各時点の間隔は、均一であってもよく、またそうでなくてもよいことに注意されたい。比較的安定した初期段階が、時間t〜tの間において提供され、その間に、図3を参照した前述の説明と同様に、アピアランス・モデルが安定することが可能になる。時間tにおいて、図4を参照して説明したオクルージョンと類似の短時間のオクルージョンが導入され、比較的急峻でありかつ大きいが、短時間の、第1の安定値(たとえば12)から第2の安定値(たとえば24)へのイメージ・データの変化、および第1の安定値に戻る変化によって特徴付けされる。時間tとt11の間は、漸進的な輝度の変化が示され、その間においては、イメージ・データが比較的緩慢に、比較的小さい範囲にわたって(たとえば12から14)変化する。最後に、時間t12にアピアランスの不連続が示されており、比較的急峻であり、かつ大きく、比較的固定した、第1の安定値(たとえば14)から第2の安定値(たとえば24)への変化によって特徴付けされる。
図10、11、および12は、時間t〜tの初期安定期間の間におけるSコンポーネント、Wコンポーネント、およびLコンポーネントに対する調整をそれぞれ示したグラフである。リセット時(時間t)においては、寄与パラメータ(つまり混合確率であり、各グラフの垂直スケールによって示される)があらかじめ決定済みのリセット値を採用する。これらの値は、時間tにおける各コンポーネントの垂直位置によって示される。たとえば、図10を参照すると、コンポーネントS(t)がグラフの低い部分に配置されており、リセット値0.15にそろえられている。同様に、図11および12を参照すると、コンポーネントW(t)およびL(t)が、それぞれリセット値0.4および0.45にそろえられている。再度ここで注意したいが、これらのリセット値は変更可能である。時間tに続いて、データが安定を保つことから、Sコンポーネントに関する寄与パラメータが時間tにおける極大値(頂点)0.85まで漸進的に増加する。ただしこの極大値は、純粋に説明の目的から選択されたものである。それに加えて、この時間的期間にわたる一定のデータ値12は、12にセンタリングされたままとなる安定した平均パラメータμをもたらし、その一方で標準偏差が減少する(標準偏差パラメータ+σおよび−σによって区切られるバーが、漸進的に短くなることによって示されている)。図11および12を参照すると、Sコンポーネントはこの極大値まで上昇するが、WコンポーネントおよびLコンポーネントは、データの残りのオーナーシップ部分を奪い合う形になる。開示した例においては、データ値が安定してとどまることから、Wコンポーネントの寄与値がLコンポーネントのそれよりすばやく増加し、一貫性のあるデータ値が受け取られるに従って緩やかに減少する。Wコンポーネントの、そのリセット値から最大値(コンポーネントW(t)によって示される)までの初期増加があり、その後、Sモデルが信頼性を獲得し、その最大値に達すると、最小値(たとえば0.15)まで後退する。ここで注意されたいが、比較的長い安定期間を仮定するとLコンポーネントが非常に小さい値まで後退するが、それがゼロになることはない。
図13を参照すると、12から24へのデータ値のジャンプとして示されている時間tにおける短時間のオクルージョンが、SコンポーネントおよびWコンポーネントの両方に関する寄与パラメータの縮小を招いている。より詳細には、データ値(つまり24)がSコンポーネントおよびWコンポーネントの両方にとって分散の外になることから、データがアウトライアとして処理され、データ値のオーナーシップが優勢的にLコンポーネントに割り当てられる。したがって、図13の右側に示されているように、コンポーネントL(t)に、いくらかの、より大きな、たとえば0.35といった寄与パラメータが割り当てられる。この増加されたLコンポーネントによるオーナーシップは、SおよびWコンポーネントの寄与パラメータにおける縮小をもたらし、それらが、それぞれS(t)およびW(t)によって示されている。開示している実施態様においては、時間tにおけるデータ値がアウトライアと見なされることから、それがSコンポーネントの平均および分散の再計算に使用されることはない。したがって、平均値μS(t5)がデータ値12にセンタリングされたままとどまり、分散がS(t)(図10参照)から変化しない。オクルージョンが取り除かれ(時間t)、安定したデータが再び現れると、Sコンポーネントが再び信頼性を得て、その最大値に再び到達するまで(時間t)その寄与パラメータが増加し、逆にLコンポーネントが減少する。これにおいても注意が必要であるが、Wコンポーネントの平均は、以前のデータ値によって決定され、したがって時間tにおいては平均μが12にセンタリングされたままとどまり、その後、時間tにおいて24にシフトし、さらにその後、時間tにおいて12に戻る。
図14に示されているように、図13を参照して説明したオクルージョンとは対照的に、言い換えるとそのオクルージョンは、Sコンポーネントのデータ・パラメータを変化させなかったが、時間tとt11の間における漸進的なデータの変化は、Sコンポーネントの平均値の移行をもたらし、標準偏差を増加させる。図14に示した例は、Sコンポーネントの寄与パラメータが最大化されていることが前提となっており、そのため小さいデータ値の変化であってもSモデルの信頼性を低下させ、関連する寄与パラメータの低減を招く。寄与パラメータが最大化されていなければ、新しいデータ値が以前に計算された平均と異なる場合であっても、それが実際に増加することもある。この例においては、時間tとtの間におけるイメージ・データの変化(つまり、12から13への変化)がSコンポーネントの標準偏差内に選択されていることから、Sコンポーネントのデータ・パラメータ(たとえば平均および標準偏差)が変化する。したがって、このイメージ・データの変化はアウトライアとして扱われることなく、新しい平均値μS(t8)の計算に使用され、それが12から14に向かって漸進的にシフトされる。ここで注意が必要であるが、Sコンポーネントの寄与パラメータにおける減少は、データ値の変化に伴って平均値が移行するWコンポーネントにおけるそれの増加によって説明される。イメージ・データが14に再度安定してしばらくすると(たとえば時間t10)、Sコンポーネントの信頼性が戻り、平均値が、コンポーネントS(t11)によって示されるように、新しい安定した値にセンタリングされる。したがって、図14に示されている例は、本発明に従って生成されるアピアランス・モデルのSコンポーネントが、いかにして緩やかなイメージ・データの変化に適合し、それによって3Dオブジェクトの追跡を容易にしているかということを示している。
図15および16は、最後の例であり、それにおいてはイメージ・データが、1つの安定した値(たとえば時間t11の14)から別の安定した値(たとえば時間t12の24)へ大きく変化する。前述し、かつ図15にも示したが、比較的大きなイメージ・データの変化の突然の出現は、WおよびSコンポーネントの寄与パラメータにおける減少を生じさせ、Lコンポーネントの寄与にジャンプする。ここでも注意されたいが、新しいデータは、Sコンポーネントに関するデータ・パラメータ(平均および分散)の計算に含められない。データ値が24に安定していることから、Sコンポーネントの寄与パラメータが継続的に降下し、Wコンポーネントが増加し始める(Lコンポーネントは減少する)。最終的に、Sコンポーネントの寄与パラメータが、あらかじめ決定済みのリセット値(図2のステップ245を参照されたい)より低くなり、その結果、時間t15においてリスタートが生じるが、それが図16に示されている。ここで、リスタートにおいては、平均値μS(t16)が、もっとも新しいデータ値(つまり24)にセンタリングされていることに注意されたい。続くアピアランス・モデルの再構築は、図10、11、および12を参照して前述した説明と基本的に同一である。
以上、単一データ値を参照してWSLアピアランス・モデルの各種パラメータ応答について説明してきたが、次に、追跡システム110(図1参照)におけるWSLアピアランス・モデルの実装に使用するコンポーネントの導出について説明する。より詳細には、以下に示すように、フィルタ/プロセッサ150によって実行されるフィルタリング/処理が、以下に示すようなステアラブル・ピラミッドを使用して実装される。それに加えて、動きエスティメータ160およびイメージ・ワーピング・ツール170によって実行される動き評価およびイメージ・ワーピング機能についても説明する。
イメージ・アピアランスのプロパティは数多く存在し、それをデータ・ストリームとして使用することが可能であり、それから追跡およびオブジェクトのサーチに関してアピアランス・モデルを学習させることができる。例としては、局所的カラー統計、マルチスケール・フィルタ応答、および局在化したエッジ断片を挙げることができる。この研究においては、適用されたステアラブル・フィルタ・ピラミッドの応答からデータ・ストリームが導かれた(つまりGおよびHフィルタに基づいている;参照によりこれに援用している1991年のIEEE Transactions on Pattern Analysis and Machine Intelligence(パターン解析および機械知能に関するIEEEトランザクション)13:891〜906、W.Freeman(W.フリーマン)およびE.H.Adelson(E.H.アデルソン)による「The Design and Use of Steerable Filters(ステアラブル・フィルタの設計および使用)」を参照されたい)。ステアラブル・ピラミッドは、異なるスケールおよび向きにおけるイメージの記述を提供し、粗から密への差分動き評価に、また異なるスケールならびに異なる空間的ロケーションにおける安定性、および異なるイメージの向きの分離に有用である。ここでは、GおよびHフィルタを2つのスケールにおいて、すなわち8および16ピクセル(2および4の因数によってサブサンプルされる)の波長に調整して使用し、それぞれのスケールは4つの向きを伴う。
フィルタ出力から、本発明者らは選択を行い、アピアランス・モデルとして位相構造の表現を維持した。これは、振幅の自然な度合いおよび照度の独立性を提供し、かつ位相ベースの方法によって得られる正確なイメージ・アライメントに関する忠実度を提供する(たとえば、参照によりこれに援用されている1993年のIEEE Transactions on PAMI(PAMIに関するIEEEトランザクション)15(12):1253〜1268、D.J.Fleet(D.J.フリート)およびA.D.Jepson(A.D.ジェプソン)による「Stability of Phase Information(位相情報の安定性)」を参照されたい)。小さいフィルタ振幅に関連付けされる位相応答、あるいは引用したこれらの文献に説明されているテクニックに従って不安定であると見なされる位相応答は、アウトライアとして扱われた。
以下においては、イメージ・ピラミッドおよびターゲット領域Nを考え、
={d(x,t)}x∈Nt
がその領域内の時間tにおけるすべてのフィルタからの位相観測のセットを示すものとする。また
={M(x,t),q(x,t)}x∈Nt
は、Nのそれぞれの向き、スケールおよび空間ロケーションにおける位相のアピアランス・モデル全体を表すものとする。指数時間的な台S(k)の半減期は、n=20フレームにセットされた。オンラインEMエスティメータのそのほかのパラメータは:(1)[−π;π)において均一なアウトライア確率;(2)σ=0.35πを伴う平均ゼロのガウシアンとなるように取られる、位相差におけるWコンポーネントの標準偏差;および(3)Sコンポーネントの最小標準偏差、σs,0=0.1πである。後者のパラメータは、位相の使用に固有である。
次に本発明者らは、非剛体オブジェクトの追跡に関して、適応型位相ベースのアピアランス・モデルの振る舞いを立証する。この立証に関して、時間0における楕円領域Nは、マニュアルで指定される。その後、追跡アルゴリズムが、経時的にN内の支配的なイメージ構造を追跡する間に、イメージの動きおよびアピアランス・モデルの評価を行う。
動きは、フレーム対フレームのパラメータ化したイメージ・ワープに置き換えて表現される。より詳細には、ワープ・パラメータ

を考えたとき、フレームt−1におけるピクセル

は、時間tにおけるイメージ・ロケーション
=w(x;c
に対応し、それにおいて
w(x;c
はワープ関数である。ここでは類似性変換が使用され、したがって、
=(u,θ,ρ
は、それぞれ平行移動、回転およびスケール変換を記述する4次元ベクトルとなる。平行移動はピクセルにおいて、回転はラジアンにおいて指定され、スケール・パラメータは乗数を示すことから
η≡(0,0,0,1)
は、アイデンティティ・ワープである。追跡のために、ターゲット近隣が、各フレームにおいて動きパラメータによって前方に対流(つまりワープ)される。言い換えると、パラメータ・ベクトル

を考えた場合、Nは、
w(x;c
によるNt−1のワープによって提供される単なる楕円領域となる。このほかのパラメータ化されたイメージ・ワープ、およびこのほかのパラメータ化された領域表現を使用することもできる(たとえば、参照によりこれに援用されている1994年のCVGIP:Image Understanding(イメージの理解)60(2):119〜140、F.G.Meyer(F.G.メイヤー)およびP.Bouthemy(P.バウスミー)による「Region−Based Tracking Using Affine Motion Models in Long Image Sequences(長いイメージ・シーケンスにおけるアフィン動きモデルを使用した領域ベースの追跡)」を参照されたい)。
最適ワープを見つけるため、データのログ尤度ならびにログ−プライア(原文:log−prior)の合計が(局所的に)最大化され、遅い、なめらかな動きに関するプレファレンスが提供される。上に概説した動きおよびアピアランス・モデルに関して言えば、データのログ尤度は、次式のように表すことができる。
これにおいては、表記の便宜上、以前のフレームからのデータをDt−1≡{dx,t−1x∈Nt−1として表しているが、個別のデータは
x,t−1≡d(x,t−1)
である。同様に、参照している以前のフレームにワープ・バックされたカレント・データは、
x,t≡d(w(x;c),t)
によって示され、最後に発明者らは、
x,t≡(mx,t−1,qx,t−1
を定義している。直感的に、このログ尤度は、次のように理解することができる:カレント・フレームtにおけるデータが、パラメータ

に従ってフレームt−1の座標にワープ・バックされる。このワープ後のデータ
{dx,tx∈Nt−1
のログ尤度が、その後、以前のフレーム内のターゲット領域
t−1
の参照しているフレーム内のアピアランス・モデル
t−1
に関して演算される。
プライア(prior)が導入されて、主にオクルージョンが処理され、安定コンポーネントSの持続性が利用される。発明者らは、時間t−1における動き
t−1
に調和された動きパラメータ
=(u,θ,ρ
に関する事前密度を、2つの4Dガウシアンの積となるように設定した。
最初のガウス因数は、その平均が単位元ワープ
η
に等しく、その共分散が
≡diag(8,8,0.05,0.01
によって与えられる、遅い動きを優先する。2番目のガウシアンは、
≡diag(1,1,0.02,0.01
を伴う、動き内の遅い変化を優先する。

を評価するために、与えられたログ尤度およびログ−プライアの合計を次式によって最大化する。
E(c
の最大化は、参照によりこれに援用されている1993年6月にニューヨークで開催されたIEEE Computer Vision and Pattern Recognition(IEEEコンピュータの視覚およびパターン認識)CVPR−93の会報760〜761ページにある「Mixture Model for Opticl Flow Computation(オプティカル・フロー演算に関する混合モデル)」にA.Jepson(A.ジェプソン)およびM.J.Black(M.Jブラック)によって説明されているように期待−最大化(EM)アルゴリズムの単純な変形が使用される。これは、繰り返しの粗−密アルゴリズムであり、この方法の局所的な最小値内へのトラップのコントロールに使用されるアニーリングを伴う。簡単に述べると、E−ステップが逆方向ワープ済みデータ

に関するオーナーシップ確率を、前述の式(3)にあるように決定する。M−ステップは、これらのオーナーシップを使用して

に対する更新に関する線形連立系を構成する。線形連立系のこれらのコンポーネントは、WおよびSプロセスに関するオーナーシップ確率によって重み付けされる動き制約から獲得される。
ここでは、EMアルゴリズムの導出が、次式を満足する
E(c
の極値を用いて開始する。
x,t≡d(w(x;c),t)
によって示されるワープ後のデータを用いると、式(10)にあるようなログ尤度の導関数は次式のようになる。
単位元を利用すると
∂(log(f(x))/∂x=1/f(x)(∂(f(x))/∂x)
となり、式(1)に従って尤度関数を拡張すると、式(14)は次のように簡略化される。
最後に、オーナーシップ確率を次のように定義し、
ログ尤度のグラディエントに関する式が次のように簡略化される。
式(16)と、式(11)から簡単に導かれるログ−プライアとを結合すると、次のように目的関数のグラディエントの式が提供される。
EMアルゴリズムは、
E(c
の最大化のための反復法である。E−ステップにおいて、動きパラメータに関するカレント推測値を

とすると、オーナーシップ確率、
(dx,t
および
(dx,t
は、動きパラメータを固定したまま計算される。続くM−ステップにおいては、動きパラメータに対する更新
δc
が、オーナーシップ確率を一定に維持して目的関数を最大化することによって評価される。
ところで、M式は直接解くことができない。それに代えて、グラディエント−ベースの制約を用いてしばしばオプティカル・フローが評価される方法と同様に、近似の目的関数が最大化される。近似関数
□(δc;c
は、動きパラメータに関する初期推測

についてカレント観測を線形化することによって得られる。より詳細には、
d(w(x;c),t)
が、

に関して取られるその1次のテーラー級数によって近似される。より数式的には、
となり、それにおいては、
∇d(x,t)≡(d(x,t),d(x,t))
が、データ観測の空間的な部分導関数を示し、
W=δw/δc
が、

におけるワープ・マップの2×4ヤコビアンを示す。
d(w(x;c+δc),t)
に関するこの近似を目的関数に代入することによって、アピアランス・モデルの安定コンポーネントに関する次の式が得られる。
これにおいて、
δd≡d(w(x;c),t)−μs,t
q=(μs,t,σs,t
は、アピアランス・モデルのSコンポーネントの平均および標準偏差であり、かつ
∇d=∇d(w(x;c),t)
であり、κは、

とは独立した定数である。同様に、アピアランス・モデルのWコンポーネントについては次式が得られる。
これにおいて、
δd≡d(w(x;c),t)−d(x,t−1)−d(w(x,t−1))
であり、かつκは、

とは独立した定数である。
これらの線形化を用いると、近似目的関数が次式によって与えられる。
これにおいてκは、

とは独立した定数である。近似目的関数が更新
δc
に関する2次式であることから、その導関数は、次に示すように
δc
に関する線形連立方程式をもたらす。
これに代えて、結果として得られる更新
δc
に関する線形方程式を次のように記述することができる。
これにおいてAは4×4のマトリクスであり、各

は、i=w,s,pに関する4次元ベクトルである。
この連立方程式の各線形方程式は、それぞれWおよびSコンポーネントに関するオーナーシップ確率によって重み付けされた、異なる動き制約から作られる。式(23)におけるεは、Wコンポーネント制約に関する重み付け因数である。式(21)の近似目的関数の最大化に関する数学的に適正なM−ステップは、重みε=1を使用することになろう。発明者らは、ε=1/nの因数により、Wコンポーネントによって所有されている制約のダウン・ウェイトを行うと有用であることを発見し、それにおいてnは、アピアランス・モデル内において使用される指数時間ウインドウの半減期である。それに加えて、D.J.Fleet(D.J.フリート)およびA.D.Jepson(A.D.ジェプソン)による「Stability of Phase Information(位相情報の安定性)」(上記引用)を使用して帯域信号で発生する局所的位相不安定性を検出する。局所的位相観測dx,tが不安定であると考えられるときは、常に対応するグラディエント制約が未定義になり、式(23)に含められることはない。時間t−1における不安定な観測を、カレント・ワープの下に時間tにおける良好な観測にマップすると、尤度
(dx,t,dx,t−1
が未定義になる。それに代えて、以前の観測が不安定と考えられるとき、p=0,05を使用する。また、それらの場合においては、対応するWコンポーネントの制約を、εを0にセットすることによって線形連立系から除去する。
実際上は、局所的な最小値にはまり込むことを回避する補助のために、粗−密ストラテジを伴うEMアルゴリズムおよび決定論的アニーリングを、動きパラメータの当てはめに適用することが有用である(たとえば、参照によりこれに援用されている1993年6月にニューヨークで開催されたIEEE Computer Vision and Pattern Recognition(IEEEコンピュータの視覚およびパターン認識)CVPR−93の会報760〜761ページにあるA.Jepson(A.D.ジェプソン)およびM.J.Black(M.J.ブラック)による「Mixture Model for Opticl Flow Computation(オプティカル・フロー演算に関する混合モデル)」を参照されたい)。ワープ・パラメータに関する初期推測は、定速モデルを基礎とし、その結果、初期推測は、単純に以前のフレームからの評価済みワープ・パラメータに等しくなる。アニーリングのために、SおよびWコンポーネントに関する式(22)のオーナーシップならびにグラディエントの演算における分散σ s,tおよびσ の使用に代えて、パラメータσおよびσが使用される。EMアルゴリズムの各繰り返しにおいては、これらの値が以下に従って減少する。
これにおいて
σ
および
σ
は、カレントのEMの繰り返しにおいて獲得された動き評価を前提とする、SコンポーネントおよびWコンポーネントの位相差の、全近隣Nにわたる最大尤度分散評価である。分散が最小値に達すると、アニーリングがオフになり、それらは、カレントの動きパラメータに従った揺動が許される。さらに、Sコンポーネントの分散が、各EMの繰り返しにおけるデータ観測の空間的集合に従って減少することから、オーナーシップおよび尤度グラディエントの演算における各個別の観測に使用される分散は、対応する分散σ s,tより低くなることができない。
最後に、ワープ・パラメータ

が決定された後は、アピアランス・モデルAt−1

によって指定されるワープを使用して、カレント時間tに向かって前方に対流(ワープ)される。このワープを行うために、区分的な定数の補間値(原文:interpolant)が、WSL状態変数
m(x,t−1)
および
σ(x,t−1)
に関して使用される。この補間は、安定プロセスに関する平均
μ(x,t−1)
の補間への使用には粗すぎることが予測されたため、区分的な線型モデルを使用して平均の補間が行われている。この補間に関する空間位相グラディエントは、イメージ・ピラミッドのサンプリング・グリッド上の希望ロケーション

に対する最近ピクセルにおけるフィルタ応答のグラディエントから決定される(参照によりこれに援用されている1991年のComputer Vision and Image Understanding(コンピュータの視覚およびイメージの理解)53(2):198〜210にあるD.J.Fleet(D.J.フリート)、A.D.Jepson(A.D.ジェプソン)およびM.Jenkin(M.ジェンキン)による「Phase−Based Disparity Measurement(位相ベースの不同測定)」を参照されたい)。
上に示したようにWSLアピアランス・モデルを使用する追跡システムが、発明者らによって、Unix(登録商標)(読み:ユニックス(登録商標))オペレーティング・システムで動作するSUN(読み:サン)ワークステーションを使用して実装され、MatlabPyrToolsおよびMatLabソフトウエア・ツールボックスの1ないしは複数を使用してCプログラミング言語により記述された。この実装された追跡システムのパフォーマンスを記述する各種の例について次に説明する。
図17〜19は、第1の方向に歩行中(イメージ・フレーム内を左から右;図17)の対象がカメラの方向に振り返り(図18)、続いて逆方向に歩いて行く(つまり右から左;図19)シーケンスから抽出したイメージを示している。この例は、Sコンポーネントが、3Dターゲット・オブジェクト(たとえば対象の頭部)の回転によって生じる漸進的なひずみに適合し得ることを例示している。図17〜19において、色が薄くなっている楕円は、最初のフレーム内においてマニュアルで選択された選択領域を示している。この楕円が、振り返るプロセスの間にわたって対象の頭部に貼り付いていることは、追跡が成功していることを表す。
図20〜25に例証されているように、追跡システムの成功は、対象の振り返り全体を通じて安定したイメージ構造を識別するSコンポーネントの能力に大きく影響される。図20および21は、図17のイメージ・フレームによって生成された複数のデータ・ストリームに関する混合確率および平均値をそれぞれ示している。図20の色の濃い領域は、密に詰まっている比較的高い混合確率値(安定した構造を意味する)の領域を示し、色の薄い領域は低い混合確率値(不安定な構造を意味する)を示す。領域1110および1120内に示されるように、高度に安定した構造は、それぞれ対象の目および耳に関連付けされた高コントラストのエリア内において識別されている。図22および23は、対象の振り返り(図18に示されている)に従って生じる混合確率および平均値に対する変化を示している。ここで注意が必要であるが、目の領域1210および耳の領域1220内の混合確率がそれぞれ高く、これらの領域内においては安定したイメージ・データが維持される。最後の図24および25は、対象の振り返りが完了(図18に示されている)した後の混合確率および平均値に対する変化を示している。ここでは、数が大きく縮小されているにもかかわらず、目の領域1310および耳の領域1320から充分に安定したデータが獲得され、追跡の成功が促進されていることに注意されたい。
図26および27は、合成イメージであり、サイズおよび証明条件の著しい変化に抗して追跡システムの動きおよびアピアランスの結合評価が安定していることを示している。現在の方法にとってさらに困難なことは、ターゲット領域が(時々)小さくなること、および背景の動きからの、オブジェクトの動きの分離が小さいこと(フレーム当たり1ピクセル程度)である。また、ターゲット領域の概略半分に、茂みによるオクルージョンが時々生じている。カメラは、撮影の間にわたって静止しており、シーケンスは、それぞれ概略で250フレームである。図26および27に図示されている2つのランは、最後のフレームに重畳された選択フレームに関して、ターゲット領域を強調して示している。
図28〜43は、部分的なオクルージョンに応答した追跡システムの振る舞いを例示している。図28、32、36、および40は、対象がオクルージョンの生じていない初期状態(図28)から、看板によって部分的なオクルージョンを生じ(図32および36)、最終的に看板の後方に再度現れる状態(図40)まで移動する間のシーケンスから選択したイメージ・フレームである。図29〜41は、混合確率
(x,t)
をプロットしており、図30〜42は、平均
μ(x,t)
をプロットしており、図31〜43は、Sコンポーネントに関するオーナーシップ
s,t(x,t)
をプロットしている。
図28〜31は、約70フレームの後の処理を示している。ms,tおよびos,tに関する著しい応答(図29および31)は、アピアランス・モデルが、通常はオブジェクト境界の内側となる、安定した構造の識別に成功したことを立証している。看板によって対象の部分的なオクルージョンが生じている図32〜35および36〜39を参照すると、
(x,t)
は、データのサポートがないことからオクルージョンの生じている領域内においてなめらかに減衰しているが、平均
μ(x,t)
は、mがプロットのスレッショルドより低く落ちるまで概略で一定に保たれている。これは、アピアランス・モデルの持続性を明確に例証している。図36〜39は、オクルージョンから約20フレーム後の(ここで、このモデルの半減期がn=20であったことを思い出されたい)対象およびアピアランス・モデルを示しており、その時点まで、Sコンポーネント内のより弱いデータ・ポイントが消失している。しかしながら、このモデルは、このオクルージョンの発生を通じて追跡を継続しており、対象の見えている部分上(たとえば領域1710;図39)に安定したモデルを維持している。図40〜43においては、オクルージョンの背後から人物が現れたとき、消散された安定したモデルをアピアランス・モデルが再構築している。
図44〜52は、図19A〜46に示されている一連のイメージ内に現れている表情の変化等の、非剛体(たとえば自然)オブジェクトのイメージ内における安定したプロパティを追跡し、識別し得るWSLアピアランス・モデルの能力を例示している。前述の例の場合と同様に、図47、49、および51は、Sコンポーネントの混合確率を示し、図47、49、および51は、それぞれの平均値を示している。図47を参照すると、最初に口の領域2010が比較的安定であるとして識別されていることに気付く。図49においては、対象がほほえんだ直後に、口の領域2010の安定性が大きく弱められている(より色の薄いシェーディングによって示されている)。図91に示されているように、約20フレームの間にわたって新しい表情が維持された後は、口の領域2010における安定性が再確立される。眉等の顔の残りの部分も類似の振る舞いを呈する。その逆に、生え際近傍および鼻のmの値は、これらのイベント全体を通じて増加を続け、それらが持続的に安定していること、および全体として頭部が正確に追跡されていることを示している。
以上、1ないしは複数の具体的な実施態様との関係から本発明を説明してきたが、この説明は、いかなる意味においても本発明を限定する意図ではない。すなわち、ここに説明した本発明には、付随する特許請求の範囲内に含まれる、当業者にとって明らかなすべての修正および変形を包含することが意図されている。

Claims (3)

  1. 複数の連続したイメージフレーム内に提供されるイメージデータを使用するアピアランスモデルを生成するための方法であって、
    前記アピアランスモデルが、第1の混合確率及び比較的多数の連続したイメージフレーム内に提供されるイメージデータによって定義される第1のデータパラメータを含む安定コンポーネントによって定義され、かつ前記アピアランスモデルが、第2の混合確率及び比較的少数の連続したイメージフレーム内に提供されるイメージデータによって定義される第2のデータパラメータを有する推移コンポーネントを包含し、
    前記方法が、
    複数の連続したイメージフレームの、もっとも新しいイメージフレームに対応するイメージデータを受け取り、
    前記安定コンポーネントに関する第1の尤度値及び前記推移コンポーネントに関する第2の尤度値の決定であって、前記第1の尤度値が前記イメージデータと前記第1のデータパラメータの間における相対的な一致を示し、第2の尤度値が前記イメージデータと前記第2のデータパラメータの間における相対的な一致を示すものとし、
    前記第1および第2の尤度値をそれぞれ使用して、前記安定コンポーネントの前記混合確率及び前記推移コンポーネントの前記第2の混合確率を更新する、
    各ステップを含む方法。
  2. 選択されたターゲットオブジェクトを追跡するための方法であって、
    前記ターゲットオブジェクトに関連付けされたイメージデータを含むカレントイメージフレームを受け取り、
    ターゲットオブジェクトの動きを、時間的に前記カレントイメージフレームに先行する比較的多数のイメージフレームにわたって受け取られたイメージデータによって定義されるパラメータを有する第1のイメージコンポーネント及び時間的に前記カレントイメージフレームに先行する比較的少数の連続するイメージフレームにわたるイメージデータによって定義されるパラメータを有する第2のイメージコンポーネントを含む適応型アピアランスモデルを使用して評価し、
    前記第1及び第2のイメージコンポーネントを更新する、
    各ステップを含む方法。
  3. プロセッサによりコントロールされるマシン上に実装される、複数の連続したイメージフレーム内に現れるオブジェクトを識別するための適応型アピアランスモデルであって、
    比較的多数の連続したイメージフレームにわたって安定を保つイメージデータによって定義されるパラメータを有する第1のイメージコンポーネントと、
    比較的少数の連続したイメージフレームによって定義されるパラメータを有する第2のイメージコンポーネントを含み、かつ
    複数の連続したイメージフレームのカレントイメージフレームを受け取った後に、前記第1のイメージコンポーネントを更新するための手段と、
    を包含する適応型アピアランスモデル。
JP2009155784A 2001-12-07 2009-06-30 視覚型動き解析及び視覚型追跡のためのアピアランスモデル Expired - Fee Related JP4824791B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/016,659 2001-12-07
US10/016,659 US7058205B2 (en) 2001-12-07 2001-12-07 Robust, on-line, view-based appearance models for visual motion analysis and visual tracking

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2002354936A Division JP4372411B2 (ja) 2001-12-07 2002-12-06 アピアランスモデルの生成方法

Publications (2)

Publication Number Publication Date
JP2009217855A true JP2009217855A (ja) 2009-09-24
JP4824791B2 JP4824791B2 (ja) 2011-11-30

Family

ID=21778275

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2002354936A Expired - Fee Related JP4372411B2 (ja) 2001-12-07 2002-12-06 アピアランスモデルの生成方法
JP2009155784A Expired - Fee Related JP4824791B2 (ja) 2001-12-07 2009-06-30 視覚型動き解析及び視覚型追跡のためのアピアランスモデル

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2002354936A Expired - Fee Related JP4372411B2 (ja) 2001-12-07 2002-12-06 アピアランスモデルの生成方法

Country Status (5)

Country Link
US (1) US7058205B2 (ja)
EP (1) EP1318477B1 (ja)
JP (2) JP4372411B2 (ja)
BR (1) BR0204991A (ja)
DE (1) DE60209989T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015532739A (ja) * 2012-07-26 2015-11-12 クアルコム,インコーポレイテッド ユーザインターフェースコントローラなどの有形オブジェクトの拡張

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7058205B2 (en) * 2001-12-07 2006-06-06 Xerox Corporation Robust, on-line, view-based appearance models for visual motion analysis and visual tracking
US6954544B2 (en) * 2002-05-23 2005-10-11 Xerox Corporation Visual motion analysis method for detecting arbitrary numbers of moving objects in image sequences
GB0218982D0 (en) * 2002-08-15 2002-09-25 Roke Manor Research Video motion anomaly detector
US7072494B2 (en) 2004-02-20 2006-07-04 Siemens Corporate Research, Inc. Method and system for multi-modal component-based tracking of an object using robust information fusion
EP1602321A1 (en) * 2004-06-02 2005-12-07 SensoMotoric Instruments GmbH Method and apparatus for image-based eye tracking for retinal diagnostic or surgery device
US7639841B2 (en) * 2004-12-20 2009-12-29 Siemens Corporation System and method for on-road detection of a vehicle using knowledge fusion
US7599549B2 (en) * 2004-12-22 2009-10-06 Fujifilm Corporation Image processing method, image processing apparatus, and computer readable medium, in which an image processing program is recorded
GB0502371D0 (en) * 2005-02-04 2005-03-16 British Telecomm Identifying spurious regions in a video frame
DE602006017812D1 (de) * 2005-03-17 2010-12-09 British Telecomm Verfahren zur verfolgung von objekten in einer videosequenz
US7664962B2 (en) * 2006-03-13 2010-02-16 Motorola, Inc. Multiple-input, automatic recognition method and apparatus
US8026931B2 (en) 2006-03-16 2011-09-27 Microsoft Corporation Digital video effects
US20110123067A1 (en) * 2006-06-12 2011-05-26 D & S Consultants, Inc. Method And System for Tracking a Target
EP1879149B1 (en) * 2006-07-10 2016-03-16 Fondazione Bruno Kessler method and apparatus for tracking a number of objects or object parts in image sequences
US8154600B2 (en) * 2007-04-20 2012-04-10 Utc Fire & Security Americas Corporation, Inc. Method and system for distributed multiple target tracking
US20090002489A1 (en) * 2007-06-29 2009-01-01 Fuji Xerox Co., Ltd. Efficient tracking multiple objects through occlusion
GB2452512B (en) * 2007-09-05 2012-02-29 Sony Corp Apparatus and method of object tracking
US8160371B2 (en) * 2007-12-03 2012-04-17 Honeywell International Inc. System for finding archived objects in video data
US8190549B2 (en) * 2007-12-21 2012-05-29 Honda Motor Co., Ltd. Online sparse matrix Gaussian process regression and visual applications
US7782490B2 (en) * 2008-02-01 2010-08-24 Xerox Corporation Sensitivity matrix determination for adaptive color control
EP2131212A3 (en) * 2008-06-05 2011-10-05 Medison Co., Ltd. Non-Rigid Registration Between CT Images and Ultrasound Images
US8200017B2 (en) * 2008-10-04 2012-06-12 Microsoft Corporation Face alignment via component-based discriminative search
US8099442B2 (en) * 2008-10-24 2012-01-17 Seiko Epson Corporation Robust generative features
US8611590B2 (en) * 2008-12-23 2013-12-17 Canon Kabushiki Kaisha Video object fragmentation detection and management
AU2008264232B2 (en) * 2008-12-30 2012-05-17 Canon Kabushiki Kaisha Multi-modal object signature
WO2010118629A1 (en) * 2009-04-17 2010-10-21 The Hong Kong University Of Science And Technology Method, device and system for facilitating motion estimation and compensation of feature-motion decorrelation
US8989438B2 (en) * 2009-08-20 2015-03-24 Nec Corporation Mobile body track identification system
AU2009243528B2 (en) 2009-12-04 2013-08-01 Canon Kabushiki Kaisha Location-based signature selection for multi-camera object tracking
US20110187703A1 (en) * 2010-01-29 2011-08-04 Kedar Anil Patwardhan Method and system for object tracking using appearance model
US8873798B2 (en) * 2010-02-05 2014-10-28 Rochester Institue Of Technology Methods for tracking objects using random projections, distance learning and a hybrid template library and apparatuses thereof
DE102010023313A1 (de) * 2010-06-10 2011-12-15 Jörg Mudrak Verfahren zur Erzeugung von Bewegungsartefakten in einem Bild und eine dafür benötigte Einrichtung
US9429940B2 (en) 2011-01-05 2016-08-30 Sphero, Inc. Self propelled device with magnetic coupling
US9090214B2 (en) 2011-01-05 2015-07-28 Orbotix, Inc. Magnetically coupled accessory for a self-propelled device
US9218316B2 (en) 2011-01-05 2015-12-22 Sphero, Inc. Remotely controlling a self-propelled device in a virtualized environment
WO2012094349A2 (en) 2011-01-05 2012-07-12 Orbotix, Inc. Self-propelled device with actively engaged drive system
US10281915B2 (en) 2011-01-05 2019-05-07 Sphero, Inc. Multi-purposed self-propelled device
US8948447B2 (en) * 2011-07-12 2015-02-03 Lucasfilm Entertainment Companyy, Ltd. Scale independent tracking pattern
JP6185919B2 (ja) 2011-11-09 2017-08-23 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited 人物検出モダリティ結果を融合して人物カウンティングを向上させる方法及びシステム
CN104428791A (zh) 2012-05-14 2015-03-18 澳宝提克斯公司 通过检测图像中的圆形物体操作计算装置
US9827487B2 (en) 2012-05-14 2017-11-28 Sphero, Inc. Interactive augmented reality using a self-propelled device
US9292758B2 (en) 2012-05-14 2016-03-22 Sphero, Inc. Augmentation of elements in data content
US10056791B2 (en) 2012-07-13 2018-08-21 Sphero, Inc. Self-optimizing power transfer
KR101977802B1 (ko) * 2012-10-10 2019-05-13 삼성전자주식회사 영상 시스템에서 움직임 추정 장치 및 방법
US8995719B2 (en) * 2012-12-10 2015-03-31 Intel Corporation Techniques for improved image disparity estimation
US20140176548A1 (en) * 2012-12-21 2014-06-26 Nvidia Corporation Facial image enhancement for video communication
US9025825B2 (en) 2013-05-10 2015-05-05 Palo Alto Research Center Incorporated System and method for visual motion based object segmentation and tracking
US9070289B2 (en) 2013-05-10 2015-06-30 Palo Alto Research Incorporated System and method for detecting, tracking and estimating the speed of vehicles from a mobile platform
CN103593856A (zh) * 2013-11-20 2014-02-19 中国科学院深圳先进技术研究院 单目标跟踪方法及系统
US9829882B2 (en) 2013-12-20 2017-11-28 Sphero, Inc. Self-propelled device with center of mass drive system
CN104408768B (zh) * 2014-11-20 2017-06-09 浙江大学 一种基于联合字典的三维人脸表情去除的方法
US9697614B2 (en) 2014-12-08 2017-07-04 Mitsubishi Electric Research Laboratories, Inc. Method for segmenting and tracking content in videos using low-dimensional subspaces and sparse vectors
US10252417B2 (en) * 2016-03-02 2019-04-09 Canon Kabushiki Kaisha Information processing apparatus, method of controlling information processing apparatus, and storage medium
EP3340104B1 (en) * 2016-12-21 2023-11-29 Axis AB A method for generating alerts in a video surveillance system
JP7080615B2 (ja) * 2017-10-04 2022-06-06 株式会社日立製作所 監視装置、その方法および、そのシステム
CN111291739B (zh) * 2020-05-09 2020-09-18 腾讯科技(深圳)有限公司 面部检测、图像检测神经网络训练方法、装置和设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04372411A (ja) * 1991-06-19 1992-12-25 Toyota Motor Corp アクティブサスペンションの制御装置
US5625715A (en) * 1990-09-07 1997-04-29 U.S. Philips Corporation Method and apparatus for encoding pictures including a moving object
US6731799B1 (en) * 2000-06-01 2004-05-04 University Of Washington Object segmentation with background extraction and moving boundary techniques
US7058205B2 (en) * 2001-12-07 2006-06-06 Xerox Corporation Robust, on-line, view-based appearance models for visual motion analysis and visual tracking

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6724915B1 (en) * 1998-03-13 2004-04-20 Siemens Corporate Research, Inc. Method for tracking a video object in a time-ordered sequence of image frames
US6798897B1 (en) * 1999-09-05 2004-09-28 Protrack Ltd. Real time image registration, motion detection and background replacement using discrete local motion estimation
US6741756B1 (en) * 1999-09-30 2004-05-25 Microsoft Corp. System and method for estimating the orientation of an object

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5625715A (en) * 1990-09-07 1997-04-29 U.S. Philips Corporation Method and apparatus for encoding pictures including a moving object
JPH04372411A (ja) * 1991-06-19 1992-12-25 Toyota Motor Corp アクティブサスペンションの制御装置
US6731799B1 (en) * 2000-06-01 2004-05-04 University Of Washington Object segmentation with background extraction and moving boundary techniques
US7058205B2 (en) * 2001-12-07 2006-06-06 Xerox Corporation Robust, on-line, view-based appearance models for visual motion analysis and visual tracking

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015532739A (ja) * 2012-07-26 2015-11-12 クアルコム,インコーポレイテッド ユーザインターフェースコントローラなどの有形オブジェクトの拡張

Also Published As

Publication number Publication date
DE60209989T2 (de) 2006-08-17
EP1318477B1 (en) 2006-03-22
EP1318477A2 (en) 2003-06-11
US20030108220A1 (en) 2003-06-12
JP4372411B2 (ja) 2009-11-25
DE60209989D1 (de) 2006-05-11
JP4824791B2 (ja) 2011-11-30
BR0204991A (pt) 2004-06-29
US7058205B2 (en) 2006-06-06
EP1318477A3 (en) 2003-09-17
JP2003196661A (ja) 2003-07-11

Similar Documents

Publication Publication Date Title
JP4824791B2 (ja) 視覚型動き解析及び視覚型追跡のためのアピアランスモデル
JP6695503B2 (ja) 車両の運転者の状態を監視するための方法及びシステム
Dosovitskiy et al. Flownet: Learning optical flow with convolutional networks
US7072494B2 (en) Method and system for multi-modal component-based tracking of an object using robust information fusion
JP5848341B2 (ja) 単眼3次元ポーズ推定および検出による追跡
Jepson et al. Robust online appearance models for visual tracking
Babu et al. Robust tracking with motion estimation and local kernel-based color modeling
Mei et al. Robust visual tracking and vehicle classification via sparse representation
JP6421510B2 (ja) 目標検出方法及び目標検出システム
Zhou et al. A background layer model for object tracking through occlusion
US7755619B2 (en) Automatic 3D face-modeling from video
JP5520463B2 (ja) 画像処理装置、対象物追跡装置および画像処理方法
US8363902B2 (en) Moving object detection method and moving object detection apparatus
EP2854104A1 (en) Semi-dense simultaneous localization and mapping
US20040109584A1 (en) Method for tracking facial features in a video sequence
JP2012529691A (ja) 3次元画像生成
CN109685037B (zh) 一种实时动作识别方法、装置及电子设备
US20230334235A1 (en) Detecting occlusion of digital ink
CN110175649A (zh) 一种关于重新检测的快速多尺度估计目标跟踪方法
KR101681104B1 (ko) 부분적 가림을 갖는 영상 객체 내의 주요 특징점 기반 다중 객체 추적 방법
CN113870315B (zh) 基于多算法集成的动作迁移模型训练方法及动作迁移方法
CN110602476A (zh) 一种基于深度信息辅助的高斯混合模型的空洞填补方法
US20210279506A1 (en) Systems, methods, and devices for head pose determination
Li et al. Real-time human tracking based on switching linear dynamic system combined with adaptive Meanshift tracker
Bazanov et al. Gaze estimation for near-eye display based on fusion of starburst algorithm and fern natural features

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090713

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090713

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110301

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110816

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110908

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140916

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees