JP4951700B2 - 視覚追跡のための適応型判別生成モデル及び逐次的フィッシャー判別分析並びにアプリケーション - Google Patents

視覚追跡のための適応型判別生成モデル及び逐次的フィッシャー判別分析並びにアプリケーション Download PDF

Info

Publication number
JP4951700B2
JP4951700B2 JP2010178651A JP2010178651A JP4951700B2 JP 4951700 B2 JP4951700 B2 JP 4951700B2 JP 2010178651 A JP2010178651 A JP 2010178651A JP 2010178651 A JP2010178651 A JP 2010178651A JP 4951700 B2 JP4951700 B2 JP 4951700B2
Authority
JP
Japan
Prior art keywords
model
image
computer system
type
image frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010178651A
Other languages
English (en)
Other versions
JP2011003207A (ja
Inventor
ヤン,ミンシュエン
リュエイスン リン,
リン,ジョンウ
ロス,デイビッド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of JP2011003207A publication Critical patent/JP2011003207A/ja
Application granted granted Critical
Publication of JP4951700B2 publication Critical patent/JP4951700B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/76Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries based on eigen-space representations, e.g. from pose or different illumination conditions; Shape manifolds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/164Detection; Localisation; Normalisation using holistic features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)
  • Image Processing (AREA)

Description

本出願は、合衆国法典(USC)第35編119条(e)の下、2004年7月9日に出願された米国仮特許出願第60/586,598号「逐次的フィッシャー判別分析を用いたオブジェクト追跡」に基づいて優先権を主張するものであり、参照により本明細書中に組み込むものとする。
本出願は、合衆国法典(USC)第35編119条(e)の下、2004年11月5日に出願された米国仮特許出願第60/625,501号「適応型判別生成モデル及びそのアプリケーション」に基づいて優先権を主張するものであり、参照により本明細書中に組み込むものとする。
本出願は、2005年7月11日に出願された米国特許出願第__/___,___号「逐次的フィッシャー判別分析を用いたオブジェクト追跡」にも関連しており、参照により本明細書中に組み込むものとする。
本出願は、2005年7月11日に出願された米国特許出願第__/___,___号「適応型判別生成モデル及びそのアプリケーション」にも関連しており、参照により本明細書中に組み込むものとする。
本出願は、2004年11月15日に出願された米国特許出願第10/989,986号「逐次的部分空間更新を用いた適応型確率的視覚追跡」にも関連しており、参照により本明細書中に組み込むものとする。
本発明は、一般的にはコンピュータに基づく視覚認知の分野に関し、より詳細には、適応型確率的判別生成モデルに関する。
視覚認知の分野において、多くのアプリケーションが、背景から対象オブジェクト又は関心のある画像を分離することを必要としている。特に、動画ビデオアプリケーションは、関心のある画像に対して、静的又は時間によって変化する背景に抗して追跡されることを要求する。
視覚追跡の問題は、「潜在モデル」に基づく連続又は離散時間状態推定として説明可能である。このようなモデルにおいて、観測結果すなわち観測データは、取得された画像の情報を符号化し、非観測状態は、対象オブジェクトの実際の位置又は動きパラメータを表す。このモデルは、長期の観測データから非観測状態を推測する。
各時間ステップにおいて、動的モデルは、以前及び現在の知識に基づいて、次の時間ステップでの対象物のいくつかの可能な位置(例えば、仮説)を予測する。以前の知識は、以前の観測結果と、推定された状態変遷と、を含む。新たな観測結果を受け取る度に、観測モデルは、対象物の実際の位置を推定する。観測モデルは、種々の動的モデル仮説を確認することにより、対象オブジェクトの最もあり得る位置を決定する。したがって、このような追跡アルゴリズムの総合的な性能は、観測モデルの正確さにより制限される。
ある従来のアプローチは、追跡を開始する前に、静的な観測モデルを作成する。このようなモデルは、照明、視角及び形状変形のような因子が長期にわたって明らかに変化することはないと仮定する。このような因子における全ての可能な変化を説明するために、大きなトレーニング例セットが必要となる。しかし、オブジェクトの外観は、このような因子が変化するにつれて明らかに変化する。それゆえ、不可能ではないとしても、視覚的に動的な環境の全ての可能なシナリオに適応するトレーニングセットを得ることは困難である。
他の従来のアプローチは、それぞれが対象オブジェクトの異なる特徴又はパーツを追跡する複数の追跡アルゴリズムを組み合わせる。各追跡アルゴリズムは、静的な観測モデルを備えている。各追跡アルゴリズムは任意の環境下では失敗するかもしれないが、全てが同時に失敗することは起こりそうにない。このアプローチは、現時点においてロバストな追跡アルゴリズムを適応的に選択する。このことは、全体的なロバスト性を改善するが、静的な観測モデルのそれぞれは、追跡を開始する前に、トレーニングを受ける、すなわち初期化されなければならない。このことは、適用領域を厳しく制限し、以前の見えない対象物に対する適用を妨害する。
したがって、トレーニングを必要とせずに、改善された追跡の正確さを提供し、実時間において対象ターゲットの外観変化にロバストに適応するために、観測の正確さの改善が必要とされている。
一実施形態によると、判別生成モデル又はDGMと呼ばれる改善された仮説検証アルゴリズムが、観測アルゴリズムを補完する。DGMは、二値分類アプローチにより、視覚的に動的な環境において背景から対象画像を分離する。このアプローチは、観測結果を対象クラス又は一以上の背景クラスに属するものとして分類し、これらのクラスは、それぞれ陽性クラス及び陰性クラスとも呼ばれる。
このアプローチは、動的モデルにより予測される画像位置が対象クラス又は背景クラスから生成される確率を決定する。このことは、陽性クラス例セット及び陰性クラス例セットが与えられた場合に、高い確率を陽性例に割り当て、低い確率を陰性例に割り当てる確率分布を定義することにより達成される。このことは、二段階のプロセスを含む。
第一段階、すなわち生成段階では、確率的主成分分析(PPCA)が、陽性例の確率密度をモデリングする。陽性例の分散のほとんどを含む線形部分空間が定義される。PPCAは、線形部分空間内に存在する例に高い確率を割り当てるガウス分布を提供する。
第二段階、すなわち判別段階では、生成モデルにより高い確率を間違って割り当てられた陰性例の確率を低減させる新たな確率分布が作成される。このことは、陰性例の射影と線形部分空間の平均との距離が増大するような、観測されたデータサンプルを線形部分空間上にマッピングする射影を適合することにより達成される。
この二段階のプロセスは、適応型判別生成モデル(ADGM)と呼ばれる反復/再帰的手法により実現される。ADGMは、二値分類に確率的解釈を与えることにより、従来の観測モデルを増補する。この結合が、対象オブジェクトクラスに最もありそうな画像サンプルを、(動的モデル仮説セットから)より効率的に選択することにより、追跡アルゴリズム及び他のアプリケーションの正確さを改善する。追加的な利点は、トレーニングの必要性を減らすのに加え、実時間における対象物の実質的な外観変化に適合することである。実験結果がこれらの利点を証明する。
他の実施形態によると、画像シーケンスにわたる視覚追跡が、一のオブジェクトクラスと一以上の背景クラスとを定義することにより決定される。画像から得られる判別特徴のほとんどが、各画像の部分をオブジェクトクラスに属するものとして選択するために用いられる。このアプローチは、分類と呼ばれる。
フィッシャー線形判別(FLD)手法は、高次元画像データを、より低次元な空間、例えば、線に射影し、低次元な空間において分類を実行するために用いられる。射影関数は、各クラスの分散を最小化する一方で、オブジェクトクラス及び背景クラスの平均間の距離を最大化する。
FLDは、各クラスのサンプルがクラスタリングされること、すなわち、各クラス内の外観分散が比較的小さいことを必要とする。実際には、この制約はオブジェクトクラスでは成立するが、単一の背景クラスでは成立しない。したがって、本発明の一実施形態は、一のオブジェクトクラスと複数の背景クラスとを備えている。しかし、背景クラスに要求される数が問題である。他の実施形態は、背景をモデリングするためにサンプルごとに一のクラスを用いることにより、この問題を克服する。さらに他の実施形態は、射影関数を逐次的に更新することによりFLDを拡張する。実験結果は、本発明の効果を裏付けている。
本明細書に記載された特徴及び利点は、全てを包含しているものではなく、特に、当業者にとっては、図面、明細書及び特許請求の範囲を参照することにより、多くの追加的な特徴及び利点が明らかとなるであろう。さらに、明細書で用いられる言語は、原則として読みやすさと説明の目的のために選択されたものであり、発明の主題を線引き又は制限するために選択されたものではないことに留意されたい。
本発明は、添付された図面と併せたときに、以下の発明の詳細な説明及び添付された特許請求の範囲から直ちに明らかになる他の特徴及び利点を有する。
本発明の方法の一実施形態において用いられる潜在モデルを説明するための図である。 本発明の方法の一実施形態を説明するためのフローチャートである。 本発明の一実施形態において用いられる動的モデルを説明するための図である。 本発明の一実施形態において用いられる観測モデルを説明するための図である。 本発明の一実施形態において用いられる判別生成モデルによる陽性例及び陰性例並びにこれらの線上への射影を説明するための図である。 (a)は陽性例及び陰性例の悪い判別を説明するための図であり、(b)は陽性例及び陰性例の良い判別、並びにクラス内散乱及びクラス間散乱を説明するための図である。 本発明を実行するためのコンピュータシステムの一実施形態を説明するための図である。 本発明の一実施形態の実験例の一部結果を説明するための図である。 本発明の一実施形態の他の実験例の一部結果を説明するための図である。 本発明の方法の他の実施形態を説明するためのフローチャートである。 本発明の他の実施形態の他の実験例の一部結果を説明するための図である。 本発明の他の実施形態の他の実験例の一部結果を説明するための図である。
次に、本発明のいくつかの実施形態について詳細に説明し、それらの実施例に関して添付図面で図解する。これらの図面において、実際に同様又は類似の符号が用いられる場合には、同様又は類似の機能を示しうることに留意されたい。これらの図面は、単なる例示の目的のみで本発明の実施形態を示すものである。当業者であれば、以下の説明により、本明細書に記載された本発明の要旨を逸脱しない限り、本明細書で例示された構造及び方法に対する代替の実施形態を用いることができることを容易に理解するであろう。
図1には、視覚追跡の問題点が図式的に説明されている。各時間ステップtで、観測画像領域すなわちフレームoが順に観測されており、対象オブジェクトに対応する状態変数sは、観測されないものとして扱われる。一のフレームから次のフレームへのオブジェクトの動きは、st−1で与えられたオブジェクトが、sで表れる確率に基づいてモデリングされる。換言すると、このモデルは、時刻tでのオブジェクトの可能な位置を、現時点での画像フレームを観測するために予め決定されたもので表す。オブジェクトが特定の可能な位置にある尤度は、確率分布に応じて決定される。ゴールは、最もあり得る帰納的なオブジェクト位置を決定することである。
視覚追跡の問題点は、このステップにおいて、帰納的な状態推定の問題点として説明される。このことに関する記述は、M. Isard and A. Blake, Contour Tracking by Stochastic Propagation of Conditional Density, Proceedings of the Fourth European Conference on Computer Vision, LNCS 1064, Springer Verlag, 1996 に開示されており、参照により本明細書に組み込むものとする。また、「逐次的部分空間更新を有する適応型確率的視覚追跡」という表題の米国特許出願第10/989,986号明細書に開示されており、前記したように参照するものとする。
時刻tで観測された画像領域oに基づいて、O={o,…,o}は、開始から時刻tまでに観測された画像領域セットとして定義される。視覚追跡プロセスは、観測結果Oから状態sを推測し、状態sは、追跡されたオブジェクトの画像oにおける2−D位置、向き及びスケールに関するパラメータセットを含んでいる。マルコフ状態遷移を仮定すると、この推定の問題点は、帰納的な式を用いて説明される。
ここで、kは、定数であり、p(o|s)及びp(s|st−1)は、後記するように、それぞれ観測モデル及び動的モデルに対応する。
式(1)において、p(st−1|Ot−1)は、時刻t−1までの全ての以前の観測結果が与えられた状態推定であり、p(o|s)は、状態sでの観測画像oの尤度である。視覚追跡に関して、p(s|O)の理想的な分布は、o、すなわち、観測されたオブジェクトの位置oにマッチングしたsでピークとなるべきである。式(1)における積分は、オブジェクトが与えられた全ての以前の観測結果で現れそうな領域を予測し、観測モデルp(o|s)は、時刻tでの観測結果にマッチングする最もあり得る状態を決定する。
この実施形態によると、p(o|s)は、oを観測する確率を、対象ターゲットクラスにより生成されたサンプルとして測定する。Oは、画像シーケンスであり、画像が高フレームレートで取得される場合には、オブジェクトの外観が視角、照明及び可能な自己変形に応じて変化する場合であっても、oとot−1との差が小さくなることが期待される。複雑な静的モデルを採用して全ての可能なoに関するp(o|s)を学習するのに代えて、単純な適用モデルは、外観変化を説明するのに十分である。さらに、oとot−1とが類似していることは最もあり得ると思われ、かつ、p(o|s)の算出がp(ot−1|st−1)に依存するので、以前の情報p(ot−1|st−1)は、p(o|s)におけるオブジェクトとその背景との間の区別を強化するのに用いられる。
ここで図2を参照すると、式(1)を解く方法の一実施形態が示されている。初期フレームベクトルを受け取る(206)。このフレームベクトルは、ピクセルごとに一の要素を備えており、各ピクセルは、明るさ、色等の記述を備えている。続いて、対象ターゲットの初期位置が決定される(212)。このことは、手動又は自動手段を介して達成可能である。自動的なオブジェクト位置決定の例としては、顔検出が挙げられる。顔検出の一実施形態は、米国特許出願第10/858,878号、オブジェクトを検出するための方法、装置及びプログラムに説明されており、参照により本明細書に組み込むものとする。このような実施形態は、画像内のオブジェクト又は関心のある領域の追跡アルゴリズムを教えてくれる。
図2に戻り、本発明は、動的モデルを適用して(224)、分布p(St|St−1)によって、現在のフレームst内の位置に基づいて、次のフレームst+1における対象ターゲットの可能な位置を予測する。このことは、現在のフレーム310における位置と、次のフレーム320iと、を含む図3に概念的に示されている。換言すると、動的モデルにより提供された確率分布は、各フレーム及び画像領域を観測する前に、対象オブジェクトが時刻tで位置する場所についての信念を符号化する。適用された(224)動的モデルによると、時刻tでの対象オブジェクトの位置sは、ウィンドウ位置(x,y)、角度の向き(θ)並びに幅及び高さ(w,h)をパラメータ化した、長さが5のベクトルs=(x,y,θ,w,h)である。
続いて、画像観測モデルが適用される(230)。このモデルは、確率的主成分分析(PPCA)に基づいている。このことの記述は、M. E. Tipping and C. M. Bishop, Probabilistic principle components analysis, Journal of the Royal Statistical Society, Series B, 1999 に開示されており、参照により本明細書に組み込むものとする。
観測モデルの適用(230)は、対象オブジェクトクラスにより生成されたサンプルとして、oを観測する確率p(o|s)を決定する。Oは画像のシーケンスであり、画像が高フレームレートで取得される場合には、オブジェクトの外観が視角、照明及び可能な自己変形のよって変化する場合であっても、oとot−1との間の差が小さくなることが期待されることに留意されたい。複雑な静的モデルを採用して全ての可能なoに関するp(o|s)を学習するのに代えて、より単純な適用モデルが、外観変化を説明するのに十分である。さらに、oとot−1とが類似していることは最もあり得ると思われ、かつ、p(o|s)の算出がp(ot−1|st−1)に依存するので、以前の情報p(ot−1|st−1)は、p(o|s)におけるオブジェクトとその背景との間の区別を強化するのに用いられる。
再び図2に戻り、区別生成モデル(DGM)が適用されて(236)、推定された対象オブジェクト位置を改善する。DGMの開発は、Tipping and Bishopの著作物に続くものであり、これは、前記したように参照される。図1の潜在モデルは、式(2)に応じて、n次元の外観ベクトルyと潜在変数xのm次元ベクトルとを関連付ける。
y=Wx+μ+ε (2)
式(2)において、y及びxは、それぞれo及びsに類似しており、Wは、y及びxに関連するn×m射影行列であり、μは、yの平均であり、εは、付加雑音である。因子分析及び他のグラフィカルモデルにおいて一般に仮定されているように、潜在変数xは、ユニットの分散x〜N(0,I)に対して独立であり、ここでIは、m次元の単位行列であり、εは、ゼロ平均ガウス雑音ε〜N(0,σ)である。このことの記述は、An Introduction to Multivariate Statistical Analysis, T. W. Anderson, Wiley, 1984 及びLearning in Graphical Models, Michael I. Jordan, MIT Press, 1999 に開示されており、参照により本明細書に組み込むものとする。
x及びεはともにガウス的にランダムなベクトルであるので、ベクトルyはガウス分布y〜N(μ,C)を有し、ここでC=WW+σIであり、Iは、n次元の単位行列である。式(2)とともに、生成観測モデルは、
により定義される。この潜在変数モデルは、確率的主成分分析の形態に従い、そのパラメータは、例示画像セットから推定可能である。画像フレームセットY={y,…,y}が与えられると、Yの共分散行列は、
として示される。{λ|i=1,…,N}は、降順、すなわち、i<jであればλ≧λとなるように配列されたSの固有値である。また、対角行列Σ=diag(λ,…,λ)が定義され、Uは、Σにおける固有値に対応する固有ベクトルである。
Tipping and Bishop は、μ,W,εの最大尤度推定が
により得られることを示している。ここで、Rは、任意のm×m直交回転行列である。
この実施形態によると、モデルパラメータW,μ,σが外観変化を説明するために動的に適合されるので、前記した単一の線形PPCAモデルは、モデルの段階的な外観変化に十分である。
ベクトルyがこの生成外観モデルのサンプルである対数確率は、式(4)から
として算出可能である。ここで、
である。
定数項を無視すると、対数確率は、
により決定される。C=WW+σ及び式(4)とともに、以下のようになる。
は、Umによって測られる部分空間内におけるyの距離であり、図4ではdwにより表される。
は、yからこの部分空間までの最短距離であり、図4ではdtにより表される。σは大抵の場合小さい値に設定されるので、結果的に、確率は単に距離dtにより決定されることになる。式(6)から、σの値が実際の値よりもさらに小さく設定される場合には、距離dtは重視され、距離dwは無視され、これにより不正確な推定になってしまう。σの選択は、外観が動的に変化する状況における重要な因子である。この感受性の結果として、本発明の一実施形態は、新たに到着したサンプルによってσを適応して調節する。σの初期化及び調節のさらなる説明は、以下に与えられる。
前記したように、対象オブジェクトの外観は、ot−1からoまで明らかに変化しないことが期待される。したがって、ot−1での観測結果は、oに対応する尤度測定を改善するために使用可能である。すなわち、サンプルセット(例えば、画像パッチ)が描かれ、大きなp(ot−1|s t−1)を有するが小さい後のp(s t−1|Ot−1)を有するot−1において{s t−1|i=1,…,k}によりパラメータ化される。これらは、生成モデルがOで(対象ターゲットから生成された)陽性サンプルとして混同しがちな陰性サンプル(すなわち、対象ターゲットのクラスから生成されないサンプル)として扱われる。
画像サンプルセットY’={y,…,y}、が与えられると、線形射影Vは、部分空間におけるY’の尤度が最小化されるように、Y’を部分空間に射影するものと決定される。ここでyは状態パラメータs t−1に基づいてot−1内で収集された外観ベクトルである。Vをp×n行列とすると、p(y|W,μ,σ)がガウス分布であるので、p(Vy|V,W,μ,σ)〜N(Vμ,VCV)もガウス分布である。尤度の対数は、
により算出され、ここで、
である。以下の分析を容易にするために、VがY’を一次元空間、すなわち、p=1,V=νに射影すると仮定すると、
となる。
νCνは、射影空間におけるオブジェクトサンプルの分散である。例えば、νCν=1といった制約が、νの最小尤度解が射影空間における分散を増加させないことを保証するために課される。
νCν=1とすることにより、最適化問題は、
となる。
式(11)において、νは、射影空間における対象オブジェクトのサンプル(例えば、陽性サンプル)を(分散νCν=1という制約を有する)μの近くの場所に維持し、Y’における陰性サンプルをμから離れた場所に維持する射影である。νの最適値は、生成されたS’の固有ベクトル及び最大の固有値に対応するCである。一般的な場合において、それは、
のように示される。ここで、Vは、生成されたS’の固有値問題とCとを解くことにより得られる。観測オブジェクトをより低次元の部分空間に射影することにより、生成モデルの判別力が高められる。さらに、このことは、確率を算出するために要する時間を低減させ、視覚追跡のようなリアルタイム適用に関して重大な改善を表す。
射影ν及びその最適値の理解は、図5の参照により得られるであろう。二次元空間における陽性及び陰性サンプルは、それぞれ「○」と「×」とにより表される。代表サンプル510のようなサンプルは、それぞれライン520,540に射影することができる(530,550)。ライン540は、陽性サンプルと陰性サンプルとの間の判別性が低いので、下手な選択を表している。このことは、図6(a)に示される射影により概念的に示される。ライン520は、図6(b)に示すように、陽性及び陰性サンプルの射影が一般的に上手く分離されるので、より良い選択である。
図6(b)は、非常に良い判別を提示する仮想一次元例に係るC及びS’の意味を説明するための図である。Cは、個々のクラスとされる陽性又は陰性サンプルクラスタの分散に対応する。これは、「クラス内散乱」と呼ばれる。S’は、陽性クラスタと陰性クラスタとの間の分離に対応しており、「クラス間散乱」と呼ばれる。したがって、Vは、クラス内散乱に対するクラス間散乱の比を最大化する線形射影に対応する。
射影行列Vの算出は、行列C,S’に依存する。S’は、以下のように更新可能である。
及び
とすると
となる。S’,Cが与えられると、Vは、一般的な固有値問題を解くことにより算出可能である。S’=AA及びC=BBが分解されると、Vは、一般的な特異値分解(SVD)を用いて、より効率的に決定可能である。UY’,Σ’をSY’のSVDとすることにより、A=[UY’ΣY’ 1/2|(μ−μY’及びB=[UΣ 1/2|σI]と定義することによって、S’=AA及びC=BBとなる。
Vは、まず、QR因数分解
を実行し、V=R−1を生成する
=U (15)
によりQの特異値分解を算出することにより算出可能である。Aの階数は、視覚適用において大抵の場合小さく、Vは、効率的に算出可能であるので、追跡プロセスを容易にすることができる。前記した導出に用いられる方法の記述は、G.H. Golumb and C. F. Van Loan, Matrix Computations, Johns Hopkins University Press, 1996 に開示されており、参照により本明細書に組み込むものとする。
図2に戻り、先行ステップに基づき、かつ、式(1)により、前記した推論モデルが適用される(242)。対象オブジェクトの外観又はその照明が時間に依存して変化することがあり、固有基底がオブジェクト表現に用いられるので、固有基底は、時間依存性の共分散行列から連続的に更新される(248)ことが望ましい。この問題は、いくつかの算出効率化技術が再帰アルゴリズムの形態で提案されている信号処理団体において研究されている。このことの記述は、B. Champagneand Q. G. Liu, “Plane rotation-based EVD updating schemes for efficient subspace tracking”, IEEE Transactions on Signal Processing 46 (1998) に開示されており、参照により本明細書に組み込むものとする。この実施形態において、効率的な逐次的カルーネン−レーベアルゴリズムの改良型が固有基底を更新するのに用いられており、このことは、A. Levy and M. Lindenbaum, “Sequential Karhunen-Loeve bases extraction and its application to images”, IEEE Transactions on Image Processing 9 (2000) に開示されており、参照により本明細書に組み込むものとする。同様に、これは、クラシックなR−SVD法に基づいている。このことの記述は、G. H. Golub and C. F. Van Loan, “Matrix Computations”, The Johns Hopkins University Press (1996) に開示されており、参照により本明細書に組み込むものとする。
続いて、本発明の一実施形態は、動画ビデオシーケンスの全てのフレームが処理されたか否かを判定する(262)。処理されていない場合には、本方法は、次のフレームベクトルを受け取り(268)、ステップ224−256が繰り返される。
追跡アルゴリズムの実施形態の記載された特徴のいくつかを有すると、ここで、この実施形態の追加的な態様が留意される。本アルゴリズムは、それまでの全ての観測結果が与えられた場合における、現在時刻における対象オブジェクトの最もありそうな位置を決定する最大尤度推定に基づいている。このことは、s =argmaxstp(s|O)により示される。状態遷移がガウス分布であると仮定すると、すなわち、
p(s|st−1)〜N(st−1,Σ) (16)
であり、ここで、Σは対角行列である。この分布によると、追跡アルゴリズムは、対象物の可能な位置を表すN個のサンプル、すなわち、状態ベクトルS={c,…,c}を描く。y は、oの外観ベクトルであり、Y={y ,…,y }は、状態ベクトルセットSに対応する外観ベクトルセットである。追跡されたオブジェクトがcでビデオフレームoに存在する事後確率は、
として定義され、ここで、κは定数である。したがって、
である。
が一旦決定されると、対応する観測結果y は、W及びμを更新するための新たな例となる。大きなp(y |V,W,μ,σ)を有するが、対応する状態パラメータcがs から離れている外観ベクトルy は、Vを更新するための新たな例として用いられる。追跡アルゴリズムは、o及びs が(前記したようにオブジェクト検出を介して)与えられていると仮定し、順にμの初期値として用いられる1番目の外観ベクトルyを得る。しかし、V及びWは、始めは未知である。V及びWの初期値が得られないときには、追跡アルゴリズムは、テンプレートであるμを用いたテンプレートマッチングに基づく。行列Wは、少しの外観ベクトルが観測された後に算出される。Wが得られると、Vは、それに応じて算出及び更新可能である。
前記したように、σの正確な初期推定を得ることは困難である。したがって、σは、WのΣによって適応的に更新される。σは、初期には、ごく少量、例えばΣの最小の固有値である0.1に設定される。このことは、式(6)における距離測定がdw又はdtを重視するように偏らないことを保証する。
ここで図7を参照すると、本発明の一実施形態に係るシステムが示されている。コンピュータシステム700は、入力モジュール710と、メモリ装置714と、プロセッサ716と、出力モジュール718と、を備えている。他の実施形態において、画像処理プロセッサ712は、主プロセッサ716、すなわち、デジタル画像を所望の画像フォーマットに予めフォーマットした専用装置の一部とすることができる。同様に、メモリ装置714は、スタンドアロンのメモリ装置(例えば、ランダムアクセスメモリチップ、フラッシュメモリ等)であってもよく、プロセッサ716を有するオンチップメモリ(例えば、キャッシュメモリ)であってもよい。同様に、コンピュータシステム700は、サーバ、パーソナルコンピュータ等のようなスタンドアロンのシステムであってもよい。また、コンピュータシステム700は、例えば、視覚システムを有するロボット、セキュリティシステム(例えば、空港セキュリティシステム)等のように巨大システムの一部であってもよい。
この実施形態によると、コンピュータシステム700は、デジタル画像Oを受け取るための入力モジュール710を備えている。デジタル画像は、例えば、デジタルカメラ701a(例えば、ロボットの眼)、ビデオシステム701b(例えば、有線テレビ)、画像スキャナ等の撮像装置701から直接受け取ってもよい。また、入力モジュール710は、例えば、画像データベース、他の視覚システム、インターネットサーバ等の他のネットワークシステムからデジタル画像を受け取るためのネットワークインターフェースであってもよい。ネットワークインターフェースは、USB、RS−232シリアルポート、イーサネット(登録商標)カード等のような有線インターフェースであってもよく、例えば、ブルートゥース、WiFi、IEEE802.11等の無線プロトコルを用いて通信するように構成された無線装置のような無線インターフェースモジュールであってもよい。
任意の画像処理プロセッサ712は、プロセッサ712、すなわち、システム700の専用装置の一部であってもよい。画像処理プロセッサ712は、入力モジュール710を介して受け取ったデジタル画像を前処理して、デジタル画像をプロセッサ716上で動作する好適なフォーマットに変換するために使用可能である。例えば、入力モジュール710を介して受け取ったデジタル画像がJPEGフォーマットでデジタルカメラ710aから来ており、プロセッサがラスタ画像データを操作するように構成されている場合には、画像処理プロセッサ712は、JPEGをラスタ画像データに変換するために使用可能である。
デジタル画像Oは、画像処理プロセッサ712が用いられている場合には一旦所望の画像フォーマットになっており、メモリ装置714に記憶されてプロセッサ716により処理される。プロセッサ716は、例えば、動的モデル、観測モデル等の本発明に係る一以上の方法を実行する命令セットを適用する。一実施形態において、この命令セットは、メモリ装置714内の適応判別生成(ADG)ユニットに記憶される。命令セットを実行する間、プロセッサ716は、メモリ装置714にアクセスし、本発明の方法に係る操作をメモリ装置714内に記憶された画像データに実行する。
プロセッサ716は、入力画像I内の対象オブジェクトの位置を追跡し、追跡された対象物のアイデンティティ及び位置の指示を、出力モジュール718を介して外部装置725(例えば、データベース725a、ネットワーク要素又はサーバ725b、ディスプレイ装置725c等)に出力する。入力モジュール710と同様、出力モジュール718は、有線又は無線とすることができる。出力モジュール718は、ストレージドライブインターフェース(例えば、ハードドライブ又は光学式ドライブドライバ)、ネットワークインターフェース装置(例えば、イーサネット(登録商標)インターフェースカード、無線ネットワークカード等)若しくはディスプレイドライバ(例えば、グラフィックスカード等)又は対象オブジェクトの識別番号及び/又は位置を出力するための他の装置であってもよい。
判別生成モデルを有する追跡アルゴリズムは、多数の実験でテストされた。アルゴリズムが動的環境に適応してオブジェクトを追跡するか否かを試験するために、外観変化、大きな照明変化及び大きなポーズ変化を禁じた映像が記録された。全ての画像シーケンスは、320×240ピクセルのグレースケール映像からなり、30フレーム/秒、1ピクセルにつき256グレーレベルで記録された。忘却期間は、経験的に0.85として選択され、更新のためのバッチサイズは、算出効率と早い動きの存在下におけるモデル化した外観変化の有効性とのトレードオフとして5に設定された。忘却期間の記述は、Levy and Lindenbaum に開示されており、これは、前記したように引用された。
図8,9は、矩形ウィンドウ810,910で囲まれたいくつかの追跡結果のサンプルを示す。主ビデオフレームのそれぞれの下には、小さい画像の二つの横列がある。第一の横列820/920は、判別生成モデル(DGM)によって対象物位置の最も大きい尤度を有する現在のフレームにおけるサンプル画像を示す。第二の横列830/930は、DGMを更新するためにオンラインで選択された現在のビデオフレームにおけるサンプル画像を示す。図8における結果は、追跡アルゴリズムがポーズ及び照明の変化を受けた対象物をうまく追跡することを示す。図9は、ポーズ、照明及び影の明らかな変化の存在下で追跡がうまくいくことを示す。これら二つのシーケンスは、従来の視野に基づく固有追跡装置及びテンプレートに基づく方法でテストされた。このことに関する記述は、M. J. Black and A. D. Jepson, Eigentracking: Robust matching and tracking of articulated objects using view-based representation, Proceedings of the Fourth European Conference on Computer Vision, LNCS 1064, Springer Verlag, 1996 に開示されており、参照により本明細書に組み込むものとする。結果は、このような方法がDGMに基づく方法と同様には機能せず、前者は外観変化を説明するためにオブジェクト表現を更新することはない。
本発明の他の実施形態によると、フィッシャー線形判別(FLD)が、画像サンプルを、より低次元な部分空間に射影する。判別生成モデルに基づく実施形態に関して記載したように、より低次元な部分空間内で、クラス間散乱行列が最大化される一方で、クラス内散乱行列は最小化される。背景クラスの分布は、複数のガウス分布又は単一のガウス分布によってモデル化される。望ましくは、一のクラスが対象オブジェクトをモデル化し、複数のクラスが背景をモデル化する。一実施形態によると、画像サンプルごとに一のクラスが背景クラスをモデル化する。FLDは、背景クラスのサンプルからオブジェクトクラスのサンプルを区別する。
={x ,…,xNi }をクラスiのサンプルとする。FLDは、観測関数を最大化することにより、最適な射影行列Wを算出する。
ここで、
は、それぞれクラスiの平均であるm、クラスiのサンプル数であるN及びサンプルの全体的な平均であるmを有するクラス間及びクラス内散乱行列である。
X={x,…,xNx}をオブジェクトクラスのサンプルとし、Y={y,…,yNy}を背景クラスのサンプルとする。背景の各サンプルを個別のクラスとして扱うと、X=X及びX={yi−1},i=2,…,Ny+1を有するN+1個のクラスが存在する。Xを除き、全てのクラスは、正確に一つのサンプルを有する。したがって、i≠1である場合に、m=yi−1である。これらの関係の式(18)(19)への適用は、
を生じさせる。ここで、m及びmはX及びYにおけるサンプルの平均を示し、C及びCはX及びYにおけるサンプルの共分散行列を示す。
という事実を適用することにより、クラス間及びクラス内散乱行列は、
として記載可能である。
ここで図10を参照すると、この実施形態に対応する視覚追跡方法が示されている。
初期フレームベクトルを受け取る(1006)。このフレームベクトルの特徴は、ステップ206に関連して前記したものと同様である。続いて、対象オブジェクトの初期位置が決定される(1012)。このことは、ステップ212に関して前記したのと同様に達成可能である。この方法は、最初に、一番目のビデオフレームを用いて、対象物及び背景を分類する。一番目のビデオフレームで始めると、ステップ224に関して前記したように、動きパラメータセットが、初期対象オブジェクト位置を定義するウィンドウを特定する。そのウィンドウ内の画像部分は、オブジェクトクラスに関する初期例であることが望ましい。
続いて、ステップ224に関連して前記したように、動的モデルが適用されて(1024)時刻t+1でのオブジェクトの位置st+1を予測する。小さい摂動がオブジェクトクラスを表すウィンドウに適用され、対応する画像領域がトリミングされ、例えば、ウィンドウにより特定された領域の部分が取り出される。時刻tからt+1までの期間にわたって対象オブジェクトクラスの可能な変化をエミュレートすることにより、より大きいサンプルセットが得られる。また、より大きい摂動の適用は、非対象背景クラスのサンプルを提供する。例えば、時刻t+1でのトリミングされた画像セットに対応して、n個(例えば、500)のサンプルが描かれてもよい。これらの画像は、射影行列Wを用いて低次元空間に射影される。射影空間におけるオブジェクト画像はガウス分布により律則されるものと仮定する。続いて、推論モデルが適用される(1042)。描かれたn個のサンプルの中から、このモデルは、射影空間において射影されたサンプルの平均までの最小距離を有する画像を決定する。この距離は、図4に示され、判別生成モデルに関連して前記したdwに等しい。この画像が、時刻t+1でのオブジェクトの位置として選択される。
続いて、FLDが更新される(1056)。対応する動きパラメータが選択されたサンプルの動きパラメータに近いn0個のサンプルの選択されなかった要素が、時刻t+1でのオブジェクトクラスに関するトレーニング例として選択される。背景クラスに関する例は、射影空間においてオブジェクト平均までの最小距離を有し、選択された例の動きパラメータから明らかに外れた動きパラメータを有するものとして選択される。これらの動きパラメータが選択されたサンプルの動きパラメータと明らかに異なるので、これらのサンプルは、背景クラスの一つから生成されている可能性が高い。しかし、これらのサンプルは図4に示すようにオブジェクト平均までの小さい距離dwを有するので、これらのサンプルは、射影空間においてオブジェクトクラスに属するように見える。したがって、これらのサンプルは、オブジェクト及び背景クラスを判別するのに効果的な例である。
さらに、式(18)のJ(W)を最小化するWを見つけ出すことにより、FLDが更新される(1056)。このことは、一般的な固有値問題を解くことにより達成可能である。Sは階数が不完全な行列であるので、J(W)は、
に変換される。ここで、εは、小さい値を有するスカラー量である。前記した逐次的カルーネン−レーベアルゴリズムを用いると、C及びCは、
により近似される。
ここで、
と定義すると、
=A
+εI=BB (26)
であることが示される。所望のWの値は、WでVを代用し、前記した式(14)(15)を適用することにより求められる。
図10に戻り、ステップ1062,1068が、ステップ262,268に関して前記したようにそれぞれ適用される。
FLDを用いた追跡アルゴリズムは、顔追跡実験によってテストされた。ヒトのサブジェクトの顔を含み、照明変化及びポーズ変化を禁止した映像が記録された。全ての画像シーケンスは、320×240ピクセルのグレースケールビデオからなっており、30フレーム/秒かつ1ピクセルにつき256グレースケールで記録された。初期化に関し、対象物クラスに対する100の例と背景クラスに対する500の例とがFLDを算出するために用いられた。これらのサンプルのサイズは、妥協として選択された。より陽性及び陰性のサンプルが用いられると、より良い結果が得られる。しかし、例の数が増えると、より多くの計算が必要となる。一以上のクラスが陰性の例のために用いられることが望ましいので、陰性の例の数は、陽性の例の数よりも大きいことが望ましい。FLDは、5フレームごとに逐次的に更新された。追跡中に、フレームごとに5個の新たなオブジェクト及び背景の例が追加され、以前に用いられた例が保持された。
図11及び図12は、実験結果を示す図である。各メインビデオフレームの下には、小さい画像からなる二つの横列がある。第一の横列1120/1220は、各フレームで収集された5個の新たなオブジェクト画像例を受けたオブジェクトクラスの現在の平均を示す。第二の横列1130/1230は、各フレームで収集された新たな背景例を示す。このように、鋭い照明及びポーズ変化並びに顔の表情の変化があるにもかかわらず、追跡は安定している。
視覚追跡に適用された本発明の利点は、従来の手法に対する、改善された追跡の正確さ及び算出効率を含む。視覚追跡モデルが継続的に適合するので、ポーズ及び照明の変化による対象オブジェクト及び背景の大きな外観変化が効率的に適合される。
当業者であれば、開示された本発明の原理を介して判別生成モデル及びフィッシャー線形判別モデル並びにこれらのアプリケーションに関する他の代替の構成設計及び機能設計を高く評価するであろう。以上、本発明の特定の実施形態及び適用例について図解し説明したが、本発明が本明細書で開示された厳密な構成及び構成要素に限定されず、また、本明細書に記載された本発明の方法及び装置の配置、処理並びに詳細において、当業者にとって明白な改変、変更及び変形を多様に行うことができることを理解するであろう。

Claims (26)

  1. デジタル画像フレームのシーケンス内において、オブジェクトの位置を追跡するコンピュータを用いた方法であって、
    前記コンピュータは、
    前記デジタル画像フレームのシーケンス内の第一の画像フレームを表す第一の画像ベクトルを受け取り、
    前記第一の画像ベクトルから、前記第一の画像フレーム内における前記オブジェクトの初期位置を決定し、
    前記第一の画像ベクトルに対して動的モデルを適用し、前記第一の画像フレームと次の画像フレームとの間の前記オブジェクトの動きを推測し、前記デジタル画像フレームのシーケンスの前記次の画像フレーム内における前記オブジェクトの少なくとも1つの推測位置を決定し、
    前記次の画像フレーム内の前記オブジェクトの少なくとも1つの推測位置から低次元投影空間に対し、投影パラメータに応じて、サンプルを投影し、
    前記低次元投影空間において適用され、前記投影されたサンプルのそれぞれを前景オブジェクトタイプ及び背景タイプのうちの何れか1つに分類する分類モデルを、前記次の画像フレームの前記投影されたサンプルに対して適用し、
    前記低次元投影空間内で分類されたサンプルに対して推論モデルを適用して、前記デジタル画像フレームのシーケンスの前記第一の画像フレームと前記次の画像フレームとの間を前記オブジェクトが動いた結果である、前記オブジェクトの最もあり得る位置を推測し、
    前記オブジェクトの前記最もあり得る位置に基づいて、前記投影パラメータを更新すること、
    を特徴とする方法。
  2. 前記動的モデルは、
    前記オブジェクトのウィンドウ位置、角度方向、幅及び高さを表すこと、
    を特徴とする請求項1に記載の方法。
  3. 前記推論モデルは、
    前記次の画像ベクトルから前記前景オブジェクトタイプの平均までの距離を決定すること、
    を特徴とする請求項1に記載の方法。
  4. 前記分類モデルは、
    フィッシャー線形判別モデルを含むこと、
    を特徴とする請求項1に記載の方法。
  5. 前記背景タイプは、
    単一のクラスからなること、
    を特徴とする請求項1に記載の方法。
  6. 前記背景タイプは、
    複数のクラスからなること、
    を特徴とする請求項1に記載の方法。
  7. 前記背景タイプは、
    前記デジタル画像セット内の画像の数と等しい数のクラスを備えていること、
    を特徴とする請求項1に記載の方法。
  8. デジタル画像フレームのシーケンス内において、オブジェクトの位置を追跡するコンピュータシステムであって、
    前記コンピュータシステムは、
    前記デジタル画像フレームのシーケンス内の第一の画像フレームを表す第一の画像ベクトルを受け取る手段と、
    前記第一の画像ベクトルから、前記第一の画像フレーム内における前記オブジェクトの初期位置を決定する手段と、
    前記第一の画像ベクトルに対して動的モデルを適用し、前記第一の画像フレームと次の画像フレームとの間の前記オブジェクトの動きを推測し、前記デジタル画像フレームのシーケンスの前記次の画像フレーム内における前記オブジェクトの少なくとも1つの推測位置を決定する手段と、
    前記次の画像フレーム内の前記オブジェクトの少なくとも1つの推測位置から低次元投影空間に対し、投影パラメータに応じて、サンプルを投影する手段と、
    前記低次元投影空間において適用され、前記投影されたサンプルのそれぞれを前景オブジェクトタイプ及び背景タイプのうちの何れか1つに分類する分類モデルを、前記次の画像フレームの前記投影されたサンプルに対して適用する手段と、
    前記低次元投影空間内で分類されたサンプルに対して推論モデルを適用して、前記デジタル画像フレームのシーケンスの前記第一の画像フレームと前記次の画像フレームとの間を前記オブジェクトが動いた結果である、前記オブジェクトの最もあり得る位置を推測する手段と、
    前記オブジェクトの前記最もあり得る位置に基づいて、前記投影パラメータを更新する手段と、
    を有することを特徴とするコンピュータシステム。
  9. 前記背景タイプは、
    単一のクラスからなること、
    を特徴とする請求項8に記載のコンピュータシステム。
  10. 前記背景タイプは、
    複数のクラスからなること、
    を特徴とする請求項8に記載のコンピュータシステム。
  11. 前記推測位置を決定する手段は、
    前記オブジェクトのウィンドウ位置、角度方向、幅及び高さを表す手段を有すること、
    を特徴とする請求項8に記載のコンピュータシステム。
  12. 前記オブジェクトの最もあり得る位置を推測する手段は、
    前記次の画像ベクトルから前記前景オブジェクトタイプの平均までの距離を決定する手段を有すること、
    を特徴とする請求項8に記載のコンピュータシステム。
  13. 前記分類モデルは、
    フィッシャー線形判別モデルであること、
    を特徴とする請求項8に記載のコンピュータシステム。
  14. 前記背景タイプは、
    前記デジタル画像セット内の画像の数と等しい数のクラスを備えていること、
    を特徴とする請求項8に記載のコンピュータシステム。
  15. デジタル画像フレームのシーケンス内において、オブジェクトの位置を追跡する画像処理コンピュータシステムであって、
    前記画像処理コンピュータシステムは、
    前記デジタル画像フレームのシーケンスを示すデータを受け取る入力モジュールと、
    前記入力モジュールと接続されており、前記デジタル画像フレームのシーケンスを示すデータを格納する記憶装置と、
    前記記憶装置と接続されており、前記デジタル画像フレームのシーケンスを示すデータを反復的に検索するプロセッサと、
    を有し、
    前記プロセッサは、
    第一の画像ベクトルに対して動的モデルを適用し、第一の画像フレームと次の画像フレームとの間の前記オブジェクトの動きを推測し、前記デジタル画像フレームのシーケンスの前記次の画像フレーム内における前記オブジェクトの少なくとも1つの推測位置を決定し、
    前記次の画像フレーム内の前記オブジェクトの少なくとも1つの推測位置から低次元投影空間に対し、投影パラメータに応じて、サンプルを投影し、
    前記低次元投影空間において適用され、前記投影されたサンプルのそれぞれを前景オブジェクトタイプ及び背景タイプのうちの何れか1つに分類する分類モデルを、前記次の画像フレームの前記投影されたサンプルに対して適用し、
    前記低次元投影空間内で分類されたサンプルに対して推論モデルを適用して、前記デジタル画像フレームのシーケンスの前記第一の画像フレームと前記次の画像フレームとの間を前記オブジェクトが動いた結果である、前記オブジェクトの最もあり得る位置を推測し、
    前記オブジェクトの前記最もあり得る位置に基づいて、前記投影パラメータを更新する
    こと、
    を特徴とする画像処理コンピュータシステム。
  16. 前記動的モデルは、
    前記オブジェクトのウィンドウ位置、角度方向、幅及び高さを表すこと、
    を特徴とする請求項15に記載の画像処理コンピュータシステム。
  17. 前記推論モデルは、
    前記次の画像ベクトルから前記前景オブジェクトタイプの平均までの距離を決定すること、
    を特徴とする請求項15に記載の画像処理コンピュータシステム。
  18. 前記分類モデルは、
    フィッシャー線形判別モデルであること、
    を特徴とする請求項15に記載の画像処理コンピュータシステム。
  19. 前記背景タイプは、
    前記デジタル画像セット内の画像の数と等しい数のクラスを備えていること、
    を特徴とする請求項15に記載の画像処理コンピュータシステム。
  20. 前記背景タイプは、
    単一のクラスからなること、
    を特徴とする請求項15に記載の画像処理コンピュータシステム。
  21. 前記背景タイプは、
    複数のクラスからなること、
    を特徴とする請求項15に記載の画像処理コンピュータシステム。
  22. デジタル画像セットの二以上のデジタル画像内のオブジェクトの位置を追跡するためのコンピュータを用いた方法であって、
    前記コンピュータは、
    前記デジタル画像セット内の第一の画像を表す第一の画像ベクトルを受け取るステップと、
    前記第一の画像ベクトルから、前記第一の画像内のオブジェクトの位置を決定するステップと、
    前記第一の画像ベクトルに第一のモデルを適用し、前記デジタル画像セット内にある第二の画像を表す次の画像ベクトル内において前記オブジェクトの可能な複数の位置を推測し、前記可能な複数の位置に対応する複数のサンプル画像を生成するステップと、
    前記複数のサンプル画像に第二のモデルを適用し、前記複数のサンプル画像が前記オブジェクトに対応する確率を決定するステップと、
    前記確率に第三のモデルを適用して、第一のタイプ及び第二のタイプのうちの何れか1つに前記複数のサンプル画像を分類するステップと、
    前記分類された複数のサンプル画像に推論モデルを適用して、前記オブジェクトの最もあり得る位置を推測するステップと、
    前記複数のサンプル画像を分類する分類パラメータを表す前記第三のモデルの固有基底を更新するステップと、
    を実行することを特徴とする方法。
  23. 前記第一のモデルは、
    動的モデルを含むこと、
    を特徴とする請求項22に記載の方法。
  24. 前記第二のモデルは、
    観測モデルを含むこと、
    を特徴とする請求項22に記載の方法。
  25. 前記第三のモデルは、
    判別生成モデルを含むこと、
    を特徴とする請求項22に記載の方法。
  26. 前記判別生成モデルを適用することは、
    (a)第一の期間からの観測結果セットを受け取り、
    (b)前記第一の期間より前の観測結果に基づく判別生成モデルに基づく第一のタイプ及び第二のタイプのうちの1つに、前記観測結果セットの要素を分類し、
    (c)前記第一の期間より前の観測結果に基づく判別生成モデルに基づく前記第一のタイプとして分類された観測結果セットの要素に第一の確率セットを割り当て、前記第一の期間より前の観測結果に基づく判別生成モデルに基づく前記第二のタイプとして分類された観測結果セットの要素に第二の確率セットを割り当てることにより、前記観測結果セットの確率密度をモデリングし、
    (d)前記第一の確率セット及び前記第二の確率セットに基づいて、前記第一の期間での前記観測結果を記述するように前記判別生成モデルを修正し、
    前記第一の期間より後の期間において、前記(a)、(b)、(c)及び(d)の処理を繰り返すこと、
    を特徴とする請求項25に記載の方法。
JP2010178651A 2004-07-09 2010-08-09 視覚追跡のための適応型判別生成モデル及び逐次的フィッシャー判別分析並びにアプリケーション Expired - Fee Related JP4951700B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US58659804P 2004-07-09 2004-07-09
US60/586,598 2004-07-09
US62550104P 2004-11-05 2004-11-05
US60/625,501 2004-11-05

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2007520589A Division JP2008506201A (ja) 2004-07-09 2005-07-11 視覚追跡のための適応型判別生成モデル及び逐次的フィッシャー判別分析並びにアプリケーション

Publications (2)

Publication Number Publication Date
JP2011003207A JP2011003207A (ja) 2011-01-06
JP4951700B2 true JP4951700B2 (ja) 2012-06-13

Family

ID=35785799

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2007520589A Ceased JP2008506201A (ja) 2004-07-09 2005-07-11 視覚追跡のための適応型判別生成モデル及び逐次的フィッシャー判別分析並びにアプリケーション
JP2010178651A Expired - Fee Related JP4951700B2 (ja) 2004-07-09 2010-08-09 視覚追跡のための適応型判別生成モデル及び逐次的フィッシャー判別分析並びにアプリケーション

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2007520589A Ceased JP2008506201A (ja) 2004-07-09 2005-07-11 視覚追跡のための適応型判別生成モデル及び逐次的フィッシャー判別分析並びにアプリケーション

Country Status (3)

Country Link
US (2) US7650011B2 (ja)
JP (2) JP2008506201A (ja)
WO (1) WO2006010129A2 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006010129A2 (en) * 2004-07-09 2006-01-26 Honda Motor Co., Ltd. Adaptive discriminative generative model and incremental fisher discriminant analysis and application to visual tracking
US7864032B2 (en) * 2005-10-06 2011-01-04 Fuji Jukogyo Kabushiki Kaisha Collision determination device and vehicle behavior control device
US8239379B2 (en) * 2007-07-13 2012-08-07 Xerox Corporation Semi-supervised visual clustering
US7945101B2 (en) * 2007-07-26 2011-05-17 Palo Alto Research Center Incorporated Innovative OCR systems and methods that combine a template based generative model with a discriminative model
US8160371B2 (en) * 2007-12-03 2012-04-17 Honeywell International Inc. System for finding archived objects in video data
US8351649B1 (en) 2008-04-01 2013-01-08 University Of Southern California Video feed target tracking
EP2302589B1 (en) * 2009-09-01 2012-12-05 Fondazione Bruno Kessler Method for efficient target detection from images robust to occlusion
US8873798B2 (en) * 2010-02-05 2014-10-28 Rochester Institue Of Technology Methods for tracking objects using random projections, distance learning and a hybrid template library and apparatuses thereof
US9891867B2 (en) * 2010-11-10 2018-02-13 Electronics For Imaging, Inc. Protocol for interaction between wireless devices and other devices
US9665767B2 (en) * 2011-02-28 2017-05-30 Aic Innovations Group, Inc. Method and apparatus for pattern tracking
US9437009B2 (en) * 2011-06-20 2016-09-06 University Of Southern California Visual tracking in video images in unconstrained environments by exploiting on-the-fly context using supporters and distracters
EP2574952B1 (en) * 2011-09-30 2016-05-11 u-blox AG Position Validation
KR101747216B1 (ko) * 2012-05-30 2017-06-15 한화테크윈 주식회사 표적 추출 장치와 그 방법 및 상기 방법을 구현하는 프로그램이 기록된 기록 매체
US9158971B2 (en) * 2014-03-03 2015-10-13 Xerox Corporation Self-learning object detectors for unlabeled videos using multi-task learning
US9152880B1 (en) 2014-05-30 2015-10-06 The United States Of America As Represented By The Secretarty Of The Army Method for modeling human visual discrimination task performance of dynamic scenes
US9767381B2 (en) * 2015-09-22 2017-09-19 Xerox Corporation Similarity-based detection of prominent objects using deep CNN pooling layers as features
CN106203495B (zh) * 2016-07-01 2020-03-17 广东技术师范学院 一种基于稀疏判别学习的目标跟踪方法
US11562370B2 (en) 2016-12-20 2023-01-24 Mastercard International Incorporated Systems and methods for generating customer satisfaction score
US10546242B2 (en) 2017-03-03 2020-01-28 General Electric Company Image analysis neural network systems
US10714783B2 (en) 2017-05-09 2020-07-14 Cummins Enterprise Llc Integrated fuel cell systems
JP6431231B1 (ja) * 2017-12-24 2018-11-28 オリンパス株式会社 撮像システム、学習装置、および撮像装置
DE102018206108A1 (de) 2018-04-20 2019-10-24 Zf Friedrichshafen Ag Generieren von Validierungsdaten mit generativen kontradiktorischen Netzwerken
US11127140B2 (en) 2019-04-30 2021-09-21 Samsung Electronics Co., Ltd. Background identification for videos with large foreground objects

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0708563B1 (en) * 1994-10-19 2004-12-22 Matsushita Electric Industrial Co., Ltd. Image decoding device
US5960097A (en) * 1997-01-21 1999-09-28 Raytheon Company Background adaptive target detection and tracking with multiple observation and processing stages
US6236736B1 (en) * 1997-02-07 2001-05-22 Ncr Corporation Method and apparatus for detecting movement patterns at a self-service checkout terminal
US6295367B1 (en) * 1997-06-19 2001-09-25 Emtera Corporation System and method for tracking movement of objects in a scene using correspondence graphs
US6047078A (en) * 1997-10-03 2000-04-04 Digital Equipment Corporation Method for extracting a three-dimensional model using appearance-based constrained structure from motion
US6363173B1 (en) * 1997-12-19 2002-03-26 Carnegie Mellon University Incremental recognition of a three dimensional object
US6400831B2 (en) * 1998-04-02 2002-06-04 Microsoft Corporation Semantic video object segmentation and tracking
US6226388B1 (en) * 1999-01-05 2001-05-01 Sharp Labs Of America, Inc. Method and apparatus for object tracking for automatic controls in video devices
US6757423B1 (en) * 1999-02-19 2004-06-29 Barnes-Jewish Hospital Methods of processing tagged MRI data indicative of tissue motion including 4-D LV tissue tracking
AU3002500A (en) 1999-02-19 2000-09-04 Barnes-Jewish Hospital Methods of processing tagged mri data indicative of tissue motion including 4-d lv tissue tracking
TW413795B (en) 1999-02-26 2000-12-01 Cyberlink Corp An image processing method of 3-D head motion with three face feature points
US7003134B1 (en) 1999-03-08 2006-02-21 Vulcan Patents Llc Three dimensional object pose estimation which employs dense depth information
US6337927B1 (en) * 1999-06-04 2002-01-08 Hewlett-Packard Company Approximated invariant method for pattern detection
US6683968B1 (en) * 1999-09-16 2004-01-27 Hewlett-Packard Development Company, L.P. Method for visual tracking using switching linear dynamic system models
EP1158804A3 (en) * 2000-05-24 2003-12-17 Matsushita Electric Industrial Co., Ltd. Rendering device for generating a display image
JP4564634B2 (ja) * 2000-08-14 2010-10-20 キヤノン株式会社 画像処理方法及び装置並びに記憶媒体
US20090231436A1 (en) * 2001-04-19 2009-09-17 Faltesek Anthony E Method and apparatus for tracking with identification
US6870945B2 (en) * 2001-06-04 2005-03-22 University Of Washington Video object tracking by estimating and subtracting background
US7054468B2 (en) * 2001-12-03 2006-05-30 Honda Motor Co., Ltd. Face recognition using kernel fisherfaces
US7130446B2 (en) * 2001-12-03 2006-10-31 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues
US6999600B2 (en) * 2003-01-30 2006-02-14 Objectvideo, Inc. Video scene background maintenance using change detection and classification
US7558402B2 (en) * 2003-03-07 2009-07-07 Siemens Medical Solutions Usa, Inc. System and method for tracking a global shape of an object in motion
WO2006010129A2 (en) * 2004-07-09 2006-01-26 Honda Motor Co., Ltd. Adaptive discriminative generative model and incremental fisher discriminant analysis and application to visual tracking

Also Published As

Publication number Publication date
US20060036399A1 (en) 2006-02-16
US20060023916A1 (en) 2006-02-02
JP2011003207A (ja) 2011-01-06
JP2008506201A (ja) 2008-02-28
WO2006010129A2 (en) 2006-01-26
WO2006010129A3 (en) 2006-03-23
US7369682B2 (en) 2008-05-06
US7650011B2 (en) 2010-01-19

Similar Documents

Publication Publication Date Title
JP4951700B2 (ja) 視覚追跡のための適応型判別生成モデル及び逐次的フィッシャー判別分析並びにアプリケーション
Lin et al. Adaptive discriminative generative model and its applications
KR101304374B1 (ko) 객체 특징을 위치결정하는 방법
Rosales et al. Learning body pose via specialized maps
US7853085B2 (en) Viewpoint-invariant detection and identification of a three-dimensional object from two-dimensional imagery
Cremers et al. Nonlinear shape statistics in mumford—shah based segmentation
KR100647322B1 (ko) 객체의 모양모델 생성장치 및 방법과 이를 이용한 객체의특징점 자동탐색장치 및 방법
Wang et al. Gaussian process dynamical models
Migdal et al. Background subtraction using markov thresholds
EP1296279A2 (en) Method and computer program product for locating facial features
US20120219186A1 (en) Continuous Linear Dynamic Systems
JP6756406B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP4509119B2 (ja) 部分空間の逐次更新を伴う適応型確率的画像追跡
Bowden Learning non-linear Models of Shape and Motion
Wu et al. Simultaneous eye tracking and blink detection with interactive particle filters
Angelopoulou et al. Evaluation of different chrominance models in the detection and reconstruction of faces and hands using the growing neural gas network
Tamminen et al. Sequential Monte Carlo for Bayesian matching of objects with occlusions
Paterson et al. 3D head tracking using non-linear optimization.
Gai et al. Studentized dynamical system for robust object tracking
US20230040793A1 (en) Performance of Complex Optimization Tasks with Improved Efficiency Via Neural Meta-Optimization of Experts
CN117255998A (zh) 使用空间和时间上的注意力对来自视频序列的对象表示的无监督学习
Mayer et al. A real time system for model-based interpretation of the dynamics of facial expressions
Xia et al. Object tracking using Particle Swarm Optimization and Earth mover's distance
Han Adaptive kernel density approximation and its applications to real-time computer vision
Magee Machine Vision Techniques for the Evaluation of Animal Behaviour

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120306

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120312

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150316

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4951700

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees