JP2010532886A - 生存期間が異なる複数の観測モデルを融合する追跡方法及び追跡装置 - Google Patents

生存期間が異なる複数の観測モデルを融合する追跡方法及び追跡装置 Download PDF

Info

Publication number
JP2010532886A
JP2010532886A JP2010511479A JP2010511479A JP2010532886A JP 2010532886 A JP2010532886 A JP 2010532886A JP 2010511479 A JP2010511479 A JP 2010511479A JP 2010511479 A JP2010511479 A JP 2010511479A JP 2010532886 A JP2010532886 A JP 2010532886A
Authority
JP
Japan
Prior art keywords
specific subject
observation model
sample
tracking
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010511479A
Other languages
English (en)
Other versions
JP5052670B2 (ja
Inventor
海舟 艾
源 李
世紅 労
隆義 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp filed Critical Omron Corp
Publication of JP2010532886A publication Critical patent/JP2010532886A/ja
Application granted granted Critical
Publication of JP5052670B2 publication Critical patent/JP5052670B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)

Abstract

本発明は生存期間が異なる複数の観測モデルを融合する追跡方法及び追跡装置に関するものである。前記追跡方法は低フレームレート動画像及び急速運動物体の追跡に適用され、生存期間がそれぞれ異なる3つの観測モデルを利用して、動画像シーケンスのフレーム画像中の特定被写体に対して追跡検出を実施する。第1観測モデルは現在画像の前1つのフレーム画像を利用してオンライン学習を実施し、第2観測モデルは現在画像の前5つのフレーム画像を利用してオンライン学習を実施し、第3観測モデルはオフライン訓練である。ウォーターフォール型粒子フィルタを採用して前記3つの観測モデルを融合することにより、低フレームレート動画像中の特定被写体または急速に運動する物体に対して急速かつ正確な追跡を実施することが可能となる。

Description

本発明は低フレームレート動画像中の物体または急速に運動する物体に対して良好な追跡を実施可能な追跡方法及び追跡装置に関するものであり、より具体的には、ウォーターフォール型粒子フィルタ方式を採用してそれぞれ生存期間が異なる複数の観測モデルを融合して、大きな範囲の状態空間において目標の状態を速やかに確定する追跡方法及び追跡装置に関するものである。
急速に運動する物体を追跡することまたは低フレームレート動画像中で特定目標を追跡することは、非常に興味深い問題である。
ハードウェアコストを低減するため、もしくは動画像の入力源が低フレームレートであるかまたはオンライン処理速度が低い(オンラインリアルタイムシステムに対して、処理速度は入力データのフレームレートを制限する)などにより、非常に多くの実際の応用(例えばリアルタイム処理が要求されるマイクロ埋込み式システム、及びある種の監視制御アプリケーションなど)では、いずれも低フレームレート動画像を処理することが要求される。低フレームレートは非常によく見られるが、追跡においては処理が非常に困難である。
低フレームレート動画像の追跡問題は本質上において急速運動(abrupt motion)の追跡問題と等価である。大部分の追跡アルゴリズムは運動の連続性に依存している。粒子フィルタ(文献[1])は1つの運動モデルを使用して物体の運動を予測するとともにサンプリングを指導して、探索範囲(粒子の分布範囲)を比較的小さなサブ空間内に極限する。しかし、目標が急速に運動する場合には、その位置の変動を正確に予測することは非常に困難である。その他一連の反復最適化に基づく追跡アルゴリズム、例えばmean shiftアルゴリズム(文献[2])及びLucas−Kanade特徴点追跡アルゴリズム(文献[3])は、基本的にいずれも追跡の特徴領域が隣り合う2つのフレーム内で重畳する部分を有するか、または非常に接近していることを要求する。しかし、これらの仮説は低フレームレート動画像または目標が急速に運動する場合にはいずれも成立しない。
一部の研究者はこの困難に注意を払っているが(おそらく、特に低フレームレート動画像の追跡問題を処理しようとしているわけではない)、これら研究者が採用している解決法は一部非常に類似しており、いずれも検出器を使用している。K.Okumaら(文献[4])はBoosting訓練の検出器を使用し、検出結果をゼロ段階または1段階の運動モデルと結合し、粒子フィルタの試験分布(trial distribution)として、運動予測の不正確性を補っている。このような混合試験分布はその他の文献(例えば、文献[5])内でも採用されているが、低フレームレート動画像の追跡問題を専門的に解決するものではない。F.Porilkli及びO.Tuzel(文献[6])は基本的なmean shiftアルゴリズムを拡張して、複数のカーネル領域(kernels)に対して最適化を実施しているが、これら領域の確定には、やはり背景差分運動領域検出器に依存している。このようなアルゴリズムを利用して、彼らは1フレーム/秒(fps)画像における通行人の追跡を実現しているが、カメラを固定した状況下でなければならない。以上のこれらの考え方は、いずれも、目標の運動の予測が困難な状況下において、1つの独立した検出器を利用して、既存のある追跡器の探索過程を指導すると帰結することが可能である。
別の方法は、“先ず検出、更に接続”(文献[7]、[8])である。この種の方法は低フレームレート動画像の追跡問題を処理する潜在力を有しており、それらは先ず画像に対して全検出を実施し(時には短時間内に追跡)、その後、運度の平滑性または外観の相似性に基づき検出された物体または追跡されたセグメントを接続して完全な運動軌跡とする。このようにして運動予測及び物体が隣り合うフレームで非常に接近していると仮定しなければならないとの問題を回避している。しかし、この種方法の不足点は、第一に、前記軌跡を総合的に考慮する必要があるため、一般にいずれもオフライン処理である点であり、第二に、大量に時間を消費する検出装置が必要であるため、速度がリアルタイム要求に到達することが困難である点であり、速度が速い場合は基本的にいずれも背景差分検出を採用しており、カメラを固定することが要求される。
以上2種類の方法には共通した特徴があり、十分に速い検出器を非常に大きい領域内に応用することが必要である(多くの場合、画像空間全体に応用する)。これもこれらの方法において、検出器と追跡アルゴリズムとの間は緩やかな結合関係に過ぎないためである。
更に一部の研究者はマルチスケール追跡アルゴリズムを採用している。その基本的な考え方は、入力された画像に基づき画像ピラミッドを構築し、異なるスケール空間において観測を実施するものであり(文献[9]、[10])、このようなスケールが比較的大きな空間で探索する際には比較的大きな空間範囲をカバーして、運動速度が速い目標を処理することが可能である。これらスケールが異なる観測量の間の関係を処理する際、G.Huaらはマルコフネットワークを採用してスケールの異なる状態量に対してモジュールを構築しており(文献[9])、S.Birchfieldは前スケールの結果を後スケール探索の初期サンプルとして直接採用しており(文献[10])、J.Sullivanらは階層別サンプリングアルゴリズム(layered sampling)を設計して各スケールの観測結果を総合している(文献[11])。しかし、実質的にこれらマルチスケールの追跡アルゴリズムが各スケール上で使用しているのは同一の観測方式である。
また、最近、追跡研究面で新たな傾向が出現しており、研究者は益々学習方法を追跡アルゴリズム中に導入している。一部の研究者が提起している追跡問題は分類問題(classification problem)と見なすことができ、分類の目的は追跡対象と背景またはその他の対象とを区分することにある。この方面の代表的な研究にはS.AvidanのEnsemble Tracking(文献[12])及びJ.Wangの粒子フィルタを利用したオンラインでのHaar特徴分類器の構築などが含まれる(文献[14])。これらの研究によれば、学習方法は追跡器の区分能力を大幅に向上させており、追跡効果は改善されている。
上記の通り、追跡についての研究文献は非常に多いが、大多数の従来の方法はリアルタイムでの低フレームレート動画像の追跡問題には非常に良好には応用することができない。それらは処理速度が十分には速くないか、または低フレームレートにより引き起こされる目標位置及び外観変化の不連続性を処理することができないからである。
追跡方法及び検出方法は長期間にわたって2つの相対的な極端を構成しており、追跡方法は各種シーケンシャルな連続的な仮説上に確立されるが(目標位置や外観などを含む)、検出方法は前後の関係を全く考慮せず、いずれの環境においてもある種特定類別の目標を独立して区分するとともに位置決めする必要がある。
低フレームレート動画像において、目標のシーケンシャルな連続性はおそらく比較的弱いため、伝統的な追跡方法では役に立たない。同時に、全写真空間内で全検出を実施するには多くの時間が必要であり、検出本体も動画像のシーケンス情報を考慮していないため
、異なる目標を区分することができない。
図1(a)及び(b)にはそれぞれ伝統的な標準粒子フィルタリング追跡方法及びLukas−Kanadeのオプティカルフロー場追跡方法の5fps動画像中の顔に対する追跡例が示されており、連続した4フレームの画像が示されている。図1によれば、目標とする顔のシーケンシャルな連続性が比較的弱いため、標準粒子フィルタリング追跡方法であるか、Lukas−Kanadeのオプティカルフロー場追跡方法であるかに拘わらず、いずれも目標とする顔に対して非常に良好な追跡を実施することができない。
従来技術における上記問題に鑑みて本発明が提出されている。本発明の目的は生存期間が異なる複数の観測モデルを融合する追跡方法及び追跡装置を提供することであり、当該追跡方法及び追跡装置は、ウォーターフォール型粒子フィルタ方式を採用してそれぞれ生存期間が異なる複数の観測モデルを融合して、大きな範囲の状態空間において目標の状態を速やかに確定する。
具体的に述べると、本発明の核心原理は、伝統的な検出アルゴリズム及び追跡アルゴリズムを組み合わせて、動画像中のシーケンス情報を捕捉並びに利用することにより、探索範囲を縮小し、更に検出アルゴリズムにより目標を正確に識別して、アルゴリズムの区分能力及び追跡速度を向上させるというものである。
一連の“生存期間”が異なる観測モデルを確立かつ融合することにより本発明の上記原理は実現される。“生存期間”とは観測モデルの学習周期及び使用周期を指す。例えば、1フレームごとに更新されるテンプレートに対応する追跡器の学習周期及び使用周期はいずれも1フレームであり、オフライン訓練の検出器の学習周期及び使用周期はいずれも無限長と見なすことができる。オフライン訓練の検出器については、訓練時に、各種状況をできるだけ多く、できるだけ包含するサンプルが採用され、ひとたび訓練が終了すると、この検出器が将来的には各種状況に応用可能であることが望まれる。“生存期間”の長さが異なる観測モデルを使用するメリットは、生存期間が比較的短い観測モデルを使用すると、目標の短期間内における特定の特徴を描写して速やかに非目標を排除することができ、学習を要する知識が多くないため、その訓練支出も比較的小さく、生存期間が比較的長い観測モデルを使用すると、目標の特徴をより正確に把握することができ、かつ、オンライン更新により過度に引き起こされるドリフト(drift)を効果的に防止することができる点にある。
ウォーターフォール型粒子フィルタを使用して“生存期間”が異なる観測モデルを整合する。ウォーターフォール型検出器は検出分野において非常に歓迎されているモードであり、その理念によれば、それを追跡分野で最も常用される枠組である粒子フィルタと結合して、低フレームレート動画像の追跡というこの特定の技術的問題を解決する。
本発明の1つの面に基づき、本発明では、低フレームレート動画像に適用する特定被写体追跡方法が提供されており、生存期間がそれぞれ異なるm個の観測モデルを利用して、動画像シーケンスのフレーム画像中の特定被写体に対して追跡検出を実施する(mは自然数である)。
当該特定被写体追跡方法には、
(a)動画像シーケンス中のフレーム画像中から特徴部を検出し、検出された特徴部の周囲でガウスランダムサンプリングを実施して、複数の特定被写体サンプルを含む初期サンプルセットを取得するステップと、
(b)入力された第tフレーム画像の前Dフレーム画像を利用して、第k観測モデル
に対してオンライン学習またはオフライン学習を実施するステップ(tはフレーム画像の番号を示す自然数であり、kは観測モデル番号を示す自然数であり、Dは第k観測モデルの生存期間を示す自然数である)と、
(c)第tフレーム画像について、前記オンライン学習またはオフライン訓練のm個の観測モデルを順に利用して、特定被写体サンプルのサンプル重みを更新するステップと、
(d)ステップ(c)において第m観測モデルにより最終的に更新された後のサンプル重みが所定の第一閾値を超えているか否かを判断し、最終更新後のサンプル重みが第一閾値を超えていると、特定被写体の現在フレームにおける大きさ及び位置として、特定被写体サンプルのサンプルセットの大きさ及び位置の重み付き平均を出力し、更新後のサンプル重みが第一閾値を超えていないと、当該選択候補目標を破棄するステップと、
(e)第t+1フレーム画像に対して、前記ステップ(b)から(d)を繰り返すステップと、が含まれる。
前記特定被写体追跡方法において、好適には、第k観測モデルの生存期間Dは、kの増大に伴い増大する。
前記特定被写体追跡方法において、好適には、第k観測モデルに対して設定されたサンプル数はN個であり、Nは自然数であり、kの増大に伴い減少する。
前記特定被写体追跡方法において、好適には、ステップ(b)において、前m−1の観測モデルに対してオンライン学習を実施し、第m観測モデルに対してオフライン訓練を実施する。
前記特定被写体追跡方法において、好適には、3つの観測モデルを利用して、前2つの観測モデルに対してオンライン学習を実施し、第3観測モデルに対してオフライン訓練を実施する。
前記特定被写体追跡方法において、第1観測モデルに対して実施するオンライン学習には、
(f)前Dフレーム画像から正例サンプル及び反例サンプルを収集するステップと、
(g)収集された正例サンプル及び反例サンプルに基づき、第1観測モデル中に採用する各種パラメータを求めるステップと、が含まれる。
前記特定被写体追跡方法において、好適には、前記第1観測モデルは、Fisher線形判別分類器である。
前記特定被写体追跡方法において、好適には、前記第1観測モデルの生存期間Dは、1フレーム画像である。
前記特定被写体追跡方法において、好適には、前記第1観測モデルには、オフラインで選択された5つのHaarライク特徴を採用する。
前記特定被写体追跡方法において、好適には、前記正例サンプルは、追跡する特定被写体の近傍領域から選択し、前記反例サンプルは、追跡する特定被写体の周囲で、大きさが当該特定被写体の2倍の領域において、当該特定被写体との距離が比較的遠い画像から選択する。
前記特定被写体追跡方法において、Sigmoid関数により平滑化された後の第1観測モデルの出力は、以下の通りである。


式中、xは追跡する特定被写体の状態を示す変数であり、zは第1観測モデルが採用する観測量であり、wはFisher線形判別分類器の投影重みのベクトル量であり、f(x)は入力される5次元特徴ベクトル量であり、ηは分類閾値である。
前記特定被写体追跡方法において、第2観測モデルに対して実施するオンライン学習には、
(h)前Dフレーム画像中から正例サンプル及び反例サンプルを収集し、第1観測モデルを利用して収集したサンプルに対してフィルタリングを実施して、留保されたサンプルを訓練サンプルとするステップと、
(i)留保された反例サンプル中から、第2観測モデルの留保された反例サンプルに対する出力尤度が第二閾値よりも大きい反例サンプルを選択するステップと、
(j)選択された反例サンプル、及びすべての留保された正例サンプルに基づき、新たなFisher線形判別分類器を構築するとともに、構築された新たなFisher線形判別分類器を、弱分類器の数量が最大設定値を超えるか、または大多数の反例サンプルを排斥可能となるまで、元の弱分類器集合中に加えるステップと、
(k)Discrete AdaBoostアルゴリズムを利用して弱分類器集合中から弱分類器を選択して、強分類器を構成するステップと、
(l)弱分類器集合中から所定数フレーム内で採用されない弱分類器を削除するステップと、が含まれる。
前記特定被写体追跡方法において、好適には、前記第2観測モデルの生存期間Dは、5フレーム画像である。
前記特定被写体追跡方法において、前記強分類器の出力は、以下の通りである。


式中、xは追跡する特定被写体の状態を示す変数であり、Qは選択する組の弱分類器の集合を示し、αはQ内のいずれか1つの弱分類器qに対応する重みを示し、wは弱分類器qのLDA投影ベクトル量を示し、fは弱分類器qについて採用する特徴を示し、ηは弱分類器qについての分類閾値である。
前記特定被写体追跡方法において、Sigmoid関数により平滑化された後の第2観測モデルの出力は、以下の通りである。


式中、zは第2観測モデルの観測量である。
前記特定被写体追跡方法において、好適には、第3観測モデルは、複数のベクトルブー
スティングアルゴリズムで学習された強分類器により構成される。
前記特定被写体追跡方法において、好適には、第3観測モデルは、ツリー状の多視角顔検出器である。
前記特定被写体追跡方法において、第3観測モデルの出力は、以下の通りである。



式中、zは第3観測モデルの観測量であり、hは入力サンプルxが通過する最後の強分類器の層数であり、φは当該強分類器に対応する反例サンプルの正例サンプルに対する先験確率の比であり、hの増大に伴い減少し、xが通過する分類器の層数が多いほど、それが属する正例の確率は大きくなることを示しており、cは通過する最後の強分類器出力の信頼度である。
本発明の別の面に基づくと、本発明では、低フレームレート動画像に適用する特定被写体追跡装置が提供されており、生存期間がそれぞれ異なる3つの観測モデルを利用して、動画像シーケンスのフレーム画像中の特定被写体に対して追跡検出を実施する。
当該特定被写体追跡装置には、
動画像シーケンス中の第一フレーム画像中から特徴部を検出し、検出された特徴部の周囲でガウスランダムサンプリングを実施して、複数の特定被写体サンプルを含む初期サンプルセットを取得する初期化部と、
入力された第tフレーム画像に対して、特定被写体の画像中における位置及び大きさを追跡検出する追跡検出部(tはフレーム画像の番号を示す自然数である)と、
追跡検出部の検出結果が追跡する特定被写体であるか否かを判定し、特定被写体である場合には、特定被写体の現在フレームにおける大きさ及び位置として、特定被写体サンプルのサンプルセットの大きさ及び位置の重み付き平均を出力し、特定被写体でない場合には、当該選択候補目標を破棄する判定出力部と、
次フレームの画像の追跡検出に用いるように、判定出力部の判定出力結果を記憶する記憶部と、が含まれ、
前記追跡検出部には、
入力された第tフレーム画像の前Dフレーム画像を利用して、その中で使用する第1観測モデルに対してオンライン学習を実施し、その後、第tフレーム画像中のN個のサンプルに対して重みの更新を実施する第一追跡部(Dは第1観測モデルの生存期間を示す自然数であり、Nは自然数である)と、
入力された第tフレーム画像の前Dフレーム画像を利用して、その中で使用する第2観測モデルに対してオンライン学習を実施し、その後、第tフレーム画像中の第一追跡部により更新後のサンプル重みに基づき再度サンプリングされたN個のサンプルに対して重みの更新を実施する第二追跡部(Dは第2観測モデルの生存期間を示す自然数であり、Nは自然数である)と、
オフライン訓練を施し、その後、第tフレーム画像中の第二追跡部により更新後のサンプル重みに基づき再度サンプリングされたN個のサンプルに対して重みの更新を実施する第三追跡部(Nは自然数である)と、が含まれ、
前記判定出力部は、第三追跡部により最終的に更新された後のサンプル重みは所定の第一閾値を超えているか否かを判断し、最終更新後のサンプル重みが第一閾値を超えていると、特定被写体の現在フレームにおける大きさ及び位置として、特定被写体サンプルのサンプルセットの大きさ及び位置の重み付き平均を出力し、更新後のサンプル重みが第一閾
値を超えていないと、当該選択候補目標を破棄する。
前記特定被写体検出装置において、好適には、第1観測モデルの生存期間Dは、第2観測モデルの生存期間Dよりも小さい。
前記特定被写体検出装置において、好適には、第1観測モデルの生存期間Dは、1フレーム画像である。
前記特定被写体検出装置において、好適には、第2観測モデルの生存期間Dは、5フレーム画像である。
前記特定被写体検出装置において、好適には、第一追跡部についてのサンプル数N>第二追跡部についてのサンプル数N>第三追跡部についてのサンプル数Nである。
前記特定被写体検出装置において、第1観測モデルに対して実施するオンライン学習には、
前Dフレーム画像から正例サンプル及び反例サンプルを収集し、
収集された正例サンプル及び反例サンプルに基づき、第1観測モデル中に採用する各種パラメータを求める、ことが含まれる。
前記特定被写体検出装置において、好適には、前記第1観測モデルは、Fisher線形判別分類器である。
前記特定被写体検出装置において、好適には、前記第1観測モデルには、オフラインで選択された5つのHaarライク特徴を採用する。
前記特定被写体検出装置において、好適には、前記正例サンプルは、追跡する特定被写体の近傍領域から選択し、前記反例サンプルは、追跡する特定被写体の周囲で、大きさが当該特定被写体の2倍の領域において、当該特定被写体との距離が比較的遠い画像から選択する。
前記特定被写体検出装置において、Sigmoid関数により平滑化された後の第1観測モデルの出力は、以下の通りである。


式中、xは追跡する特定被写体の状態を示す変数であり、zは第1観測モデルが採用する観測量であり、wはFisher線形判別分類器の投影重みのベクトル量であり、f(x)は入力される5次元特徴ベクトル量であり、ηは分類閾値である。
前記特定被写体検出装置において、第2観測モデルに対して実施するオンライン学習には、
前Dフレーム画像中から正例サンプル及び反例サンプルを収集し、第1観測モデルを利用して収集したサンプルに対してフィルタリングを実施して、留保されたサンプルを訓練サンプルとし、
留保された反例サンプル中から、第2観測モデルの留保された反例サンプルに対する出力尤度が第二閾値よりも大きい反例サンプルを選択し、
選択された反例サンプル、及びすべての留保された正例サンプルに基づき、新たなFi
sher線形判別分類器を構築するとともに、構築された新たなFisher線形判別分類器を、弱分類器の数量が最大設定値を超えるか、または大多数の反例サンプルを排斥可能となるまで、元の弱分類器集合中に加え、
Discrete AdaBoostアルゴリズムを利用して弱分類器集合中から弱分類器を選択して、強分類器を構成し、
弱分類器集合中から所定数フレーム内で採用されない弱分類器を削除する、ことが含まれる。
前記特定被写体検出装置において、前記強分類器の出力は、以下の通りである。


式中、xは追跡する特定被写体の状態を示す変数であり、Qは選択する組の弱分類器の集合を示し、αはQ内のいずれか1つの弱分類器qに対応する重みを示し、wは弱分類器qのLDA投影ベクトル量を示し、fは弱分類器qについて採用する特徴を示し、ηは弱分類器qについての分類閾値である。
前記特定被写体検出装置において、Sigmoid関数により平滑化された後の第2観測モデルの出力は、以下の通りである。


式中、zは第2観測モデルの観測量である。
前記特定被写体検出装置において、好適には、第3観測モデルは、複数のベクトルブースティングアルゴリズムで学習された強分類器により構成される。
前記特定被写体検出装置において、好適には、第3観測モデルは、ツリー状の多視角顔検出器である。
前記特定被写体検出装置において、第3観測モデルの出力は、以下の通りである。



式中、zは第3観測モデルの観測量であり、hは入力サンプルxが通過する最後の強分類器の層数であり、φは当該強分類器に対応する反例サンプルの正例サンプルに対する先験確率の比であり、hの増大に伴い減少し、xが通過する分類器の層数が多いほど、それが属する正例の確率は大きくなることを示しており、cは通過する最後の強分類器出力の信頼度である。
本発明は統計学習を基礎として、構造が異なる分類器を観測モデルとするとともに、オ
ンラインの分類器及びオフラインの分類器を結合することにより、アルゴリズムの安定性を向上させている。同一の画像空間内において複数の相補的な観測モデルを使用すると、一方において、観測モデルの区分能力を増強することができ、他方において、サンプリング画像により引き起こされる誤差を回避することもできる。そのため、本発明に基づく追跡方法及び追跡装置は、低フレームレート動画像中の追跡目標または急速に運動する物体に対して、動画像中のシーケンス情報を捕捉かつ利用することにより探索範囲を縮小し、更に検出アルゴリズムにより目標を正確に識別して、急速かつ正確な追跡を実現可能とする。
図1(a)、(b)及び(c)にはそれぞれ標準粒子フィルタリング、Lukas−Kanadeのオプティカルフロー場追跡方法及び本発明の追跡方法を採用した低フレームレート動画像における目標に対する追跡効果が示されている。 図2には3つの観測モデルの学習周期及び使用周期の見取図が示されている。 図3には3つの観測モデルが採用する特徴セットの重畳状況が示されている。 図4にはウォーターフォール型粒子フィルタと伝統的なウォーターフォール型検出器との比較が示されている。 図5にはウォーターフォール型粒子フィルタの作動過程、並びに標準粒子フィルタ及びウォーターフォール型粒子フィルタの追跡エラー率曲線及びサンプリング効率が示されており、(a)にはサンプリング過程ごとの観測尤度及び重み更新後の粒子分布が示され、(b)には標準粒子フィルタ及びウォーターフォール型粒子フィルタの追跡エラー率曲線及び有効サンプル数(ESS)曲線、ウォーターフォール型粒子フィルタの追跡結果が示されている(標準粒子フィルタの追跡偏差が比較的大きいフレームにおいて、薄いグレーの矩形枠は、運動の激烈さの程度を観察できるように、直前フレームにおける目標位置を示している)。 図6には複数の目標を追跡する際の目標が異なるオンラインモデルが出力する観測尤度が示されており、薄いグレーの矩形枠は直前フレームにおける目標位置を示している。 図7は本発明の追跡方法と完全オフライン学習方法との比較であり、(a)にはオフライン顔検出時に運動が曖昧であるために時に検出漏れし、同一の目標に関連付ける方法がない場合が示されており、(b)には本発明によりカメラの急速な移動、運動が曖昧な動画像を追跡した場合が示されている(薄いグレーの矩形枠は直前フレームにおける目標位置を示している)。 図8は本発明の方法と完全オンライン学習方法との比較であり、(a)には完全オンライン学習の追跡アルゴリズムによる追跡が示されており、モデルの“ドリフト”現象を観察することができる。(b)には本発明の方法により目標の急速な姿勢変化を追跡した場合が示されている(5フレーム内において右全側面から左側面に変化)。 図9には本発明の方法の不利な光線照射条件、カメラ移動及びレンズズーム状況下における目標追跡状況が示されている。 図10にはその他の従来技術方法が各種条件下で5fpsの動画像を追跡した状況が示されている。 図11には異なる追跡方法の追跡位置誤差曲線が示されている。 図12には本発明における追跡方法の全体流れ図が示されている。 図13には観測モデルIのオンライン学習過程の流れ図が示されている。 図14には観測モデルIIのオンライン学習過程の流れ図が示されている。 図15には本発明に基づく追跡方法において観測モデルを利用してサンプル重みを更新する流れ図が示されている。 図16には本発明に基づき3つの観測モデルを融合した追跡装置のブロック見取図が示されている。
以下においては、添付図を参照し、顔及び頭部の追跡を例として、本発明の好適実施例について詳細に説明する。ここで説明すべきは、本発明で提供される方法及び装置はその他類型の目標の追跡にも応用可能である点である。
本発明の原理は、伝統的な検出アルゴリズムと追跡アルゴリズムとを組み合わせて、動画像中のシーケンス情報を捕捉並びに利用することにより、探索範囲を縮小し、更に検出アルゴリズムにより目標を正確に識別して、アルゴリズムの区分能力及び追跡速度を向上させるというものである。
上記本発明の原理は、一連の“生存期間”が異なる観測モデルを確立かつ融合することにより実現される。好適には、3つの異なる観測モデルを採用する。例えば、本発明において、観測モデルIには生存期間が僅か1フレームのFisher線形判別分類器が採用され、観測モデルIIにはDiscrete AdaBoostアルゴリズムが採用されるとともに、Fisher線形判別分類器を弱分類器とし、その生存期間は例えば5フレームであり、観測モデルIIIにはオフライン訓練の検出器が採用され、当該検出器は複数のベクトルブースティングアルゴリズム(Vector Boosting)(Real AdaBoostの変種)により学習する強分類器により構成され、当該モデルの生存期間は無限長と見なすことができる。観測モデルIは前1フレーム画像から取得した訓練サンプルを利用してモデルパラメータに対して訓練を実施し、更に現在フレームのサンプル重みを更新する。観測モデルIに基づく更新された後のサンプル重みは、リサンプリング過程(本発明で採用するのは、重点サンプリング(importance sampling)であり、つまり、更新後のサンプル重みと基本的に正比例してリサンプリングのサンプル分布を確定して、リサンプリング後の各サンプルの重みを基本的に同一とさせる)により、新たな第一所定数量のサンプルを選択する。観測モデルIIは前5フレーム画像から取得した訓練サンプルを利用してモデルパラメータに対して訓練を実施し、更に観測モデルIの出力結果に基づき重点サンプリングにより取得された第一所定数量のサンプルについて、現在フレームのサンプル重みを更新する。観測モデルIIが更新後の現在フレームのサンプル重みに基づき、上記と類似したリサンプリング過程により、新たな第二所定数量のサンプルを選択する。観測モデルIIIのモデルパラメータはすでにオフラインで訓練されているため、観測モデルIIの出力結果に基づき重点サンプリングにより取得された第二所定数量のサンプルに対して検出を直接実施することができる。
図2には3つの観測モデルの学習周期及び使用周期の見取図が示されている。図によれば、観測モデルIの学習周期は僅か前1フレーム画像で、その使用周期も現在フレーム画像に過ぎない。観測モデルIIの学習周期は前数フレーム画像で、その使用周期も対応してその後の数フレーム画像である。観測モデルIIIはオフライン訓練であるため、その使用周期はオンラインサンプリングの全シーケンスに対応している。
上記方法のメリットは、生存期間が比較的短い観測モデルを使用すると、目標の短期間内における特定の特徴を描写して速やかに非目標を排除することができ、学習を要する知識が多くないため、その訓練支出も比較的小さく、生存期間が比較的長い観測モデルを使用すると、目標の特徴をより正確に把握することができ、かつ、オンライン更新により過度に引き起こされる“ドリフト”を効果的に防止することができる点にある。
以上においては、本発明における生存期間が異なる3つの観測モデルを融合したウォーターフォール型粒子フィルタについて概説した。ここで説明すべきは、観測モデルの数量
、類型及びその生存期間は上記例に限定されるものではなく、状況に応じて変更可能である点である。
以下においては、本発明の好適実施例について具体的に説明する。
先ず、本発明のアルゴリズムに関連する変数記号について説明する。
t時刻における目標の状態量を陰変数x、対応する観測量をzと定義する。ここで、誤解を招かないことを前提として、下付きのtを省略する。
顔の追跡を例とすると、x=(x,y,s)と定義することができ、つまり顔の位置及び大きさである。観測モデルの役割は各xに対してp(z|x)を出力することである。m個の観測モデルを採用する場合は、z={z,…,z}と定義され、第k観測モデル出力はp(z|x)と表記される。
各観測モデルに関連する要素は、学習アルゴリズムL、訓練サンプル集合S、訓練特徴集合F、及び当該観測モデルの数個の時間複雑度(オフライン訓練複雑度τoff、オンライン訓練複雑度τon及び分類複雑度τtest)である。そのうち、分類複雑度は入力されたxに対してp(z|x)を計算する時間複雑度と定義される。第k観測モデルは以下の通り表示することができる。
=(L,F,S,τk,on,τk,off,τk,test
訓練に用いる総時間複雑度は(τk,on+τk,off)であり、それは一般に|F|及び|S|の規模に伴い増大する。分類複雑度τk,testは分類モデルの複雑度及び分類モデルが最終的に包含する分類用の特徴セット
の規模に関連する。
追跡アルゴリズムのオンラインの時間の複雑度をできるだけ低減するため、好適には、異なる観測モデルを生存期間が逓増する方式で配列することである。これは、“生存期間”が比較的長い観測モデルは、その訓練複雑度(τk,on+τk,off)及び分類複雑度τk,testも比較的大きいからである。学習周期が比較的長い場合には、訓練サンプル数|S|が比較的大きいために、比較的大きい特徴集合F及び比較的複雑な学習アルゴリズムLによりSに含まれる情報を学習する必要があり、このようにして最終的に観測モデルが選出する分類用の特徴セット
も比較的大きくなる。
以上の分析に基づき、本発明においては、異なる観測モデルを生存期間が逓増する方式で配列している。同時に、オンライン学習の複雑度を低減させるため、細心にFを選択してその規模を制限するとともに、オフライン訓練をできるだけ多く使用しなければならない。異なる観測モデルには異なる配置を採用して(分類器の形式、学習アルゴリズム、特徴セットなどを含む)、分類能力及び分類速度というこの二大要素を総合的に考慮した。言い換えると、各学習アルゴリズムL及び選択候補の特徴セットFは観測モデルが訓練サンプルSに対する学習後に一定の区分能力に到達しなければならないが、過度に複雑で、時間複雑度を増加させてはならないのである。表1には本発明の好適実施例に採用される3つの観測モデルの基本は位置が列記されている。
表1 各観測モデルの配置
3つの観測モデルの具体的な構造、方法についてそれぞれ描写する前に、図3に示されている通り、先ず各モデル間の特徴共有について紹介する。
本発明ではHaarライク特徴(文献[13])の拡張集合を使用する(文献[15])。Haarライク特徴の計算は非常に高効率であるが、画像ピラミッドの各スケールに対してすでに一段階及び二段階の積分画像が算出されていることが前提である。積分画像の算出過程はリアルタイムシステムについては比較的大きな一部支出であるため、本発明においては、すべての観測モデルについていずれもHaarライク特徴を採用する。各観測モデルの訓練特徴集合Fはいずれもオフライン訓練により予め選出する。Haarライク特徴のみを使用するため、観測モデルは階調画像を必要とするだけで動作可能である。
以下においては、各観測モデルについて詳細に説明する。
観測モデルI
観測モデルIに採用するのはFisher線形判別分類器(つまり、Linear Discriminant Analysis)である。その生存期間は最も短く(1フレーム)、訓練サンプルはすべて前1フレーム画像からである。訓練サンプルの分布が相対的に簡単であるため、5つのHaarライク特徴だけを使用して分類を実施し、速やかに非目標を排斥するとの目標を達成する。
Fisher線形判別分類器は特徴ベクトルを最も適切な分類方向に投影して正例サンプル(つまり、顔サンプル)及び反例サンプル(つまり、非顔サンプル)を区分する。ここで5次元の特徴ベクトルを1次元に投影する。Fisher分類器の投影重みベクトルはw、入力される5次元特徴ベクトルはf(x)、分類閾値はη(重みベクトル及び閾値の取得方法は文献[18]を参照可能)と設定する。分類器の出力はwf(x)−ηである。最後にSigmoid関数により観測モデルの出力値を以下の通り平滑化した。

観測モデルIの訓練サンプルは前1フレームからであり、正例サンプルは追跡目標の近
傍領域から採取し、反例サンプルは目標の周囲で目標の大きさの2倍の領域中かつ目標から比較的遠い画像から採取する。観測モデルIにはオンラインで特徴を選択する過程はない。その理由は、一方において、特徴の選択は比較的時間を消費するからであり、他方において、訓練サンプルが比較的局限されており(前1フレームからのみ)、過度に適合することが回避されるからである。そのため、5つのHaarライク特徴はいずれもオフラインで選択されたものである(図3中のFを参照)。選定標準は特徴のオフラインサンプルセット上における区分能力(Fisher Linear Discriminant)である。
観測モデルII
更に強力な区分能力を獲得するため、観測モデルIIにはDiscrete AdaBoostアルゴリズムを採用し(文献[16])、弱分類器はFisher線形判別分類器である。観測モデルIに比べ、観測モデルIIの生存期間はより長く、訓練サンプルは直近5フレームからの入力データである。前記のサンプル収集標準に基づき、5フレーム内の正反例訓練サンプルはS=(S2,pos,S2,neg)と設定する。
追跡過程においては、常に弱分類器の選択候補セットQを保存し、一方において、新たなサンプルに基づき新たな弱分類器を加え、他方において、AdaBoostによりその中の1つのサブセットを選定して重みを付けた後に強分類器を構成する。この弱分類器の選択候補セットの存在により、観測モデルIIに含まれる情報が目標の直近1つの時間区分内における変化をカバーすることになる。観測モデルIIのオンライン訓練過程には、主に、
1.弱分類器選択候補セットQに新たな弱分類器を追加するステップと、
2.Discrete AdaBoostアルゴリズムにより弱分類器選択候補セットQ中から弱分類器を選定して、重みを付けた後に強分類器を構成するステップと、
3.弱分類器選択候補セットQ中から一定の時間内に選定されなかった弱分類器を削除するステップと、が含まれる。
以下においては、上記ステップについて更に説明する。
第一ステップにおいては、新たな弱分類器を追加する。反例サンプルを不断にフィルタリングする方式を採用する。つまり、新たな弱分類器を生成するとともに、訓練サンプルセット中から新たな弱分類器により排斥可能な反例サンプルを排除し、その後、引き続き、反例サンプルの数量が十分に少なくなるかまたは新たな弱分類器の個数が予め設定された最大個数を超えるまで、新たな弱分類器を追加する。
第二ステップにおいては、弱分類器選択候補セット中の弱分類器を選定するとともに、それらに対して重み付けを実施して、強分類器を形成する。ここで採用するのは標準的なDiscrete AdaBoostアルゴリズムである。アルゴリズムの終了条件は、エラー率が0近くまで収束するか、または弱分類器選択候補セットQ中の弱分類器がすべて選択されることである。
オンライン学習の結果が1組の弱分類器Qにより構成される強分類器であり、そのうちいずれか1つの弱分類器q∈Qに対して、互いに対応する弱分類器重みα、並びに当該弱分類器のLDA投影ベクトル量、採用する特徴及び分類閾値(w,f,η)が存在する。強分類器の出力は以下の通り計算することができる。


同様に、sigmoid関数により観測モデルIIの出力値を平滑化することにより、下記式が得られる。

観測モデルIII
観測モデルIIIにはオフライン訓練の検出器を採用する。その構造は最も複雑で、含まれる情報も最も多く、追跡過程においてオンライン学習で得られる情報と互いに補完し、オンライン観測モデルを拘束し、目標の実際分布から乖離することを回避するために用いる。
ここで採用するオフライン検出器は複数のベクトルブースティングアルゴリズム(Vector Boosting)(Real AdaBoostの変種)により学習する強分類器により構成される。
構造上から見て、観測モデルIは弱分類器であり、観測モデルIIはBoostingにより得られた強分類器であり、観測モデルIIIは複数の強分類器が接続されてなる。具体的には顔追跡について、観測モデルIIIはツリー状多視角顔検出器を直接採用する(文献[20]参照)。どのようにして観測尤度p(z|x)を取得するのかについては、文献[17]を参照することができる。ここではこれ以上論述せず、観測モデルIIIの出力を以下の通り表示するに留める。


式中、hは入力サンプルxが通過する最後の強分類器の層数であり、φは当該強分類器に対応する反例サンプルの正例サンプルに対する先験確率の比である(訓練過程中に記録)。それはhの増大に伴い減少し、xが通過する分類器の層数が多いほど、それが属する正例(顔)の確率は大きくなることを示している。cは通過する最後の強分類器出力の信頼度である。
以上で採用される学習方法(Fisher linear discrimination/LDA、Discrete AdaBoost、Real AdaBoostなど)はいずれも典型的なアルゴリズムである。しかし、各観測モデルのために学習方法を選択する際には、学習目標の複雑さの程度及び訓練と分類の時間的消費などを総合的に考慮し、かつ、大量の実験を実施した。例えば、観測モデルII及び観測モデルIIIには共にBoostingアルゴリズムが採用されているが、それらの間には顕著な違いが存在している。観測モデルII内に採用されている弱分類器の選択候補セットの規模は観測モデルIII内に採用されている弱分類器の選択候補セットの規模をはるかに下回っており、前者は数十個の弱分類器を含むだけであるが、後者は万単位、場合によっては百万単位の弱分類器を含んでいる。また、観測モデルIIが使用するのはDiscrete AdaBoostであり、観測モデルIIIが使用するのはReal AdaBoostであ
る。この方面は、オンライン訓練の時間的支出を減少させるためであり(Discrete AdaBoostの時間複雑度は約O(|S||Q)であり、|S|は訓練サンプル数、|Q|は選択候補弱分類器の個数である)、他方においても、相対的に少量のオンライン訓練サンプル上での過度の適合を回避するためである。更に弱分類器の個数を制限するとの前提の下で、観測モデルの区分能力を増強し、アルゴリズムの収束を加速するため、弱分類器の選択上において、観測モデルIIは10次元のFisher線形判別分類器を弱分類器として採用し、単一弱分類器の区分能力を向上させて、アルゴリズムの効率を高めており、観測モデルIIIはHaarライク特徴を採用して弱分類器を構成している。
ウォーターフォール型粒子フィルタ
本発明に基づくウォーターフォール型粒子フィルタについて詳細に記述する前に、先ず、標準粒子フィルタについて紹介し、併せて低フレームレートまたは急速運動状況下における不足点について分析する。
前記の状態量及び観測量に対する定義を準用すると、粒子フィルタの目標はp(x|Z)を計算することであり、それには主に以下のステップが含まれる。
(1)予測:
;
(2)更新:

式中の積分項は重点サンプリング方式を採用して計算する。つまり、1つの試験分布中からランダム粒子を生成する必要がある。
一般的に、この試験分布にはp(x|xt−1)を直接採用する。しかし、目標の運動が激烈で、不規則である場合(例えば、低フレームレート動画像中)、p(x|xt−1)は往々にして目標の真実の運動と大きく乖離する。このような試験分布を採用すると、粒子セットが徐々に真正の目標状態から乖離し、最終的には追跡の失敗を招くことになる(例えば、図1内の(a)に示されている例)。補完方法としてp(x|xt−1)の不確定性を増大させることが可能であるが(例えば、ガウスモデルの分散を増大させる)、それは同時に粒子数量を増加させなければならないため、効率が低下する。
別の選択は、観測分布p(z|x)を試験分布に導入して(文献[4]、[5])、運動モデルの予測を支援することである。それにより非常に大きな範囲の状態空間内でp(z|x)を計算することが要求される。
従って、以上のどの方法を採用したとしても、最終的には大面積上でp(z|x)を計算しなければならない。そしてこの観測尤度の計算は往々にしてシステム内で最も時間を消費する部分である。単一の観測モデルだけを使用する場合、この問題は常に存在する。本発明においては、ウォーターフォール型粒子フィルタが採用されており、複数の観測モデルが関連しているため、一定程度上において標準粒子フィルタの問題は克服可能である。
以下において、本発明に基づくウォーターフォール型粒子フィルタのアルゴリズムについて説明する。
観測量をz={z,…,z}と表記し、異なる観測量が互いに独立していると仮定すると、以下の式が得られる。


標準粒子フィルタは
を直接用いて粒子の重みを更新することができる。しかし、これは計算量が多いばかりではなく、最終的には大量の粒子の重みが非常に小さくなり(0に接近)、サンプリング効率の低下を招く。以下においては、“有効サンプル数”(Effective Sample Size)(文献[19])に基づき対比実験を行う。
正に類似の問題であるため、検出問題においてはウォーターフォール型検出器を広範に使用する。ウォーターフォール型検出器はここでは極端な特例の1種と見なされる、つまりp(z|x)の値が0または1であるが、最終的にはp(z|x)>0を満足するxが検出結果として出力され、p(z|z)>0を満足しない場合は反例として排斥される。かつ、検出器は全数探索方式を採用して画像中の目標を探索し、xの全状態空間内に粒子を均一に分布する場合と同様である。
標準粒子フィルタ及びウォーターフォール型検出器の不足点を克服するため、本発明では両者の優れた点を総合して、複数回の重点サンプリングにより複数の異なる観測モデルを関連付けて、以下の通り設定している。


ここから、以下が導き出される。


この分布が追跡目標である。
具体的なアルゴリズムは以下の通りである。
第kラウンドにおいて、重点サンプリングによりπ(x)分布をシミュレートする重み付き粒子集合を得る。πk−1(x)を試験分布として使用する。この試験分布に対して、すでにk−1ラウンドからそれに符合する重み付き粒子集合、つまり、

が得られている。そのため、それからのサンプリングはこの粒子集合Pk−1,tをリサンプリングして
を得ることに相当する。そして
の重みは下記公式に基づき更新しなければならない。



はπ(x)の近似であると認識される。以上のステップをm回繰り返すと
が得られる。
図4にはウォーターフォール型粒子フィルタと伝統的なウォーターフォール型検出器の比較が示されており、そこではそれぞれ3つの観測モデル/分類器を採用すると仮定されている。
表2には標準粒子フィルタ、ウォーターフォール型検出器及びウォーターフォール型粒子フィルタの更なる比較が示されている。
表2 標準粒子フィルタ、ウォーターフォール型検出器及びウォーターフォール型粒子フィルタの比較(τk,testはp(z|x)を計算する際の時間消費であり、NまたはN´は第kラウンドの粒子数または検出を通過したサンプル数である)
実現過程において、観測モデルp(z|x)の出力にはノイズが含まれ、多ピークの分布を呈することが判明したが(図5(a)参照)、この種の状況は区分性モデルについては非常に正常なことである。また幾つかの観測モデル出力のピーク値位置はおそらくいずれも重ならない。この種の現象は、一連のウォーターフォール型検出器または類似方式により複数の観測モデルを使用する方法にとっては困難を招くものである(例えば、C.Yangらは毎回一部の重みが低いサンプルを直接破棄し、重みが高いサンプルを留保する方法を採用している。文献[21]参照)。
しかし、本発明のアルゴリズムにおいては、この種の不利な要素は非常に簡単に解決可
能であり、毎回の重点サンプリング中に小さなガウス型摂動を加えるだけでよい。
以下においては、図12、13、14及び15を参照して、本発明に基づくウォーターフォール型粒子フィルタを採用した追跡方法について記述する。
図12には本発明における追跡方法の全体流れ図が示されている。
先ず、ステップS100において、初期化を実施し、第1フレーム画像に対して顔検出を実施し、検出された顔の周囲でガウスランダムサンプリングを行い、Np個の頭部サンプルを初期サンプルセットとして取得する。当業者であれば理解可能なように、ガウスランダムサンプリング以外のその他のランダムサンプリング方式を採用して初期サンプルセットを取得することも可能である。
ステップS200において、入力された第tフレームの前1フレーム画像を利用し、観測モデルIに対してオンライン学習を実施する。その具体的な過程は図13中に示されている通りである。
ステップS300において、入力された第tフレームの前5フレーム画像を利用し、観測モデルIIに対してオンライン学習を実施する。その具体的な過程は図14中に示されている通りである。
ステップS400において、オンライン学習した観測モデルIとII及びオフライン訓練した観測モデルIIIを順に利用して指定された異なる数量のサンプルの重みを更新する。図15には重み更新の具体的な過程が示されている。
ステップS500において、ステップS400箇所において最終的に更新された後のサンプル重みは指定閾値よりも大きいか否かを判断する。指定閾値よりも大きい場合には、ステップS600に進み、ここにおいて、目標の現在フレームにおける大きさ及び位置として、目標のサンプルセットの大きさ及び位置の重み付き平均を出力し、次いで次フレーム画像の処理を継続する。指定閾値よりも小さい場合には、ステップS700に進み、前記選択候補目標を破棄する。
図13には観測モデルIのオンライン学習の具体的な過程が示されている。
ステップS210において、第tフレームの前1フレーム画像から正例サンプル(顔)及び反例サンプル(非顔)を収集する。
ステップS220において、ステップS210で収集した正例サンプル及び反例サンプルに基づき、観測モデルIのモデルパラメータを求める。
図14には観測モデルIIのオンライン学習具体的な過程が示されている。
先ず、ステップS310において、第tフレームの前5フレーム画像から正例サンプル及び反例サンプルを収集し、観測モデルIを利用して収集したサンプルに対してフィルタリングを実施し、留保されたサンプルを訓練サンプルとする。
ステップS320において、留保された反例サンプル中から、元来の観測モデルIIの留保された反例サンプルに対する出力尤度が指定閾値よりも大きい反例サンプルを選択する(これは、これら反例サンプルは非常に良好には排斥されていないことを示している)。
ステップS330において、選択された反例サンプル、及びすべての留保された正例サンプルに基づき、新たなFisher線形判別分類器を構築するとともに、構築された新たなFisher線形判別分類器を、弱分類器の数量が最大設定数を超えるか、または大多数の反例サンプルが排斥可能となるまで、元来の弱分類器集合中に加える。
ステップS340において、Discrete AdaBoostアルゴリズムを利用して弱分類器集合中から弱分類器を選択して強分類器を構成する、つまり観測モデルIIを更新する。
ステップS350において、弱分類器集合中から所定数フレーム内で採用されなかった弱分類器を削除する。
図15には本発明に基づく追跡方法において観測モデルを利用してサンプル重みを更新する具体的な過程が示されている。
先ず、ステップS410において、第t−1フレーム画像のサンプルに対してリサンプリングを実施して、各サンプルに同一の重みを持たせるとともに、サンプル数をN個まで拡張するとともに、パラメータをk=1に設定する。
次いで、ステップS420において、上記の第t−1フレーム画像に対してリサンプリングしたN個のサンプルに基づき、運動モデルを利用して第tフレーム画像におけるサンプル位置を予測するとともに、サンプルに対して調整を実施する。
ステップS430において、観測モデルIを利用して第tフレーム画像におけるN個のサンプルの重みを更新するとともに、kを1逓増させる。
ステップS440において、パラメータkは指定された観測モデル数mよりも大きいか否かを判断する。観測モデル数mよりも大きい場合には、過程を終了し、観測モデル数mよりも小さい場合には、ステップS450に進む。
ステップS450において、直前観測モデルが更新した後のサンプル重みに応じて、新たに設定されたサンプル数Nに基づき、直前観測モデルが対応したサンプルに対してリサンプリングを実施して、リサンプリング後の各サンプルに同一の重みを持たせ、かつ、サンプル数をN個とする。
ステップS460において、ガウスモデルを利用してステップS450でリサンプリングされた後のサンプルに対して小さなランダム摂動を実施する。
ステップS470において、観測モデルkを利用してステップS460でランダム摂動が実施された後のサンプルに対してサンプル重みの更新を実施するとともに、kを1逓増させ、次いで、ステップS440に戻る。
以下においては、本発明の追跡方法の効果について紹介する。
例として、C++プログラミング言語を採用して上記本発明に基づく追跡方法を実現し、運転速度は約30fps(大きさ320×240画素の動画像、単一目標)であり、ハードウェアの配置には、Pentium 2.8 GHz CPUが含まれる。各ラウンドのサンプリングに採用する粒子数はそれぞれ3000、600及び200であり、当然ながらその他の粒子数を採用することもできる。
本発明のアルゴリズムの説明の助けとするため、図5(a)にあるフレーム画像を処理する際のサンプリング過程が例示されている。
前記の通り、複雑な観測モデルであればあるほど、その観測尤度関数のピーク値も“急峻”となり、その結果、1ラウンドのリサンプリングごとに、粒子はピーク地付近により集中して分布する。また、観測モデルII及びIIIの出力は目標の真実の位置付近であってもあまり平滑ではないため、リサンプリングの際に小さな摂動を加えることは必須であることにも注意すべきである。図5(b)にはサンプリング効率の比較が含まれ、比較対象は異なる粒子数を使用した標準粒子フィルタとウォーターフォール型粒子フィルタとである。図中には追跡誤差曲線及び有効サンプル数曲線が示されている。追跡誤差曲線から見ると、標準粒子フィルタの粒子数を増大させると一定程度において急速運動目標に対する追跡効果を改善することができ、それは比較的多くの粒子がより大きな範囲をカバーすることができるからである(800個の粒子を使用した曲線と200個の粒子を使用した曲線とを比較)。しかし、本発明の方法はより低い追跡誤差に到達している。他方、本発明の方法のサンプリング効率は更に少し上回っている。重点サンプリング関連のアルゴリズムについては、常用される規則によりサンプリング効率が評価される(文献[19])。つまり有効サンプル数ESSであり、その計算方法は以下の通りである。
ESS(N)=N/(1+cv(w))
式中、Nは実際に使用する粒子数であり、cv(w)はサンプル重みが規範化される前に算出された分散係数である。有効サンプル数の意味は、前記N個の重み付きサンプルの描写力はESS(N)個の目標分布中からサンプリングされたサンプルに相当することを直感的に解釈可能である点である。それによれば、ESS(N)が大きければ大きいほど、サンプルセットの描写力が強くなることを示している。図5(b)から見ると、標準粒子フィルタのサンプル数を増大しても、そのサンプリング効率は増大していないが(特に追跡誤差が比較的大きいフレームでは、対応するESS(N)も比較的低い)、本発明者らのアルゴリズムは比較的高いサンプリング効率に達している。
対比試験に用いる方法には、標準粒子フィルタ、顔色ヒストグラムmean shift(実験時にはOpenCVライブラリ関数を採用[22])、オンラインでHaarライク特徴を選択する追跡アルゴリズム[14]及び本発明の方法が含まれる。実験中で使用する動画像は、すべて手作業でground truthを標定した。それらはすべて手持ちカメラで撮影されたものであり、その後、5fpsまでサンプリングした。そのうちbaseball.mpg(図7及び図8)及びhopping.mpgの内容は運動する人であり、excursion1.mpg及びexcursion2.mpg(図1及び図6)は若干数の人が通行する道であり、boy1.mpg及びboy2.mpg(図9及び図10)は遊んでいる子供である。測定試験動画像には計2676フレームが含まれる。これら測定試験動画像を使用する目的は、アルゴリズムの急速運動または激烈な目標とカメラ移動及び低フレームレート状況下における効果を測定することにある。追跡誤差曲線は図11の通りであり、平均誤差及び追跡率は表3の通りである。低フレームレートの場合、本発明のアルゴリズムの追跡効果は比較実験におけるその他のアルゴリズムよりも優れている。
表3は本発明のアルゴリズムとその他の方法の正確性の比較である。追跡誤差はいずれも真実の目標の大きさに基づき帰一化し、追跡成功の標準は位置誤差及びスケール誤差が共に0.5未満であることである。
表3 本発明のアルゴリズムとその他の方法の正確性の比較
以下においては、対比実験の結果を検討する。
先ず、オフラインモデルとオンラインモデルとを結合して使用した場合の効果について検討する。図7及び図8においては、2つの非常に挑戦的な動画像セグメントを選択して対比した。第一は急速なカメラの移動であり、動画像中における目標の突然の運動及び外観の曖昧な運動を招く。オフライン訓練の顔検出器(つまり本発明の観測モデルIII)を使用すると、曖昧な運動時には検出漏れ現象があることが判明する。オフラインモデルは検出可能であるだけで、シーケンス中で同一の目標に属する顔を関連付けることはできない。しかし、本発明者らのアルゴリズムは追跡に成功可能であり、オンラインのモデルも目標外観の変化(曖昧化)に適応可能である。別の例は急速な姿勢の変化である(5フレーム内において顔が120度を超えて回動)。本発明者らのアルゴリズムは目標位置を正確に追跡可能である。しかし、比較として、オンライン知識を純粋に採用した追跡アルゴリズムは“ドリフト”(drift)現象を発生し、実質的に誤差が補正できないまでに累積した。それは先験知識の拘束がないためである。これらの状況は本発明者らの実験においては非常によく見られることであり、1つの側面からオンラインモデルとオフラインモデルとを結合する必要性があることを説明している。
別の問題は多目標追跡である。本発明者らは、多目標追跡器は実現せず、独立して若干の目標に対して単一目標追跡を使用しただけである。多目標追跡を試みる主な目的はオンラインモデルが異なる目標を区分する能力を観察することである。理想的な状況下において、オフラインモデルは顔と非顔とを区別することができるだけであるが、オンラインモデルは異なる目標を区分する知識を徐々に学習可能でなければならない。図6によれば、オンライン観測モデルが自己の追跡目標に対して示す尤度はその他2つの隣り合う顔に対して示す尤度よりも高くなければならないが、全体的に見ると、顔位置の尤度は、目標が顔であるか否かに拘わらず、いずれも比較的高い。つまり、一定の異なる目標の区分能力は有しているが、区分力は決して非常に強力ではないのである。その原因は、おそらく、先ず、オンラインモデルの特徴セットはオフラインで選択したものであり、選択時の標準は顔及び非顔を区分する能力であるため、それらの異なる顔を区分する能力は必然的に非常に強力ではなく、次に、オンライン訓練の時間が限られるため、速やかに異なる顔を区別することは困難であるためである。
上記においては本発明のウォーターフォール型粒子フィルタに基づく追跡方法について記述した。本発明は上記追跡方法を実行するための追跡装置を実現することもでき、以下においては、それについて簡単に記述する。
図16には本発明のウォーターフォール型粒子フィルタに基づく低フレームレート動画像に適用する追跡装置1600が示されている。当該装置は生存期間が異なる3つの観測モデルを利用して、動画像シーケンスのフレーム画像中の特定被写体に対して追跡検出を実施する。
追跡装置1600には、動画像シーケンス中の第一フレーム画像中から特徴部を検出し、検出された特徴部の周囲でガウスランダムサンプリングを実施して、複数の目標サンプ
ルを含む初期サンプルセットを取得する初期化部1610と、入力された第tフレーム画像に対して、検出目標の画像中における位置及び大きさを追跡検出する追跡検出部1620(tはフレーム画像の番号を示す自然数である)と、追跡検出部の検出結果が追跡する目標であるか否かを判定し、追跡する目標である場合には、目標の現在フレームにおける大きさ及び位置として、目標サンプルのサンプルセットの大きさ及び位置の重み付き平均を出力し、追跡する目標でない場合には、当該選択候補目標を破棄する判定出力部1630と、次フレームの画像の追跡検出に用いるように、判定出力部の判定出力結果を記憶する記憶部1640とが含まれる。
追跡検出部1620には、入力された第tフレーム画像の前1フレーム画像を利用して、その中で使用する第I観測モデルに対してオンライン学習を実施し、その後、第tフレーム画像中のN個のサンプルに対して重みの更新を実施する第一追跡部1621(Nは自然数である)と、入力された第tフレーム画像の前5フレーム画像を利用して、その中で使用する第II観測モデルに対してオンライン学習を実施し、その後、第tフレーム画像中の第一追跡部により更新後のサンプル重みに基づき再度サンプリングされたN個のサンプルに対して重みの更新を実施する第二追跡部1622(Nは自然数である)と、オフライン訓練を施し、その後、第tフレーム画像中の第二追跡部により更新後のサンプル重みに基づき再度サンプリングされたN個のサンプルに対して重みの更新を実施する第三追跡部1623(Nは自然数である)と、が含まれ、
判定出力部1630は、第三追跡部1623により最終的に更新された後のサンプル重みは所定の閾値を超えているか否かを判断し、最終更新後のサンプル重みが閾値を超えていると、目標の現在フレームにおける大きさ及び位置として、目標サンプルのサンプルセットの大きさ及び位置の重み付き平均を出力し、更新後のサンプル重みが第一閾値を超えていないと、当該選択候補目標を破棄する。
採用する3つの観測モデルの構成及びその学習訓練過程の細目は前記と同様であるため、ここでは改めて論述しない。
上記においては添付図を参照して本発明の好適実施例について詳細に記述した。しかし、当業者であれば明らかな通り、選択かつ記述されている実施例は本発明の原理及びその実際の応用を最適に解釈するために過ぎず、本発明は上記実施例に限られるものではない。特許請求の範囲及びその同等物が限定する発明範囲を離れることなく、本発明に対して各種の修正及び変形を施すことは可能である。上記の例において、本発明が提供する実施例は顔及び頭部についてのものであるが、本発明は顔及び頭部に限られるものではなく、その他の物体(例えば、人体のその他の部位、自動車、通行人など)に応用することもできる。
具体的には、本発明は以下の方式に基づき実現可能である。
本発明の1つの面に基づき、本発明では、低フレームレート動画像に適用する特定被写体追跡方法が提供されており、生存期間がそれぞれ異なるm個の観測モデルを利用して、動画像シーケンスのフレーム画像中の特定被写体に対して追跡検出を実施する(mは自然数である)。
当該特定被写体追跡方法には、
(a)動画像シーケンス中のフレーム画像中から特徴部を検出し、検出された特徴部の周囲でガウスランダムサンプリングを実施して、複数の特定被写体サンプルを含む初期サンプルセットを取得するステップと、
(b)入力された第tフレーム画像の前Dフレーム画像を利用して、第k観測モデルに対してオンライン学習またはオフライン学習を実施するステップ(tはフレーム画像の
番号を示す自然数であり、kは観測モデル番号を示す自然数であり、Dは第k観測モデルの生存期間を示す自然数である)と、
(c)第tフレーム画像について、前記オンライン学習またはオフライン訓練のm個の観測モデルを順に利用して、特定被写体サンプルのサンプル重みを更新するステップと、
(d)ステップ(c)において第m観測モデルにより最終的に更新された後のサンプル重みが所定の第一閾値を超えているか否かを判断し、最終更新後のサンプル重みが第一閾値を超えていると、特定被写体の現在フレームにおける大きさ及び位置として、特定被写体サンプルのサンプルセットの大きさ及び位置の重み付き平均を出力し、更新後のサンプル重みが第一閾値を超えていないと、当該選択候補目標を破棄するステップと、
(e)第t+1フレーム画像に対して、前記ステップ(b)から(d)を繰り返すステップと、が含まれる。
前記特定被写体追跡方法において、好適には、第k観測モデルの生存期間Dは、kの増大に伴い増大する。
前記特定被写体追跡方法において、好適には、第k観測モデルに対して設定されたサンプル数はN個であり、Nは自然数であり、kの増大に伴い減少する。
前記特定被写体追跡方法において、好適には、ステップ(b)において、前m−1の観測モデルに対してオンライン学習を実施し、第m観測モデルに対してオフライン訓練を実施する。
前記特定被写体追跡方法において、好適には、3つの観測モデルを利用して、前2つの観測モデルに対してオンライン学習を実施し、第3観測モデルに対してオフライン訓練を実施する。
前記特定被写体追跡方法において、第1観測モデルに対して実施するオンライン学習には、
(f)前Dフレーム画像から正例サンプル及び反例サンプルを収集するステップと、
(g)収集された正例サンプル及び反例サンプルに基づき、第1観測モデル中に採用する各種パラメータを求めるステップと、が含まれる。
前記特定被写体追跡方法において、好適には、前記第1観測モデルは、Fisher線形判別分類器である。
前記特定被写体追跡方法において、好適には、前記第1観測モデルの生存期間Dは、1フレーム画像である。
前記特定被写体追跡方法において、好適には、前記第1観測モデルには、オフラインで選択された5つのHaarライク特徴を採用する。
前記特定被写体追跡方法において、好適には、前記正例サンプルは、追跡する特定被写体の近傍領域から選択し、前記反例サンプルは、追跡する特定被写体の周囲で、大きさが当該特定被写体の2倍の領域において、当該特定被写体との距離が比較的遠い画像から選択する。
前記特定被写体追跡方法において、Sigmoid関数により平滑化された後の第1観測モデルの出力は、以下の通りである。


式中、xは追跡する特定被写体の状態を示す変数であり、zは第1観測モデルが採用する観測量であり、wはFisher線形判別分類器の投影重みのベクトル量であり、f(x)は入力される5次元特徴ベクトル量であり、ηは分類閾値である。
前記特定被写体追跡方法において、好適には、第2観測モデルに対して実施するオンライン学習には、
(h)前Dフレーム画像中から正例サンプル及び反例サンプルを収集し、第1観測モデルを利用して収集したサンプルに対してフィルタリングを実施して、留保されたサンプルを訓練サンプルとするステップと、
(i)留保された反例サンプル中から、第2観測モデルの留保された反例サンプルに対する出力尤度が第二閾値よりも大きい反例サンプルを選択するステップと、
(j)選択された反例サンプル、及びすべての留保された正例サンプルに基づき、新たなFisher線形判別分類器を構築するとともに、構築された新たなFisher線形判別分類器を、弱分類器の数量が最大設定値を超えるか、または大多数の反例サンプルを排斥可能となるまで、元の弱分類器集合中に加えるステップと、
(k)Discrete AdaBoostアルゴリズムを利用して弱分類器集合中から弱分類器を選択して、強分類器を構成するステップと、
(l)弱分類器集合中から所定数フレーム内で採用されない弱分類器を削除するステップと、が含まれる。
前記特定被写体追跡方法において、好適には、前記第2観測モデルの生存期間Dは、5フレーム画像である。
前記特定被写体追跡方法において、前記強分類器の出力は、以下の通りである。


式中、xは追跡する特定被写体の状態を示す変数であり、Qは選択する組の弱分類器の集合を示し、αはQ内のいずれか1つの弱分類器qに対応する重みを示し、wは弱分類器qのLDA投影ベクトル量を示し、fは弱分類器qについて採用する特徴を示し、ηは弱分類器qについての分類閾値である。
前記特定被写体追跡方法において、Sigmoid関数により平滑化された後の第2観測モデルの出力は、以下の通りである。


式中、zは第2観測モデルの観測量である。
前記特定被写体追跡方法において、好適には、第3観測モデルは、複数のベクトルブー
スティングアルゴリズムで学習された強分類器により構成される。
前記特定被写体追跡方法において、好適には、第3観測モデルは、ツリー状の多視角顔検出器である。
前記特定被写体追跡方法において、第3観測モデルの出力は、以下の通りである。


式中、zは第3観測モデルの観測量であり、hは入力サンプルxが通過する最後の強分類器の層数であり、φは当該強分類器に対応する反例サンプルの正例サンプルに対する先験確率の比であり、hの増大に伴い減少し、xが通過する分類器の層数が多いほど、それが属する正例の確率は大きくなることを示しており、cは通過する最後の強分類器出力の信頼度である。
本発明の別の面に基づくと、本発明では、低フレームレート動画像に適用する特定被写体追跡装置が提供されており、生存期間がそれぞれ異なる3つの観測モデルを利用して、動画像シーケンスのフレーム画像中の特定被写体に対して追跡検出を実施する。
当該特定被写体追跡装置には、
動画像シーケンス中の第一フレーム画像中から特徴部を検出し、検出された特徴部の周囲でガウスランダムサンプリングを実施して、複数の特定被写体サンプルを含む初期サンプルセットを取得する初期化部と、
入力された第tフレーム画像に対して、特定被写体の画像中における位置及び大きさを追跡検出する追跡検出部(tはフレーム画像の番号を示す自然数である)と、
追跡検出部の検出結果が追跡する特定被写体であるか否かを判定し、特定被写体である場合には、特定被写体の現在フレームにおける大きさ及び位置として、特定被写体サンプルのサンプルセットの大きさ及び位置の重み付き平均を出力し、特定被写体でない場合には、当該選択候補目標を破棄する判定出力部と、
次フレームの画像の追跡検出に用いるように、判定出力部の判定出力結果を記憶する記憶部と、が含まれ、
前記追跡検出部には、
入力された第tフレーム画像の前Dフレーム画像を利用して、その中で使用する第1観測モデルに対してオンライン学習を実施し、その後、第tフレーム画像中のN個のサンプルに対して重みの更新を実施する第一追跡部(Dは第1観測モデルの生存期間を示す自然数であり、N1は自然数である)と、
入力された第tフレーム画像の前Dフレーム画像を利用して、その中で使用する第2観測モデルに対してオンライン学習を実施し、その後、第tフレーム画像中の第一追跡部により更新後のサンプル重みに基づき再度サンプリングされたN個のサンプルに対して重みの更新を実施する第二追跡部(Dは第2観測モデルの生存期間を示す自然数であり、Nは自然数である)と、
オフライン訓練を施し、その後、第tフレーム画像中の第二追跡部により更新後のサンプル重みに基づき再度サンプリングされたN個のサンプルに対して重みの更新を実施する第三追跡部(Nは自然数である)と、が含まれ、
前記判定出力部は、第三追跡部により最終的に更新された後のサンプル重みは所定の第一閾値を超えているか否かを判断し、最終更新後のサンプル重みが第一閾値を超えていると、特定被写体の現在フレームにおける大きさ及び位置として、特定被写体サンプルのサンプルセットの大きさ及び位置の重み付き平均を出力し、更新後のサンプル重みが第一閾値を超えていないと、当該選択候補目標を破棄する。
前記特定被写体検出装置において、好適には、第1観測モデルの生存期間Dは、第2観測モデルの生存期間Dよりも小さい。
前記特定被写体検出装置において、好適には、第1観測モデルの生存期間Dは、1フレーム画像である。
前記特定被写体検出装置において、好適には、第2観測モデルの生存期間Dは、5フレーム画像である。
前記特定被写体検出装置において、好適には、第一追跡部についてのサンプル数N>第二追跡部についてのサンプル数N>第三追跡部についてのサンプル数Nである。
前記特定被写体検出装置において、第1観測モデルに対して実施するオンライン学習には、
前Dフレーム画像から正例サンプル及び反例サンプルを収集し、
収集された正例サンプル及び反例サンプルに基づき、第1観測モデル中に採用する各種パラメータを求める、ことが含まれる。
前記特定被写体検出装置において、好適には、前記第1観測モデルは、Fisher線形判別分類器である。
前記特定被写体検出装置において、好適には、前記第1観測モデルには、オフラインで選択された5つのHaarライク特徴を採用する。
前記特定被写体検出装置において、好適には、前記正例サンプルは、追跡する特定被写体の近傍領域から選択し、前記反例サンプルは、追跡する特定被写体の周囲で、大きさが当該特定被写体の2倍の領域において、当該特定被写体との距離が比較的遠い画像から選択する。
前記特定被写体検出装置において、Sigmoid関数により平滑化された後の第1観測モデルの出力は、以下の通りである。


式中、xは追跡する特定被写体の状態を示す変数であり、zは第1観測モデルが採用する観測量であり、wはFisher線形判別分類器の投影重みのベクトル量であり、f(x)は入力される5次元特徴ベクトル量であり、ηは分類閾値である。
前記特定被写体検出装置において、第2観測モデルに対して実施するオンライン学習には、
前Dフレーム画像中から正例サンプル及び反例サンプルを収集し、第一追跡部を利用して収集したサンプルに対してフィルタリングを実施して、留保されたサンプルを訓練サンプルとし、
留保された反例サンプル中から、第2観測モデルの留保された反例サンプルに対する出力尤度が第二閾値よりも大きい反例サンプルを選択し、
選択された反例サンプル、及びすべての留保された正例サンプルに基づき、新たなFisher線形判別分類器を構築するとともに、構築された新たなFisher線形判別分
類器を、弱分類器の数量が最大設定値を超えるか、または大多数の反例サンプルを排斥可能となるまで、元の弱分類器集合中に加え、
Discrete AdaBoostアルゴリズムを利用して弱分類器集合中から弱分類器を選択して、強分類器を構成し、
弱分類器集合中から所定数フレーム内で採用されない弱分類器を削除する、ことが含まれる。
前記特定被写体検出装置において、前記強分類器の出力は、以下の通りである。


式中、xは追跡する特定被写体の状態を示す変数であり、Qは選択する組の弱分類器の集合を示し、αはQ内のいずれか1つの弱分類器qに対応する重みを示し、wは弱分類器qのLDA投影ベクトル量を示し、fは弱分類器qについて採用する特徴を示し、ηは弱分類器qについての分類閾値である。
前記特定被写体検出装置において、Sigmoid関数により平滑化された後の第2観測モデルの出力は、以下の通りである。


式中、zは第2観測モデルの観測量である。
前記特定被写体検出装置において、好適には、第3観測モデルは、複数のベクトルブースティングアルゴリズムで学習された強分類器により構成される。
前記特定被写体検出装置において、好適には、第3観測モデルは、ツリー状の多視角顔検出器である。
前記特定被写体検出装置において、第3観測モデルの出力は、以下の通りである。


式中、zは第3観測モデルの観測量であり、hは入力サンプルxが通過する最後の強分類器の層数であり、φは当該強分類器に対応する反例サンプルの正例サンプルに対する先験確率の比であり、hの増大に伴い減少し、xが通過する分類器の層数が多いほど、それが属する正例の確率は大きくなることを示しており、cは通過する最後の強分類器出力の信頼度である。
その他、本発明に基づく実施例において、本発明の目的はコンピュータまたはワンチップマイコンなどに上記操作を実行させるコンピュータプログラムにより実現することができる。
また、明らかにすべきは、各実施例において、専門の回路または線路(例えば、互いに接続されて専門機能を実行する離散論理ゲート)により、1つまたはより多くのプロセッサにより実行されるプログラムコマンドにより、または両者の組み合わせにより前記各動作を実行可能である点である。従って、複数種類の異なる形式により上記複数の面を実施することができ、かつ、それらの形式はすべて記述された内容の範囲内に位置すると考えられる。上記複数の面の各々に対して、何らかのこの種の形式の実施例はここにおいてはいずれも“前記動作を実行するように構築された論理”を指すことができ、または別途選択すると、“前記動作を実行または実行可能な論理”を指すことができる。
更に、本発明の実施例に基づき、本発明の目的はコンピュータ読取可能な媒体により実現することができ、前記媒体は上記プログラムを記録する。コンピュータ読取可能な媒体は、実行システム、設備または装置により使用されるかまたはコマンド実行システム、設備または装置と結合されるいずれかの装置により使用されるように、プログラムを包含、記憶、伝達、伝播または伝送することができる。当該コンピュータ読取可能な記録媒体は、例えば、電子、磁気、光、電磁、赤外線または半導体システム、設備、装置または伝播媒体とすることができるが、それらに限るものでない。当該コンピュータ読取可能な記録媒体のより具体的な例には(すべて列挙されるわけではない)、1本またはより多くの導線を有する電気的接続、携帯式コンピュータ磁気ディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、データを消去・書込み可能なリードオンリーメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、及び携帯式光ディスクリードオンリーメモリ(CDROM)が含まれる。
本発明は統計学習を基礎として、構造が異なる分類器を観測モデルとするとともに、オンラインの分類器とオフラインの分類器とを結合して使用することにより、アルゴリズムの安定性を向上させる。同一画像空間において複数の相補的な観測モデルを使用すると、一方において、観測モデルの区分能力を増強することができ、他方において、サンプリング画像により引き起こされる誤差を回避することもできる。そのため、本発明に基づく追跡方法及び追跡装置は、低フレームレート動画像中の追跡目標または急速に運動する物体に対して、動画像中のシーケンス情報を捕捉かつ利用することにより探索範囲を縮小し、更に検出アルゴリズムにより目標を正確に識別して、急速かつ正確な追跡を実現可能とする。
前記で言及された文献は引用してここに組み入れられることにより、ここにおいてそれらに対して全面的な記述を実施したことと同様の意味となる。
[1] M. Isard and A. Blake. Condensation - conditional density propagation for visual tracking. International Journal of Computer Vision, 28 (1):5-28, 1998.
[2] D. Comaniciu, V. Ramesh, and P. Meer. Real-time tracking of non-rigid objects using meanshift. In IEEE Conference on Computer Vision and Pattern Recognition, 2000.
[3] C. Tomasi and T. Kanade, Detection and tracking of point features. Technical Report CMU-CS-91-132, Carnegie Mellon University, 1991.
[4] K. Okuma, A Taleghani, D. Freitas, J. J. Little, and D. G. Lowe. A Boosted particle filter; Multitarget detection and tracking. In European Conference on Computer Vision, 2004.
[5] C. Liu, H. Y. Shum, and C. Zhang. Hierarchical shape modeling for automatic
face localization. In European Conference on Computer Vision, 2002.
[6] F. Porikli and O. Tuzel, Object tracking in low-frame-rate video. SPIE Image and Video Communications and Processing, 5685:72-79, 2005.
[7] M. Han, A. Sethi, W. Hua, and Y. Gong. A detection-based multiple object tracking method. In IEEE International Conference on Image Processing, 2004.
[8] R. Kaucic, A. G. A. Perera, G. Brooksby, J. Kaufholed, and A. Hoogs. A unified framework for tracking through occlusions and across sensor gaps. In IEEE Conference on Computer Vision and Pattern Recognition, 2005.
[9] G. Hua and Y. Wu. Multi-scale visual tracking by sequential belief propagation. In IEEE Conference on Computer Vision and Pattern Recognition, 2004.
[10] S. Birchfield. Source code of the klt feature tracker.
http://www.ces.clemson.edu/~stb/klt/, 2006.
[11] J. Sullivan, A. Blake, M. Isard, and J. MacCormick. Object localization by
bayesian correlation. In International Conference on Computer Vision, 1999.
[12] S. Acvidan, Ensamble tracking. IEEE Transactions on Pattern Analysis and Machine Intelligence, 29(2):261-271, 2007.
[13] P. Viola and M. Jones. Robust real-time object detection. In IEEE Workshop on Statistical and Theories of Computer Vision, 2001.
[14] J. Wang, X. Chen, and W. Gao. Online selecting discriminative tracking features using particle filter. In IEEE Conference on Computer Vision and Pattern Recognition, 2005.
[15] B. Wu, H. Ai, C. Huang, and S. Lao. Fast rotation invariant multi-view face detection based on real adaboost. In IEEE International Conference on Automatic Face and Gesture Recognition, 2004.
[16] Y. Freund and R. E. Schapire. Experiments with a new boosting algorithm. In International Conference on Machine Learning, 1996.
[17] Yuan Li, Haizhou Ai, Chang Huang, Shihong Lao. Robust Head Tracking Based on a Multi-State Particle Filter, IEEE International Conference on Automatic Face and Gesture Recognition (FGR06), Southampton, UK, 2006.
[18] Richard O. Duda, Peter E. Hart, DavieG. Stork. Pattern Classification, Second Edition. John Wiley & Sons, 2001 (ISBN:0-471-05669-3).
[19] J. S. Liu. Monte Carlo Strategies in Scientific Computing. Springer, New York, 1994 (ISBN: 0-387-95230-6).
[20] C. Huang, H. Ai, Y. Li, and S. Lao. Vector boosting for rotation invariant
multi-view face detection. In International Conference on Computer Vision, 2005.
[21] C. Yan, R. Duraiswami, and L. Davis. Fast multiple object tracking via a hierarchical particle filter. In International Conference on Computer Vision 2005.
[22] Inter opencv library.
http://www.sourceforge.net/projects/opencvlibrary.

Claims (36)

  1. m個の観測モデルを利用して、動画像シーケンスのフレーム画像中の特定被写体に対して追跡検出を実施する特定被写体追跡方法であって、
    当該特定被写体追跡方法は、
    (a)動画像シーケンス中のフレーム画像中から特徴部を検出するステップと、
    (b)入力された第t−1フレーム画像から起算して前Dフレーム画像のうちの少なくとも1つのフレーム画像を利用して、第k観測モデルに対してオンライン学習またはオフライン訓練を実施するステップ(tはフレーム画像の番号を示す自然数であり、kは観測モデル番号を示す自然数であり、Dは第k観測モデルの生存期間を示す自然数である)と、
    (c)第tフレーム画像について、前記オンライン学習またはオフライン訓練のm個の観測モデルを順に利用して、特定被写体サンプルのサンプル重みを更新するステップと、
    (d)ステップ(c)において第m観測モデルにより最終的に更新された後のサンプル重みが所定の第一閾値を超えているか否かを判断し、最終更新後のサンプル重みが第一閾値を超えていると、特定被写体サンプルのサンプルセットの大きさ及び位置に基づき算出された特定被写体の現在フレームにおける大きさ及び位置を出力するステップと、
    (e)第t+1フレーム画像に対して、前記ステップ(b)から(d)を繰り返すステップと、を含む、特定被写体追跡方法。
  2. 第k観測モデルの生存期間Dは、kの増大に伴い増大する、請求項1記載の特定被写体追跡方法。
  3. 第k観測モデルに対して設定されたサンプル数はN個であり、Nは自然数であり、kの増大に伴い増大する、請求項2記載の特定被写体追跡方法。
  4. ステップ(b)において、前m−1の観測モデルに対してオンライン学習を実施し、第m観測モデルに対してオフライン訓練を実施する、請求項3記載の特定被写体追跡方法。
  5. 3つの観測モデルを利用して、前2つの観測モデルに対してオンライン学習を実施し、第3観測モデルに対してオフライン訓練を実施する、請求項4記載の特定被写体追跡方法。
  6. 第1観測モデルに対して実施するオンライン学習には、
    (f)前Dフレーム画像から正例サンプル及び反例サンプルを収集するステップと、
    (g)収集された正例サンプル及び反例サンプルに基づき、第1観測モデル中に採用する各種パラメータを求めるステップと、が含まれる、請求項5記載の特定被写体追跡方法。
  7. 前記第1観測モデルは、Fisher線形判別分類器である、請求項6記載の特定被写体追跡方法。
  8. 前記第1観測モデルの生存期間Dは、1フレーム画像である、請求項7記載の特定被写体追跡方法。
  9. 前記第1観測モデルには、オフラインで選択された5つのHaarライク特徴を採用する、請求項8記載の特定被写体追跡方法。
  10. 前記正例サンプルは、追跡する特定被写体の近傍領域から選択し、前記反例サンプルは、追跡する特定被写体の周囲で、大きさが当該特定被写体の2倍の領域において、当該特
    定被写体との距離が比較的遠い画像から選択する、請求項9記載の特定被写体追跡方法。
  11. Sigmoid関数により平滑化された後の第1観測モデルの出力は、以下の通りである、請求項10記載の特定被写体追跡方法。


    式中、xは追跡する特定被写体の状態を示す変数であり、zは第1観測モデルが採用する観測量であり、wはFisher線形判別分類器の投影重みのベクトル量であり、f(x)は入力される5次元特徴ベクトル量であり、ηは分類閾値である。
  12. 第2観測モデルに対して実施するオンライン学習には、
    (h)前Dフレーム画像中から正例サンプル及び反例サンプルを収集し、第1観測モデルを利用して収集したサンプルに対してフィルタリングを実施して、留保されたサンプルを訓練サンプルとするステップと、
    (i)留保された反例サンプル中から、第2観測モデルの留保された反例サンプルに対する出力尤度が第二閾値よりも大きい反例サンプルを選択するステップと、
    (j)選択された反例サンプル、及びすべての留保された正例サンプルに基づき、新たなFisher線形判別分類器を構築するとともに、構築された新たなFisher線形判別分類器を、弱分類器の数量が最大設定値を超えるか、または大多数の反例サンプルを排斥可能となるまで、元の弱分類器集合中に加えるステップと、
    (k)Discrete AdaBoostアルゴリズムを利用して弱分類器集合中から弱分類器を選択して、強分類器を構成するステップと、
    (l)弱分類器集合中から所定数フレーム内で採用されない弱分類器を削除するステップと、が含まれる、請求項5記載の特定被写体追跡方法。
  13. 前記第2観測モデルの生存期間Dは、5フレーム画像である、請求項12記載の特定被写体追跡方法。
  14. 前記強分類器の出力は、以下の通りである、請求項3記載の特定被写体追跡方法。


    式中、xは追跡する特定被写体の状態を示す変数であり、Qは選択する組の弱分類器の集合を示し、αはQ内のいずれか1つの弱分類器qに対応する重みを示し、wは弱分類器qのLDA投影ベクトル量を示し、fは弱分類器qについて採用する特徴を示し、ηは弱分類器qについての分類閾値である。
  15. Sigmoid関数により平滑化された後の第2観測モデルの出力は、以下の通りである、請求項14記載の特定被写体追跡方法。


    式中、zは第2観測モデルの観測量である。
  16. 第3観測モデルは、複数のベクトルブースティングアルゴリズムで学習された強分類器により構成される、請求項5記載の特定被写体追跡方法。
  17. 第3観測モデルは、ツリー状の多視角顔検出器である、請求項16記載の特定被写体追跡方法。
  18. 第3観測モデルの出力は、以下の通りである、請求項17記載の特定被写体追跡方法。


    式中、zは第3観測モデルの観測量であり、hは入力サンプルxが通過する最後の強分類器の層数であり、φは当該強分類器に対応する反例サンプルの正例サンプルに対する先験確率の比であり、hの増大に伴い減少し、xが通過する分類器の層数が多いほど、それが属する正例の確率は大きくなることを示しており、cは通過する最後の強分類器出力の信頼度である。
  19. 前記特定被写体の現在フレームにおける大きさ及び位置は、特定被写体サンプルのサンプルセットの大きさ及び位置の重み付き平均である、請求項1記載の特定被写体追跡方法。
  20. 3つの観測モデルを利用して、動画像シーケンスのフレーム画像中の特定被写体に対して追跡検出を実施する特定被写体追跡装置であって、
    当該特定被写体追跡装置は、
    動画像シーケンス中のフレーム画像中から特徴部を検出する初期化部と、
    入力された第tフレーム画像に対して、特定被写体の画像中における位置及び大きさを追跡検出する追跡検出部(tはフレーム画像の番号を示す自然数である)と、
    追跡検出部の検出結果が追跡する特定被写体であるか否かを判定し、特定被写体である場合には、特定被写体サンプルのサンプルセットの大きさ及び位置に基づき算出された特定被写体の現在フレームにおける大きさ及び位置を出力し、特定被写体でない場合には、当該選択候補目標を破棄する判定出力部と、
    次フレームの画像の追跡検出に用いるように、判定出力部の判定出力結果を記憶する記憶部と、を含み、
    前記追跡検出部は、
    入力された第t−1フレーム画像から起算して前Dフレーム画像のうちの少なくとも1つのフレーム画像を利用して、その中で使用する第1観測モデルに対してオンライン学習を実施し、その後、第tフレーム画像中のN個のサンプルに対して重みの更新を実施する第一追跡部(Dは第1観測モデルの生存期間を示す自然数であり、Nは自然数である)と、
    入力された第t−1フレーム画像から起算して前Dフレーム画像のうちの少なくとも1つのフレーム画像を利用して、その中で使用する第2観測モデルに対してオンライン学習を実施し、その後、第tフレーム画像中の第一追跡部により更新後のサンプル重みに基づき再度サンプリングされたN個のサンプルに対して重みの更新を実施する第二追跡部(Dは第2観測モデルの生存期間を示す自然数であり、Nは自然数である)と、
    オフライン訓練を施し、その後、第tフレーム画像中の第二追跡部により更新後のサンプル重みに基づき再度サンプリングされたN個のサンプルに対して重みの更新を実施する第三追跡部(Nは自然数である)と、を含み、
    前記判定出力部は、第三追跡部により最終的に更新された後のサンプル重みは所定の第一閾値を超えているか否かを判断し、最終更新後のサンプル重みが第一閾値を超えていると、特定被写体サンプルのサンプルセットの大きさ及び位置に基づき算出された特定被写体の現在フレームにおける大きさ及び位置を出力し、更新後のサンプル重みが第一閾値を超えていないと、当該選択候補目標を破棄する、特定被写体追跡装置。
  21. 第1観測モデルの生存期間Dは、第2観測モデルの生存期間Dよりも小さい、請求項20記載の特定被写体追跡装置。
  22. 第1観測モデルの生存期間Dは、1フレーム画像である、請求項21記載の特定被写体追跡装置。
  23. 第2観測モデルの生存期間Dは、5フレーム画像である、請求項22記載の特定被写体追跡装置。
  24. 第一追跡部についてのサンプル数N>第二追跡部についてのサンプル数N>第三追跡部についてのサンプル数Nである、請求項23記載の特定被写体追跡装置。
  25. 第1観測モデルに対して実施するオンライン学習には、
    前Dフレーム画像から正例サンプル及び反例サンプルを収集し、
    収集された正例サンプル及び反例サンプルに基づき、第1観測モデル中に採用する各種パラメータを求める、ことが含まれる、請求項24記載の特定被写体追跡装置。
  26. 前記第1観測モデルは、Fisher線形判別分類器である、請求項25記載の特定被写体追跡装置。
  27. 前記第1観測モデルには、オフラインで選択された5つのHaarライク特徴を採用する、請求項26記載の特定被写体追跡装置。
  28. 前記正例サンプルは、追跡する特定被写体の近傍領域から選択し、前記反例サンプルは、追跡する特定被写体の周囲で、大きさが当該特定被写体の2倍の領域において、当該特定被写体との距離が比較的遠い画像から選択する、請求項27記載の特定被写体追跡装置。
  29. Sigmoid関数により平滑化された後の第1観測モデルの出力は、以下の通りである、請求項28記載の特定被写体追跡装置。


    式中、xは追跡する特定被写体の状態を示す変数であり、zは第1観測モデルが採用する観測量であり、wはFisher線形判別分類器の投影重みのベクトル量であり、f(x)は入力される5次元特徴ベクトル量であり、ηは分類閾値である。
  30. 第2観測モデルに対して実施するオンライン学習には、
    前Dフレーム画像中から正例サンプル及び反例サンプルを収集し、第1追跡部を利用して収集したサンプルに対してフィルタリングを実施して、留保されたサンプルを訓練サンプルとし、
    留保された反例サンプル中から、第2観測モデルの留保された反例サンプルに対する出
    力尤度が第二閾値よりも大きい反例サンプルを選択し、
    選択された反例サンプル、及びすべての留保された正例サンプルに基づき、新たなFisher線形判別分類器を構築するとともに、構築された新たなFisher線形判別分類器を、弱分類器の数量が最大設定値を超えるか、または大多数の反例サンプルを排斥可能となるまで、元の弱分類器集合中に加え、
    Discrete AdaBoostアルゴリズムを利用して弱分類器集合中から弱分類器を選択して、強分類器を構成し、
    弱分類器集合中から所定数フレーム内で採用されない弱分類器を削除する、ことが含まれる、請求項20記載の特定被写体追跡装置。
  31. 前記強分類器の出力は、以下の通りである、請求項30記載の特定被写体追跡装置。


    式中、xは追跡する特定被写体の状態を示す変数であり、Qは選択する組の弱分類器の集合を示し、αはQ内のいずれか1つの弱分類器qに対応する重みを示し、wは弱分類器qのLDA投影ベクトル量を示し、fは弱分類器qについて採用する特徴を示し、ηは弱分類器qについての分類閾値である。
  32. Sigmoid関数により平滑化された後の第2観測モデルの出力は、以下の通りである、請求項31記載の特定被写体追跡装置。


    式中、zは第2観測モデルの観測量である。
  33. 第3観測モデルは、複数のベクトルブースティングアルゴリズムで学習された強分類器により構成される、請求項20記載の特定被写体追跡装置。
  34. 第3観測モデルは、ツリー状の多視角顔検出器である、請求項33記載の特定被写体追跡装置。
  35. 第3観測モデルの出力は、以下の通りである、請求項34記載の特定被写体追跡装置。


    式中、zは第3観測モデルの観測量であり、hは入力サンプルxが通過する最後の強分類器の層数であり、φは当該強分類器に対応する反例サンプルの正例サンプルに対する先験確率の比であり、hの増大に伴い減少し、xが通過する分類器の層数が多いほど、それが属する正例の確率は大きくなることを示しており、cは通過する最後の強分類器出力の信頼度である。
  36. 前記特定被写体の現在フレームにおける大きさ及び位置は、特定被写体サンプルのサン
    プルセットの大きさ及び位置の重み付き平均である、請求項20記載の特定被写体追跡装置。
JP2010511479A 2007-06-14 2008-06-13 生存期間が異なる複数の観測モデルを融合する追跡方法及び追跡装置 Expired - Fee Related JP5052670B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN200710109159.7 2007-06-14
CN2007101091597A CN101325691B (zh) 2007-06-14 2007-06-14 融合不同生存期的多个观测模型的跟踪方法和跟踪装置
PCT/CN2008/071299 WO2008151577A1 (en) 2007-06-14 2008-06-13 Tracking method and device adopting a series of observation models with different lifespans

Publications (2)

Publication Number Publication Date
JP2010532886A true JP2010532886A (ja) 2010-10-14
JP5052670B2 JP5052670B2 (ja) 2012-10-17

Family

ID=40129265

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010511479A Expired - Fee Related JP5052670B2 (ja) 2007-06-14 2008-06-13 生存期間が異なる複数の観測モデルを融合する追跡方法及び追跡装置

Country Status (5)

Country Link
US (1) US8548195B2 (ja)
EP (1) EP2164041B1 (ja)
JP (1) JP5052670B2 (ja)
CN (1) CN101325691B (ja)
WO (1) WO2008151577A1 (ja)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315670B (zh) * 2007-06-01 2010-08-11 清华大学 特定被摄体检测装置及其学习装置和学习方法
EP2036045A1 (en) * 2007-07-11 2009-03-18 Cairos technologies AG Video tracking method and appartus arrangement for performing the method
WO2010109644A1 (ja) * 2009-03-27 2010-09-30 グローリー株式会社 被写体識別方法、被写体識別プログラムおよび被写体識別装置
CN101923717B (zh) * 2009-06-10 2012-09-05 新奥特(北京)视频技术有限公司 一种对快速运动目标的特征点准确跟踪的方法
CN101923719B (zh) * 2009-06-12 2013-03-06 新奥特(北京)视频技术有限公司 一种基于粒子滤波和光流矢量的视频目标跟踪方法
CN101968884A (zh) * 2009-07-28 2011-02-09 索尼株式会社 检测视频图像中的目标的方法和装置
WO2011088624A1 (en) * 2010-01-25 2011-07-28 Hewlett-Packard Development Company,L.P. Data processing system and method
AU2010238543B2 (en) * 2010-10-29 2013-10-31 Canon Kabushiki Kaisha Method for video object detection
US8448056B2 (en) * 2010-12-17 2013-05-21 Microsoft Corporation Validation analysis of human target
JP2012203613A (ja) * 2011-03-25 2012-10-22 Sony Corp 画像処理装置および方法、記録媒体並びにプログラム
US9053391B2 (en) 2011-04-12 2015-06-09 Sharp Laboratories Of America, Inc. Supervised and semi-supervised online boosting algorithm in machine learning framework
US9014486B2 (en) * 2011-11-21 2015-04-21 Siemens Aktiengesellschaft Systems and methods for tracking with discrete texture traces
US9450671B2 (en) * 2012-03-20 2016-09-20 Industrial Technology Research Institute Transmitting and receiving apparatus and method for light communication, and the light communication system thereof
CN102799900B (zh) * 2012-07-04 2014-08-06 西南交通大学 一种基于检测中支持在线聚类学习的对象跟踪方法
US9020866B1 (en) * 2012-08-28 2015-04-28 A9.Com, Inc. Combined online and offline ranking
CN103489001B (zh) * 2013-09-25 2017-01-11 杭州智诺科技股份有限公司 图像目标追踪方法和装置
US9536177B2 (en) * 2013-12-01 2017-01-03 University Of Florida Research Foundation, Inc. Distributive hierarchical model for object recognition in video
WO2015099704A1 (en) * 2013-12-24 2015-07-02 Pelco, Inc. Method and apparatus for intelligent video pruning
CN104463912A (zh) * 2014-12-16 2015-03-25 武汉大学 一种基于簇相似的多尺度目标跟踪方法
US10440350B2 (en) * 2015-03-03 2019-10-08 Ditto Technologies, Inc. Constructing a user's face model using particle filters
US10618673B2 (en) * 2016-04-15 2020-04-14 Massachusetts Institute Of Technology Systems and methods for dynamic planning and operation of autonomous systems using image observation and information theory
CN105957105B (zh) * 2016-04-22 2018-10-02 清华大学 基于行为学习的多目标跟踪方法及系统
CN105930808A (zh) * 2016-04-26 2016-09-07 南京信息工程大学 一种基于vector boosting模板更新的运动目标跟踪方法
CN106846355B (zh) * 2016-12-16 2019-12-20 深圳大学 基于提升直觉模糊树的目标跟踪方法及装置
CN106780547B (zh) * 2016-12-24 2019-06-18 天津大学 基于运动能量模型针对监控视频速度异常目标的检测方法
CN107590821B (zh) * 2017-09-25 2022-03-04 武汉大学 一种基于轨迹优化的目标跟踪方法及系统
CN109859234B (zh) * 2017-11-29 2023-03-24 深圳Tcl新技术有限公司 一种视频人体轨迹跟踪方法、装置及存储介质
CN108629299B (zh) * 2018-04-24 2021-11-16 武汉幻视智能科技有限公司 一种结合人脸匹配的长时间多目标跟踪方法及系统
CN108710834B (zh) * 2018-04-28 2022-01-14 哈尔滨工业大学深圳研究生院 滤波区域的相关滤波目标跟踪方法
CN108629797A (zh) * 2018-04-28 2018-10-09 四川大学 一种基于粒子滤波的视觉目标跟踪方法
CN109360227A (zh) * 2018-10-25 2019-02-19 武汉拓睿传奇科技有限公司 一种基于深度学习的人工智能目标跟踪方法
CN109544603B (zh) * 2018-11-28 2021-07-23 上饶师范学院 基于深度迁移学习的目标跟踪方法
CN109903281B (zh) * 2019-02-28 2021-07-27 中科创达软件股份有限公司 一种基于多尺度的目标检测方法及装置
CN109919982B (zh) * 2019-03-12 2022-05-20 哈尔滨工程大学 一种基于粒子滤波的多尺度目标跟踪改进方法
CN110532883B (zh) * 2019-07-30 2023-09-01 平安科技(深圳)有限公司 应用离线跟踪算法对在线跟踪算法进行改进
CN110675424A (zh) * 2019-09-29 2020-01-10 中科智感科技(湖南)有限公司 一种图像中目标物的跟踪方法、系统及相关装置
CN111291667A (zh) * 2020-01-22 2020-06-16 上海交通大学 细胞视野图的异常检测方法及存储介质
CN111292358A (zh) * 2020-03-10 2020-06-16 南京理工大学 基于判别式尺度空间跟踪算法的相关滤波自适应方法
CN111832551A (zh) * 2020-07-15 2020-10-27 网易有道信息技术(北京)有限公司 文本图像处理方法、装置、电子扫描设备和存储介质
CN112528843A (zh) * 2020-12-07 2021-03-19 湖南警察学院 一种融合面部特征的机动车驾驶人疲劳检测方法
CN112784745B (zh) * 2021-01-22 2023-10-10 中山大学 基于置信度自适应和差分增强的视频显著物体检测方法
CN114625003B (zh) * 2022-03-09 2023-09-22 西南交通大学 一种基于多质点模型的高速列车分布式轨迹跟踪控制方法
CN115994305B (zh) * 2022-12-06 2024-04-26 中国电力科学研究院有限公司 一种确定继电保护设备运行状态的方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008262331A (ja) * 2007-04-11 2008-10-30 Toshiba Corp オブジェクト追跡装置およびオブジェクト追跡方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5805733A (en) * 1994-12-12 1998-09-08 Apple Computer, Inc. Method and system for detecting scenes and summarizing video sequences
US6591146B1 (en) * 1999-09-16 2003-07-08 Hewlett-Packard Development Company L.C. Method for learning switching linear dynamic system models from data
US6590999B1 (en) * 2000-02-14 2003-07-08 Siemens Corporate Research, Inc. Real-time tracking of non-rigid objects using mean shift
CA2400442A1 (en) * 2000-02-25 2001-08-30 Yet Mui Method for enterprise workforce planning
US7130446B2 (en) * 2001-12-03 2006-10-31 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues
EP1704509A4 (en) 2003-11-13 2010-08-25 Honda Motor Co Ltd ADAPTIVE PROBABILISTIC VISUAL TRACKING WITH INCREMENTAL SUB-ROOM UPDATE
US7418113B2 (en) * 2005-04-01 2008-08-26 Porikli Fatih M Tracking objects in low frame rate videos
US8234129B2 (en) * 2005-10-18 2012-07-31 Wellstat Vaccines, Llc Systems and methods for obtaining, storing, processing and utilizing immunologic and other information of individuals and populations
US8265349B2 (en) * 2006-02-07 2012-09-11 Qualcomm Incorporated Intra-mode region-of-interest video object segmentation
CN100375108C (zh) * 2006-03-02 2008-03-12 复旦大学 一种人脸特征点自动定位方法
JP4208898B2 (ja) * 2006-06-09 2009-01-14 株式会社ソニー・コンピュータエンタテインメント 対象物追跡装置および対象物追跡方法
US8229164B2 (en) * 2006-07-10 2012-07-24 Synthesis Corporation Pedestrian tracking method and pedestrian tracking device
CN100426317C (zh) * 2006-09-27 2008-10-15 北京中星微电子有限公司 多姿态人脸检测与追踪系统及方法
US7606411B2 (en) * 2006-10-05 2009-10-20 The United States Of America As Represented By The Secretary Of The Navy Robotic gesture recognition system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008262331A (ja) * 2007-04-11 2008-10-30 Toshiba Corp オブジェクト追跡装置およびオブジェクト追跡方法

Also Published As

Publication number Publication date
US8548195B2 (en) 2013-10-01
US20100195870A1 (en) 2010-08-05
EP2164041A4 (en) 2011-07-20
WO2008151577A1 (en) 2008-12-18
EP2164041B1 (en) 2015-04-15
JP5052670B2 (ja) 2012-10-17
CN101325691B (zh) 2010-08-18
EP2164041A1 (en) 2010-03-17
CN101325691A (zh) 2008-12-17

Similar Documents

Publication Publication Date Title
JP5052670B2 (ja) 生存期間が異なる複数の観測モデルを融合する追跡方法及び追跡装置
Fang et al. Recurrent autoregressive networks for online multi-object tracking
Babaee et al. A dual cnn–rnn for multiple people tracking
Lu et al. Tracking and recognizing actions of multiple hockey players using the boosted particle filter
Li et al. Tracking in low frame rate video: A cascade particle filter with discriminative observers of different life spans
Williams et al. Sparse bayesian learning for efficient visual tracking
Jalal et al. The state-of-the-art in visual object tracking
Davis et al. Minimal-latency human action recognition using reliable-inference
Soleimanitaleb et al. Single object tracking: A survey of methods, datasets, and evaluation metrics
Narayan et al. Person re-identification for improved multi-person multi-camera tracking by continuous entity association
Supreeth et al. Moving object detection and tracking using deep learning neural network and correlation filter
Deotale et al. HARTIV: Human Activity Recognition Using Temporal Information in Videos.
Sun et al. Visual tracking via joint discriminative appearance learning
Younsi et al. Comparative study of orthogonal moments for human postures recognition
Spampinato et al. Evaluation of tracking algorithm performance without ground-truth data
Xiang et al. End-to-end learning deep CRF models for multi-object tracking
Li et al. Learning temporally correlated representations using LSTMs for visual tracking
Ni et al. A robust deep belief network-based approach for recognizing dynamic hand gestures
Aye et al. Salient object based action recognition using histogram of changing edge orientation (HCEO)
Paliy et al. Fast and robust face detection and tracking framework
Shayegh Boroujeni et al. Tracking multiple variable-sizes moving objects in LFR videos using a novel genetic algorithm approach
Liu Consistent and Accurate Face Tracking and Recognition in Videos
Gan A Deep Learning Approach to Online Single and Multiple Object Tracking
Lu et al. Researches advanced in object tracking based on deep learning
Chu et al. Research of kernel particle filtering target tracking algorithm based on multi-feature fusion

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120321

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120606

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120703

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120724

R150 Certificate of patent or registration of utility model

Ref document number: 5052670

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150803

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees