JP2010532886A

JP2010532886A - 生存期間が異なる複数の観測モデルを融合する追跡方法及び追跡装置

Info

Publication number: JP2010532886A
Application number: JP2010511479A
Authority: JP
Inventors: 海舟艾; 源李; 世紅労; 隆義山下
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2007-06-14
Filing date: 2008-06-13
Publication date: 2010-10-14
Anticipated expiration: 2028-06-13
Also published as: EP2164041A4; US8548195B2; EP2164041B1; US20100195870A1; WO2008151577A1; EP2164041A1; CN101325691B; CN101325691A; JP5052670B2

Abstract

本発明は生存期間が異なる複数の観測モデルを融合する追跡方法及び追跡装置に関するものである。前記追跡方法は低フレームレート動画像及び急速運動物体の追跡に適用され、生存期間がそれぞれ異なる３つの観測モデルを利用して、動画像シーケンスのフレーム画像中の特定被写体に対して追跡検出を実施する。第１観測モデルは現在画像の前１つのフレーム画像を利用してオンライン学習を実施し、第２観測モデルは現在画像の前５つのフレーム画像を利用してオンライン学習を実施し、第３観測モデルはオフライン訓練である。ウォーターフォール型粒子フィルタを採用して前記３つの観測モデルを融合することにより、低フレームレート動画像中の特定被写体または急速に運動する物体に対して急速かつ正確な追跡を実施することが可能となる。

Description

本発明は低フレームレート動画像中の物体または急速に運動する物体に対して良好な追跡を実施可能な追跡方法及び追跡装置に関するものであり、より具体的には、ウォーターフォール型粒子フィルタ方式を採用してそれぞれ生存期間が異なる複数の観測モデルを融合して、大きな範囲の状態空間において目標の状態を速やかに確定する追跡方法及び追跡装置に関するものである。

急速に運動する物体を追跡することまたは低フレームレート動画像中で特定目標を追跡することは、非常に興味深い問題である。

ハードウェアコストを低減するため、もしくは動画像の入力源が低フレームレートであるかまたはオンライン処理速度が低い（オンラインリアルタイムシステムに対して、処理速度は入力データのフレームレートを制限する）などにより、非常に多くの実際の応用（例えばリアルタイム処理が要求されるマイクロ埋込み式システム、及びある種の監視制御アプリケーションなど）では、いずれも低フレームレート動画像を処理することが要求される。低フレームレートは非常によく見られるが、追跡においては処理が非常に困難である。

低フレームレート動画像の追跡問題は本質上において急速運動（ａｂｒｕｐｔｍｏｔｉｏｎ）の追跡問題と等価である。大部分の追跡アルゴリズムは運動の連続性に依存している。粒子フィルタ（文献［１］）は１つの運動モデルを使用して物体の運動を予測するとともにサンプリングを指導して、探索範囲（粒子の分布範囲）を比較的小さなサブ空間内に極限する。しかし、目標が急速に運動する場合には、その位置の変動を正確に予測することは非常に困難である。その他一連の反復最適化に基づく追跡アルゴリズム、例えばｍｅａｎｓｈｉｆｔアルゴリズム（文献［２］）及びＬｕｃａｓ−Ｋａｎａｄｅ特徴点追跡アルゴリズム（文献［３］）は、基本的にいずれも追跡の特徴領域が隣り合う２つのフレーム内で重畳する部分を有するか、または非常に接近していることを要求する。しかし、これらの仮説は低フレームレート動画像または目標が急速に運動する場合にはいずれも成立しない。

一部の研究者はこの困難に注意を払っているが（おそらく、特に低フレームレート動画像の追跡問題を処理しようとしているわけではない）、これら研究者が採用している解決法は一部非常に類似しており、いずれも検出器を使用している。Ｋ．Ｏｋｕｍａら（文献［４］）はＢｏｏｓｔｉｎｇ訓練の検出器を使用し、検出結果をゼロ段階または１段階の運動モデルと結合し、粒子フィルタの試験分布（ｔｒｉａｌｄｉｓｔｒｉｂｕｔｉｏｎ）として、運動予測の不正確性を補っている。このような混合試験分布はその他の文献（例えば、文献［５］）内でも採用されているが、低フレームレート動画像の追跡問題を専門的に解決するものではない。Ｆ．Ｐｏｒｉｌｋｌｉ及びＯ．Ｔｕｚｅｌ（文献［６］）は基本的なｍｅａｎｓｈｉｆｔアルゴリズムを拡張して、複数のカーネル領域（ｋｅｒｎｅｌｓ）に対して最適化を実施しているが、これら領域の確定には、やはり背景差分運動領域検出器に依存している。このようなアルゴリズムを利用して、彼らは１フレーム／秒（ｆｐｓ）画像における通行人の追跡を実現しているが、カメラを固定した状況下でなければならない。以上のこれらの考え方は、いずれも、目標の運動の予測が困難な状況下において、１つの独立した検出器を利用して、既存のある追跡器の探索過程を指導すると帰結することが可能である。

別の方法は、“先ず検出、更に接続”（文献［７］、［８］）である。この種の方法は低フレームレート動画像の追跡問題を処理する潜在力を有しており、それらは先ず画像に対して全検出を実施し（時には短時間内に追跡）、その後、運度の平滑性または外観の相似性に基づき検出された物体または追跡されたセグメントを接続して完全な運動軌跡とする。このようにして運動予測及び物体が隣り合うフレームで非常に接近していると仮定しなければならないとの問題を回避している。しかし、この種方法の不足点は、第一に、前記軌跡を総合的に考慮する必要があるため、一般にいずれもオフライン処理である点であり、第二に、大量に時間を消費する検出装置が必要であるため、速度がリアルタイム要求に到達することが困難である点であり、速度が速い場合は基本的にいずれも背景差分検出を採用しており、カメラを固定することが要求される。

以上２種類の方法には共通した特徴があり、十分に速い検出器を非常に大きい領域内に応用することが必要である（多くの場合、画像空間全体に応用する）。これもこれらの方法において、検出器と追跡アルゴリズムとの間は緩やかな結合関係に過ぎないためである。

更に一部の研究者はマルチスケール追跡アルゴリズムを採用している。その基本的な考え方は、入力された画像に基づき画像ピラミッドを構築し、異なるスケール空間において観測を実施するものであり（文献［９］、［１０］）、このようなスケールが比較的大きな空間で探索する際には比較的大きな空間範囲をカバーして、運動速度が速い目標を処理することが可能である。これらスケールが異なる観測量の間の関係を処理する際、Ｇ．Ｈｕａらはマルコフネットワークを採用してスケールの異なる状態量に対してモジュールを構築しており（文献［９］）、Ｓ．Ｂｉｒｃｈｆｉｅｌｄは前スケールの結果を後スケール探索の初期サンプルとして直接採用しており（文献［１０］）、Ｊ．Ｓｕｌｌｉｖａｎらは階層別サンプリングアルゴリズム（ｌａｙｅｒｅｄｓａｍｐｌｉｎｇ）を設計して各スケールの観測結果を総合している（文献［１１］）。しかし、実質的にこれらマルチスケールの追跡アルゴリズムが各スケール上で使用しているのは同一の観測方式である。

また、最近、追跡研究面で新たな傾向が出現しており、研究者は益々学習方法を追跡アルゴリズム中に導入している。一部の研究者が提起している追跡問題は分類問題（ｃｌａｓｓｉｆｉｃａｔｉｏｎｐｒｏｂｌｅｍ）と見なすことができ、分類の目的は追跡対象と背景またはその他の対象とを区分することにある。この方面の代表的な研究にはＳ．ＡｖｉｄａｎのＥｎｓｅｍｂｌｅＴｒａｃｋｉｎｇ（文献［１２］）及びＪ．Ｗａｎｇの粒子フィルタを利用したオンラインでのＨａａｒ特徴分類器の構築などが含まれる（文献［１４］）。これらの研究によれば、学習方法は追跡器の区分能力を大幅に向上させており、追跡効果は改善されている。

上記の通り、追跡についての研究文献は非常に多いが、大多数の従来の方法はリアルタイムでの低フレームレート動画像の追跡問題には非常に良好には応用することができない。それらは処理速度が十分には速くないか、または低フレームレートにより引き起こされる目標位置及び外観変化の不連続性を処理することができないからである。

追跡方法及び検出方法は長期間にわたって２つの相対的な極端を構成しており、追跡方法は各種シーケンシャルな連続的な仮説上に確立されるが（目標位置や外観などを含む）、検出方法は前後の関係を全く考慮せず、いずれの環境においてもある種特定類別の目標を独立して区分するとともに位置決めする必要がある。

低フレームレート動画像において、目標のシーケンシャルな連続性はおそらく比較的弱いため、伝統的な追跡方法では役に立たない。同時に、全写真空間内で全検出を実施するには多くの時間が必要であり、検出本体も動画像のシーケンス情報を考慮していないため
、異なる目標を区分することができない。

図１（ａ）及び（ｂ）にはそれぞれ伝統的な標準粒子フィルタリング追跡方法及びＬｕｋａｓ−Ｋａｎａｄｅのオプティカルフロー場追跡方法の５ｆｐｓ動画像中の顔に対する追跡例が示されており、連続した４フレームの画像が示されている。図１によれば、目標とする顔のシーケンシャルな連続性が比較的弱いため、標準粒子フィルタリング追跡方法であるか、Ｌｕｋａｓ−Ｋａｎａｄｅのオプティカルフロー場追跡方法であるかに拘わらず、いずれも目標とする顔に対して非常に良好な追跡を実施することができない。

従来技術における上記問題に鑑みて本発明が提出されている。本発明の目的は生存期間が異なる複数の観測モデルを融合する追跡方法及び追跡装置を提供することであり、当該追跡方法及び追跡装置は、ウォーターフォール型粒子フィルタ方式を採用してそれぞれ生存期間が異なる複数の観測モデルを融合して、大きな範囲の状態空間において目標の状態を速やかに確定する。

具体的に述べると、本発明の核心原理は、伝統的な検出アルゴリズム及び追跡アルゴリズムを組み合わせて、動画像中のシーケンス情報を捕捉並びに利用することにより、探索範囲を縮小し、更に検出アルゴリズムにより目標を正確に識別して、アルゴリズムの区分能力及び追跡速度を向上させるというものである。

一連の“生存期間”が異なる観測モデルを確立かつ融合することにより本発明の上記原理は実現される。“生存期間”とは観測モデルの学習周期及び使用周期を指す。例えば、１フレームごとに更新されるテンプレートに対応する追跡器の学習周期及び使用周期はいずれも１フレームであり、オフライン訓練の検出器の学習周期及び使用周期はいずれも無限長と見なすことができる。オフライン訓練の検出器については、訓練時に、各種状況をできるだけ多く、できるだけ包含するサンプルが採用され、ひとたび訓練が終了すると、この検出器が将来的には各種状況に応用可能であることが望まれる。“生存期間”の長さが異なる観測モデルを使用するメリットは、生存期間が比較的短い観測モデルを使用すると、目標の短期間内における特定の特徴を描写して速やかに非目標を排除することができ、学習を要する知識が多くないため、その訓練支出も比較的小さく、生存期間が比較的長い観測モデルを使用すると、目標の特徴をより正確に把握することができ、かつ、オンライン更新により過度に引き起こされるドリフト（ｄｒｉｆｔ）を効果的に防止することができる点にある。

ウォーターフォール型粒子フィルタを使用して“生存期間”が異なる観測モデルを整合する。ウォーターフォール型検出器は検出分野において非常に歓迎されているモードであり、その理念によれば、それを追跡分野で最も常用される枠組である粒子フィルタと結合して、低フレームレート動画像の追跡というこの特定の技術的問題を解決する。

本発明の１つの面に基づき、本発明では、低フレームレート動画像に適用する特定被写体追跡方法が提供されており、生存期間がそれぞれ異なるｍ個の観測モデルを利用して、動画像シーケンスのフレーム画像中の特定被写体に対して追跡検出を実施する（ｍは自然数である）。

当該特定被写体追跡方法には、
（ａ）動画像シーケンス中のフレーム画像中から特徴部を検出し、検出された特徴部の周囲でガウスランダムサンプリングを実施して、複数の特定被写体サンプルを含む初期サンプルセットを取得するステップと、
（ｂ）入力された第ｔフレーム画像の前Ｄ_ｋフレーム画像を利用して、第ｋ観測モデル
に対してオンライン学習またはオフライン学習を実施するステップ（ｔはフレーム画像の番号を示す自然数であり、ｋは観測モデル番号を示す自然数であり、Ｄ_ｋは第ｋ観測モデルの生存期間を示す自然数である）と、
（ｃ）第ｔフレーム画像について、前記オンライン学習またはオフライン訓練のｍ個の観測モデルを順に利用して、特定被写体サンプルのサンプル重みを更新するステップと、
（ｄ）ステップ（ｃ）において第ｍ観測モデルにより最終的に更新された後のサンプル重みが所定の第一閾値を超えているか否かを判断し、最終更新後のサンプル重みが第一閾値を超えていると、特定被写体の現在フレームにおける大きさ及び位置として、特定被写体サンプルのサンプルセットの大きさ及び位置の重み付き平均を出力し、更新後のサンプル重みが第一閾値を超えていないと、当該選択候補目標を破棄するステップと、
（ｅ）第ｔ＋１フレーム画像に対して、前記ステップ（ｂ）から（ｄ）を繰り返すステップと、が含まれる。

前記特定被写体追跡方法において、好適には、第ｋ観測モデルの生存期間Ｄ_ｋは、ｋの増大に伴い増大する。

前記特定被写体追跡方法において、好適には、第ｋ観測モデルに対して設定されたサンプル数はＮ_ｋ個であり、Ｎ_ｋは自然数であり、ｋの増大に伴い減少する。

前記特定被写体追跡方法において、好適には、ステップ（ｂ）において、前ｍ−１の観測モデルに対してオンライン学習を実施し、第ｍ観測モデルに対してオフライン訓練を実施する。

前記特定被写体追跡方法において、好適には、３つの観測モデルを利用して、前２つの観測モデルに対してオンライン学習を実施し、第３観測モデルに対してオフライン訓練を実施する。

前記特定被写体追跡方法において、第１観測モデルに対して実施するオンライン学習には、
（ｆ）前Ｄ_１フレーム画像から正例サンプル及び反例サンプルを収集するステップと、
（ｇ）収集された正例サンプル及び反例サンプルに基づき、第１観測モデル中に採用する各種パラメータを求めるステップと、が含まれる。

前記特定被写体追跡方法において、好適には、前記第１観測モデルは、Ｆｉｓｈｅｒ線形判別分類器である。

前記特定被写体追跡方法において、好適には、前記第１観測モデルの生存期間Ｄ_１は、１フレーム画像である。

前記特定被写体追跡方法において、好適には、前記第１観測モデルには、オフラインで選択された５つのＨａａｒライク特徴を採用する。

前記特定被写体追跡方法において、好適には、前記正例サンプルは、追跡する特定被写体の近傍領域から選択し、前記反例サンプルは、追跡する特定被写体の周囲で、大きさが当該特定被写体の２倍の領域において、当該特定被写体との距離が比較的遠い画像から選択する。

前記特定被写体追跡方法において、Ｓｉｇｍｏｉｄ関数により平滑化された後の第１観測モデルの出力は、以下の通りである。

式中、ｘは追跡する特定被写体の状態を示す変数であり、ｚ_１は第１観測モデルが採用する観測量であり、ｗはＦｉｓｈｅｒ線形判別分類器の投影重みのベクトル量であり、ｆ（ｘ）は入力される５次元特徴ベクトル量であり、ηは分類閾値である。

前記特定被写体追跡方法において、第２観測モデルに対して実施するオンライン学習には、
（ｈ）前Ｄ_２フレーム画像中から正例サンプル及び反例サンプルを収集し、第１観測モデルを利用して収集したサンプルに対してフィルタリングを実施して、留保されたサンプルを訓練サンプルとするステップと、
（ｉ）留保された反例サンプル中から、第２観測モデルの留保された反例サンプルに対する出力尤度が第二閾値よりも大きい反例サンプルを選択するステップと、
（ｊ）選択された反例サンプル、及びすべての留保された正例サンプルに基づき、新たなＦｉｓｈｅｒ線形判別分類器を構築するとともに、構築された新たなＦｉｓｈｅｒ線形判別分類器を、弱分類器の数量が最大設定値を超えるか、または大多数の反例サンプルを排斥可能となるまで、元の弱分類器集合中に加えるステップと、
（ｋ）ＤｉｓｃｒｅｔｅＡｄａＢｏｏｓｔアルゴリズムを利用して弱分類器集合中から弱分類器を選択して、強分類器を構成するステップと、
（ｌ）弱分類器集合中から所定数フレーム内で採用されない弱分類器を削除するステップと、が含まれる。

前記特定被写体追跡方法において、好適には、前記第２観測モデルの生存期間Ｄ_２は、５フレーム画像である。

前記特定被写体追跡方法において、前記強分類器の出力は、以下の通りである。

式中、ｘは追跡する特定被写体の状態を示す変数であり、Ｑは選択する組の弱分類器の集合を示し、α_ｑはＱ内のいずれか１つの弱分類器ｑに対応する重みを示し、ｗ_ｑは弱分類器ｑのＬＤＡ投影ベクトル量を示し、ｆ_ｑは弱分類器ｑについて採用する特徴を示し、η_ｑは弱分類器ｑについての分類閾値である。

前記特定被写体追跡方法において、Ｓｉｇｍｏｉｄ関数により平滑化された後の第２観測モデルの出力は、以下の通りである。

式中、ｚ_２は第２観測モデルの観測量である。

前記特定被写体追跡方法において、好適には、第３観測モデルは、複数のベクトルブー
スティングアルゴリズムで学習された強分類器により構成される。

前記特定被写体追跡方法において、好適には、第３観測モデルは、ツリー状の多視角顔検出器である。

前記特定被写体追跡方法において、第３観測モデルの出力は、以下の通りである。

式中、ｚ_３は第３観測モデルの観測量であり、ｈは入力サンプルｘが通過する最後の強分類器の層数であり、φ_ｈは当該強分類器に対応する反例サンプルの正例サンプルに対する先験確率の比であり、ｈの増大に伴い減少し、ｘが通過する分類器の層数が多いほど、それが属する正例の確率は大きくなることを示しており、ｃは通過する最後の強分類器出力の信頼度である。

本発明の別の面に基づくと、本発明では、低フレームレート動画像に適用する特定被写体追跡装置が提供されており、生存期間がそれぞれ異なる３つの観測モデルを利用して、動画像シーケンスのフレーム画像中の特定被写体に対して追跡検出を実施する。
当該特定被写体追跡装置には、
動画像シーケンス中の第一フレーム画像中から特徴部を検出し、検出された特徴部の周囲でガウスランダムサンプリングを実施して、複数の特定被写体サンプルを含む初期サンプルセットを取得する初期化部と、
入力された第ｔフレーム画像に対して、特定被写体の画像中における位置及び大きさを追跡検出する追跡検出部（ｔはフレーム画像の番号を示す自然数である）と、
追跡検出部の検出結果が追跡する特定被写体であるか否かを判定し、特定被写体である場合には、特定被写体の現在フレームにおける大きさ及び位置として、特定被写体サンプルのサンプルセットの大きさ及び位置の重み付き平均を出力し、特定被写体でない場合には、当該選択候補目標を破棄する判定出力部と、
次フレームの画像の追跡検出に用いるように、判定出力部の判定出力結果を記憶する記憶部と、が含まれ、
前記追跡検出部には、
入力された第ｔフレーム画像の前Ｄ_１フレーム画像を利用して、その中で使用する第１観測モデルに対してオンライン学習を実施し、その後、第ｔフレーム画像中のＮ_１個のサンプルに対して重みの更新を実施する第一追跡部（Ｄ_１は第１観測モデルの生存期間を示す自然数であり、Ｎ_１は自然数である）と、
入力された第ｔフレーム画像の前Ｄ_２フレーム画像を利用して、その中で使用する第２観測モデルに対してオンライン学習を実施し、その後、第ｔフレーム画像中の第一追跡部により更新後のサンプル重みに基づき再度サンプリングされたＮ_２個のサンプルに対して重みの更新を実施する第二追跡部（Ｄ_２は第２観測モデルの生存期間を示す自然数であり、Ｎ_２は自然数である）と、
オフライン訓練を施し、その後、第ｔフレーム画像中の第二追跡部により更新後のサンプル重みに基づき再度サンプリングされたＮ_３個のサンプルに対して重みの更新を実施する第三追跡部（Ｎ_３は自然数である）と、が含まれ、
前記判定出力部は、第三追跡部により最終的に更新された後のサンプル重みは所定の第一閾値を超えているか否かを判断し、最終更新後のサンプル重みが第一閾値を超えていると、特定被写体の現在フレームにおける大きさ及び位置として、特定被写体サンプルのサンプルセットの大きさ及び位置の重み付き平均を出力し、更新後のサンプル重みが第一閾
値を超えていないと、当該選択候補目標を破棄する。

前記特定被写体検出装置において、好適には、第１観測モデルの生存期間Ｄ_１は、第２観測モデルの生存期間Ｄ_２よりも小さい。

前記特定被写体検出装置において、好適には、第１観測モデルの生存期間Ｄ_１は、１フレーム画像である。

前記特定被写体検出装置において、好適には、第２観測モデルの生存期間Ｄ_２は、５フレーム画像である。

前記特定被写体検出装置において、好適には、第一追跡部についてのサンプル数Ｎ_１＞第二追跡部についてのサンプル数Ｎ_２＞第三追跡部についてのサンプル数Ｎ_３である。

前記特定被写体検出装置において、第１観測モデルに対して実施するオンライン学習には、
前Ｄ_１フレーム画像から正例サンプル及び反例サンプルを収集し、
収集された正例サンプル及び反例サンプルに基づき、第１観測モデル中に採用する各種パラメータを求める、ことが含まれる。

前記特定被写体検出装置において、好適には、前記第１観測モデルは、Ｆｉｓｈｅｒ線形判別分類器である。

前記特定被写体検出装置において、好適には、前記第１観測モデルには、オフラインで選択された５つのＨａａｒライク特徴を採用する。

前記特定被写体検出装置において、好適には、前記正例サンプルは、追跡する特定被写体の近傍領域から選択し、前記反例サンプルは、追跡する特定被写体の周囲で、大きさが当該特定被写体の２倍の領域において、当該特定被写体との距離が比較的遠い画像から選択する。

前記特定被写体検出装置において、Ｓｉｇｍｏｉｄ関数により平滑化された後の第１観測モデルの出力は、以下の通りである。

式中、ｘは追跡する特定被写体の状態を示す変数であり、ｚ_１は第１観測モデルが採用する観測量であり、ｗはＦｉｓｈｅｒ線形判別分類器の投影重みのベクトル量であり、ｆ（ｘ）は入力される５次元特徴ベクトル量であり、ηは分類閾値である。

前記特定被写体検出装置において、第２観測モデルに対して実施するオンライン学習には、
前Ｄ_２フレーム画像中から正例サンプル及び反例サンプルを収集し、第１観測モデルを利用して収集したサンプルに対してフィルタリングを実施して、留保されたサンプルを訓練サンプルとし、
留保された反例サンプル中から、第２観測モデルの留保された反例サンプルに対する出力尤度が第二閾値よりも大きい反例サンプルを選択し、
選択された反例サンプル、及びすべての留保された正例サンプルに基づき、新たなＦｉ
ｓｈｅｒ線形判別分類器を構築するとともに、構築された新たなＦｉｓｈｅｒ線形判別分類器を、弱分類器の数量が最大設定値を超えるか、または大多数の反例サンプルを排斥可能となるまで、元の弱分類器集合中に加え、
ＤｉｓｃｒｅｔｅＡｄａＢｏｏｓｔアルゴリズムを利用して弱分類器集合中から弱分類器を選択して、強分類器を構成し、
弱分類器集合中から所定数フレーム内で採用されない弱分類器を削除する、ことが含まれる。

前記特定被写体検出装置において、前記強分類器の出力は、以下の通りである。

式中、ｘは追跡する特定被写体の状態を示す変数であり、Ｑは選択する組の弱分類器の集合を示し、α_ｑはＱ内のいずれか１つの弱分類器ｑに対応する重みを示し、ｗ_ｑは弱分類器ｑのＬＤＡ投影ベクトル量を示し、ｆ_ｑは弱分類器ｑについて採用する特徴を示し、η_ｑは弱分類器ｑについての分類閾値である。

前記特定被写体検出装置において、Ｓｉｇｍｏｉｄ関数により平滑化された後の第２観測モデルの出力は、以下の通りである。

式中、ｚ_２は第２観測モデルの観測量である。

前記特定被写体検出装置において、好適には、第３観測モデルは、複数のベクトルブースティングアルゴリズムで学習された強分類器により構成される。

前記特定被写体検出装置において、好適には、第３観測モデルは、ツリー状の多視角顔検出器である。

前記特定被写体検出装置において、第３観測モデルの出力は、以下の通りである。

式中、ｚ_３は第３観測モデルの観測量であり、ｈは入力サンプルｘが通過する最後の強分類器の層数であり、φ_ｈは当該強分類器に対応する反例サンプルの正例サンプルに対する先験確率の比であり、ｈの増大に伴い減少し、ｘが通過する分類器の層数が多いほど、それが属する正例の確率は大きくなることを示しており、ｃは通過する最後の強分類器出力の信頼度である。

本発明は統計学習を基礎として、構造が異なる分類器を観測モデルとするとともに、オ
ンラインの分類器及びオフラインの分類器を結合することにより、アルゴリズムの安定性を向上させている。同一の画像空間内において複数の相補的な観測モデルを使用すると、一方において、観測モデルの区分能力を増強することができ、他方において、サンプリング画像により引き起こされる誤差を回避することもできる。そのため、本発明に基づく追跡方法及び追跡装置は、低フレームレート動画像中の追跡目標または急速に運動する物体に対して、動画像中のシーケンス情報を捕捉かつ利用することにより探索範囲を縮小し、更に検出アルゴリズムにより目標を正確に識別して、急速かつ正確な追跡を実現可能とする。

図１（ａ）、（ｂ）及び（ｃ）にはそれぞれ標準粒子フィルタリング、Ｌｕｋａｓ−Ｋａｎａｄｅのオプティカルフロー場追跡方法及び本発明の追跡方法を採用した低フレームレート動画像における目標に対する追跡効果が示されている。図２には３つの観測モデルの学習周期及び使用周期の見取図が示されている。図３には３つの観測モデルが採用する特徴セットの重畳状況が示されている。図４にはウォーターフォール型粒子フィルタと伝統的なウォーターフォール型検出器との比較が示されている。図５にはウォーターフォール型粒子フィルタの作動過程、並びに標準粒子フィルタ及びウォーターフォール型粒子フィルタの追跡エラー率曲線及びサンプリング効率が示されており、（ａ）にはサンプリング過程ごとの観測尤度及び重み更新後の粒子分布が示され、（ｂ）には標準粒子フィルタ及びウォーターフォール型粒子フィルタの追跡エラー率曲線及び有効サンプル数（ＥＳＳ）曲線、ウォーターフォール型粒子フィルタの追跡結果が示されている（標準粒子フィルタの追跡偏差が比較的大きいフレームにおいて、薄いグレーの矩形枠は、運動の激烈さの程度を観察できるように、直前フレームにおける目標位置を示している）。図６には複数の目標を追跡する際の目標が異なるオンラインモデルが出力する観測尤度が示されており、薄いグレーの矩形枠は直前フレームにおける目標位置を示している。図７は本発明の追跡方法と完全オフライン学習方法との比較であり、（ａ）にはオフライン顔検出時に運動が曖昧であるために時に検出漏れし、同一の目標に関連付ける方法がない場合が示されており、（ｂ）には本発明によりカメラの急速な移動、運動が曖昧な動画像を追跡した場合が示されている（薄いグレーの矩形枠は直前フレームにおける目標位置を示している）。図８は本発明の方法と完全オンライン学習方法との比較であり、（ａ）には完全オンライン学習の追跡アルゴリズムによる追跡が示されており、モデルの“ドリフト”現象を観察することができる。（ｂ）には本発明の方法により目標の急速な姿勢変化を追跡した場合が示されている（５フレーム内において右全側面から左側面に変化）。図９には本発明の方法の不利な光線照射条件、カメラ移動及びレンズズーム状況下における目標追跡状況が示されている。図１０にはその他の従来技術方法が各種条件下で５ｆｐｓの動画像を追跡した状況が示されている。図１１には異なる追跡方法の追跡位置誤差曲線が示されている。図１２には本発明における追跡方法の全体流れ図が示されている。図１３には観測モデルＩのオンライン学習過程の流れ図が示されている。図１４には観測モデルＩＩのオンライン学習過程の流れ図が示されている。図１５には本発明に基づく追跡方法において観測モデルを利用してサンプル重みを更新する流れ図が示されている。図１６には本発明に基づき３つの観測モデルを融合した追跡装置のブロック見取図が示されている。

以下においては、添付図を参照し、顔及び頭部の追跡を例として、本発明の好適実施例について詳細に説明する。ここで説明すべきは、本発明で提供される方法及び装置はその他類型の目標の追跡にも応用可能である点である。

本発明の原理は、伝統的な検出アルゴリズムと追跡アルゴリズムとを組み合わせて、動画像中のシーケンス情報を捕捉並びに利用することにより、探索範囲を縮小し、更に検出アルゴリズムにより目標を正確に識別して、アルゴリズムの区分能力及び追跡速度を向上させるというものである。

上記本発明の原理は、一連の“生存期間”が異なる観測モデルを確立かつ融合することにより実現される。好適には、３つの異なる観測モデルを採用する。例えば、本発明において、観測モデルＩには生存期間が僅か１フレームのＦｉｓｈｅｒ線形判別分類器が採用され、観測モデルＩＩにはＤｉｓｃｒｅｔｅＡｄａＢｏｏｓｔアルゴリズムが採用されるとともに、Ｆｉｓｈｅｒ線形判別分類器を弱分類器とし、その生存期間は例えば５フレームであり、観測モデルＩＩＩにはオフライン訓練の検出器が採用され、当該検出器は複数のベクトルブースティングアルゴリズム（ＶｅｃｔｏｒＢｏｏｓｔｉｎｇ）（ＲｅａｌＡｄａＢｏｏｓｔの変種）により学習する強分類器により構成され、当該モデルの生存期間は無限長と見なすことができる。観測モデルＩは前１フレーム画像から取得した訓練サンプルを利用してモデルパラメータに対して訓練を実施し、更に現在フレームのサンプル重みを更新する。観測モデルＩに基づく更新された後のサンプル重みは、リサンプリング過程（本発明で採用するのは、重点サンプリング（ｉｍｐｏｒｔａｎｃｅｓａｍｐｌｉｎｇ）であり、つまり、更新後のサンプル重みと基本的に正比例してリサンプリングのサンプル分布を確定して、リサンプリング後の各サンプルの重みを基本的に同一とさせる）により、新たな第一所定数量のサンプルを選択する。観測モデルＩＩは前５フレーム画像から取得した訓練サンプルを利用してモデルパラメータに対して訓練を実施し、更に観測モデルＩの出力結果に基づき重点サンプリングにより取得された第一所定数量のサンプルについて、現在フレームのサンプル重みを更新する。観測モデルＩＩが更新後の現在フレームのサンプル重みに基づき、上記と類似したリサンプリング過程により、新たな第二所定数量のサンプルを選択する。観測モデルＩＩＩのモデルパラメータはすでにオフラインで訓練されているため、観測モデルＩＩの出力結果に基づき重点サンプリングにより取得された第二所定数量のサンプルに対して検出を直接実施することができる。

図２には３つの観測モデルの学習周期及び使用周期の見取図が示されている。図によれば、観測モデルＩの学習周期は僅か前１フレーム画像で、その使用周期も現在フレーム画像に過ぎない。観測モデルＩＩの学習周期は前数フレーム画像で、その使用周期も対応してその後の数フレーム画像である。観測モデルＩＩＩはオフライン訓練であるため、その使用周期はオンラインサンプリングの全シーケンスに対応している。

上記方法のメリットは、生存期間が比較的短い観測モデルを使用すると、目標の短期間内における特定の特徴を描写して速やかに非目標を排除することができ、学習を要する知識が多くないため、その訓練支出も比較的小さく、生存期間が比較的長い観測モデルを使用すると、目標の特徴をより正確に把握することができ、かつ、オンライン更新により過度に引き起こされる“ドリフト”を効果的に防止することができる点にある。

以上においては、本発明における生存期間が異なる３つの観測モデルを融合したウォーターフォール型粒子フィルタについて概説した。ここで説明すべきは、観測モデルの数量
、類型及びその生存期間は上記例に限定されるものではなく、状況に応じて変更可能である点である。

以下においては、本発明の好適実施例について具体的に説明する。

先ず、本発明のアルゴリズムに関連する変数記号について説明する。

ｔ時刻における目標の状態量を陰変数ｘ_ｔ、対応する観測量をｚ_ｔと定義する。ここで、誤解を招かないことを前提として、下付きのｔを省略する。

顔の追跡を例とすると、ｘ＝（ｘ，ｙ，ｓ）と定義することができ、つまり顔の位置及び大きさである。観測モデルの役割は各ｘに対してｐ（ｚ｜ｘ）を出力することである。ｍ個の観測モデルを採用する場合は、ｚ＝｛ｚ_１，…，ｚ_ｍ｝と定義され、第ｋ観測モデル出力はｐ（ｚ_ｋ｜ｘ）と表記される。

各観測モデルに関連する要素は、学習アルゴリズムＬ、訓練サンプル集合Ｓ、訓練特徴集合Ｆ、及び当該観測モデルの数個の時間複雑度（オフライン訓練複雑度τ_ｏｆｆ、オンライン訓練複雑度τ_ｏｎ及び分類複雑度τ_ｔｅｓｔ）である。そのうち、分類複雑度は入力されたｘに対してｐ（ｚ｜ｘ）を計算する時間複雑度と定義される。第ｋ観測モデルは以下の通り表示することができる。
Ｏ_ｋ＝（Ｌ_ｋ，Ｆ_ｋ，Ｓ_ｋ，τ_ｋ，ｏｎ，τ_{ｋ，ｏｆｆ}，τ_{ｋ，ｔｅｓｔ}）

訓練に用いる総時間複雑度は（τ_ｋ，ｏｎ＋τ_{ｋ，ｏｆｆ}）であり、それは一般に｜Ｆ_ｋ｜及び｜Ｓ_ｋ｜の規模に伴い増大する。分類複雑度τ_{ｋ，ｔｅｓｔ}は分類モデルの複雑度及び分類モデルが最終的に包含する分類用の特徴セット
の規模に関連する。

追跡アルゴリズムのオンラインの時間の複雑度をできるだけ低減するため、好適には、異なる観測モデルを生存期間が逓増する方式で配列することである。これは、“生存期間”が比較的長い観測モデルは、その訓練複雑度（τ_ｋ，ｏｎ＋τ_{ｋ，ｏｆｆ}）及び分類複雑度τ_{ｋ，ｔｅｓｔ}も比較的大きいからである。学習周期が比較的長い場合には、訓練サンプル数｜Ｓ_ｋ｜が比較的大きいために、比較的大きい特徴集合Ｆ_ｋ及び比較的複雑な学習アルゴリズムＬ_ｋによりＳ_ｋに含まれる情報を学習する必要があり、このようにして最終的に観測モデルが選出する分類用の特徴セット
も比較的大きくなる。

以上の分析に基づき、本発明においては、異なる観測モデルを生存期間が逓増する方式で配列している。同時に、オンライン学習の複雑度を低減させるため、細心にＦ_ｋを選択してその規模を制限するとともに、オフライン訓練をできるだけ多く使用しなければならない。異なる観測モデルには異なる配置を採用して（分類器の形式、学習アルゴリズム、特徴セットなどを含む）、分類能力及び分類速度というこの二大要素を総合的に考慮した。言い換えると、各学習アルゴリズムＬ_ｋ及び選択候補の特徴セットＦ_ｋは観測モデルが訓練サンプルＳ_ｋに対する学習後に一定の区分能力に到達しなければならないが、過度に複雑で、時間複雑度を増加させてはならないのである。表１には本発明の好適実施例に採用される３つの観測モデルの基本は位置が列記されている。
表１各観測モデルの配置

３つの観測モデルの具体的な構造、方法についてそれぞれ描写する前に、図３に示されている通り、先ず各モデル間の特徴共有について紹介する。

本発明ではＨａａｒライク特徴（文献［１３］）の拡張集合を使用する（文献［１５］）。Ｈａａｒライク特徴の計算は非常に高効率であるが、画像ピラミッドの各スケールに対してすでに一段階及び二段階の積分画像が算出されていることが前提である。積分画像の算出過程はリアルタイムシステムについては比較的大きな一部支出であるため、本発明においては、すべての観測モデルについていずれもＨａａｒライク特徴を採用する。各観測モデルの訓練特徴集合Ｆ_ｋはいずれもオフライン訓練により予め選出する。Ｈａａｒライク特徴のみを使用するため、観測モデルは階調画像を必要とするだけで動作可能である。

以下においては、各観測モデルについて詳細に説明する。

観測モデルＩ
観測モデルＩに採用するのはＦｉｓｈｅｒ線形判別分類器（つまり、ＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ）である。その生存期間は最も短く（１フレーム）、訓練サンプルはすべて前１フレーム画像からである。訓練サンプルの分布が相対的に簡単であるため、５つのＨａａｒライク特徴だけを使用して分類を実施し、速やかに非目標を排斥するとの目標を達成する。

Ｆｉｓｈｅｒ線形判別分類器は特徴ベクトルを最も適切な分類方向に投影して正例サンプル（つまり、顔サンプル）及び反例サンプル（つまり、非顔サンプル）を区分する。ここで５次元の特徴ベクトルを１次元に投影する。Ｆｉｓｈｅｒ分類器の投影重みベクトルはｗ、入力される５次元特徴ベクトルはｆ（ｘ）、分類閾値はη（重みベクトル及び閾値の取得方法は文献［１８］を参照可能）と設定する。分類器の出力はｗ^Ｔｆ（ｘ）−ηである。最後にＳｉｇｍｏｉｄ関数により観測モデルの出力値を以下の通り平滑化した。

観測モデルＩの訓練サンプルは前１フレームからであり、正例サンプルは追跡目標の近
傍領域から採取し、反例サンプルは目標の周囲で目標の大きさの２倍の領域中かつ目標から比較的遠い画像から採取する。観測モデルＩにはオンラインで特徴を選択する過程はない。その理由は、一方において、特徴の選択は比較的時間を消費するからであり、他方において、訓練サンプルが比較的局限されており（前１フレームからのみ）、過度に適合することが回避されるからである。そのため、５つのＨａａｒライク特徴はいずれもオフラインで選択されたものである（図３中のＦ_１を参照）。選定標準は特徴のオフラインサンプルセット上における区分能力（ＦｉｓｈｅｒＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔ）である。

観測モデルＩＩ
更に強力な区分能力を獲得するため、観測モデルＩＩにはＤｉｓｃｒｅｔｅＡｄａＢｏｏｓｔアルゴリズムを採用し（文献［１６］）、弱分類器はＦｉｓｈｅｒ線形判別分類器である。観測モデルＩに比べ、観測モデルＩＩの生存期間はより長く、訓練サンプルは直近５フレームからの入力データである。前記のサンプル収集標準に基づき、５フレーム内の正反例訓練サンプルはＳ_２＝（Ｓ_{２，ｐｏｓ}，Ｓ_{２，ｎｅｇ}）と設定する。

追跡過程においては、常に弱分類器の選択候補セットＱ_０を保存し、一方において、新たなサンプルに基づき新たな弱分類器を加え、他方において、ＡｄａＢｏｏｓｔによりその中の１つのサブセットを選定して重みを付けた後に強分類器を構成する。この弱分類器の選択候補セットの存在により、観測モデルＩＩに含まれる情報が目標の直近１つの時間区分内における変化をカバーすることになる。観測モデルＩＩのオンライン訓練過程には、主に、
１．弱分類器選択候補セットＱ_０に新たな弱分類器を追加するステップと、
２．ＤｉｓｃｒｅｔｅＡｄａＢｏｏｓｔアルゴリズムにより弱分類器選択候補セットＱ_０中から弱分類器を選定して、重みを付けた後に強分類器を構成するステップと、
３．弱分類器選択候補セットＱ_０中から一定の時間内に選定されなかった弱分類器を削除するステップと、が含まれる。

以下においては、上記ステップについて更に説明する。

第一ステップにおいては、新たな弱分類器を追加する。反例サンプルを不断にフィルタリングする方式を採用する。つまり、新たな弱分類器を生成するとともに、訓練サンプルセット中から新たな弱分類器により排斥可能な反例サンプルを排除し、その後、引き続き、反例サンプルの数量が十分に少なくなるかまたは新たな弱分類器の個数が予め設定された最大個数を超えるまで、新たな弱分類器を追加する。

第二ステップにおいては、弱分類器選択候補セット中の弱分類器を選定するとともに、それらに対して重み付けを実施して、強分類器を形成する。ここで採用するのは標準的なＤｉｓｃｒｅｔｅＡｄａＢｏｏｓｔアルゴリズムである。アルゴリズムの終了条件は、エラー率が０近くまで収束するか、または弱分類器選択候補セットＱ_０中の弱分類器がすべて選択されることである。

オンライン学習の結果が１組の弱分類器Ｑにより構成される強分類器であり、そのうちいずれか１つの弱分類器ｑ∈Ｑに対して、互いに対応する弱分類器重みα_ｑ、並びに当該弱分類器のＬＤＡ投影ベクトル量、採用する特徴及び分類閾値（ｗ_ｑ，ｆ_ｑ，η_ｑ）が存在する。強分類器の出力は以下の通り計算することができる。

同様に、ｓｉｇｍｏｉｄ関数により観測モデルＩＩの出力値を平滑化することにより、下記式が得られる。

観測モデルＩＩＩ
観測モデルＩＩＩにはオフライン訓練の検出器を採用する。その構造は最も複雑で、含まれる情報も最も多く、追跡過程においてオンライン学習で得られる情報と互いに補完し、オンライン観測モデルを拘束し、目標の実際分布から乖離することを回避するために用いる。

ここで採用するオフライン検出器は複数のベクトルブースティングアルゴリズム（ＶｅｃｔｏｒＢｏｏｓｔｉｎｇ）（ＲｅａｌＡｄａＢｏｏｓｔの変種）により学習する強分類器により構成される。

構造上から見て、観測モデルＩは弱分類器であり、観測モデルＩＩはＢｏｏｓｔｉｎｇにより得られた強分類器であり、観測モデルＩＩＩは複数の強分類器が接続されてなる。具体的には顔追跡について、観測モデルＩＩＩはツリー状多視角顔検出器を直接採用する（文献［２０］参照）。どのようにして観測尤度ｐ（ｚ_３｜ｘ）を取得するのかについては、文献［１７］を参照することができる。ここではこれ以上論述せず、観測モデルＩＩＩの出力を以下の通り表示するに留める。

式中、ｈは入力サンプルｘが通過する最後の強分類器の層数であり、φ_ｈは当該強分類器に対応する反例サンプルの正例サンプルに対する先験確率の比である（訓練過程中に記録）。それはｈの増大に伴い減少し、ｘが通過する分類器の層数が多いほど、それが属する正例（顔）の確率は大きくなることを示している。ｃは通過する最後の強分類器出力の信頼度である。

以上で採用される学習方法（Ｆｉｓｈｅｒｌｉｎｅａｒｄｉｓｃｒｉｍｉｎａｔｉｏｎ／ＬＤＡ、ＤｉｓｃｒｅｔｅＡｄａＢｏｏｓｔ、ＲｅａｌＡｄａＢｏｏｓｔなど）はいずれも典型的なアルゴリズムである。しかし、各観測モデルのために学習方法を選択する際には、学習目標の複雑さの程度及び訓練と分類の時間的消費などを総合的に考慮し、かつ、大量の実験を実施した。例えば、観測モデルＩＩ及び観測モデルＩＩＩには共にＢｏｏｓｔｉｎｇアルゴリズムが採用されているが、それらの間には顕著な違いが存在している。観測モデルＩＩ内に採用されている弱分類器の選択候補セットの規模は観測モデルＩＩＩ内に採用されている弱分類器の選択候補セットの規模をはるかに下回っており、前者は数十個の弱分類器を含むだけであるが、後者は万単位、場合によっては百万単位の弱分類器を含んでいる。また、観測モデルＩＩが使用するのはＤｉｓｃｒｅｔｅＡｄａＢｏｏｓｔであり、観測モデルＩＩＩが使用するのはＲｅａｌＡｄａＢｏｏｓｔであ
る。この方面は、オンライン訓練の時間的支出を減少させるためであり（ＤｉｓｃｒｅｔｅＡｄａＢｏｏｓｔの時間複雑度は約Ｏ（｜Ｓ｜｜Ｑ_０｜^２）であり、｜Ｓ｜は訓練サンプル数、｜Ｑ_０｜は選択候補弱分類器の個数である）、他方においても、相対的に少量のオンライン訓練サンプル上での過度の適合を回避するためである。更に弱分類器の個数を制限するとの前提の下で、観測モデルの区分能力を増強し、アルゴリズムの収束を加速するため、弱分類器の選択上において、観測モデルＩＩは１０次元のＦｉｓｈｅｒ線形判別分類器を弱分類器として採用し、単一弱分類器の区分能力を向上させて、アルゴリズムの効率を高めており、観測モデルＩＩＩはＨａａｒライク特徴を採用して弱分類器を構成している。

ウォーターフォール型粒子フィルタ
本発明に基づくウォーターフォール型粒子フィルタについて詳細に記述する前に、先ず、標準粒子フィルタについて紹介し、併せて低フレームレートまたは急速運動状況下における不足点について分析する。

前記の状態量及び観測量に対する定義を準用すると、粒子フィルタの目標はｐ（ｘ_ｔ｜Ｚ_ｔ）を計算することであり、それには主に以下のステップが含まれる。
（１）予測：
;
（２）更新：

式中の積分項は重点サンプリング方式を採用して計算する。つまり、１つの試験分布中からランダム粒子を生成する必要がある。

一般的に、この試験分布にはｐ（ｘ_ｔ｜ｘ_ｔ−１）を直接採用する。しかし、目標の運動が激烈で、不規則である場合（例えば、低フレームレート動画像中）、ｐ（ｘ_ｔ｜ｘ_ｔ−１）は往々にして目標の真実の運動と大きく乖離する。このような試験分布を採用すると、粒子セットが徐々に真正の目標状態から乖離し、最終的には追跡の失敗を招くことになる（例えば、図１内の（ａ）に示されている例）。補完方法としてｐ（ｘ_ｔ｜ｘ_ｔ−１）の不確定性を増大させることが可能であるが（例えば、ガウスモデルの分散を増大させる）、それは同時に粒子数量を増加させなければならないため、効率が低下する。

別の選択は、観測分布ｐ（ｚ_ｔ｜ｘ_ｔ）を試験分布に導入して（文献［４］、［５］）、運動モデルの予測を支援することである。それにより非常に大きな範囲の状態空間内でｐ（ｚ_ｔ｜ｘ_ｔ）を計算することが要求される。

従って、以上のどの方法を採用したとしても、最終的には大面積上でｐ（ｚ_ｔ｜ｘ_ｔ）を計算しなければならない。そしてこの観測尤度の計算は往々にしてシステム内で最も時間を消費する部分である。単一の観測モデルだけを使用する場合、この問題は常に存在する。本発明においては、ウォーターフォール型粒子フィルタが採用されており、複数の観測モデルが関連しているため、一定程度上において標準粒子フィルタの問題は克服可能である。

以下において、本発明に基づくウォーターフォール型粒子フィルタのアルゴリズムについて説明する。

観測量をｚ＝｛ｚ_１，…，ｚ_ｍ｝と表記し、異なる観測量が互いに独立していると仮定すると、以下の式が得られる。

標準粒子フィルタは
を直接用いて粒子の重みを更新することができる。しかし、これは計算量が多いばかりではなく、最終的には大量の粒子の重みが非常に小さくなり（０に接近）、サンプリング効率の低下を招く。以下においては、“有効サンプル数”（ＥｆｆｅｃｔｉｖｅＳａｍｐｌｅＳｉｚｅ）（文献［１９］）に基づき対比実験を行う。

正に類似の問題であるため、検出問題においてはウォーターフォール型検出器を広範に使用する。ウォーターフォール型検出器はここでは極端な特例の１種と見なされる、つまりｐ（ｚ_ｋ｜ｘ）の値が０または１であるが、最終的にはｐ（ｚ｜ｘ）＞０を満足するｘが検出結果として出力され、ｐ（ｚ｜ｚ）＞０を満足しない場合は反例として排斥される。かつ、検出器は全数探索方式を採用して画像中の目標を探索し、ｘの全状態空間内に粒子を均一に分布する場合と同様である。

標準粒子フィルタ及びウォーターフォール型検出器の不足点を克服するため、本発明では両者の優れた点を総合して、複数回の重点サンプリングにより複数の異なる観測モデルを関連付けて、以下の通り設定している。

ここから、以下が導き出される。

この分布が追跡目標である。

具体的なアルゴリズムは以下の通りである。
第ｋラウンドにおいて、重点サンプリングによりπ_ｋ（ｘ_ｔ）分布をシミュレートする重み付き粒子集合を得る。π_ｋ−１（ｘ_ｔ）を試験分布として使用する。この試験分布に対して、すでにｋ−１ラウンドからそれに符合する重み付き粒子集合、つまり、

が得られている。そのため、それからのサンプリングはこの粒子集合Ｐ_{ｋ−１，ｔ}をリサンプリングして
を得ることに相当する。そして
の重みは下記公式に基づき更新しなければならない。

はπ_ｋ（ｘ_ｔ）の近似であると認識される。以上のステップをｍ回繰り返すと
が得られる。

図４にはウォーターフォール型粒子フィルタと伝統的なウォーターフォール型検出器の比較が示されており、そこではそれぞれ３つの観測モデル／分類器を採用すると仮定されている。

表２には標準粒子フィルタ、ウォーターフォール型検出器及びウォーターフォール型粒子フィルタの更なる比較が示されている。
表２標準粒子フィルタ、ウォーターフォール型検出器及びウォーターフォール型粒子フィルタの比較（τ_k,testはｐ（ｚ_ｔ｜ｘ_ｔ）を計算する際の時間消費であり、Ｎ_ｋまたはＮ´_ｋは第ｋラウンドの粒子数または検出を通過したサンプル数である）

実現過程において、観測モデルｐ（ｚ_ｋ｜ｘ）の出力にはノイズが含まれ、多ピークの分布を呈することが判明したが（図５（ａ）参照）、この種の状況は区分性モデルについては非常に正常なことである。また幾つかの観測モデル出力のピーク値位置はおそらくいずれも重ならない。この種の現象は、一連のウォーターフォール型検出器または類似方式により複数の観測モデルを使用する方法にとっては困難を招くものである（例えば、Ｃ．Ｙａｎｇらは毎回一部の重みが低いサンプルを直接破棄し、重みが高いサンプルを留保する方法を採用している。文献［２１］参照）。

しかし、本発明のアルゴリズムにおいては、この種の不利な要素は非常に簡単に解決可
能であり、毎回の重点サンプリング中に小さなガウス型摂動を加えるだけでよい。

以下においては、図１２、１３、１４及び１５を参照して、本発明に基づくウォーターフォール型粒子フィルタを採用した追跡方法について記述する。

図１２には本発明における追跡方法の全体流れ図が示されている。

先ず、ステップＳ１００において、初期化を実施し、第１フレーム画像に対して顔検出を実施し、検出された顔の周囲でガウスランダムサンプリングを行い、Ｎｐ個の頭部サンプルを初期サンプルセットとして取得する。当業者であれば理解可能なように、ガウスランダムサンプリング以外のその他のランダムサンプリング方式を採用して初期サンプルセットを取得することも可能である。

ステップＳ２００において、入力された第ｔフレームの前１フレーム画像を利用し、観測モデルＩに対してオンライン学習を実施する。その具体的な過程は図１３中に示されている通りである。

ステップＳ３００において、入力された第ｔフレームの前５フレーム画像を利用し、観測モデルＩＩに対してオンライン学習を実施する。その具体的な過程は図１４中に示されている通りである。

ステップＳ４００において、オンライン学習した観測モデルＩとＩＩ及びオフライン訓練した観測モデルＩＩＩを順に利用して指定された異なる数量のサンプルの重みを更新する。図１５には重み更新の具体的な過程が示されている。

ステップＳ５００において、ステップＳ４００箇所において最終的に更新された後のサンプル重みは指定閾値よりも大きいか否かを判断する。指定閾値よりも大きい場合には、ステップＳ６００に進み、ここにおいて、目標の現在フレームにおける大きさ及び位置として、目標のサンプルセットの大きさ及び位置の重み付き平均を出力し、次いで次フレーム画像の処理を継続する。指定閾値よりも小さい場合には、ステップＳ７００に進み、前記選択候補目標を破棄する。

図１３には観測モデルＩのオンライン学習の具体的な過程が示されている。

ステップＳ２１０において、第ｔフレームの前１フレーム画像から正例サンプル（顔）及び反例サンプル（非顔）を収集する。

ステップＳ２２０において、ステップＳ２１０で収集した正例サンプル及び反例サンプルに基づき、観測モデルＩのモデルパラメータを求める。

図１４には観測モデルＩＩのオンライン学習具体的な過程が示されている。

先ず、ステップＳ３１０において、第ｔフレームの前５フレーム画像から正例サンプル及び反例サンプルを収集し、観測モデルＩを利用して収集したサンプルに対してフィルタリングを実施し、留保されたサンプルを訓練サンプルとする。

ステップＳ３２０において、留保された反例サンプル中から、元来の観測モデルＩＩの留保された反例サンプルに対する出力尤度が指定閾値よりも大きい反例サンプルを選択する（これは、これら反例サンプルは非常に良好には排斥されていないことを示している）。

ステップＳ３３０において、選択された反例サンプル、及びすべての留保された正例サンプルに基づき、新たなＦｉｓｈｅｒ線形判別分類器を構築するとともに、構築された新たなＦｉｓｈｅｒ線形判別分類器を、弱分類器の数量が最大設定数を超えるか、または大多数の反例サンプルが排斥可能となるまで、元来の弱分類器集合中に加える。

ステップＳ３４０において、ＤｉｓｃｒｅｔｅＡｄａＢｏｏｓｔアルゴリズムを利用して弱分類器集合中から弱分類器を選択して強分類器を構成する、つまり観測モデルＩＩを更新する。

ステップＳ３５０において、弱分類器集合中から所定数フレーム内で採用されなかった弱分類器を削除する。

図１５には本発明に基づく追跡方法において観測モデルを利用してサンプル重みを更新する具体的な過程が示されている。

先ず、ステップＳ４１０において、第ｔ−１フレーム画像のサンプルに対してリサンプリングを実施して、各サンプルに同一の重みを持たせるとともに、サンプル数をＮ_１個まで拡張するとともに、パラメータをｋ＝１に設定する。

次いで、ステップＳ４２０において、上記の第ｔ−１フレーム画像に対してリサンプリングしたＮ_１個のサンプルに基づき、運動モデルを利用して第ｔフレーム画像におけるサンプル位置を予測するとともに、サンプルに対して調整を実施する。

ステップＳ４３０において、観測モデルＩを利用して第ｔフレーム画像におけるＮ_１個のサンプルの重みを更新するとともに、ｋを１逓増させる。

ステップＳ４４０において、パラメータｋは指定された観測モデル数ｍよりも大きいか否かを判断する。観測モデル数ｍよりも大きい場合には、過程を終了し、観測モデル数ｍよりも小さい場合には、ステップＳ４５０に進む。

ステップＳ４５０において、直前観測モデルが更新した後のサンプル重みに応じて、新たに設定されたサンプル数Ｎ_ｋに基づき、直前観測モデルが対応したサンプルに対してリサンプリングを実施して、リサンプリング後の各サンプルに同一の重みを持たせ、かつ、サンプル数をＮ_ｋ個とする。

ステップＳ４６０において、ガウスモデルを利用してステップＳ４５０でリサンプリングされた後のサンプルに対して小さなランダム摂動を実施する。

ステップＳ４７０において、観測モデルｋを利用してステップＳ４６０でランダム摂動が実施された後のサンプルに対してサンプル重みの更新を実施するとともに、ｋを１逓増させ、次いで、ステップＳ４４０に戻る。

以下においては、本発明の追跡方法の効果について紹介する。

例として、Ｃ＋＋プログラミング言語を採用して上記本発明に基づく追跡方法を実現し、運転速度は約３０ｆｐｓ（大きさ３２０×２４０画素の動画像、単一目標）であり、ハードウェアの配置には、Ｐｅｎｔｉｕｍ２．８ＧＨｚＣＰＵが含まれる。各ラウンドのサンプリングに採用する粒子数はそれぞれ３０００、６００及び２００であり、当然ながらその他の粒子数を採用することもできる。

本発明のアルゴリズムの説明の助けとするため、図５（ａ）にあるフレーム画像を処理する際のサンプリング過程が例示されている。

前記の通り、複雑な観測モデルであればあるほど、その観測尤度関数のピーク値も“急峻”となり、その結果、１ラウンドのリサンプリングごとに、粒子はピーク地付近により集中して分布する。また、観測モデルＩＩ及びＩＩＩの出力は目標の真実の位置付近であってもあまり平滑ではないため、リサンプリングの際に小さな摂動を加えることは必須であることにも注意すべきである。図５（ｂ）にはサンプリング効率の比較が含まれ、比較対象は異なる粒子数を使用した標準粒子フィルタとウォーターフォール型粒子フィルタとである。図中には追跡誤差曲線及び有効サンプル数曲線が示されている。追跡誤差曲線から見ると、標準粒子フィルタの粒子数を増大させると一定程度において急速運動目標に対する追跡効果を改善することができ、それは比較的多くの粒子がより大きな範囲をカバーすることができるからである（８００個の粒子を使用した曲線と２００個の粒子を使用した曲線とを比較）。しかし、本発明の方法はより低い追跡誤差に到達している。他方、本発明の方法のサンプリング効率は更に少し上回っている。重点サンプリング関連のアルゴリズムについては、常用される規則によりサンプリング効率が評価される（文献［１９］）。つまり有効サンプル数ＥＳＳであり、その計算方法は以下の通りである。
ＥＳＳ（Ｎ）＝Ｎ／（１＋ｃｖ^２（ｗ））
式中、Ｎは実際に使用する粒子数であり、ｃｖ^２（ｗ）はサンプル重みが規範化される前に算出された分散係数である。有効サンプル数の意味は、前記Ｎ個の重み付きサンプルの描写力はＥＳＳ（Ｎ）個の目標分布中からサンプリングされたサンプルに相当することを直感的に解釈可能である点である。それによれば、ＥＳＳ（Ｎ）が大きければ大きいほど、サンプルセットの描写力が強くなることを示している。図５（ｂ）から見ると、標準粒子フィルタのサンプル数を増大しても、そのサンプリング効率は増大していないが（特に追跡誤差が比較的大きいフレームでは、対応するＥＳＳ（Ｎ）も比較的低い）、本発明者らのアルゴリズムは比較的高いサンプリング効率に達している。

対比試験に用いる方法には、標準粒子フィルタ、顔色ヒストグラムｍｅａｎｓｈｉｆｔ（実験時にはＯｐｅｎＣＶライブラリ関数を採用［２２］）、オンラインでＨａａｒライク特徴を選択する追跡アルゴリズム［１４］及び本発明の方法が含まれる。実験中で使用する動画像は、すべて手作業でｇｒｏｕｎｄｔｒｕｔｈを標定した。それらはすべて手持ちカメラで撮影されたものであり、その後、５ｆｐｓまでサンプリングした。そのうちｂａｓｅｂａｌｌ．ｍｐｇ（図７及び図８）及びｈｏｐｐｉｎｇ．ｍｐｇの内容は運動する人であり、ｅｘｃｕｒｓｉｏｎ１．ｍｐｇ及びｅｘｃｕｒｓｉｏｎ２．ｍｐｇ（図１及び図６）は若干数の人が通行する道であり、ｂｏｙ１．ｍｐｇ及びｂｏｙ２．ｍｐｇ（図９及び図１０）は遊んでいる子供である。測定試験動画像には計２６７６フレームが含まれる。これら測定試験動画像を使用する目的は、アルゴリズムの急速運動または激烈な目標とカメラ移動及び低フレームレート状況下における効果を測定することにある。追跡誤差曲線は図１１の通りであり、平均誤差及び追跡率は表３の通りである。低フレームレートの場合、本発明のアルゴリズムの追跡効果は比較実験におけるその他のアルゴリズムよりも優れている。

表３は本発明のアルゴリズムとその他の方法の正確性の比較である。追跡誤差はいずれも真実の目標の大きさに基づき帰一化し、追跡成功の標準は位置誤差及びスケール誤差が共に０．５未満であることである。
表３本発明のアルゴリズムとその他の方法の正確性の比較

以下においては、対比実験の結果を検討する。

先ず、オフラインモデルとオンラインモデルとを結合して使用した場合の効果について検討する。図７及び図８においては、２つの非常に挑戦的な動画像セグメントを選択して対比した。第一は急速なカメラの移動であり、動画像中における目標の突然の運動及び外観の曖昧な運動を招く。オフライン訓練の顔検出器（つまり本発明の観測モデルＩＩＩ）を使用すると、曖昧な運動時には検出漏れ現象があることが判明する。オフラインモデルは検出可能であるだけで、シーケンス中で同一の目標に属する顔を関連付けることはできない。しかし、本発明者らのアルゴリズムは追跡に成功可能であり、オンラインのモデルも目標外観の変化（曖昧化）に適応可能である。別の例は急速な姿勢の変化である（５フレーム内において顔が１２０度を超えて回動）。本発明者らのアルゴリズムは目標位置を正確に追跡可能である。しかし、比較として、オンライン知識を純粋に採用した追跡アルゴリズムは“ドリフト”（ｄｒｉｆｔ）現象を発生し、実質的に誤差が補正できないまでに累積した。それは先験知識の拘束がないためである。これらの状況は本発明者らの実験においては非常によく見られることであり、１つの側面からオンラインモデルとオフラインモデルとを結合する必要性があることを説明している。

別の問題は多目標追跡である。本発明者らは、多目標追跡器は実現せず、独立して若干の目標に対して単一目標追跡を使用しただけである。多目標追跡を試みる主な目的はオンラインモデルが異なる目標を区分する能力を観察することである。理想的な状況下において、オフラインモデルは顔と非顔とを区別することができるだけであるが、オンラインモデルは異なる目標を区分する知識を徐々に学習可能でなければならない。図６によれば、オンライン観測モデルが自己の追跡目標に対して示す尤度はその他２つの隣り合う顔に対して示す尤度よりも高くなければならないが、全体的に見ると、顔位置の尤度は、目標が顔であるか否かに拘わらず、いずれも比較的高い。つまり、一定の異なる目標の区分能力は有しているが、区分力は決して非常に強力ではないのである。その原因は、おそらく、先ず、オンラインモデルの特徴セットはオフラインで選択したものであり、選択時の標準は顔及び非顔を区分する能力であるため、それらの異なる顔を区分する能力は必然的に非常に強力ではなく、次に、オンライン訓練の時間が限られるため、速やかに異なる顔を区別することは困難であるためである。

上記においては本発明のウォーターフォール型粒子フィルタに基づく追跡方法について記述した。本発明は上記追跡方法を実行するための追跡装置を実現することもでき、以下においては、それについて簡単に記述する。

図１６には本発明のウォーターフォール型粒子フィルタに基づく低フレームレート動画像に適用する追跡装置１６００が示されている。当該装置は生存期間が異なる３つの観測モデルを利用して、動画像シーケンスのフレーム画像中の特定被写体に対して追跡検出を実施する。

追跡装置１６００には、動画像シーケンス中の第一フレーム画像中から特徴部を検出し、検出された特徴部の周囲でガウスランダムサンプリングを実施して、複数の目標サンプ
ルを含む初期サンプルセットを取得する初期化部１６１０と、入力された第ｔフレーム画像に対して、検出目標の画像中における位置及び大きさを追跡検出する追跡検出部１６２０（ｔはフレーム画像の番号を示す自然数である）と、追跡検出部の検出結果が追跡する目標であるか否かを判定し、追跡する目標である場合には、目標の現在フレームにおける大きさ及び位置として、目標サンプルのサンプルセットの大きさ及び位置の重み付き平均を出力し、追跡する目標でない場合には、当該選択候補目標を破棄する判定出力部１６３０と、次フレームの画像の追跡検出に用いるように、判定出力部の判定出力結果を記憶する記憶部１６４０とが含まれる。

追跡検出部１６２０には、入力された第ｔフレーム画像の前１フレーム画像を利用して、その中で使用する第Ｉ観測モデルに対してオンライン学習を実施し、その後、第ｔフレーム画像中のＮ_１個のサンプルに対して重みの更新を実施する第一追跡部１６２１（Ｎ_１は自然数である）と、入力された第ｔフレーム画像の前５フレーム画像を利用して、その中で使用する第ＩＩ観測モデルに対してオンライン学習を実施し、その後、第ｔフレーム画像中の第一追跡部により更新後のサンプル重みに基づき再度サンプリングされたＮ_２個のサンプルに対して重みの更新を実施する第二追跡部１６２２（Ｎ_２は自然数である）と、オフライン訓練を施し、その後、第ｔフレーム画像中の第二追跡部により更新後のサンプル重みに基づき再度サンプリングされたＮ_３個のサンプルに対して重みの更新を実施する第三追跡部１６２３（Ｎ_３は自然数である）と、が含まれ、

判定出力部１６３０は、第三追跡部１６２３により最終的に更新された後のサンプル重みは所定の閾値を超えているか否かを判断し、最終更新後のサンプル重みが閾値を超えていると、目標の現在フレームにおける大きさ及び位置として、目標サンプルのサンプルセットの大きさ及び位置の重み付き平均を出力し、更新後のサンプル重みが第一閾値を超えていないと、当該選択候補目標を破棄する。

採用する３つの観測モデルの構成及びその学習訓練過程の細目は前記と同様であるため、ここでは改めて論述しない。

上記においては添付図を参照して本発明の好適実施例について詳細に記述した。しかし、当業者であれば明らかな通り、選択かつ記述されている実施例は本発明の原理及びその実際の応用を最適に解釈するために過ぎず、本発明は上記実施例に限られるものではない。特許請求の範囲及びその同等物が限定する発明範囲を離れることなく、本発明に対して各種の修正及び変形を施すことは可能である。上記の例において、本発明が提供する実施例は顔及び頭部についてのものであるが、本発明は顔及び頭部に限られるものではなく、その他の物体（例えば、人体のその他の部位、自動車、通行人など）に応用することもできる。

具体的には、本発明は以下の方式に基づき実現可能である。

本発明の１つの面に基づき、本発明では、低フレームレート動画像に適用する特定被写体追跡方法が提供されており、生存期間がそれぞれ異なるｍ個の観測モデルを利用して、動画像シーケンスのフレーム画像中の特定被写体に対して追跡検出を実施する（ｍは自然数である）。
当該特定被写体追跡方法には、
（ａ）動画像シーケンス中のフレーム画像中から特徴部を検出し、検出された特徴部の周囲でガウスランダムサンプリングを実施して、複数の特定被写体サンプルを含む初期サンプルセットを取得するステップと、
（ｂ）入力された第ｔフレーム画像の前Ｄ_ｋフレーム画像を利用して、第ｋ観測モデルに対してオンライン学習またはオフライン学習を実施するステップ（ｔはフレーム画像の
番号を示す自然数であり、ｋは観測モデル番号を示す自然数であり、Ｄ_ｋは第ｋ観測モデルの生存期間を示す自然数である）と、
（ｃ）第ｔフレーム画像について、前記オンライン学習またはオフライン訓練のｍ個の観測モデルを順に利用して、特定被写体サンプルのサンプル重みを更新するステップと、
（ｄ）ステップ（ｃ）において第ｍ観測モデルにより最終的に更新された後のサンプル重みが所定の第一閾値を超えているか否かを判断し、最終更新後のサンプル重みが第一閾値を超えていると、特定被写体の現在フレームにおける大きさ及び位置として、特定被写体サンプルのサンプルセットの大きさ及び位置の重み付き平均を出力し、更新後のサンプル重みが第一閾値を超えていないと、当該選択候補目標を破棄するステップと、
（ｅ）第ｔ＋１フレーム画像に対して、前記ステップ（ｂ）から（ｄ）を繰り返すステップと、が含まれる。

前記特定被写体追跡方法において、好適には、第２観測モデルに対して実施するオンライン学習には、
（ｈ）前Ｄ_２フレーム画像中から正例サンプル及び反例サンプルを収集し、第１観測モデルを利用して収集したサンプルに対してフィルタリングを実施して、留保されたサンプルを訓練サンプルとするステップと、
（ｉ）留保された反例サンプル中から、第２観測モデルの留保された反例サンプルに対する出力尤度が第二閾値よりも大きい反例サンプルを選択するステップと、
（ｊ）選択された反例サンプル、及びすべての留保された正例サンプルに基づき、新たなＦｉｓｈｅｒ線形判別分類器を構築するとともに、構築された新たなＦｉｓｈｅｒ線形判別分類器を、弱分類器の数量が最大設定値を超えるか、または大多数の反例サンプルを排斥可能となるまで、元の弱分類器集合中に加えるステップと、
（ｋ）ＤｉｓｃｒｅｔｅＡｄａＢｏｏｓｔアルゴリズムを利用して弱分類器集合中から弱分類器を選択して、強分類器を構成するステップと、
（ｌ）弱分類器集合中から所定数フレーム内で採用されない弱分類器を削除するステップと、が含まれる。

本発明の別の面に基づくと、本発明では、低フレームレート動画像に適用する特定被写体追跡装置が提供されており、生存期間がそれぞれ異なる３つの観測モデルを利用して、動画像シーケンスのフレーム画像中の特定被写体に対して追跡検出を実施する。
当該特定被写体追跡装置には、
動画像シーケンス中の第一フレーム画像中から特徴部を検出し、検出された特徴部の周囲でガウスランダムサンプリングを実施して、複数の特定被写体サンプルを含む初期サンプルセットを取得する初期化部と、
入力された第ｔフレーム画像に対して、特定被写体の画像中における位置及び大きさを追跡検出する追跡検出部（ｔはフレーム画像の番号を示す自然数である）と、
追跡検出部の検出結果が追跡する特定被写体であるか否かを判定し、特定被写体である場合には、特定被写体の現在フレームにおける大きさ及び位置として、特定被写体サンプルのサンプルセットの大きさ及び位置の重み付き平均を出力し、特定被写体でない場合には、当該選択候補目標を破棄する判定出力部と、
次フレームの画像の追跡検出に用いるように、判定出力部の判定出力結果を記憶する記憶部と、が含まれ、
前記追跡検出部には、
入力された第ｔフレーム画像の前Ｄ_１フレーム画像を利用して、その中で使用する第１観測モデルに対してオンライン学習を実施し、その後、第ｔフレーム画像中のＮ_１個のサンプルに対して重みの更新を実施する第一追跡部（Ｄ_１は第１観測モデルの生存期間を示す自然数であり、Ｎ１は自然数である）と、
入力された第ｔフレーム画像の前Ｄ_２フレーム画像を利用して、その中で使用する第２観測モデルに対してオンライン学習を実施し、その後、第ｔフレーム画像中の第一追跡部により更新後のサンプル重みに基づき再度サンプリングされたＮ_２個のサンプルに対して重みの更新を実施する第二追跡部（Ｄ_２は第２観測モデルの生存期間を示す自然数であり、Ｎ_２は自然数である）と、
オフライン訓練を施し、その後、第ｔフレーム画像中の第二追跡部により更新後のサンプル重みに基づき再度サンプリングされたＮ_３個のサンプルに対して重みの更新を実施する第三追跡部（Ｎ_３は自然数である）と、が含まれ、
前記判定出力部は、第三追跡部により最終的に更新された後のサンプル重みは所定の第一閾値を超えているか否かを判断し、最終更新後のサンプル重みが第一閾値を超えていると、特定被写体の現在フレームにおける大きさ及び位置として、特定被写体サンプルのサンプルセットの大きさ及び位置の重み付き平均を出力し、更新後のサンプル重みが第一閾値を超えていないと、当該選択候補目標を破棄する。

前記特定被写体検出装置において、第２観測モデルに対して実施するオンライン学習には、
前Ｄ_２フレーム画像中から正例サンプル及び反例サンプルを収集し、第一追跡部を利用して収集したサンプルに対してフィルタリングを実施して、留保されたサンプルを訓練サンプルとし、
留保された反例サンプル中から、第２観測モデルの留保された反例サンプルに対する出力尤度が第二閾値よりも大きい反例サンプルを選択し、
選択された反例サンプル、及びすべての留保された正例サンプルに基づき、新たなＦｉｓｈｅｒ線形判別分類器を構築するとともに、構築された新たなＦｉｓｈｅｒ線形判別分
類器を、弱分類器の数量が最大設定値を超えるか、または大多数の反例サンプルを排斥可能となるまで、元の弱分類器集合中に加え、
ＤｉｓｃｒｅｔｅＡｄａＢｏｏｓｔアルゴリズムを利用して弱分類器集合中から弱分類器を選択して、強分類器を構成し、
弱分類器集合中から所定数フレーム内で採用されない弱分類器を削除する、ことが含まれる。

その他、本発明に基づく実施例において、本発明の目的はコンピュータまたはワンチップマイコンなどに上記操作を実行させるコンピュータプログラムにより実現することができる。

また、明らかにすべきは、各実施例において、専門の回路または線路（例えば、互いに接続されて専門機能を実行する離散論理ゲート）により、１つまたはより多くのプロセッサにより実行されるプログラムコマンドにより、または両者の組み合わせにより前記各動作を実行可能である点である。従って、複数種類の異なる形式により上記複数の面を実施することができ、かつ、それらの形式はすべて記述された内容の範囲内に位置すると考えられる。上記複数の面の各々に対して、何らかのこの種の形式の実施例はここにおいてはいずれも“前記動作を実行するように構築された論理”を指すことができ、または別途選択すると、“前記動作を実行または実行可能な論理”を指すことができる。

更に、本発明の実施例に基づき、本発明の目的はコンピュータ読取可能な媒体により実現することができ、前記媒体は上記プログラムを記録する。コンピュータ読取可能な媒体は、実行システム、設備または装置により使用されるかまたはコマンド実行システム、設備または装置と結合されるいずれかの装置により使用されるように、プログラムを包含、記憶、伝達、伝播または伝送することができる。当該コンピュータ読取可能な記録媒体は、例えば、電子、磁気、光、電磁、赤外線または半導体システム、設備、装置または伝播媒体とすることができるが、それらに限るものでない。当該コンピュータ読取可能な記録媒体のより具体的な例には（すべて列挙されるわけではない）、１本またはより多くの導線を有する電気的接続、携帯式コンピュータ磁気ディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、データを消去・書込み可能なリードオンリーメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、及び携帯式光ディスクリードオンリーメモリ（ＣＤＲＯＭ）が含まれる。

本発明は統計学習を基礎として、構造が異なる分類器を観測モデルとするとともに、オンラインの分類器とオフラインの分類器とを結合して使用することにより、アルゴリズムの安定性を向上させる。同一画像空間において複数の相補的な観測モデルを使用すると、一方において、観測モデルの区分能力を増強することができ、他方において、サンプリング画像により引き起こされる誤差を回避することもできる。そのため、本発明に基づく追跡方法及び追跡装置は、低フレームレート動画像中の追跡目標または急速に運動する物体に対して、動画像中のシーケンス情報を捕捉かつ利用することにより探索範囲を縮小し、更に検出アルゴリズムにより目標を正確に識別して、急速かつ正確な追跡を実現可能とする。

前記で言及された文献は引用してここに組み入れられることにより、ここにおいてそれらに対して全面的な記述を実施したことと同様の意味となる。
[1] M. Isard and A. Blake. Condensation - conditional density propagation for visual tracking. International Journal of Computer Vision, 28 (1):5-28, 1998.
[2] D. Comaniciu, V. Ramesh, and P. Meer. Real-time tracking of non-rigid objects using meanshift. In IEEE Conference on Computer Vision and Pattern Recognition, 2000.
[3] C. Tomasi and T. Kanade, Detection and tracking of point features. Technical Report CMU-CS-91-132, Carnegie Mellon University, 1991.
[4] K. Okuma, A Taleghani, D. Freitas, J. J. Little, and D. G. Lowe. A Boosted particle filter; Multitarget detection and tracking. In European Conference on Computer Vision, 2004.
[5] C. Liu, H. Y. Shum, and C. Zhang. Hierarchical shape modeling for automatic
face localization. In European Conference on Computer Vision, 2002.
[6] F. Porikli and O. Tuzel, Object tracking in low-frame-rate video. SPIE Image and Video Communications and Processing, 5685:72-79, 2005.
[7] M. Han, A. Sethi, W. Hua, and Y. Gong. A detection-based multiple object tracking method. In IEEE International Conference on Image Processing, 2004.
[8] R. Kaucic, A. G. A. Perera, G. Brooksby, J. Kaufholed, and A. Hoogs. A unified framework for tracking through occlusions and across sensor gaps. In IEEE Conference on Computer Vision and Pattern Recognition, 2005.
[9] G. Hua and Y. Wu. Multi-scale visual tracking by sequential belief propagation. In IEEE Conference on Computer Vision and Pattern Recognition, 2004.
[10] S. Birchfield. Source code of the klt feature tracker.
http://www.ces.clemson.edu/~stb/klt/, 2006.
[11] J. Sullivan, A. Blake, M. Isard, and J. MacCormick. Object localization by
bayesian correlation. In International Conference on Computer Vision, 1999.
[12] S. Acvidan, Ensamble tracking. IEEE Transactions on Pattern Analysis and Machine Intelligence, 29(2):261-271, 2007.
[13] P. Viola and M. Jones. Robust real-time object detection. In IEEE Workshop on Statistical and Theories of Computer Vision, 2001.
[14] J. Wang, X. Chen, and W. Gao. Online selecting discriminative tracking features using particle filter. In IEEE Conference on Computer Vision and Pattern Recognition, 2005.
[15] B. Wu, H. Ai, C. Huang, and S. Lao. Fast rotation invariant multi-view face detection based on real adaboost. In IEEE International Conference on Automatic Face and Gesture Recognition, 2004.
[16] Y. Freund and R. E. Schapire. Experiments with a new boosting algorithm. In International Conference on Machine Learning, 1996.
[17] Yuan Li, Haizhou Ai, Chang Huang, Shihong Lao. Robust Head Tracking Based on a Multi-State Particle Filter, IEEE International Conference on Automatic Face and Gesture Recognition (FGR06), Southampton, UK, 2006.
[18] Richard O. Duda, Peter E. Hart, DavieG. Stork. Pattern Classification, Second Edition. John Wiley & Sons, 2001 (ISBN:0-471-05669-3).
[19] J. S. Liu. Monte Carlo Strategies in Scientific Computing. Springer, New York, 1994 (ISBN: 0-387-95230-6).
[20] C. Huang, H. Ai, Y. Li, and S. Lao. Vector boosting for rotation invariant
multi-view face detection. In International Conference on Computer Vision, 2005.
[21] C. Yan, R. Duraiswami, and L. Davis. Fast multiple object tracking via a hierarchical particle filter. In International Conference on Computer Vision 2005.
[22] Inter opencv library.
http://www.sourceforge.net/projects/opencvlibrary.

Claims

ｍ個の観測モデルを利用して、動画像シーケンスのフレーム画像中の特定被写体に対して追跡検出を実施する特定被写体追跡方法であって、
当該特定被写体追跡方法は、
（ａ）動画像シーケンス中のフレーム画像中から特徴部を検出するステップと、
（ｂ）入力された第ｔ−１フレーム画像から起算して前Ｄ_ｋフレーム画像のうちの少なくとも１つのフレーム画像を利用して、第ｋ観測モデルに対してオンライン学習またはオフライン訓練を実施するステップ（ｔはフレーム画像の番号を示す自然数であり、ｋは観測モデル番号を示す自然数であり、Ｄ_ｋは第ｋ観測モデルの生存期間を示す自然数である）と、
（ｃ）第ｔフレーム画像について、前記オンライン学習またはオフライン訓練のｍ個の観測モデルを順に利用して、特定被写体サンプルのサンプル重みを更新するステップと、
（ｄ）ステップ（ｃ）において第ｍ観測モデルにより最終的に更新された後のサンプル重みが所定の第一閾値を超えているか否かを判断し、最終更新後のサンプル重みが第一閾値を超えていると、特定被写体サンプルのサンプルセットの大きさ及び位置に基づき算出された特定被写体の現在フレームにおける大きさ及び位置を出力するステップと、
（ｅ）第ｔ＋１フレーム画像に対して、前記ステップ（ｂ）から（ｄ）を繰り返すステップと、を含む、特定被写体追跡方法。
第ｋ観測モデルの生存期間Ｄ_ｋは、ｋの増大に伴い増大する、請求項１記載の特定被写体追跡方法。
第ｋ観測モデルに対して設定されたサンプル数はＮ_ｋ個であり、Ｎ_ｋは自然数であり、ｋの増大に伴い増大する、請求項２記載の特定被写体追跡方法。
ステップ（ｂ）において、前ｍ−１の観測モデルに対してオンライン学習を実施し、第ｍ観測モデルに対してオフライン訓練を実施する、請求項３記載の特定被写体追跡方法。
３つの観測モデルを利用して、前２つの観測モデルに対してオンライン学習を実施し、第３観測モデルに対してオフライン訓練を実施する、請求項４記載の特定被写体追跡方法。
第１観測モデルに対して実施するオンライン学習には、
（ｆ）前Ｄ_１フレーム画像から正例サンプル及び反例サンプルを収集するステップと、
（ｇ）収集された正例サンプル及び反例サンプルに基づき、第１観測モデル中に採用する各種パラメータを求めるステップと、が含まれる、請求項５記載の特定被写体追跡方法。
前記第１観測モデルは、Ｆｉｓｈｅｒ線形判別分類器である、請求項６記載の特定被写体追跡方法。
前記第１観測モデルの生存期間Ｄ_１は、１フレーム画像である、請求項７記載の特定被写体追跡方法。
前記第１観測モデルには、オフラインで選択された５つのＨａａｒライク特徴を採用する、請求項８記載の特定被写体追跡方法。
前記正例サンプルは、追跡する特定被写体の近傍領域から選択し、前記反例サンプルは、追跡する特定被写体の周囲で、大きさが当該特定被写体の２倍の領域において、当該特
定被写体との距離が比較的遠い画像から選択する、請求項９記載の特定被写体追跡方法。
Ｓｉｇｍｏｉｄ関数により平滑化された後の第１観測モデルの出力は、以下の通りである、請求項１０記載の特定被写体追跡方法。

式中、ｘは追跡する特定被写体の状態を示す変数であり、ｚ_１は第１観測モデルが採用する観測量であり、ｗはＦｉｓｈｅｒ線形判別分類器の投影重みのベクトル量であり、ｆ（ｘ）は入力される５次元特徴ベクトル量であり、ηは分類閾値である。
第２観測モデルに対して実施するオンライン学習には、
（ｈ）前Ｄ_２フレーム画像中から正例サンプル及び反例サンプルを収集し、第１観測モデルを利用して収集したサンプルに対してフィルタリングを実施して、留保されたサンプルを訓練サンプルとするステップと、
（ｉ）留保された反例サンプル中から、第２観測モデルの留保された反例サンプルに対する出力尤度が第二閾値よりも大きい反例サンプルを選択するステップと、
（ｊ）選択された反例サンプル、及びすべての留保された正例サンプルに基づき、新たなＦｉｓｈｅｒ線形判別分類器を構築するとともに、構築された新たなＦｉｓｈｅｒ線形判別分類器を、弱分類器の数量が最大設定値を超えるか、または大多数の反例サンプルを排斥可能となるまで、元の弱分類器集合中に加えるステップと、
（ｋ）ＤｉｓｃｒｅｔｅＡｄａＢｏｏｓｔアルゴリズムを利用して弱分類器集合中から弱分類器を選択して、強分類器を構成するステップと、
（ｌ）弱分類器集合中から所定数フレーム内で採用されない弱分類器を削除するステップと、が含まれる、請求項５記載の特定被写体追跡方法。
前記第２観測モデルの生存期間Ｄ_２は、５フレーム画像である、請求項１２記載の特定被写体追跡方法。
前記強分類器の出力は、以下の通りである、請求項３記載の特定被写体追跡方法。

式中、ｘは追跡する特定被写体の状態を示す変数であり、Ｑは選択する組の弱分類器の集合を示し、α_ｑはＱ内のいずれか１つの弱分類器ｑに対応する重みを示し、ｗ_ｑは弱分類器ｑのＬＤＡ投影ベクトル量を示し、ｆ_ｑは弱分類器ｑについて採用する特徴を示し、η_ｑは弱分類器ｑについての分類閾値である。
Ｓｉｇｍｏｉｄ関数により平滑化された後の第２観測モデルの出力は、以下の通りである、請求項１４記載の特定被写体追跡方法。

式中、ｚ_２は第２観測モデルの観測量である。
第３観測モデルは、複数のベクトルブースティングアルゴリズムで学習された強分類器により構成される、請求項５記載の特定被写体追跡方法。
第３観測モデルは、ツリー状の多視角顔検出器である、請求項１６記載の特定被写体追跡方法。
第３観測モデルの出力は、以下の通りである、請求項１７記載の特定被写体追跡方法。

式中、ｚ_３は第３観測モデルの観測量であり、ｈは入力サンプルｘが通過する最後の強分類器の層数であり、φ_ｈは当該強分類器に対応する反例サンプルの正例サンプルに対する先験確率の比であり、ｈの増大に伴い減少し、ｘが通過する分類器の層数が多いほど、それが属する正例の確率は大きくなることを示しており、ｃは通過する最後の強分類器出力の信頼度である。
前記特定被写体の現在フレームにおける大きさ及び位置は、特定被写体サンプルのサンプルセットの大きさ及び位置の重み付き平均である、請求項１記載の特定被写体追跡方法。
３つの観測モデルを利用して、動画像シーケンスのフレーム画像中の特定被写体に対して追跡検出を実施する特定被写体追跡装置であって、
当該特定被写体追跡装置は、
動画像シーケンス中のフレーム画像中から特徴部を検出する初期化部と、
入力された第ｔフレーム画像に対して、特定被写体の画像中における位置及び大きさを追跡検出する追跡検出部（ｔはフレーム画像の番号を示す自然数である）と、
追跡検出部の検出結果が追跡する特定被写体であるか否かを判定し、特定被写体である場合には、特定被写体サンプルのサンプルセットの大きさ及び位置に基づき算出された特定被写体の現在フレームにおける大きさ及び位置を出力し、特定被写体でない場合には、当該選択候補目標を破棄する判定出力部と、
次フレームの画像の追跡検出に用いるように、判定出力部の判定出力結果を記憶する記憶部と、を含み、
前記追跡検出部は、
入力された第ｔ−１フレーム画像から起算して前Ｄ_１フレーム画像のうちの少なくとも１つのフレーム画像を利用して、その中で使用する第１観測モデルに対してオンライン学習を実施し、その後、第ｔフレーム画像中のＮ_１個のサンプルに対して重みの更新を実施する第一追跡部（Ｄ_１は第１観測モデルの生存期間を示す自然数であり、Ｎ_１は自然数である）と、
入力された第ｔ−１フレーム画像から起算して前Ｄ_２フレーム画像のうちの少なくとも１つのフレーム画像を利用して、その中で使用する第２観測モデルに対してオンライン学習を実施し、その後、第ｔフレーム画像中の第一追跡部により更新後のサンプル重みに基づき再度サンプリングされたＮ_２個のサンプルに対して重みの更新を実施する第二追跡部（Ｄ_２は第２観測モデルの生存期間を示す自然数であり、Ｎ_２は自然数である）と、
オフライン訓練を施し、その後、第ｔフレーム画像中の第二追跡部により更新後のサンプル重みに基づき再度サンプリングされたＮ_３個のサンプルに対して重みの更新を実施する第三追跡部（Ｎ_３は自然数である）と、を含み、
前記判定出力部は、第三追跡部により最終的に更新された後のサンプル重みは所定の第一閾値を超えているか否かを判断し、最終更新後のサンプル重みが第一閾値を超えていると、特定被写体サンプルのサンプルセットの大きさ及び位置に基づき算出された特定被写体の現在フレームにおける大きさ及び位置を出力し、更新後のサンプル重みが第一閾値を超えていないと、当該選択候補目標を破棄する、特定被写体追跡装置。
第１観測モデルの生存期間Ｄ_１は、第２観測モデルの生存期間Ｄ_２よりも小さい、請求項２０記載の特定被写体追跡装置。
第１観測モデルの生存期間Ｄ_１は、１フレーム画像である、請求項２１記載の特定被写体追跡装置。
第２観測モデルの生存期間Ｄ_２は、５フレーム画像である、請求項２２記載の特定被写体追跡装置。
第一追跡部についてのサンプル数Ｎ_１＞第二追跡部についてのサンプル数Ｎ_２＞第三追跡部についてのサンプル数Ｎ_３である、請求項２３記載の特定被写体追跡装置。
第１観測モデルに対して実施するオンライン学習には、
前Ｄ_１フレーム画像から正例サンプル及び反例サンプルを収集し、
収集された正例サンプル及び反例サンプルに基づき、第１観測モデル中に採用する各種パラメータを求める、ことが含まれる、請求項２４記載の特定被写体追跡装置。
前記第１観測モデルは、Ｆｉｓｈｅｒ線形判別分類器である、請求項２５記載の特定被写体追跡装置。
前記第１観測モデルには、オフラインで選択された５つのＨａａｒライク特徴を採用する、請求項２６記載の特定被写体追跡装置。
前記正例サンプルは、追跡する特定被写体の近傍領域から選択し、前記反例サンプルは、追跡する特定被写体の周囲で、大きさが当該特定被写体の２倍の領域において、当該特定被写体との距離が比較的遠い画像から選択する、請求項２７記載の特定被写体追跡装置。
Ｓｉｇｍｏｉｄ関数により平滑化された後の第１観測モデルの出力は、以下の通りである、請求項２８記載の特定被写体追跡装置。

式中、ｘは追跡する特定被写体の状態を示す変数であり、ｚ_１は第１観測モデルが採用する観測量であり、ｗはＦｉｓｈｅｒ線形判別分類器の投影重みのベクトル量であり、ｆ（ｘ）は入力される５次元特徴ベクトル量であり、ηは分類閾値である。
第２観測モデルに対して実施するオンライン学習には、
前Ｄ_２フレーム画像中から正例サンプル及び反例サンプルを収集し、第１追跡部を利用して収集したサンプルに対してフィルタリングを実施して、留保されたサンプルを訓練サンプルとし、
留保された反例サンプル中から、第２観測モデルの留保された反例サンプルに対する出
力尤度が第二閾値よりも大きい反例サンプルを選択し、
選択された反例サンプル、及びすべての留保された正例サンプルに基づき、新たなＦｉｓｈｅｒ線形判別分類器を構築するとともに、構築された新たなＦｉｓｈｅｒ線形判別分類器を、弱分類器の数量が最大設定値を超えるか、または大多数の反例サンプルを排斥可能となるまで、元の弱分類器集合中に加え、
ＤｉｓｃｒｅｔｅＡｄａＢｏｏｓｔアルゴリズムを利用して弱分類器集合中から弱分類器を選択して、強分類器を構成し、
弱分類器集合中から所定数フレーム内で採用されない弱分類器を削除する、ことが含まれる、請求項２０記載の特定被写体追跡装置。
前記強分類器の出力は、以下の通りである、請求項３０記載の特定被写体追跡装置。

式中、ｘは追跡する特定被写体の状態を示す変数であり、Ｑは選択する組の弱分類器の集合を示し、α_ｑはＱ内のいずれか１つの弱分類器ｑに対応する重みを示し、ｗ_ｑは弱分類器ｑのＬＤＡ投影ベクトル量を示し、ｆ_ｑは弱分類器ｑについて採用する特徴を示し、η_ｑは弱分類器ｑについての分類閾値である。
Ｓｉｇｍｏｉｄ関数により平滑化された後の第２観測モデルの出力は、以下の通りである、請求項３１記載の特定被写体追跡装置。

式中、ｚ_２は第２観測モデルの観測量である。
第３観測モデルは、複数のベクトルブースティングアルゴリズムで学習された強分類器により構成される、請求項２０記載の特定被写体追跡装置。
第３観測モデルは、ツリー状の多視角顔検出器である、請求項３３記載の特定被写体追跡装置。
第３観測モデルの出力は、以下の通りである、請求項３４記載の特定被写体追跡装置。

式中、ｚ_３は第３観測モデルの観測量であり、ｈは入力サンプルｘが通過する最後の強分類器の層数であり、φ_ｈは当該強分類器に対応する反例サンプルの正例サンプルに対する先験確率の比であり、ｈの増大に伴い減少し、ｘが通過する分類器の層数が多いほど、それが属する正例の確率は大きくなることを示しており、ｃは通過する最後の強分類器出力の信頼度である。
前記特定被写体の現在フレームにおける大きさ及び位置は、特定被写体サンプルのサン
プルセットの大きさ及び位置の重み付き平均である、請求項２０記載の特定被写体追跡装置。