JP2016219004A

JP2016219004A - 一般物体提案を用いる複数物体の追跡

Info

Publication number: JP2016219004A
Application number: JP2016090268A
Authority: JP
Inventors: アドリアン・ガイドン; Gaidon Adrien; エレオノーラ・ヴィグ; Vig Eleonora
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2015-05-18
Filing date: 2016-04-28
Publication date: 2016-12-22
Also published as: EP3096292A1; US9443320B1

Abstract

【課題】映像シーケンスにおける異なるカテゴリの複数の物体を追跡する。【解決手段】物体追跡のためのシステムは、ウィンドウの集合を、各ウィンドウが物体を含む算出確率に基づいて特定する提案抽出器と、ウィンドウの多次元特徴表現を抽出する特徴抽出器と、抽出された多次元特徴表現に基づいて、対象物の集合を検出する、各対象物が、選択されたカテゴリに物体を含むと予測される前記ウィンドウの各々を含み、個々の対象物特有の外観モデルを対象物各々に対して生成する物体検出コンポーネントと、前記集合における対象物のうちの少なくとも１つを、当該の対象物に対して生成された特有の外観モデルに基づいて追跡する追跡コンポーネントとを有する。ウィンドウの集合を特定すること、対象物を検出すること及び対象物を追跡することのうちの少なくとも１つは、プロセッサで行われる。【選択図】図１

Description

例示的な実施形態は、映像データの自動分析に関し、映像ストリームにおける自動車など既知のカテゴリの物体を自動的に検出および追跡することを伴う、複数物体の追跡（ＭＯＴ）と関連する特定の用途を見出す。

一般物体の検出方法は、物体を含む可能性が高い物体位置の候補の限定集合を、物体が所属するカテゴリに関わらず、物体の一般的な特性（例えば、外形）に依存して予測するために使用されてきた。多くの用途において、画像における特有の物体を検出および配置する能力は、有用な情報を提供する。複数物体の追跡における目的は、映像ストリームおよび意味的クラス（例えば、「自動車」または「歩行者」）を考慮すると、映像ストリームのフレームにおけるクラスの個々の物体を、物体が時間と共に移動する際に追跡することである。物体が存在する可能性が高い画像領域は、通常は、境界ボックスまたはウィンドウと称される矩形により予測される。ウィンドウは、物体の予想サイズおよび形状にしたがって、サイズおよびアスペクト比が変化し得る。物体検出は、同じクラスの物体のインスタンスの多様性、撮像条件（視点、環境、照明）の多様性、および、検索空間のスケール（典型的には、単一フレームに対して無数の候補領域）に部分的に起因して、困難なタスクである。

既存の物体検出アルゴリズムは、検出に二項分類の問題が生じる：候補ウィンドウおよび候補クラスを考慮すると、目的はウィンドウが考慮されるクラスの物体を含むか否か判定することである。これは、一般的に、ウィンドウを表す特徴ベクトルを計算すること、および、例えば、線形ＳＶＭなどの二項分類器である検出器で特徴ベクトルを分類すること、を含む。検出器がスライディングウィンドウの手法でフレーム全体に適用され、最大スコアを有する位置が対象物体の可能な新しい位置を特定する。スライディングウィンドウは、多数の可能な候補ウィンドウを精査するために使用されてよい。この手法において、ウィンドウは、段階的に画像全体に固定的な増分で移動されるため、複数の重複ウィンドウに対する決定が計算される。例えば、強調されたカスケードと組み合わされたＨＯＧ検出器は、人物検出をトラックと結び付けるために使用されている。Ｂｒｅｉｔｅｎｓｔｅｉｎらによる「Ｒｏｂｕｓｔｔｒａｃｋｉｎｇ−ｂｙ−ｄｅｔｅｃｔｉｏｎｕｓｉｎｇａｄｅｔｅｃｔｏｒｃｏｎｆｉｄｅｎｃｅｐａｒｔｉｃｌｅｆｉｌｔｅｒ（検出器信頼性の粒子フィルタを使用する検出によるロバスト追跡）」（ＩＣＣＶ，ｐｐ．１５１５−１５２２，２００９）を参照されたい。

実際には、この手法は、異なるサイズおよびアスペクト比のウィンドウを使用して、物体を複数のスケールで異なる形状を用いて異なる視点から検出する。結果として、画像ごとに多数のウィンドウがテストされる。したがって、計算コストが実際の実装に際して主要な障害の１つとなる。最近では、コストの高い包括的な検索を速く活用することにより高速化して、低レベルの特徴を安価な分類器で計算する試みが行われている。例えば、Ｈａｌｌらによる「Ｏｎｌｉｎｅ，Ｒｅａｌ−ＴｉｍｅＴｒａｃｋｉｎｇＵｓｉｎｇａＣａｔｅｇｏｒｙ−ｔｏ−ＩｎｄｉｖｉｄｕａｌＤｅｔｅｃｔｏｒ（個々の検出器に対するカテゴリを使用するオンラインのリアルタイム追跡）」（ＥＣＣＶ２０１４）は、Ｄｏｌｌａｒらによる「Ｆａｓｔｆｅａｔｕｒｅｐｙｒａｍｉｄｓｆｏｒｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ（物体検出のための高速特徴ピラミッド）」（ＰＡＭＩ２０１４）（以降、Ｄｏｌｌａｒ２０１４）の統合チャネル特徴、および、個々の物体検出器を学習するための強調された分類器のカスケード、に依存している。本方法は、単一の特徴抽出／分類の複雑性を削減することを目的としているが、複雑性は標準的なスライディングウィンドウ手法の場合と同じである。

より近年の物体検出器は、包括的なスライディングウィンドウ検索を回避するよう開発されている。代わりに、それらの検出器は、物体の一般的な特性（例えば、外形）を使用して生成され、画像において視認可能な物体のほとんどが重複する、カテゴリの不可知論的な物体位置の提案の限定集合を使用する。その後、これらの提案は、カテゴリ特有の分類器を使用してランク付けされる。例えば、以下を参照されたい：ｖａｎｄｅＳａｎｄｅらによる「Ｓｅｇｍｅｎｔａｔｉｏｎａｓｓｅｌｅｃｔｉｖｅｓｅａｒｃｈｆｏｒｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎ（選択的な検索としての物体認識のための分割）」（ＩＣＣＶ，ｐｐ．１８７９−１８８６，２０１１）（以降、「ｖａｎｄｅＳａｎｄｅ２０１１」）；Ｃｉｎｂｉｓらによる「ＳｅｇｍｅｎｔａｔｉｏｎｄｒｉｖｅｎｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎｗｉｔｈＦｉｓｈｅｒｖｅｃｔｏｒｓ（フィッシャーベクトルを用いる分割駆動の物体検出）」（ＩＣＣＶ，ｐｐ．２９６８−２９７５，２０１３）（以降、「Ｃｉｎｂｉｓ２０１３」）；Ｇｉｒｓｈｉｃｋらによる「Ｒｉｃｈｆｅａｔｕｒｅｈｉｅｒａｒｃｈｉｅｓｆｏｒａｃｃｕｒａｔｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎａｎｄｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ（正確な物体検出および意味論的な分割のための豊富な特徴階層）」（ＣＶＰＲ，２０１４）。しかしながら、そのような物体提案は、追跡に適応されていない。

既存のＭＯＴアルゴリズムは、物体検出の分野における近年の改良に依存している。例えば、以下を参照されたい：Ｂｒｅｉｔｅｎｓｔｅｉｎらによる「ＯｎｌｉｎｅＭｕｌｔｉ−ＰｅｒｓｏｎＴｒａｃｋｉｎｇ−ｂｙ−ＤｅｔｅｃｔｉｏｎｆｒｏｍａＳｉｎｇｌｅ，ＵｎｃａｌｉｂｒａｔｅｄＣａｍｅｒａ（単一の未補正カメラによるオンラインの検出による複数人物の追跡）」（ＩＥＥＥＰＡＭＩ，３３：９，ｐｐ．１８２０−１３３３（２０１１））（以降、「Ｂｒｅｉｔｅｎｓｔｅｉｎ２０１１」）；Ｐｉｒｓｉａｖａｓｈらによる「Ｇｌｏｂａｌｌｙ−ｏｐｔｉｍａｌｇｒｅｅｄｙａｌｇｏｒｉｔｈｍｓｆｏｒｔｒａｃｋｉｎｇａｖａｒｉａｂｌｅｎｕｍｂｅｒｏｆｏｂｊｅｃｔｓ（可変数の物体を追跡するための全体的に最適な欲張りアルゴリズム）」（ＣＶＰＲ，ｐｐ．１２０１−１２０８，２０１１）（以降、Ｐｉｒｓｉａｖａｓｈ２０１１）；Ｍｉｌａｎらによる「ＣｏｎｔｉｎｕｏｕｓＥｎｅｒｇｙＭｉｎｉｍｉｚａｔｉｏｎｆｏｒＭｕｌｔｉ−ＴａｒｇｅｔＴｒａｃｋｉｎｇ（複数対象物の追跡のための継続的なエネルギー最小化）」（ＰＡＭＩ，３６：１，ｐｐ．５８−７２，２０１４）；Ｇｅｉｇｅｒらによる「３ＤＴｒａｆｆｉｃＳｃｅｎｅＵｎｄｅｒｓｔａｎｄｉｎｇｆｒｏｍＭｏｖａｂｌｅＰｌａｔｆｏｒｍｓ（可動プラットフォームによる３次元の交通場面の理解）」（ＰＡＭＩ，３６：５，ｐｐ．１０１２−１０２５，２０１４）（以降、「Ｇｅｉｇｅｒ２０１４」）；Ｈａｌｌらによる「Ｏｎｌｉｎｅ，Ｒｅａｌ−ＴｉｍｅＴｒａｃｋｉｎｇＵｓｉｎｇａＣａｔｅｇｏｒｙ−ｔｏ−ＩｎｄｉｖｉｄｕａｌＤｅｔｅｃｔｏｒ（個々の検出器に対するカテゴリを使用するオンラインのリアルタイム追跡）」（ＥＣＣＶ，２０１４）；Ｃｏｌｌｉｎｓらによる「ＨｙｂｒｉｄＳｔｏｃｈａｓｔｉｃ／ＤｅｔｅｒｍｉｎｉｓｔｉｃＯｐｔｉｍｉｚａｔｉｏｎｆｏｒＴｒａｃｋｉｎｇＳｐｏｒｔｓＰｌａｙｅｒｓａｎｄＰｅｄｅｓｔｒｉａｎｓ（スポーツ選手および歩行者を追跡するためのハイブリッドな確率論的／決定論的最適化）」（ＥＣＣＶ，２０１４）。検出による追跡（ＴＢＤ）は、単眼の映像ストリームにおける物体追跡のための標準的な方法である。これは、正確な外観モデルが映像における物体を確実に追跡するのに十分であるという所見に依存している。したがって、ほとんどのＭＯＴ手法は、検出をトラックに結び付けるのに最適な手法を探すため、物体検出の性能に直接的に依存する。

例示的な実施形態の１つの態様によると、追跡方法は、連続フレームにおける複数のフレームの各々に対して、各ウィンドウが物体を含む算出確率に基づいてウィンドウの集合を特定することを含む。各特定されたウィンドウに対して、ウィンドウの多次元特徴表現が抽出される。訓練された検出器を用いて、抽出された多次元特徴表現に基づいて、対象物の集合が検出される。集合における各対象物は、選択されたカテゴリに物体を含むと予測されるウィンドウの各々を含む。各々の対象物特有の外観モデルが、対象物の各々に対して生成（例えば、学習または更新）される。集合における対象物のうちの少なくとも１つは、少なくとも１つの後続フレームのために追跡され、追跡は当該の対象物に対して生成される対象物特有の外観モデルに基づく。

ウィンドウの集合を特定すること、対象物を検出すること、および、対象物を追跡すること、のうちの少なくとも１つは、プロセッサで行われてよい。

例示的な実施形態の別の態様によると、追跡システムは、連続フレームにおける複数のフレームの各々に対してウィンドウの集合を、各ウィンドウに対する、ウィンドウが物体を含む算出確率に基づいて特定する、一般提案抽出器を含む。特徴抽出器が、集合における各々の特定されたウィンドウの多次元特徴表現を抽出するために提供される。物体検出コンポーネントは、抽出された多次元特徴表現に基づいて対象物の集合を検出するために提供される。集合における各対象物は、選択されたカテゴリに物体を含むと予測されるウィンドウの各々を含む。外観モデルコンポーネントは、集合における対象物の各々に対する個々の対象物特有の外観モデルを生成するために提供される。追跡コンポーネントは、少なくとも１つの後続フレームの集合における対象物のうちの少なくとも１つを追跡するために提供される。追跡は、当該の対象物に対して生成される対象物特有の外観モデルに基づく。プロセッサは、一般提案抽出器、特徴抽出器、物体検出コンポーネント、外観モデルコンポーネント、および、追跡コンポーネントを実装する。

例示的な実施形態の別の態様によると、追跡方法は、連続フレームにおける第１のフレームに対してウィンドウの第１の集合を、第１の集合における各ウィンドウに対する、ウィンドウが物体を含む算出確率に基づいて特定することを含む。第１の集合における各々の特定されたウィンドウに対して、ウィンドウの多次元特徴表現が抽出される。訓練された検出器を用いて、抽出された多次元特徴表現に基づいて対象物の第１の集合が検出され、第１の集合における各対象物は、選択されたカテゴリに物体を含むと予測されるウィンドウの各々を含む。各々の対象物特有の外観モデルは、第１の集合における対象物の各々に対して学習される。シーケンスの次フレームにおける第１の集合の対象物の各々に対して、位置が予測される。連続フレームにおける次フレームに対して、本方法は、ウィンドウの第２の集合を、第２の集合における各ウィンドウに対する、ウィンドウが物体を含む算出確率に基づいて特定することを含む。第２の集合における各々の特定されたウィンドウに対して、ウィンドウの多次元特徴表現が抽出される。訓練された抽出器を用いて、抽出された多次元特徴表現に基づいて対象物の第２の集合が検出される。第２の集合における各対象は、選択されたカテゴリに物体を含むと予測されるウィンドウの各々を含み、対象物の第２の集合は、予測された位置および外観モデルに基づいて特定される第１の集合に対象物のうちの少なくとも１つを含む。

ウィンドウの集合を特定すること、多次元特徴表現を抽出すること、および、対象物の集合を検出すること、のうちの少なくとも１つは、プロセッサで行われてよい。

図１は、例示的な実施形態の１つの態様による、物体追跡のためのシステムの機能ブロック図である。図２は、例示的な実施形態の別の態様による、物体追跡のための方法を図示するフローチャートである。図３は、連続フレームから抽出される異なるサイズのウィンドウを概略的に図示する。

例示的な実施形態の態様は、複数物体の追跡（ＭＯＴ）に適切な物体追跡のためのシステムおよび方法に関する。したがって、システムおよび方法により、映像ストリームにおける既知のカテゴリ（単数または複数）の物体の自動検出および追跡が可能となる。

様々な実施形態において、システムおよび方法は、映像における複数の物体を追跡する際の問題に対処する：一般物体提案（候補ウィンドウ）が各フレームにおいて提示され、特徴が各提案から抽出され、その後、提案レベルの予測が粒子フィルタ（対象物ごとに１つ）を使用して結合されて、連続フレーム全体で対象物を追跡する。様々な発見的問題解決法が、新しい対象物を作成または２つの対象物を合併する時期を決定するのに適用されてよい。さらに、本方法は、スライディングウィンドウベースのアルゴリズムとは対照的に、一般物体提案の生成アルゴリズムによりなされる前提が少ないほど、ドメイン全体での伝達性が向上する。

本方法は実例的な例において示され、高い正確性、拡張性、および伝達性をもたらすため有益となる。正確性は、例えば、多くの好ましくない前提を拒絶することにより、および、より高価なモデルの使用を許容することにより、向上する。追跡アルゴリズムの拡張性は、例えば、複数の提案の間で共有する特徴を介して向上する。ドメイン全体の伝達性は、例えば、スライディングウィンドウベースのアルゴリズムとは対照的に、一般物体提案の生成アルゴリズムによりなされる前提が少ないため、向上する。

本明細書において使用される場合、「物体」という用語は、車両、ナンバープレート、他の製造品、建物などの無生物体（または、無生物体の群）、または、人物または人物の群、または、動物または動物の群などの有生物体（または、無生物体の群）を指す。具体的には、「物体」という用語は、システムにより使用されるカメラによって撮像され得る物理的な物体を指す。

物体の例示的なカテゴリは、車両（または、例えば自動車など、特定の種類の車両）、動物（または、例えば人物など、特定の種類の動物）など、移動する／移動可能な物体を含む。実例的な実施形態が自動車および人物の検出を記載する一方で、他のカテゴリも考慮されることが留意される。各カテゴリは、単一の物体よりも、少なくとも２つの物体の集合を網羅し、一般的には、より多くの異なる物体を網羅する。

例示的なシステムおよび方法は、候補物体の集合を検出するための一般物体提案に基づくＭＯＴアルゴリズムを適用する。本方法の例示的な一般物体提案の一部分において、目的は、物体が属するカテゴリに関わらず、物体を先天的に含む可能性が高い候補物体位置の限定集合を予測することである。一般物体提案は、一般的に、物体を検出するために端部および輪郭濃度などの物体の特徴を探す。候補物体がフレームにおいて特定されると、自動車または人物など対象の特定カテゴリにある物体を検出するよう訓練された１つ以上の分類器を使用して、物体が分類される。分類器からの出力は、特定の物体を複数のフレーム全体で追跡するために、映像シーケンスにおける他のフレームから生じる追跡情報と組み合わされ得る。

図１を参照すると、物体追跡のためのコンピュータ実装システム１０が図示されている。システムは、入力として、連続する時間に撮像された画像の映像シーケンス１２または「フレーム」１４、１６、１８などを取得し、追跡情報２０をシーケンスにおいて検出された物体に基づいて出力する。システム１０は、図２を参照して記載される方法を行うための命令２４を保存するメモリ２２、および、命令を実行するためにメモリと通信するプロセッサデバイス２６を含む。１つ以上のネットワーク入力／出力（Ｉ／Ｏ）インタフェース２８、３０は、ビデオカメラ３２などのシーケンス撮像デバイスからシーケンス１２を受信するために、および、それらに基づいて情報２０を出力するために、提供される。システムのハードウェアコンポーネント２２、２６、２８、３０は、データ／制御バス３４を介して通信する。システム１０は、図示されたサーバコンピュータ３６など、１つ以上の計算デバイスにより管理されてよい。システムは、撮像デバイス３２または中間サーバコンピュータなどの外部デバイスと、インターネットなどの有線または無線ネットワーク３８を介して通信されてよい。

例示的なソフトウェア命令２４は、一般提案抽出コンポーネント（提案抽出器）４０、特徴抽出器４２、物体検出コンポーネント４４、追跡コンポーネント４６、予測コンポーネント４８、再初期化コンポーネント５０、スコアリングコンポーネント５２、フィルタリングコンポーネント５４、外観モデルコンポーネント５６、および、訓練コンポーネント５８を含む。

訓練コンポーネント５８がオフライン段階で使用され、分類器モデル（例えば、二項分類器）６０、６２などの物体検出器を各対象カテゴリ（例えば、自動車、人物など）に対して、物体検出コンポーネント４４により使用するために、事前訓練する。訓練は、異なる場面全体で再使用され得る汎用的にラベル化されたデータ集合６４を使用して、行われてよい。訓練データ６４は画像の集合を含んでよく、各々が対象カテゴリに物体を備える。訓練コンポーネント５８は、訓練が行われていた場合は省略されてよい。１つの実施形態において、訓練は別個の計算デバイスで行われ、訓練された検出器６０、６２はコンピュータ３６へ入力される。

さらに図３を参照すると、実行時に、提案抽出器４０は、入力として、入力された映像シーケンス１２の各々の時間ｔに対応する第１のフレーム１４を取得する。フレームは、１つ以上の物体７０、７２、７４、７６、７８などを含んでよい。提案抽出器４０は、一般物体提案を生成する（すなわち、物体の位置を予測する）。提案は、フレームに任意の種類の物体を含む可能性が高いウィンドウ（境界ボックス）のリストの形式であってよい。例えば、ウィンドウ８０、８２、８４、８６、８８などの集合が生成され、各々が候補物体を位置付ける。明白であるように、ウィンドウの一部は、任意の対象カテゴリにはない物体を位置付けてよい。

特徴抽出器４２は、ウィンドウ８０、８２、８４、８６、８８の各々から視覚特徴を抽出し、そこから各境界ボックスの多次元表現９０を生成する。類似の手法において、訓練中に、特徴抽出器４２は、訓練画像６４の各々から特徴を抽出し、そこから各訓練画像の多次元表現９２を生成する。留意されるように、訓練画像は、各々が個々のラベル化された（大きい）訓練画像から提案抽出器４０により抽出される境界ボックスに対応してよい。

物体検出コンポーネント４４は、事前訓練された一般カテゴリ検出器６０、６２を使用して、フレームにおける候補対象物７２、７４、７６、７８（事前定義されたカテゴリの１つにある一般物体提案）を検出する。第１のフレームで、対象カテゴリのうちの１つに物体を含むと予測されるウィンドウ８２、８４、８６、８８などの各々は、新しい対象物を含むと見なされる。

新しい対象物９４は、事前訓練された分類器６０、６２で、少なくとも閾値（例えば、３０％）分だけ既に追跡された対象物と重複しない提案を全て分類することにより、自動的に検出される。したがって、検出された各対象は、対象カテゴリのうちの１つ（または、複数）に対するカテゴリの確率と関連付けられる。

追跡コンポーネント４６は、粒子フィルタなど、検出コンポーネント４４により検出される各物体を追跡するための追跡器９６、９８を初期化する。粒子フィルタは、次フレームに対する各候補対象の位置を、現フレームにおける位置に基づいて予測するために使用される。留意されるように、本方法は、映像シーケンスにおいて撮像される全てのフレームを処理する必要がないため、次フレームは、処理のために選択される次フレームであってよい。例えば、フレーム１４を考えると、時間ｔに、フレーム１６において時間ｔ＋１に起こる可能性が高い候補対象物７２、７４、７６、７８の各々に対して、予測が行われる。例として、境界ボックス８６を考えると、粒子フィルタ４６は、個々の対象物７６が後続フレーム１６における領域１００に存在する可能性が高いと予測してよい（実際には、物体提案の各「粒子」の位置が予測される）。粒子フィルタ９６、９８は、実例的な対象物７４および７６など既に追跡された対象物（先のフレームに存在する対象物）に対応してよい検出物体をスコアリングするために、対象物特有の外観モデル１０２、１０４および個々の動作モデル１０６、１０８を使用する。

再初期化コンポーネント５０は、事前に失われた対象物の位置を、各損失対象物の最後の外観モデル１０２、１０４で各一般提案の特徴を分類することにより、過去のフレームにおける前の位置を使用せずに再初期化しようと試みる。

追跡コンポーネントの一部であってよい予測コンポーネント４８は、各フレームに存在する検出コンポーネント４４および再初期化コンポーネント５０により検出される候補対象をスコアリングする。予測コンポーネント４８は、粒子フィルタの予測された位置出力を考慮して、検出された位置にある特定の候補対象物の尤度に基づく各候補対象物に対する確率を出力する。

フィルタリングコンポーネント５４は、候補対象物を事前定義された発見的問題解決法に基づいてフィルタリングする。例えば、最も可能性のあるカテゴリに対して閾値Ｔ_１（５０％など）を下回る確率を割り当てた候補対象物が、特定されてよい。その後、これらの候補対象物は、一時的に「失われる」。すなわち、特定された対象物として当該のフレームに対する追跡情報に含まれないが、外観モデルは将来の使用のために保存される。少なくとも３個または４個のフレームなど、最小数のフレームに対して、閾値Ｔ_２（３０％など）を上回る同じ高さのスコアリングと重複する対象物が、対象の集合から除去される。その後、このように特定された対象のフィルタリングされた集合が、位置、カテゴリおよびカテゴリＩＤ（例えば、人物１）によりメモリに保存される。

外観モデルコンポーネント５６は、各々の視認可能な（すなわち、損失していない）特定対象物の外観モデル１０２、１０４を、現フレームｔにおける予測位置（境界ボックス）を肯定的な例として使用することにより、および、他の（候補）対象物と重複しない無作為の否定的な境界ボックスを使用することにより、生成（既存の対象物に対しては更新、または、新しい対象物に対しては学習）する。追加の肯定的な例は、対象物に対する境界ボックスを数画素分だけ１つ以上の方向にずらすことにより、および／または、サイズを増大または減少することにより、生成されてよい。したがって、検出された対象物の各々は、後続フレームにおける当該の対象物を再初期化するために使用される個々の対象特有の外観モデルと関連付けられる。

システム１０は、デスクトップなどのＰＣ、ラップトップ、パームトップコンピュータ、携帯情報端末（ＰＤＡ）、サーバコンピュータ、セルラー電話、タブレットコンピュータ、ポケットベル、それらの組合せ、または、例示的な方法を行うための命令を実行可能な他の計算デバイスなど、１つ以上の計算デバイス３６に常駐してよい。留意されるように、システム１０の一部は、２つ以上の計算デバイスに分散されてよい。

メモリ２２は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、磁気ディスクまたはテープ、光ディスク、フラッシュメモリ、または、ホログラフィックメモリなど、任意の種類の持続性コンピュータ可読媒体を表してよい。１つの実施形態において、メモリ２２は、ランダムアクセスメモリおよび読み出し専用メモリの組合せを備える。一部の実施形態において、プロセッサ２６およびメモリ２２は、単一チップに組み合わされてよい。

ネットワークインタフェース２８、３０は、コンピュータ３６が、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）などのコンピュータネットワークまたはインターネットなど、有線または無線リンクを介して他のデバイスと通信できるようにし、変調器／復調器（モデム）、ルータ、ケーブル、および／または、イーサネット（登録商標）ポートを備えてよい。

デジタルプロセッサ２６は、シングルコアプロセッサ、デュアルコアプロセッサ（または、より一般的には、多重コアプロセッサ）、デジタルプロセッサおよび協働する数値演算コプロセッサ、デジタルコントローラなどにより、様々に具現化され得る。デジタルプロセッサ２６は、コンピュータ３６の動作を制御することに加えて、図２に概要が示される方法を行うためにメモリ２２に保存された命令を実行する。

本明細書において使用される場合、「ソフトウェア」という用語は、コンピュータまたは他のデジタルシステムを、ソフトウェアの意図するタスクを行うよう構成するために、コンピュータまたは他のデジタルシステムにより実行可能な命令の任意のコレクションまたは集合を網羅することを意図する。本明細書において使用される場合、「ソフトウェア」という用語は、ＲＡＭ、ハードディスク、光ディスクなどの保存媒体に保存される、そのような命令を網羅することを意図し、さらに、ＲＯＭなどに保存されるソフトウェアである、いわゆる「ファームウェア」を網羅することを意図する。そのようなソフトウェアは、様々な手法で体系化されてよく、ライブラリ、遠隔サーバなどに保存されるインターネットベースのプログラム、ソースコード、解釈コード、オブジェクトコード、直接的に実行可能なコードなどとして体系化されるソフトウェアコンポーネントを含んでよい。ソフトウェアが、システムレベルのコードまたはコールを、サーバまたは他の位置に常駐する他のソフトウェアへ呼び出して、特定の機能を行ってよいことが予期される。

ここで図２を参照すると、映像ストリームにおいて対象物を追跡するための方法が図示されている。本方法は、Ｓ１００で開始される。

オフライン段階で行われ得るＳ１０２で、対象カテゴリ（例えば、自動車または人物）に対する物体検出器６０、６２は、異なる場面で再使用され得る汎用的なラベル化されたデータ集合を使用して訓練される。Ｃｉｎｂｉｓ２０１３におけるものと類似の検出器学習手法が使用されてよく、これはロジスティック回帰およびハードネガティブマイニングに基づいている。

オンラインの追跡段階において、続く手順は、新しいフレームｔが映像ストリームから入手可能である際にはいつでも実施されてよい。

Ｓ１０４で、フレーム１６などの次フレームが受信され、一時的にメモリ２２に保存されてよい。

Ｓ１０６で、一般物体提案１１０、１１２、１１４、１１６など（図３）は、監視されない手法で生成される。具体的には、任意の種類の物体をフレームｔに含む可能性が高いｋ個のウィンドウのリストが、提案抽出器４０により、個々のウィンドウが物体を含む算出確率に基づいて生成される。

Ｓ１０８で、視覚特徴が、一般物体提案１１０、１１２、１１４、１１６の各々から特徴抽出器４２により抽出される。

Ｓ１１０で、Ｓ１０８で抽出された一般物体提案は、事前訓練された検出器６０、６２で、抽出された視覚特徴に基づいて分類される。

Ｓ１１２で、Ｓ１０８で抽出された一般物体提案は、（先のフレームにおいて検出された対象物に対して学習された）対象物特有の外観モデル１０２、１０４で、抽出された視覚特徴に基づいて分類される。

Ｓ１１４で、新しい対象物９４が、事前訓練された検出器（複数可）６０、６２で、閾値を上回る分だけ既に追跡された対象物７４、７６などと重複しない一般物体提案１０２の全てを分類することにより、自動的に検出される。

Ｓ１１６で、各（新しくない）対象物７４、７６（および、７８）に対して、現フレームｔにおける位置の予測が、前フレームｔ−１における予測位置から、粒子フィルタ４６を用いてなされる。

Ｓ１１８で、再初期化が行われてよく、可能である場合、任意の事前に失われた対象物の位置（複数可）を、各損失対象物の最後の外観モデルで提案特徴を分類することにより、過去のフレームにおける前の位置を使用せずに特定する。任意の再初期化された対象物は、Ｓ１１４およびＳ１１６で特定された候補対象物７４、７６のリストに追加される。

Ｓ１２０で、各々の追跡された対象物７４、７６、７８は、粒子フィルタにより予測された尤度に基づいてスコアリングされる。

Ｓ１２２で、候補対象物が検出器の閾値τ１（例えば、５０％）を下回る確率を有する場合、Ｓ１２４で、一時的に失われた対象物（対象７８など）のリストに別個に保存される。そうでない場合、本方法はＳ１２６へ進む。

Ｓ１２６で、候補対象物が少なくとも閾値の数のフレームに対して閾値τ２（例えば、３０％）を上回る分だけ同じ高さのスコアリング対象物と重複する場合、同じ対象物に対応するという見解から除外される。そうでない場合、本方法はＳ１２８へ進む。

Ｓ１２８で、各視認可能な（すなわち、失われていない）対象物７４、７６、９４などの個々の外観モデル１０２、１０４などが、外観モデルコンポーネント５６により生成（すなわち、既存の対象に対して更新、または、新しい対象９４に対して学習）される。これは、現フレームｔにおける予測位置を肯定的な例として使用することにより、および、他の対象物と重複しないランダムネガティブを否定的な例として使用することにより、行われてよい。外観モデルはメモリに保存される。選択的に、一般検出器６０、６２は、個々のカテゴリに対して生成される外観モデルの少なくとも一部に基づいて更新される。

Ｓ１３０で、各特定（視認可能な）対象物のＩＤおよびフレームにおける位置が保存される。

Ｓ１３２で、シーケンスにおける新しいフレームが受信されると、本方法はＳ１０４に戻り、そうでない場合は、Ｓ１３４へ進む。

Ｓ１３４で、追跡情報２０が、各フレーム、検出対象物の１つ以上のＩＤおよびカテゴリ、および位置などに対して、出力されてよい。本方法は、Ｓ１３６で終了する。

図２に図示される方法は、コンピュータ上で実行されてよいコンピュータプログラム製品に実装されてよい。コンピュータプログラム製品は、ディスク、ハードドライブなど、制御プログラムが記録（保存）される持続性コンピュータ可読記録媒体を備えてよい。持続性コンピュータ可読媒体の一般的な形式は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、または、任意の他の磁気保存媒体、ＣＤ−ＲＯＭ、ＤＶＤ、または、任意の他の光媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ−ＥＰＲＯＭ、または、他のメモリチップまたはカートリッジ、または、コンピュータが読み込みおよび使用し得る他の持続性媒体を含む。コンピュータプログラム製品は、コンピュータ３６と統合されてよく（例えば、ＲＡＭの内部ハードドライブ）、または、分離されてよく（例えば、コンピュータ３６と動作可能に接続される外部ハードドライブ）、または、分離されてローカルエリアネットワーク（ＬＡＮ）またはインターネットなどのデジタルデータネットワークを介してアクセスされてよい（例えば、安価な独立ディスクの冗長アレイ（ＲＡＩＤ）、または、コンピュータ３６によりデジタルネットワークを介して間接的にアクセスされる他のネットワークサーバストレージ）。

代替的に、本方法は、制御プログラムが、例えば、電波および赤外線データ通信などの間に生成されるような音波または光波などの伝送媒体を使用するデータ信号として具現化される、伝送可能な搬送波などの一時的媒体に実装されてよい。

例示的な方法は、１つ以上の汎用コンピュータ、専用コンピュータ（複数可）、プログラム化されたマイクロプロセッサまたはマイクロコントローラおよび周辺集積回路素子、ＡＳＩＣまたは他の集積回路、デジタル信号プロセッサ、個別素子回路などの配線接続された電子回路または論理回路、ＰＬＤ、ＰＬＡ、ＦＰＧＡ、グラフィカルカードＣＰＵ（ＧＰＵ）、またはＰＡＬなどのプログラマブル論理デバイスなどに実装されてよい。一般的に、図２に示されるフローチャートを順番に実装可能な有限状態機器を実装可能な任意のデバイスが、本方法を実装するために使用され得る。

留意されるように、本方法のステップは全てコンピュータ実装であってよい一方で、一部の実施形態において、１つ以上のステップは、少なくとも部分的に手動で行われてよい。さらに留意されるように、本方法のステップは、全てが図示される順番で進む必要はなく、より少ないステップ、より多いステップ、または、異なるステップが行われてよい。

本方法およびシステムのさらなる例示的な態様が、ここに記載される。

複雑性分析
特徴計算の共有および本方法における一般物体提案の使用により、検出動作における大幅な計算の省力化が、カテゴリレベルで事前訓練された検出器（複数可）６０、６２、および、さらに粒子フィルタにより使用される対象物特有の検出器で可能となる。さらに、線形物体検出器６０、６２を使用する場合、検出動作は、外観モデル９４、９６の行列と事前計算された特徴行列（提案の視覚表現９０）との間の効率的な行列−行列の積として行われることが可能であり、後者はモデル全体で共有される。結果として、追跡提案（ＴＰ）アルゴリズムは、以下の式におけるフレームごとの複雑性を有する：

ここで、ｎ_ｔはフレームｔにおける（一時的に失われた、または、現段階で追跡されている）モデル化された対象物の数であり、ｐはモデル化されたカテゴリの数（例えば、自動車および歩行者の両方に関連する場合は２）であり、ｄは特徴の次元性であり、ｋはフレームごとの提案の数（例えば、

に固定）であり、ｃは１つのセルまたは画像サブ領域の特徴を抽出するコストであり、密行列間の「教科書的な」行列の乗算実装と仮定する。

対照的に、従来のスライディングウィンドウ手法は、各可能な位置で特徴の全てを抽出することを回避する技術に依存するため、各モデルに対するフル画像で、モデル全体で共有される計算をせずに完全に再実行される。したがって、比較可能な追跡方法のためにスライディングウィンドウベースの検出器を使用することは、実際には非常に拡張しにくいスライディング追跡器（ＳＴ）をもたらす：

ここで、Ｋ（ｄ）≫ｄは、フレーム全体のスライディングウィンドウ検索を信号モデルで実行する際の複雑性である。

検出器を起動することは、一般的に、ＭＯＴに対するＴＢＤ手法の計算の障害である。したがって、例示的なアルゴリズムは、結果的に、対象物およびカテゴリ全体で償却される計算コストを大幅に全体的に削減することになる。加えて、追跡のための一般物体提案を使用することにより生じる計算の効率性により、Ｂｒｅｉｔｅｎｓｔｅｉｎ２０１１の低レベルの特徴における増大されたカスケードなど、効率的な追跡のために一般的に使用されるものよりも複雑な特徴および分類器の活用が可能となる。

一般物体提案の生成（Ｓ１０６）
一般物体提案（ウィンドウ）の生成は、個々の物体のカテゴリを予測せずに、ほとんどの物体が共通して有する特性に基づいて達成される。このステップにおいて、フレーム１４、１６ごとの一般物体提案の最大数（または、総数）が設定されてよく（１０００または５０００など）、これにより生成され得るウィンドウの数を制限する。追加的または代替的に、確率閾値が設定されてよく、これにより物体を含む事前定義された閾値確率を下回る全ての候補物体提案を除外する。フレームごとの一般物体提案の（最大）数を設定することは、正確性と効率性との間のトレードオフであり、ウィンドウが多いほど、当該の対象物体が見出される可能性が高くなるが、計算時間が犠牲になる。提案抽出器４０は、フレームごとに少なくとも１００個のウィンドウなど、フレームのコンテンツに依存して任意の数のこのようなウィンドウを抽出してよい。

物体提案の生成は、監視されない手法で、ウィドウのサイズ（画素の総数）および／または形状（各次元の画素数）に制限を設けることなく進み得る。例えば、フレーム全体のサイズまでの任意のサイズであり得る。ウィンドウは、典型的に相互に重複し、したがって、所与の物体は１つ超のウィンドウにおいて見出されてよい。

物体提案の生成にはいくつかの方法が利用可能である。Ｈｏｓａｎｇらによる「Ｈｏｗｇｏｏｄａｒｅｄｅｔｅｃｔｉｏｎｐｒｏｐｏｓａｌｓ，ｒｅａｌｌｙ？（検出提案は本当にそれほどよいのか？）」（ＢＭＶＣ２０１４）は、多くの方法の要約を提供する。例として、以下のうちの任意のものが、個別に使用されてよく、または、組合せて使用されてよい：選択的な検索（ｖａｎｄｅＳａｎｄｅ２０１１）；オブジェクトネス（Ａｌｅｘｅらによる「Ｍｅａｓｕｒｉｎｇｔｈｅｏｂｊｅｃｔｎｅｓｓｏｆｉｍａｇｅｗｉｎｄｏｗｓ（画像ウィンドウのオブジェクトネスの測定）」ＰＡＭＩ２０１２）；制約的なパラメータの最小カット（Ｃａｒｒｅｉｒａらによる「ＣｏｎｓｔｒａｉｎｅｄＰａｒａｍｅｔｒｉｃＭｉｎ−ＣｕｔｓｆｏｒＡｕｔｏｍａｔｉｃＯｂｊｅｃｔＳｅｇｍｅｎｔａｔｉｏｎ（自動物体分割のための制約的なパラメータの最小カット）」ＣＶＰＲ，ｐｐ．３２４１−３２４８，２０１０）；多重スケールの組合せグループ化（Ａｒｂｅｌａｅｚらによる「Ｍｕｌｔｉｓｃａｌｅｃｏｍｂｉｎａｔｏｒｉａｌｇｒｏｕｐｉｎｇ（多重スケールの組合せグループ化）」ＣＶＰＲ２０１４）；ＢＩＮＧ（Ｃｈｅｎｇらによる「ＢＩＮＧ：Ｂｉｎａｒｉｚｅｄｎｏｒｍａｌｇｒａｄｉｅｎｔｓｆｏｒｏｂｊｅｃｔｎｅｓｓｅｓｔｉｍａｔｉｏｎａｔ３００ｆｐｓ（ＢＩＮＧ：毎秒３００フレームのオブジェクトネス予測のための二項化されたノルム勾配）」ＣＶＰＲ２０１４）；および、端部ボックス（Ｚｉｔｎｉｃｋらによる「ＥｄｇｅＢｏｘｅｓ：ＬｏｃａｔｉｎｇＯｂｊｅｃｔＰｒｏｐｏｓａｌｓｆｒｏｍＥｄｇｅｓ（端部ボックス：端部からの物体提案の位置付け）」ＥＣＣＶ，ＬｅｃｔｕｒｅＮｏｔｅｓｉｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，Ｖｏｌ．８６９３，ｐｐ．３９１−４０５，２０１４）。

１つの例示的な実施形態（以下の実施例に使用される）において、ＺｉｔｎｉｃｋおよびＤｏｌｌａｒ２０１４の端部ボックスが適用される。この方法は、画像分割により完全に包囲される曲線の数がウィンドウにおける物体の存在の良好な予測因子であるという推定に依存している。これらの提案は、２つの主な理由で追跡に特に適用される：制限された計算コストで良好な正確性をもたらす（著者によると元の最適化されていないＭａｔｌａｂコードで画像ごとに０．０２秒）；および、主な推定（物体が典型的な背景エリアよりも完全に包囲された曲線を含む）が、典型的な対象物体（例えば、人物、車両）および実世界の追跡場面における背景の自然（例えば、道路の場面）の両方に起因して、実世界の追跡用途に当てはまることが多く、ここで視界領域の多くの部分は、道路、歩道、および空など、大きい不定形のエリアである。

しかしながら、他の一般物体提案方法が、検出による追跡のフレームワークで使用され得る。

特徴抽出（Ｓ１０２，Ｓ１０８）
訓練および検出において使用される特徴抽出コンポーネントは、Ｓ１０６で特定されるウィンドウの各々から（または、訓練画像から）特徴を抽出し、ウィンドウの表現を抽出された特徴に基づいて生成する。適切な特徴は、パッチレベルで、例えば、複数のパッチをウィンドウから抽出することにより、および、各パッチに対して、色および／または勾配特徴など、後に統合（例えば、連結）される低レベルの特徴を抽出することにより、抽出されて、パッチ記述子を形成し得る。多次元のウィンドウレベル（または、訓練画像）表現９０、９２は、パッチ記述子から生成される。各表現９０、９２は、少なくとも５０個、または少なくとも１００個、または少なくとも１０００個の特徴など、同じ数の特徴（次元）を含み、一部の実施形態において、１００万個まで、または１０万個まで、または５０００個までの特徴を含む。

１つの実施形態において、フィッシャーベクトル（ＦＶ）表現など高次元の特徴表現が物体検出のために使用される。そのような表現は、通常、スライディングウィンドウベースの検出には計算的に高価であり過ぎる。簡潔には、ＦＶは、ガウス混合モデル（ＧＭＭ）など下層の発生モデルのパラメータに対して、記述子（パッチ記述子など）の対数尤度の勾配を計算することに関与する。ガウス混合モデルは、局所的な記述子が全て放出されると推定されるガウス関数の集合を含む。各ガウス関数は、平均ベクトルおよび共分散行列を含むパラメータの集合により表現され得る。したがって、各局所的な記述子は、重みベクトルにより特徴づけられ、各々が各ガウス関数の考慮されるパラメータである。例えば、少なくとも１個、または少なくとも１６個、または少なくとも３２個、または少なくとも６４個、または少なくとも１２８個、または少なくとも５１２個のガウスが、ＧＭＭに存在する。共分散行列は対角図であると推定され得る。ベクトルの平方根および全体的な正規化が使用され得る。ウィンドウのセルへの分割は、その後に統合されて最終的なウィンドウ表現において空間情報を提供し得る、各セルに対するベクトルをもたらすために使用され得る。例えば、以下を参照されたい：Ｓａｎｃｈｅｚらによる「ＩｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎｗｉｔｈｔｈｅＦｉｓｈｅｒｖｅｃｔｏｒ：Ｔｈｅｏｒｙａｎｄｐｒａｃｔｉｃｅ（フィッシャーベクトルを用いた画像分類：理論と実践）」ＩＪＣＶ，１０５（３）：２２２−２４５，２０１３；Ｐｅｒｒｏｎｎｉｎらによる「Ｉｍｐｒｏｖｉｎｇｔｈｅｆｉｓｈｅｒｋｅｒｎｅｌｆｏｒｌａｒｇｅ−ｓｃａｌｅｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ（大規模な画像分類のためのフィッシャーカーネルの改良）」Ｐｒｏｃ．１１^ｔｈＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＥＣＣＶ）：ＰａｒｔＩＶ，ｐｐ．１４３−１５６，２０１０；Ｓａｎｃｈｅｚらによる「Ｈｉｇｈ−ｄｉｍｅｎｓｉｏｎａｌｓｉｇｎａｔｕｒｅｃｏｍｐｒｅｓｓｉｏｎｆｏｒｌａｒｇｅ−ｓｃａｌｅｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ（大規模な画像分類のための高次元のシグネチャ圧縮）」ＣＶＰＲ２０１１；Ｐｅｒｒｏｎｎｉｎらによる「Ｆｉｓｈｅｒｋｅｒｎｅｌｓｏｎｖｉｓｕａｌｖｏｃａｂｕｌａｒｉｅｓｆｏｒｉｍａｇｅｃａｔｅｇｏｒｉｚａｔｉｏｎ（画像カテゴリ化のための視覚語彙におけるフィッシャーカーネル）」ＣＶＰＲ２００７；および、米国公開番号第２０１２００７６４０１号および第２０１２００４５１３４号。訓練されたＧＭＭは、任意の画像のコンテンツを対象領域内に記載することを意図する（例えば、街路の場面に存在する物体）。

以下に記載される実施例において、速度およびメモリ消費の両方に関して、追跡のために十分に計算的に効率的である検出器を構築するよう設計される修正を伴って、Ｃｉｎｂｉｓらの方法に大まかに従っている。これらの検出器では、局所的なパッチは、（最低のスケールで１２×１２のサイズのパッチを伴って）各フレームから８個のスケールで密に抽出される。パッチは、ＳＩＦＴ（勾配）特徴により表され（Ｌｏｗｅによる「Ｄｉｓｔｉｎｃｔｉｖｅｉｍａｇｅｆｅａｔｕｒｅｓｆｒｏｍｓｃａｌｅ−ｉｎｖａｒｉａｎｔｋｅｙｐｏｉｎｔｓ（スケールが不変のキーポイントからの別個の画像特徴）」（ＩＪＣＶ，６０：９１−１１０，２００４）を参照）、ＰＣＡを使用して６４次元と推定される。その後、推定された記述子は、受け入れ可能な性能を維持しながらＦＶ次元性を大幅に削減する手法である、単一のガウスを介するＦＶとしてコード化される（Ｐｅｒｒｏｎｎｉｎらによる「Ｌａｒｇｅ−ｓｃａｌｅｉｍａｇｅｒｅｔｒｉｅｖａｌｗｉｔｈｃｏｍｐｒｅｓｓｅｄｆｉｓｈｅｒｖｅｃｔｏｒｓ（圧縮されたフィッシャーベクトルを用いた大規模な画像検索）」（ＣＶＰＲ，ｐｐ．３３８４−３３９１，２０１０）を参照）。粗幾何学が空間プールにより考慮される：ウィンドウは４×４のセルの標準グリッドにさらに分割され、各セルはＦＶにより記載される。セル単位、または、ウィンドウ単位のＦＶは、平方根およびｌ２正規化が適用される最終的な２１７６次元のシグネチャに連結され、ウィンドウ表現９０を生成する。

留意されるように、高次元の表現は、一般的に高い認識性能をもたらすが、速度およびメモリの両方に関して高いコストをもたらす。しかしながら、ＭＯＴ方法において、対象表現が再特定のために持続的に保存される場合、保存コストが重要になる可能性がある。実施例において使用される比較的に低次元のシグネチャは、良好な効率性と正確性とのトレードオフを提示し、検出による追跡においての使用に特に適切となる。しかしながら、メモリ容量が多いと、表現のサイズの重要性が減少する可能性がある。

例示的な追跡提案アルゴリズムが、深層学習（畳み込みまたは神経ネットワークベース）表現など、ウィンドウの画素の特徴を表す任意の特徴表現を使用して適用され得ることが、さらに言及されるべきである。例えば、Ｄｏｎａｈｕｅらによる「ＤｅＣＡＦ：ＡＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎａｌＡｃｔｉｖａｔｉｏｎＦｅａｔｕｒｅｆｏｒＧｅｎｅｒｉｃＶｉｓｕａｌＲｅｃｏｇｎｉｔｉｏｎ（一般視覚認識のための深層畳み込み起動特徴）」（ＩＣＭＬ，ｐｐ．６４７−６５５，２０１４年６月）を参照されたい。

訓練物体検出器（Ｓ１０２）および物体検出（Ｓ１１０）
訓練において、検出のために使用されるのと同じ種類の特徴ベースの多次元表現が使用される。訓練画像６４の集合の各々は、手動で自動車または人物などの物体カテゴリでラベル化される。各カテゴリに対して、カテゴリでラベル化された画像の表現９２が肯定的な訓練画像として使用され、異なるカテゴリでラベル化された画像または対象カテゴリを伴わない画像が、個々の検出器６０、６２などを訓練するために否定的なサンプルとして使用される。

分類器の訓練は、Ｃｉｎｂｉｓらによる「ＳｅｇｍｅｎｔａｔｉｏｎｄｒｉｖｅｎｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎｗｉｔｈＦｉｓｈｅｒｖｅｃｔｏｒｓ（フィッシャーベクトルを用いる分割駆動の物体検出）」（ＩＣＣＶ，ｐｐ．２９６８−２９７５，２０１３）の方法で、ロジスティック回帰およびハードネガティブマイニングに基づいて行われてよい。

その後、訓練された分類器６０、６２は、物体検出のために使用される。

一部の実施形態において、検出器６０、６２は、オンライン段階において収集されるデータを使用して対象ドメインに適用される。例えば、Ｓ１２８で、個々の初期の検出器６０を伴うカテゴリの閾値（高い）確率を有する一般物体提案に対して生成される複数の学習された個別の外観モデルが組み合わされ、更新されたカテゴリレベルの検出器６０を生成する。

オンラインの追跡段階において、新しいフレームｔが映像ストリームから入手可能である場合は常に、一般物体提案８０、８２、８４、８６、８８、１１２は、学習されたカテゴリ特有の線形分類器６０、６２のうちの少なくとも１つでスコアリングされる。分類器６０はベクトルｗ∈Ｒ^ｄによりパラメータ化され、ここでｄは表現の次元である。分類器は、特徴ベクトルφ_ｔ（ｘ）∈Ｒ^ｄにより表される、フレームｚ_ｔにおける候補ウィンドウｘが、例えば、式（３）など、分類器ベクトルｗおよびウィンドウの特徴ベクトル９０の積の関数である確率Ｐ（ｘ｜ｚ_ｔ；ｗ）を伴う対象カテゴリの物体を含む確率を返す。

外観モデル（ベクトル）６２であるｗ_ｉがｗの代わりに方程式（３）において同様に使用され、ウィンドウがウィンドウにおいて事前に特定された物体ｉを含む確率を計算し得。

分類器（複数可）６０、６２が、例えば、ロジスティック回帰を介して学習されてよい（Ｓ１０２）。例えば、分類器ベクトルｗは、ロジスティック回帰を介して、正規化された経験的なリスク最小化アルゴリズムを使用してロジスティック損失に基づいて予測されてよい。

ここで、ｙは既知のラベル（例えば、自動車であるか否かなどの二項ラベル）である。ｗは反復して更新され、損失を最小化する。

この方程式は方程式（３）で補正された確率を提供し、オンライン最適化のための有益な理論特性を有する（Ｂａｃｈらによる「Ｎｏｎ−ｓｔｒｏｎｇｌｙ−ｃｏｎｖｅｘｓｍｏｏｔｈｓｔｏｃｈａｓｔｉｃａｐｐｒｏｘｉｍａｔｉｏｎｗｉｔｈｃｏｎｖｅｒｇｅｎｃｅｒａｔｅＯ（１／ｎ）（収束率Ｏ（１／ｎ）を用いる強くない凸上の滑らかな確率近似）」（ＮＩＰＳ２６：７７３−７８１，２０１３）を参照）。

対象物の追跡（Ｓ１１４−Ｓ１２０）
任意のフレーム（最初と異なる）において検出された対象物は、１つ以上の新しい対象物（以前に確認された対象物）、前フレームにおいて確認された１つ以上の既存の対象物、および／または、先のフレームにおいて確認されなかったが１つ以上の先行フレームにおいて確認され、後に失われた１つ以上の再初期化された対象物、を含んでよい。各種類の対象物に対する追跡プロセスは、わずかに異なって進み得る。

各既存の対象物に対して、追跡コンポーネント４６は、現フレームにおける当該の対象物の位置の予測を、ｔ−１での前フレームにおける予測された位置から、当該の対象物に対する初期化された粒子フィルタを使用して行う（Ｓ１１６）。これは、例えば、以下に記載されるように、寛容なＴＢＤ手法を適用してよい：Ｂｒｅｉｔｅｎｓｔｅｉｎ２０１１；Ｉｓａｒｄらによる「Ｃｏｎｄｅｎｓａｔｉｏｎ−ｃｏｎｄｉｔｉｏｎａｌｄｅｎｓｉｔｙｐｒｏｐａｇａｔｉｏｎｆｏｒｖｉｓｕａｌｔｒａｃｋｉｎｇ（視覚追跡のための濃縮条件の濃度伝搬）」（ＩＪＣＶ，ｖｏｌ．２９，ｐｐ．５−２８，１９９８）。

既存の対象物の追跡のための他の適切な方法は、上述された米国出願番号第１４／５０５，０３１号に記載されている。ここに開示される方法は、肯定的−否定的（Ｐ−Ｎ）学習に基づく、検索による追跡のアルゴリズムを適用する（例えば、Ｚ．Ｋａｌａｌらによる「Ｔｒａｃｋｉｎｇ−ｌｅａｒｎｉｎｇ−ｄｅｔｅｃｔｉｏｎ（追跡学習検出）」（ＩＥＥＥＴＰＡＭＩ３４（７）：１４０９−１４２２（２０１２），「Ｋａｌａｌ２０１２」）を参照）が、このフレームワークを複数の対象物の追跡へ、マルチタスク学習を使用して拡張する。これを例示的な方法に適用することで、所与の対象物に対する境界ボックス８６を考慮すると、追跡器は、物体インスタンス７６がシーケンス１２における少なくとも１つの後続の画像に位置付けられると予測される１つ以上の候補の境界物体領域１００を予測する。予測された物体領域（複数可）は保存される。

既存の対象物をスコアリングするために、各追跡器は、例えば、外観モデル９４など、個々の検出された対象物に対して事前に初期化された個々のインスタンスレベルの外観検出器、および、候補物体領域１００を予測する個々の動作モデル１１０を利用してよい。例示的な実施形態において、粒子フィルタは、ウィンドウをスコアリングするための対象物特有のモデルに加えて、カテゴリに対する一般モデルを使用する。１つの実施形態において、各追跡器により使用される外観検出器に対する外観モデルパラメータは、正規化されたマルチタスク学習フレームワークと一緒に学習されてよい（マルチタスク学習の議論に関しては、Ｔ．ＥｖｇｅｎｉｏｕおよびＭ．Ｐｏｎｔｉｌによる「Ｒｅｇｕｌａｒｉｚｅｄｍｕｌｔｉ−ｔａｓｋｌｅａｒｎｉｎｇ（正規化されたマルチタスク学習）」（ＳＩＧＫＤＤ（２００４））（以降、「Ｅｖｇｅｎｉｏｕ２００４」）を参照されたい）。統合学習において、各外観モデルは、オンラインで更新されて特有物体７６および映像全体で観察される変形に適合し、一方でマルチタスクの正規化を介して他の外観モデルと特徴を共有するよう制約される。

以前に確認されたが前フレームにはない対象物は、事前に初期化された外観モデルに基づいて位置予測を考慮せずに再初期化されてよい。したがって、追跡器は、失われた対象物をスコアリングするために外観モデル９４を単独で使用し、Ｓ１２２で検出を検証するために、より高いスコアが必要であってよい。

新しい対象物は、事前に学習された任意の学習モデルに必要な類似の閾値と適合しない（Ｓ１１２）残りの候補対象物である。先行フレームのいずれにおいても確認されない新しい対象物に対して、粒子フィルタ外観モデルおよび動作モデルは、現フレームにおいて初期化され、その後、後続フレームにおいて既存の対象物の検索および位置の予測を行うために使用される。

本明細書に開示される様々な実施形態において、例示的な追跡提案方法は、標準的なスライディングウィンドウの検出による追跡の手法で、いくつかの利点を有する。これらは、良好な物体検出、多数の対象物（および、カテゴリ）への特徴計算を共有することによる拡張性、および、ドメイン全体の伝達性に起因して、ドメイン変化へのロバスト性および明白なドメイン適合の両方の点に関して、向上した追跡正確性を含む。

ＭＯＴにおいて一般物体提案を適用することで、良好な正確性がもたらされ得る。一般提案により、候補位置の検索空間が実質的に削減され得る。任意の物体に対して、候補位置は、フレームごとに約１０００個の前提まで削減される可能性がある。結果として、追跡において（典型的に、スライディングウィンドウに基づいて）共通に使用されるものより性能のよい検出器が、使用され得る。

例示的な方法により、（任意の対象物およびカテゴリに対する）全ての検出器全体での特徴計算の共有が、提案がカテゴリおよび対象の両方と独立していることを利用することにより可能となる。計算の省力は、多くの（異なるカテゴリの可能性がある）対象物が追跡される際に特に顕著である。これにより、本方法が、群衆における追跡または異なる対象物の長期間の追跡など、共通する実際の想定に対して見積もることが可能となる。

さらに、物体提案は、ドメイン適用のために利用され得る。実際には、ＭＯＴのための訓練およびテストデータの分布は異なってよく、いくつかの追跡カメラ３２が大きなカメラネットワークに配置されてよく、または、カメラはモバイルプラットフォームにあってよい（例えば、車両に搭載されるカメラ）。本方法の物体提案部分は、端部および輪郭濃度などの物体の一般特性に依存するので、本質的にデータソースに対して不可知論的であり、それ故、ドメイン適用に適している。

本方法おおよびシステムは、例えば、実施のドメインにおける用途を見出してよい：例えば、停車した時にバスを追い抜く車両を検出するためにスクールバスに設置されたカメラ；速度違反を検出するために固定位置または街路清掃車に設置されたカメラ；固定または移動カメラからのバス車線の施行；および、街路上の駐車占有測定。

本明細書に記載される方法は、十分な正確性を提供することができ、一方で設定および運用コストを同時に削減し得る。

例示的な実施形態の範囲を限定する意図なしに、以下の実施例は本方法の用途を明示する。

データ集合：例示的な方法は、公開で入手可能なＫＩＴＴＩ追跡の課題の２１個の訓練映像における自動車追跡性能に対して評価される（Ｇｅｉｇｅｒらによる「Ａｒｅｗｅｒｅａｄｙｆｏｒａｕｔｏｎｏｍｏｕｓｄｒｉｖｉｎｇ？ＴｈｅＫＩＴＴＩｖｉｓｉｏｎｂｅｎｃｈｍａｒｋｓｕｉｔｅ（自律駆動の準備が整っているか？ＫＩＴＴＩ視覚基準一式）」（ＣＶＰＲ，ｐｐ．３３５４−３３６１，２０１２））。これは、ｈｔｔｐ：／／ｗｗｗ．ｃｖｌｉｂｓ．ｎｅｔ／ｄａｔａｓｅｔｓ／ｋｉｔｔｉ／ｅｖａｌ＿ｔｒａｃｋｉｎｇ．ｐｈｐで入手可能である。データ集合は、ドイツのカールスルーエの街および周辺で駆動されている間に、移動プラットフォームから記録された映像で構成されている。これは困難なデータ集合であり、コンピュータ視覚アルゴリズムが、典型的にロボットおよび自律駆動の用途において見出される実世界データでどのように行われるか調査するよう設計されている。これらのシーケンスは、１２４２×３７５の高解像度を有し、フレームの数、物体の数、カメラモーション、および撮像条件に関して大幅に異なる。訓練映像は、例示的な方法を異なる基準と比較するために使用される。テスト映像のグランドトルーストラックは公開で入手可能でなく、ＫＩＴＴＩ課題の評価サーバは反復の提出を許容しない。ＫＩＴＴＩ基準が追跡訓練集合を提供する一方で、例示的な方法において、検出器は別個のデータ集合において事前訓練される。ＫＩＴＴＩ映像は、全て確認されていないものとして扱われる。例示的な検出器は、監視されないオンラインドメイン適用を行う。したがって、例示的な方法は、任意の手法でこれらのシーケンスの利用可能なグランドトルーストラックを使用しない。グランドトルースは、検出器が映像の解析を終えた後に性能を評価するためにのみ使用される。追跡器は、各映像を独立的に、（ｉ）追跡評価において標準的な実践に対応する際、および、（ｉｉ）本明細書に記載されるオンラインアルゴリズムがフレームの順番に依存する際に起動し、それにより、全ての映像の任意の連結における方法を評価することが、アルゴリズムが映像を確認する順番により影響を受ける可能性がある。

事前訓練：一般自動車検出器は、訓練画像において標準的なＰａｓｃａｌＶＯＣ２００７の検出課題（Ｅｖｅｒｉｎｇｈａｍらによる「ＴｈｅＰａｓｃａｌｖｉｓｕａｌｏｂｊｅｃｔｃｌａｓｓｅｓ（ＶＯＣ）ｃｈａｌｌｅｎｇｅ（パスカル視覚物体クラスの課題）」（ＩＪＣＶ，８８（２），ｐｐ．３０３−３３８，２０１０））により、事前訓練される。このデータ集合は汎用であるので、（実験において測定される）少なくともある程度まで、より特有なタスク／ドメインへ伝達する可能性が高い事前訓練されたモデルをもたらすと期待することが合理的である。しかしながら、データ集合間に、いくつかの目立った差異がある。例えば、車両を含むＶＯＣデータ集合からの画像は、画像の大部分を占有する単一の車両のみを含むことが多く、ＫＩＴＴＩデータ集合において経験するものとは大きく異なる背景に対して設定されてよく、伝達が困難であると予想される。検出器の事前訓練は、オフラインでバッチロジスティック回帰を介して、ｌｉｂｌｉｎｅａｒ（Ｆａｎらによる「ＬＩＢＬＩＮＥＡＲ：Ａｌｉｂｒａｒｙｆｏｒｌａｒｇｅｌｉｎｅａｒｃｌａｓｓｉｆｉｃａｔｉｏｎ（ＬＩＢＬＩＮＥＡＲ：大規模な線形分類のためのライブラリ）」（ＪＭＬＲ，２００８））を使用して、Ｃｉｎｂｉｓ２０１３に記載されるようなハードネガティブマイニングを用いて行われる。ｍｉｎｉ−ＦＶＧＭＭモデル（１ガウス）は、４０％に近い平均適合率（ＡＰ）をもたらし、これはコストの一部分に対してＣｉｎｂｉｓ２０１３の結果を下回って１８％である。ロジスティック回帰は理論的には補正された確率を提供するが、事前訓練は過信した検出器をもたらす傾向があることが分かった。したがって、簡易的な再補正ステップが事前訓練データに適用され、３３％のリコールを行い（すなわち、Ｐａｓｃａｌテスト集合における物体の３番目のみを検出する）、Ｐａｓｃａｌテスト集合において約６０％の精度をもたらす。

性能測定基準：ＫＩＴＴＩ評価プロトコルは、ＭＯＴの精度（ＭＯＴＡ，アイデンティティスイッチの数と共に、誤検出および検出漏れの割合で構成される）、ＭＯＴの正確性（ＭＯＴＰ）、断片化（ＦＲＡＧ）、および、アイデンティティスイッチ（ＩＤＳ）を含む、ＣＬＥＡＲＭＯＴ測定基準（Ｂｅｒｎａｒｄｉｎらによる「ＥｖａｌｕａｔｉｎｇＭｕｌｔｉｐｌｅＯｂｊｅｃｔＴｒａｃｋｉｎｇＰｅｒｆｏｒｍａｎｃｅ：ＴｈｅＣＬＥＡＲＭＯＴＭｅｔｒｉｃｓ（複数物体の追跡性能評価：ＣＬＥＡＲＭＯＴ測定基準）」（ＥＵＲＡＳＩＰＪ．ｏｎｉｍａｇｅａｎｄＶｉｄｅｏＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．２００８，ＡｒｔｉｃｌｅＩＤ２４６３０９，２００８）を使用して続行され、正確性（Ｐ）、リコール（Ｒ）、および、誤認警報率（ＦＡＲ）と共に、大部分が追跡された（ＭＴ）および部分的に追跡された（ＰＴ）割合により補正される。ＫＩＴＴＩ追跡評価基準による公開評価コードが使用される（ｈｔｔｐ：／／ｋｉｔｔｉ．ｉｓ．ｔｕｅ．ｍｐｇ．ｄｅ／ｋｉｔｔｉ／ｄｅｖｋｉｔ＿ｔｒａｃｋｉｎｇ．ｚｉｐ）。

基準値：例示的な追跡提案（ＴＰ）方法は、相当なスライディングウィンドウＭＯＴ基準値（ＳＴ）と比較される。ＳＴ方法は、本明細書に記載されるものと同じ追跡アルゴリズムを、ＴＰ方法において使用する提案の代わりに、標準的なスライディングウィンドウ技術を使用して検出動作が行われるという差異を伴って使用する。具体的には、米国出願番号第１４／５０５，０３１号に記載される効率的なスライディングウィンドウ手法が、ＳＴ方法に対して、および、例示的なＴＰ方法において使用される追跡器に対して、使用される。

加えて、米国出願番号第１４／１９５，１５０号に記載されるドメイン適用ステップを含む、ＴＰ−ＤＡおよびＳＴ−ＤＡと称される、これらのアルゴリズムの変形が評価される（一般検出器を生成された外観モデルに基づいて更新）。

追加的に、ＴＰ方法は、ＫＩＴＴＩにおいて良好な結果をもたらす２つのオフラインのＴＢＤアルゴリズムと比較される：オフラインの関連性ベースの追跡（ＡＢＴ）型の方法：Ｐｉｒｓｉａｖａｓｈ２０１１に記載されるＤＰ−ＭＣＦ、および、Ｇｅｉｇｅｒ２０１４に記載されるＧ＿ＴＢＤ。正しい比較のために、著者の本来の追跡コードは、ＴＰ方法の提案ベースの検出と組み合わされた。

定量的な追跡結果
表１は、全てのＫＩＴＴＩ映像で比較される異なる方法に対する追跡性能測定基準を示す。測定基準は、異なる追跡性能測定器（上記に記述）を表し、ＦＡＲ（誤認警報率）、ＩＤＳ（アイデンティティスイッチ）、および、ＦＲＡＧ（断片化）を除いて、より高い性能で改良されるべきである。アスタリスクが付随している方法はオフラインであり、それ以外は因果的／オンラインである。

表１における結果は、例示的な追跡提案（ＴＰ）方法が、ＭＯＴ精度（ＭＯＴＡ）全体に関して全ての他の方法より一貫して優れていることを意味し、検出漏れ率、誤検出率、および、アイデンティティスイッチの数で構成される。これは、追跡提案方法により、正確性とリコールとの間の良好なトレードオフが取得可能となることを意味する。実際には、表１は、例示的な追跡提案方法により、他の方法よりも多い対象物が（大部分および部分的に）、高い正確性を維持しながらリコールを改良することにより追跡可能となるが、アイデンティティスイッチおよび追跡断片化の向上を犠牲にする。

ＳＴ基準値と比較すると、例示的なＴＰ方法は、ほぼ全ての測定基準で向上を示す。例えば、ＭＯＴＡおよびリコールは、（ＭＯＴＰおよびＰの両方の）高い正確性に対して約２倍である。これは、結果により証明されるように、ＴＰ方法において使用される一般提案が物体検出に適切であるだけでなく、ＭＯＴにも適切であることを意味する。さらに、これらの結果は、ＴＰ検出器が異なるデータ集合において事前訓練されることの主要因となるドメイン適応を使用する際にもたらされる。これにより、物体提案の一般的な性質により、ドメインの相違に対する頑健性に関して、または、ドメイン適応を明確に行う際に、ドメイン適応に特に適切となる。

追加的に、例示的なＴＰ方法が、このデータ集合に非常に良好な結果を与えると考えられている既存のＴＢＤ方法（ＤＰ＿ＭＣＦおよびＧ＿ＴＢＤ）より、非常に優れていることが確認され得る。それらの方法は映像シーケンス全体でデータ関連性を最適化するが、（低いＭＯＴＡ、ＭＴ、ＰＴ、および、Ｒ測定基準により測定されるような）低いリコールに対する（高いＭＯＴＰ、Ｐ、および、低いＦＡＲにより測定されるような）高い正確性により証明されるように、「容易な」トラックをほとんど生成しないようにするのみである。これは、これらの関連性ベースの追跡方法の性能が、検出の品質により駆動され、一方で例示的なオンラインのドメイン適応方法が、有用な情報を初期には不完全である検出器から効率的に抽出し得ることを示す。

Claims

フレームのシーケンスにおける複数のフレームの各々に対して、
ウィンドウの集合を、各ウィンドウに対して、前記ウィンドウが物体を含む算出確率に基づいて特定することと、
各特定されたウィンドウに対して、前記ウィンドウの多次元特徴表現を抽出することと、
訓練された検出器で、前記抽出された多次元特徴表現に基づいて、対象物の集合を検出することであって、前記集合の各対象物は、選択されたカテゴリに物体を含むと予測される前記ウィンドウの各々を含み、個々の対象物特有の外観モデルは前記対象物の各々に対して生成される、検出することと、
前記集合における前記対象物のうちの少なくとも１つを、少なくとも１つの後続フレームのために追跡することであって、前記追跡は当該の対象物に対して生成された前記対象物特有の外観モデルに基づく、追跡することと、
を備える追跡方法であって、
ウィンドウの前記集合を前記特定すること、対象物を検出すること、および、前記対象物を追跡すること、のうちの少なくとも１つは、プロセッサで行われる、追跡方法。
ラベル化された訓練画像から抽出された多次元特徴ベクトルにおいて前記検出器を訓練することをさらに備える、請求項１に記載の方法。
現フレームにおいて検出されない直前のフレームの対象物に対して、前記対象物を損失対象物として保存することをさらに備える、請求項１に記載の方法。
前記映像シーケンスの直前のフレームにおいて検出されない損失対象物の再初期化を、当該の対象物に対する外観モデルに基づいて行うことをさらに備える、請求項１に記載の方法。
閾値の数のフレームに対する高いスコアの対象物と重複する対象物をフィルタリングすることをさらに備える、請求項１に記載の方法。
前記追跡することは、現フレームの対象物に対する次フレームにおける位置を予測する動作モデルにさらに基づく、請求項１に記載の方法。
前記追跡することは、前記シーケンスの次フレームにおける前記対象物のうちの１つの位置を予測すること、および、前記選択されたカテゴリに対象物を含む前記次フレームにおけるウィンドウを、前記予測された位置および現フレームにおける前記対象物に対して生成された外観モデルに基づいてスコアリングすることを含む、請求項１に記載の方法。
前記訓練された検出器は複数の検出器を含み、各々が選択されたカテゴリの集合の各々に対応する、請求項１に記載の方法。
フレームのシーケンスにおける複数のフレームの各々に対して、各ウィンドウに対する前記ウィンドウが物体を含む算出確率に基づいてウィンドウの集合を特定する一般提案抽出器と、
前記集合における各特定されたウィンドウの多次元特徴表現を抽出するための特徴抽出器と、
対象物の集合を前記抽出された多次元特徴表現に基づいて検出するための物体検出コンポーネントであって、前記集合における各対象物は、選択されたカテゴリに物体を含むと予測される前記ウィンドウの各々を備える、物体検出コンポーネントと、
前記集合における前記対象物の各々に対して個々の対象物特有の外観モデルを生成する外観モデルコンポーネントと、
少なくとも１つの後続フレームのために前記集合における前記対象物のうちの少なくとも１つを追跡する追跡コンポーネントであって、前記追跡は当該の対象物に対して生成された前記対象物特有の外観モデルに基づく、追跡コンポーネントと、
前記一般提案抽出器、特徴抽出器、物体検出コンポーネント、外観モデルコンポーネント、および、追跡コンポーネントを実装するプロセッサと、
を備える、追跡システム。
フレームのシーケンスにおける第１のフレームに対して、
ウィンドウの第１の集合を、前記第１の集合における各ウィンドウに対して、前記ウィンドウが物体を含む算出確率に基づいて特定することと、
前記第１の集合における各特定されたウィンドウに対して、前記ウィンドウの多次元特徴表現を抽出することと、
訓練された検出器で、前記抽出された多次元特徴表現に基づいて、対象物の第１の集合を検出することであって、前記第１の集合における各対象物は、選択されたカテゴリに物体を含むと予測される前記ウィンドウの各々を備える、検出することと、
前記第１の集合における前記対象物の各々に対する個々の対象物特有の外観モデルを学習することと、
前記シーケンスの次フレームにおける前記第１の集合の前記対象物の各々に対する位置を予測することと、
を備え、
フレームの前記シーケンスにおける前記次フレームに対して、
ウィンドウの第２の集合を、前記第２の集合における各ウィンドウに対して、前記ウィンドウが物体を含む算出確率に基づいて特定することと、
前記第２の集合における各特定されたウィンドウに対して、前記ウィンドウの多次元特徴表現を抽出することと、
訓練された検出器で、前記抽出された多次元特徴表現に基づいて、対象物の第２の集合を検出することであって、前記第２の集合における各対象物は、選択されたカテゴリに物体を含むと予測される前記ウィンドウの各々を備え、対象物の前記第２の集合は予測された位置および外観モデルに基づいて特定される前記第１の集合における前記対象物のうちの少なくとも１つを含む、検出することと、
を備える追跡方法であって、
ウィンドウの前記集合を前記特定すること、前記多次元特徴表現を抽出すること、および、対象物の前記集合を検出すること、のうちの少なくとも１つは、プロセッサで行われる、追跡方法。