JP2016219004A - 一般物体提案を用いる複数物体の追跡 - Google Patents
一般物体提案を用いる複数物体の追跡 Download PDFInfo
- Publication number
- JP2016219004A JP2016219004A JP2016090268A JP2016090268A JP2016219004A JP 2016219004 A JP2016219004 A JP 2016219004A JP 2016090268 A JP2016090268 A JP 2016090268A JP 2016090268 A JP2016090268 A JP 2016090268A JP 2016219004 A JP2016219004 A JP 2016219004A
- Authority
- JP
- Japan
- Prior art keywords
- objects
- tracking
- window
- windows
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 claims abstract description 53
- 238000000034 method Methods 0.000 claims description 95
- 238000012549 training Methods 0.000 claims description 31
- 239000013598 vector Substances 0.000 claims description 18
- 238000001914 filtration Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 7
- 239000000284 extract Substances 0.000 abstract description 5
- 238000004422 calculation algorithm Methods 0.000 description 21
- 239000002245 particle Substances 0.000 description 14
- 230000000007 visual effect Effects 0.000 description 12
- 238000013459 approach Methods 0.000 description 7
- 238000007477 logistic regression Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 6
- 238000013467 fragmentation Methods 0.000 description 5
- 238000006062 fragmentation reaction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 241001465754 Metazoa Species 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 4
- 230000002085 persistent effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- FKOQWAUFKGFWLH-UHFFFAOYSA-M 3,6-bis[2-(1-methylpyridin-1-ium-4-yl)ethenyl]-9h-carbazole;diiodide Chemical compound [I-].[I-].C1=C[N+](C)=CC=C1C=CC1=CC=C(NC=2C3=CC(C=CC=4C=C[N+](C)=CC=4)=CC=2)C3=C1 FKOQWAUFKGFWLH-UHFFFAOYSA-M 0.000 description 1
- 241000251468 Actinopterygii Species 0.000 description 1
- 206010068829 Overconfidence Diseases 0.000 description 1
- 241000282320 Panthera leo Species 0.000 description 1
- 241001417527 Pempheridae Species 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
Abstract
【課題】映像シーケンスにおける異なるカテゴリの複数の物体を追跡する。【解決手段】物体追跡のためのシステムは、ウィンドウの集合を、各ウィンドウが物体を含む算出確率に基づいて特定する提案抽出器と、ウィンドウの多次元特徴表現を抽出する特徴抽出器と、抽出された多次元特徴表現に基づいて、対象物の集合を検出する、各対象物が、選択されたカテゴリに物体を含むと予測される前記ウィンドウの各々を含み、個々の対象物特有の外観モデルを対象物各々に対して生成する物体検出コンポーネントと、前記集合における対象物のうちの少なくとも1つを、当該の対象物に対して生成された特有の外観モデルに基づいて追跡する追跡コンポーネントとを有する。ウィンドウの集合を特定すること、対象物を検出すること及び対象物を追跡することのうちの少なくとも1つは、プロセッサで行われる。【選択図】図1
Description
例示的な実施形態は、映像データの自動分析に関し、映像ストリームにおける自動車など既知のカテゴリの物体を自動的に検出および追跡することを伴う、複数物体の追跡(MOT)と関連する特定の用途を見出す。
一般物体の検出方法は、物体を含む可能性が高い物体位置の候補の限定集合を、物体が所属するカテゴリに関わらず、物体の一般的な特性(例えば、外形)に依存して予測するために使用されてきた。多くの用途において、画像における特有の物体を検出および配置する能力は、有用な情報を提供する。複数物体の追跡における目的は、映像ストリームおよび意味的クラス(例えば、「自動車」または「歩行者」)を考慮すると、映像ストリームのフレームにおけるクラスの個々の物体を、物体が時間と共に移動する際に追跡することである。物体が存在する可能性が高い画像領域は、通常は、境界ボックスまたはウィンドウと称される矩形により予測される。ウィンドウは、物体の予想サイズおよび形状にしたがって、サイズおよびアスペクト比が変化し得る。物体検出は、同じクラスの物体のインスタンスの多様性、撮像条件(視点、環境、照明)の多様性、および、検索空間のスケール(典型的には、単一フレームに対して無数の候補領域)に部分的に起因して、困難なタスクである。
既存の物体検出アルゴリズムは、検出に二項分類の問題が生じる:候補ウィンドウおよび候補クラスを考慮すると、目的はウィンドウが考慮されるクラスの物体を含むか否か判定することである。これは、一般的に、ウィンドウを表す特徴ベクトルを計算すること、および、例えば、線形SVMなどの二項分類器である検出器で特徴ベクトルを分類すること、を含む。検出器がスライディングウィンドウの手法でフレーム全体に適用され、最大スコアを有する位置が対象物体の可能な新しい位置を特定する。スライディングウィンドウは、多数の可能な候補ウィンドウを精査するために使用されてよい。この手法において、ウィンドウは、段階的に画像全体に固定的な増分で移動されるため、複数の重複ウィンドウに対する決定が計算される。例えば、強調されたカスケードと組み合わされたHOG検出器は、人物検出をトラックと結び付けるために使用されている。Breitensteinらによる「Robust tracking−by−detection using a detector confidence particle filter(検出器信頼性の粒子フィルタを使用する検出によるロバスト追跡)」(ICCV,pp.1515−1522,2009)を参照されたい。
実際には、この手法は、異なるサイズおよびアスペクト比のウィンドウを使用して、物体を複数のスケールで異なる形状を用いて異なる視点から検出する。結果として、画像ごとに多数のウィンドウがテストされる。したがって、計算コストが実際の実装に際して主要な障害の1つとなる。最近では、コストの高い包括的な検索を速く活用することにより高速化して、低レベルの特徴を安価な分類器で計算する試みが行われている。例えば、Hallらによる「Online,Real−Time Tracking Using a Category−to−Individual Detector(個々の検出器に対するカテゴリを使用するオンラインのリアルタイム追跡)」(ECCV 2014)は、Dollarらによる「Fast feature pyramids for object detection(物体検出のための高速特徴ピラミッド)」(PAMI 2014)(以降、Dollar 2014)の統合チャネル特徴、および、個々の物体検出器を学習するための強調された分類器のカスケード、に依存している。本方法は、単一の特徴抽出/分類の複雑性を削減することを目的としているが、複雑性は標準的なスライディングウィンドウ手法の場合と同じである。
より近年の物体検出器は、包括的なスライディングウィンドウ検索を回避するよう開発されている。代わりに、それらの検出器は、物体の一般的な特性(例えば、外形)を使用して生成され、画像において視認可能な物体のほとんどが重複する、カテゴリの不可知論的な物体位置の提案の限定集合を使用する。その後、これらの提案は、カテゴリ特有の分類器を使用してランク付けされる。例えば、以下を参照されたい:van de Sandeらによる「Segmentation as selective search for object recognition(選択的な検索としての物体認識のための分割)」(ICCV,pp.1879−1886,2011)(以降、「van de Sande 2011」);Cinbisらによる「Segmentation driven object detection with Fisher vectors(フィッシャーベクトルを用いる分割駆動の物体検出)」(ICCV,pp.2968−2975,2013)(以降、「Cinbis 2013」);Girshickらによる「Rich feature hierarchies for accurate object detection and semantic segmentation(正確な物体検出および意味論的な分割のための豊富な特徴階層)」(CVPR,2014)。しかしながら、そのような物体提案は、追跡に適応されていない。
既存のMOTアルゴリズムは、物体検出の分野における近年の改良に依存している。例えば、以下を参照されたい:Breitensteinらによる「Online Multi−Person Tracking−by−Detection from a Single, Uncalibrated Camera(単一の未補正カメラによるオンラインの検出による複数人物の追跡)」(IEEE PAMI,33:9,pp.1820−1333(2011))(以降、「Breitenstein 2011」);Pirsiavashらによる「Globally−optimal greedy algorithms for tracking a variable number of objects(可変数の物体を追跡するための全体的に最適な欲張りアルゴリズム)」(CVPR,pp.1201−1208,2011)(以降、Pirsiavash 2011);Milanらによる「Continuous Energy Minimization for Multi−Target Tracking(複数対象物の追跡のための継続的なエネルギー最小化)」(PAMI,36:1,pp.58−72,2014);Geigerらによる「3D Traffic Scene Understanding from Movable Platforms(可動プラットフォームによる3次元の交通場面の理解)」(PAMI,36:5,pp.1012−1025,2014)(以降、「Geiger 2014」);Hallらによる「Online, Real−Time Tracking Using a Category−to−Individual Detector(個々の検出器に対するカテゴリを使用するオンラインのリアルタイム追跡)」(ECCV,2014);Collinsらによる「Hybrid Stochastic/Deterministic Optimization for Tracking Sports Players and Pedestrians(スポーツ選手および歩行者を追跡するためのハイブリッドな確率論的/決定論的最適化)」(ECCV,2014)。検出による追跡(TBD)は、単眼の映像ストリームにおける物体追跡のための標準的な方法である。これは、正確な外観モデルが映像における物体を確実に追跡するのに十分であるという所見に依存している。したがって、ほとんどのMOT手法は、検出をトラックに結び付けるのに最適な手法を探すため、物体検出の性能に直接的に依存する。
例示的な実施形態の1つの態様によると、追跡方法は、連続フレームにおける複数のフレームの各々に対して、各ウィンドウが物体を含む算出確率に基づいてウィンドウの集合を特定することを含む。各特定されたウィンドウに対して、ウィンドウの多次元特徴表現が抽出される。訓練された検出器を用いて、抽出された多次元特徴表現に基づいて、対象物の集合が検出される。集合における各対象物は、選択されたカテゴリに物体を含むと予測されるウィンドウの各々を含む。各々の対象物特有の外観モデルが、対象物の各々に対して生成(例えば、学習または更新)される。集合における対象物のうちの少なくとも1つは、少なくとも1つの後続フレームのために追跡され、追跡は当該の対象物に対して生成される対象物特有の外観モデルに基づく。
ウィンドウの集合を特定すること、対象物を検出すること、および、対象物を追跡すること、のうちの少なくとも1つは、プロセッサで行われてよい。
例示的な実施形態の別の態様によると、追跡システムは、連続フレームにおける複数のフレームの各々に対してウィンドウの集合を、各ウィンドウに対する、ウィンドウが物体を含む算出確率に基づいて特定する、一般提案抽出器を含む。特徴抽出器が、集合における各々の特定されたウィンドウの多次元特徴表現を抽出するために提供される。物体検出コンポーネントは、抽出された多次元特徴表現に基づいて対象物の集合を検出するために提供される。集合における各対象物は、選択されたカテゴリに物体を含むと予測されるウィンドウの各々を含む。外観モデルコンポーネントは、集合における対象物の各々に対する個々の対象物特有の外観モデルを生成するために提供される。追跡コンポーネントは、少なくとも1つの後続フレームの集合における対象物のうちの少なくとも1つを追跡するために提供される。追跡は、当該の対象物に対して生成される対象物特有の外観モデルに基づく。プロセッサは、一般提案抽出器、特徴抽出器、物体検出コンポーネント、外観モデルコンポーネント、および、追跡コンポーネントを実装する。
例示的な実施形態の別の態様によると、追跡方法は、連続フレームにおける第1のフレームに対してウィンドウの第1の集合を、第1の集合における各ウィンドウに対する、ウィンドウが物体を含む算出確率に基づいて特定することを含む。第1の集合における各々の特定されたウィンドウに対して、ウィンドウの多次元特徴表現が抽出される。訓練された検出器を用いて、抽出された多次元特徴表現に基づいて対象物の第1の集合が検出され、第1の集合における各対象物は、選択されたカテゴリに物体を含むと予測されるウィンドウの各々を含む。各々の対象物特有の外観モデルは、第1の集合における対象物の各々に対して学習される。シーケンスの次フレームにおける第1の集合の対象物の各々に対して、位置が予測される。連続フレームにおける次フレームに対して、本方法は、ウィンドウの第2の集合を、第2の集合における各ウィンドウに対する、ウィンドウが物体を含む算出確率に基づいて特定することを含む。第2の集合における各々の特定されたウィンドウに対して、ウィンドウの多次元特徴表現が抽出される。訓練された抽出器を用いて、抽出された多次元特徴表現に基づいて対象物の第2の集合が検出される。第2の集合における各対象は、選択されたカテゴリに物体を含むと予測されるウィンドウの各々を含み、対象物の第2の集合は、予測された位置および外観モデルに基づいて特定される第1の集合に対象物のうちの少なくとも1つを含む。
ウィンドウの集合を特定すること、多次元特徴表現を抽出すること、および、対象物の集合を検出すること、のうちの少なくとも1つは、プロセッサで行われてよい。
例示的な実施形態の態様は、複数物体の追跡(MOT)に適切な物体追跡のためのシステムおよび方法に関する。したがって、システムおよび方法により、映像ストリームにおける既知のカテゴリ(単数または複数)の物体の自動検出および追跡が可能となる。
様々な実施形態において、システムおよび方法は、映像における複数の物体を追跡する際の問題に対処する:一般物体提案(候補ウィンドウ)が各フレームにおいて提示され、特徴が各提案から抽出され、その後、提案レベルの予測が粒子フィルタ(対象物ごとに1つ)を使用して結合されて、連続フレーム全体で対象物を追跡する。様々な発見的問題解決法が、新しい対象物を作成または2つの対象物を合併する時期を決定するのに適用されてよい。さらに、本方法は、スライディングウィンドウベースのアルゴリズムとは対照的に、一般物体提案の生成アルゴリズムによりなされる前提が少ないほど、ドメイン全体での伝達性が向上する。
本方法は実例的な例において示され、高い正確性、拡張性、および伝達性をもたらすため有益となる。正確性は、例えば、多くの好ましくない前提を拒絶することにより、および、より高価なモデルの使用を許容することにより、向上する。追跡アルゴリズムの拡張性は、例えば、複数の提案の間で共有する特徴を介して向上する。ドメイン全体の伝達性は、例えば、スライディングウィンドウベースのアルゴリズムとは対照的に、一般物体提案の生成アルゴリズムによりなされる前提が少ないため、向上する。
本明細書において使用される場合、「物体」という用語は、車両、ナンバープレート、他の製造品、建物などの無生物体(または、無生物体の群)、または、人物または人物の群、または、動物または動物の群などの有生物体(または、無生物体の群)を指す。具体的には、「物体」という用語は、システムにより使用されるカメラによって撮像され得る物理的な物体を指す。
物体の例示的なカテゴリは、車両(または、例えば自動車など、特定の種類の車両)、動物(または、例えば人物など、特定の種類の動物)など、移動する/移動可能な物体を含む。実例的な実施形態が自動車および人物の検出を記載する一方で、他のカテゴリも考慮されることが留意される。各カテゴリは、単一の物体よりも、少なくとも2つの物体の集合を網羅し、一般的には、より多くの異なる物体を網羅する。
例示的なシステムおよび方法は、候補物体の集合を検出するための一般物体提案に基づくMOTアルゴリズムを適用する。本方法の例示的な一般物体提案の一部分において、目的は、物体が属するカテゴリに関わらず、物体を先天的に含む可能性が高い候補物体位置の限定集合を予測することである。一般物体提案は、一般的に、物体を検出するために端部および輪郭濃度などの物体の特徴を探す。候補物体がフレームにおいて特定されると、自動車または人物など対象の特定カテゴリにある物体を検出するよう訓練された1つ以上の分類器を使用して、物体が分類される。分類器からの出力は、特定の物体を複数のフレーム全体で追跡するために、映像シーケンスにおける他のフレームから生じる追跡情報と組み合わされ得る。
図1を参照すると、物体追跡のためのコンピュータ実装システム10が図示されている。システムは、入力として、連続する時間に撮像された画像の映像シーケンス12または「フレーム」14、16、18などを取得し、追跡情報20をシーケンスにおいて検出された物体に基づいて出力する。システム10は、図2を参照して記載される方法を行うための命令24を保存するメモリ22、および、命令を実行するためにメモリと通信するプロセッサデバイス26を含む。1つ以上のネットワーク入力/出力(I/O)インタフェース28、30は、ビデオカメラ32などのシーケンス撮像デバイスからシーケンス12を受信するために、および、それらに基づいて情報20を出力するために、提供される。システムのハードウェアコンポーネント22、26、28、30は、データ/制御バス34を介して通信する。システム10は、図示されたサーバコンピュータ36など、1つ以上の計算デバイスにより管理されてよい。システムは、撮像デバイス32または中間サーバコンピュータなどの外部デバイスと、インターネットなどの有線または無線ネットワーク38を介して通信されてよい。
例示的なソフトウェア命令24は、一般提案抽出コンポーネント(提案抽出器)40、特徴抽出器42、物体検出コンポーネント44、追跡コンポーネント46、予測コンポーネント48、再初期化コンポーネント50、スコアリングコンポーネント52、フィルタリングコンポーネント54、外観モデルコンポーネント56、および、訓練コンポーネント58を含む。
訓練コンポーネント58がオフライン段階で使用され、分類器モデル(例えば、二項分類器)60、62などの物体検出器を各対象カテゴリ(例えば、自動車、人物など)に対して、物体検出コンポーネント44により使用するために、事前訓練する。訓練は、異なる場面全体で再使用され得る汎用的にラベル化されたデータ集合64を使用して、行われてよい。訓練データ64は画像の集合を含んでよく、各々が対象カテゴリに物体を備える。訓練コンポーネント58は、訓練が行われていた場合は省略されてよい。1つの実施形態において、訓練は別個の計算デバイスで行われ、訓練された検出器60、62はコンピュータ36へ入力される。
さらに図3を参照すると、実行時に、提案抽出器40は、入力として、入力された映像シーケンス12の各々の時間tに対応する第1のフレーム14を取得する。フレームは、1つ以上の物体70、72、74、76、78などを含んでよい。提案抽出器40は、一般物体提案を生成する(すなわち、物体の位置を予測する)。提案は、フレームに任意の種類の物体を含む可能性が高いウィンドウ(境界ボックス)のリストの形式であってよい。例えば、ウィンドウ80、82、84、86、88などの集合が生成され、各々が候補物体を位置付ける。明白であるように、ウィンドウの一部は、任意の対象カテゴリにはない物体を位置付けてよい。
特徴抽出器42は、ウィンドウ80、82、84、86、88の各々から視覚特徴を抽出し、そこから各境界ボックスの多次元表現90を生成する。類似の手法において、訓練中に、特徴抽出器42は、訓練画像64の各々から特徴を抽出し、そこから各訓練画像の多次元表現92を生成する。留意されるように、訓練画像は、各々が個々のラベル化された(大きい)訓練画像から提案抽出器40により抽出される境界ボックスに対応してよい。
物体検出コンポーネント44は、事前訓練された一般カテゴリ検出器60、62を使用して、フレームにおける候補対象物72、74、76、78(事前定義されたカテゴリの1つにある一般物体提案)を検出する。第1のフレームで、対象カテゴリのうちの1つに物体を含むと予測されるウィンドウ82、84、86、88などの各々は、新しい対象物を含むと見なされる。
新しい対象物94は、事前訓練された分類器60、62で、少なくとも閾値(例えば、30%)分だけ既に追跡された対象物と重複しない提案を全て分類することにより、自動的に検出される。したがって、検出された各対象は、対象カテゴリのうちの1つ(または、複数)に対するカテゴリの確率と関連付けられる。
追跡コンポーネント46は、粒子フィルタなど、検出コンポーネント44により検出される各物体を追跡するための追跡器96、98を初期化する。粒子フィルタは、次フレームに対する各候補対象の位置を、現フレームにおける位置に基づいて予測するために使用される。留意されるように、本方法は、映像シーケンスにおいて撮像される全てのフレームを処理する必要がないため、次フレームは、処理のために選択される次フレームであってよい。例えば、フレーム14を考えると、時間tに、フレーム16において時間t+1に起こる可能性が高い候補対象物72、74、76、78の各々に対して、予測が行われる。例として、境界ボックス86を考えると、粒子フィルタ46は、個々の対象物76が後続フレーム16における領域100に存在する可能性が高いと予測してよい(実際には、物体提案の各「粒子」の位置が予測される)。粒子フィルタ96、98は、実例的な対象物74および76など既に追跡された対象物(先のフレームに存在する対象物)に対応してよい検出物体をスコアリングするために、対象物特有の外観モデル102、104および個々の動作モデル106、108を使用する。
再初期化コンポーネント50は、事前に失われた対象物の位置を、各損失対象物の最後の外観モデル102、104で各一般提案の特徴を分類することにより、過去のフレームにおける前の位置を使用せずに再初期化しようと試みる。
追跡コンポーネントの一部であってよい予測コンポーネント48は、各フレームに存在する検出コンポーネント44および再初期化コンポーネント50により検出される候補対象をスコアリングする。予測コンポーネント48は、粒子フィルタの予測された位置出力を考慮して、検出された位置にある特定の候補対象物の尤度に基づく各候補対象物に対する確率を出力する。
フィルタリングコンポーネント54は、候補対象物を事前定義された発見的問題解決法に基づいてフィルタリングする。例えば、最も可能性のあるカテゴリに対して閾値T1(50%など)を下回る確率を割り当てた候補対象物が、特定されてよい。その後、これらの候補対象物は、一時的に「失われる」。すなわち、特定された対象物として当該のフレームに対する追跡情報に含まれないが、外観モデルは将来の使用のために保存される。少なくとも3個または4個のフレームなど、最小数のフレームに対して、閾値T2(30%など)を上回る同じ高さのスコアリングと重複する対象物が、対象の集合から除去される。その後、このように特定された対象のフィルタリングされた集合が、位置、カテゴリおよびカテゴリID(例えば、人物1)によりメモリに保存される。
外観モデルコンポーネント56は、各々の視認可能な(すなわち、損失していない)特定対象物の外観モデル102、104を、現フレームtにおける予測位置(境界ボックス)を肯定的な例として使用することにより、および、他の(候補)対象物と重複しない無作為の否定的な境界ボックスを使用することにより、生成(既存の対象物に対しては更新、または、新しい対象物に対しては学習)する。追加の肯定的な例は、対象物に対する境界ボックスを数画素分だけ1つ以上の方向にずらすことにより、および/または、サイズを増大または減少することにより、生成されてよい。したがって、検出された対象物の各々は、後続フレームにおける当該の対象物を再初期化するために使用される個々の対象特有の外観モデルと関連付けられる。
システム10は、デスクトップなどのPC、ラップトップ、パームトップコンピュータ、携帯情報端末(PDA)、サーバコンピュータ、セルラー電話、タブレットコンピュータ、ポケットベル、それらの組合せ、または、例示的な方法を行うための命令を実行可能な他の計算デバイスなど、1つ以上の計算デバイス36に常駐してよい。留意されるように、システム10の一部は、2つ以上の計算デバイスに分散されてよい。
メモリ22は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、磁気ディスクまたはテープ、光ディスク、フラッシュメモリ、または、ホログラフィックメモリなど、任意の種類の持続性コンピュータ可読媒体を表してよい。1つの実施形態において、メモリ22は、ランダムアクセスメモリおよび読み出し専用メモリの組合せを備える。一部の実施形態において、プロセッサ26およびメモリ22は、単一チップに組み合わされてよい。
ネットワークインタフェース28、30は、コンピュータ36が、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)などのコンピュータネットワークまたはインターネットなど、有線または無線リンクを介して他のデバイスと通信できるようにし、変調器/復調器(モデム)、ルータ、ケーブル、および/または、イーサネット(登録商標)ポートを備えてよい。
デジタルプロセッサ26は、シングルコアプロセッサ、デュアルコアプロセッサ(または、より一般的には、多重コアプロセッサ)、デジタルプロセッサおよび協働する数値演算コプロセッサ、デジタルコントローラなどにより、様々に具現化され得る。デジタルプロセッサ26は、コンピュータ36の動作を制御することに加えて、図2に概要が示される方法を行うためにメモリ22に保存された命令を実行する。
本明細書において使用される場合、「ソフトウェア」という用語は、コンピュータまたは他のデジタルシステムを、ソフトウェアの意図するタスクを行うよう構成するために、コンピュータまたは他のデジタルシステムにより実行可能な命令の任意のコレクションまたは集合を網羅することを意図する。本明細書において使用される場合、「ソフトウェア」という用語は、RAM、ハードディスク、光ディスクなどの保存媒体に保存される、そのような命令を網羅することを意図し、さらに、ROMなどに保存されるソフトウェアである、いわゆる「ファームウェア」を網羅することを意図する。そのようなソフトウェアは、様々な手法で体系化されてよく、ライブラリ、遠隔サーバなどに保存されるインターネットベースのプログラム、ソースコード、解釈コード、オブジェクトコード、直接的に実行可能なコードなどとして体系化されるソフトウェアコンポーネントを含んでよい。ソフトウェアが、システムレベルのコードまたはコールを、サーバまたは他の位置に常駐する他のソフトウェアへ呼び出して、特定の機能を行ってよいことが予期される。
ここで図2を参照すると、映像ストリームにおいて対象物を追跡するための方法が図示されている。本方法は、S100で開始される。
オフライン段階で行われ得るS102で、対象カテゴリ(例えば、自動車または人物)に対する物体検出器60、62は、異なる場面で再使用され得る汎用的なラベル化されたデータ集合を使用して訓練される。Cinbis 2013におけるものと類似の検出器学習手法が使用されてよく、これはロジスティック回帰およびハードネガティブマイニングに基づいている。
オンラインの追跡段階において、続く手順は、新しいフレームtが映像ストリームから入手可能である際にはいつでも実施されてよい。
S104で、フレーム16などの次フレームが受信され、一時的にメモリ22に保存されてよい。
S106で、一般物体提案110、112、114、116など(図3)は、監視されない手法で生成される。具体的には、任意の種類の物体をフレームtに含む可能性が高いk個のウィンドウのリストが、提案抽出器40により、個々のウィンドウが物体を含む算出確率に基づいて生成される。
S108で、視覚特徴が、一般物体提案110、112、114、116の各々から特徴抽出器42により抽出される。
S110で、S108で抽出された一般物体提案は、事前訓練された検出器60、62で、抽出された視覚特徴に基づいて分類される。
S112で、S108で抽出された一般物体提案は、(先のフレームにおいて検出された対象物に対して学習された)対象物特有の外観モデル102、104で、抽出された視覚特徴に基づいて分類される。
S114で、新しい対象物94が、事前訓練された検出器(複数可)60、62で、閾値を上回る分だけ既に追跡された対象物74、76などと重複しない一般物体提案102の全てを分類することにより、自動的に検出される。
S116で、各(新しくない)対象物74、76(および、78)に対して、現フレームtにおける位置の予測が、前フレームt−1における予測位置から、粒子フィルタ46を用いてなされる。
S118で、再初期化が行われてよく、可能である場合、任意の事前に失われた対象物の位置(複数可)を、各損失対象物の最後の外観モデルで提案特徴を分類することにより、過去のフレームにおける前の位置を使用せずに特定する。任意の再初期化された対象物は、S114およびS116で特定された候補対象物74、76のリストに追加される。
S120で、各々の追跡された対象物74、76、78は、粒子フィルタにより予測された尤度に基づいてスコアリングされる。
S122で、候補対象物が検出器の閾値τ1(例えば、50%)を下回る確率を有する場合、S124で、一時的に失われた対象物(対象78など)のリストに別個に保存される。そうでない場合、本方法はS126へ進む。
S126で、候補対象物が少なくとも閾値の数のフレームに対して閾値τ2(例えば、30%)を上回る分だけ同じ高さのスコアリング対象物と重複する場合、同じ対象物に対応するという見解から除外される。そうでない場合、本方法はS128へ進む。
S128で、各視認可能な(すなわち、失われていない)対象物74、76、94などの個々の外観モデル102、104などが、外観モデルコンポーネント56により生成(すなわち、既存の対象に対して更新、または、新しい対象94に対して学習)される。これは、現フレームtにおける予測位置を肯定的な例として使用することにより、および、他の対象物と重複しないランダムネガティブを否定的な例として使用することにより、行われてよい。外観モデルはメモリに保存される。選択的に、一般検出器60、62は、個々のカテゴリに対して生成される外観モデルの少なくとも一部に基づいて更新される。
S130で、各特定(視認可能な)対象物のIDおよびフレームにおける位置が保存される。
S132で、シーケンスにおける新しいフレームが受信されると、本方法はS104に戻り、そうでない場合は、S134へ進む。
S134で、追跡情報20が、各フレーム、検出対象物の1つ以上のIDおよびカテゴリ、および位置などに対して、出力されてよい。本方法は、S136で終了する。
図2に図示される方法は、コンピュータ上で実行されてよいコンピュータプログラム製品に実装されてよい。コンピュータプログラム製品は、ディスク、ハードドライブなど、制御プログラムが記録(保存)される持続性コンピュータ可読記録媒体を備えてよい。持続性コンピュータ可読媒体の一般的な形式は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、または、任意の他の磁気保存媒体、CD−ROM、DVD、または、任意の他の光媒体、RAM、PROM、EPROM、FLASH−EPROM、または、他のメモリチップまたはカートリッジ、または、コンピュータが読み込みおよび使用し得る他の持続性媒体を含む。コンピュータプログラム製品は、コンピュータ36と統合されてよく(例えば、RAMの内部ハードドライブ)、または、分離されてよく(例えば、コンピュータ36と動作可能に接続される外部ハードドライブ)、または、分離されてローカルエリアネットワーク(LAN)またはインターネットなどのデジタルデータネットワークを介してアクセスされてよい(例えば、安価な独立ディスクの冗長アレイ(RAID)、または、コンピュータ36によりデジタルネットワークを介して間接的にアクセスされる他のネットワークサーバストレージ)。
代替的に、本方法は、制御プログラムが、例えば、電波および赤外線データ通信などの間に生成されるような音波または光波などの伝送媒体を使用するデータ信号として具現化される、伝送可能な搬送波などの一時的媒体に実装されてよい。
例示的な方法は、1つ以上の汎用コンピュータ、専用コンピュータ(複数可)、プログラム化されたマイクロプロセッサまたはマイクロコントローラおよび周辺集積回路素子、ASICまたは他の集積回路、デジタル信号プロセッサ、個別素子回路などの配線接続された電子回路または論理回路、PLD、PLA、FPGA、グラフィカルカードCPU(GPU)、またはPALなどのプログラマブル論理デバイスなどに実装されてよい。一般的に、図2に示されるフローチャートを順番に実装可能な有限状態機器を実装可能な任意のデバイスが、本方法を実装するために使用され得る。
留意されるように、本方法のステップは全てコンピュータ実装であってよい一方で、一部の実施形態において、1つ以上のステップは、少なくとも部分的に手動で行われてよい。さらに留意されるように、本方法のステップは、全てが図示される順番で進む必要はなく、より少ないステップ、より多いステップ、または、異なるステップが行われてよい。
本方法およびシステムのさらなる例示的な態様が、ここに記載される。
複雑性分析
特徴計算の共有および本方法における一般物体提案の使用により、検出動作における大幅な計算の省力化が、カテゴリレベルで事前訓練された検出器(複数可)60、62、および、さらに粒子フィルタにより使用される対象物特有の検出器で可能となる。さらに、線形物体検出器60、62を使用する場合、検出動作は、外観モデル94、96の行列と事前計算された特徴行列(提案の視覚表現90)との間の効率的な行列−行列の積として行われることが可能であり、後者はモデル全体で共有される。結果として、追跡提案(TP)アルゴリズムは、以下の式におけるフレームごとの複雑性を有する:
特徴計算の共有および本方法における一般物体提案の使用により、検出動作における大幅な計算の省力化が、カテゴリレベルで事前訓練された検出器(複数可)60、62、および、さらに粒子フィルタにより使用される対象物特有の検出器で可能となる。さらに、線形物体検出器60、62を使用する場合、検出動作は、外観モデル94、96の行列と事前計算された特徴行列(提案の視覚表現90)との間の効率的な行列−行列の積として行われることが可能であり、後者はモデル全体で共有される。結果として、追跡提案(TP)アルゴリズムは、以下の式におけるフレームごとの複雑性を有する:
ここで、ntはフレームtにおける(一時的に失われた、または、現段階で追跡されている)モデル化された対象物の数であり、pはモデル化されたカテゴリの数(例えば、自動車および歩行者の両方に関連する場合は2)であり、dは特徴の次元性であり、kはフレームごとの提案の数(例えば、
に固定)であり、cは1つのセルまたは画像サブ領域の特徴を抽出するコストであり、密行列間の「教科書的な」行列の乗算実装と仮定する。
対照的に、従来のスライディングウィンドウ手法は、各可能な位置で特徴の全てを抽出することを回避する技術に依存するため、各モデルに対するフル画像で、モデル全体で共有される計算をせずに完全に再実行される。したがって、比較可能な追跡方法のためにスライディングウィンドウベースの検出器を使用することは、実際には非常に拡張しにくいスライディング追跡器(ST)をもたらす:
ここで、K(d)≫dは、フレーム全体のスライディングウィンドウ検索を信号モデルで実行する際の複雑性である。
検出器を起動することは、一般的に、MOTに対するTBD手法の計算の障害である。したがって、例示的なアルゴリズムは、結果的に、対象物およびカテゴリ全体で償却される計算コストを大幅に全体的に削減することになる。加えて、追跡のための一般物体提案を使用することにより生じる計算の効率性により、Breitenstein 2011の低レベルの特徴における増大されたカスケードなど、効率的な追跡のために一般的に使用されるものよりも複雑な特徴および分類器の活用が可能となる。
一般物体提案の生成(S106)
一般物体提案(ウィンドウ)の生成は、個々の物体のカテゴリを予測せずに、ほとんどの物体が共通して有する特性に基づいて達成される。このステップにおいて、フレーム14、16ごとの一般物体提案の最大数(または、総数)が設定されてよく(1000または5000など)、これにより生成され得るウィンドウの数を制限する。追加的または代替的に、確率閾値が設定されてよく、これにより物体を含む事前定義された閾値確率を下回る全ての候補物体提案を除外する。フレームごとの一般物体提案の(最大)数を設定することは、正確性と効率性との間のトレードオフであり、ウィンドウが多いほど、当該の対象物体が見出される可能性が高くなるが、計算時間が犠牲になる。提案抽出器40は、フレームごとに少なくとも100個のウィンドウなど、フレームのコンテンツに依存して任意の数のこのようなウィンドウを抽出してよい。
一般物体提案(ウィンドウ)の生成は、個々の物体のカテゴリを予測せずに、ほとんどの物体が共通して有する特性に基づいて達成される。このステップにおいて、フレーム14、16ごとの一般物体提案の最大数(または、総数)が設定されてよく(1000または5000など)、これにより生成され得るウィンドウの数を制限する。追加的または代替的に、確率閾値が設定されてよく、これにより物体を含む事前定義された閾値確率を下回る全ての候補物体提案を除外する。フレームごとの一般物体提案の(最大)数を設定することは、正確性と効率性との間のトレードオフであり、ウィンドウが多いほど、当該の対象物体が見出される可能性が高くなるが、計算時間が犠牲になる。提案抽出器40は、フレームごとに少なくとも100個のウィンドウなど、フレームのコンテンツに依存して任意の数のこのようなウィンドウを抽出してよい。
物体提案の生成は、監視されない手法で、ウィドウのサイズ(画素の総数)および/または形状(各次元の画素数)に制限を設けることなく進み得る。例えば、フレーム全体のサイズまでの任意のサイズであり得る。ウィンドウは、典型的に相互に重複し、したがって、所与の物体は1つ超のウィンドウにおいて見出されてよい。
物体提案の生成にはいくつかの方法が利用可能である。Hosangらによる「How good are detection proposals, really?(検出提案は本当にそれほどよいのか?)」(BMVC 2014)は、多くの方法の要約を提供する。例として、以下のうちの任意のものが、個別に使用されてよく、または、組合せて使用されてよい:選択的な検索(van de Sande 2011);オブジェクトネス(Alexeらによる「Measuring the objectness of image windows(画像ウィンドウのオブジェクトネスの測定)」PAMI 2012);制約的なパラメータの最小カット(Carreiraらによる「Constrained Parametric Min−Cuts for Automatic Object Segmentation(自動物体分割のための制約的なパラメータの最小カット)」CVPR,pp.3241−3248,2010);多重スケールの組合せグループ化(Arbelaezらによる「Multiscale combinatorial grouping(多重スケールの組合せグループ化)」CVPR 2014);BING(Chengらによる「BING:Binarized normal gradients for objectness estimation at 300fps(BING:毎秒300フレームのオブジェクトネス予測のための二項化されたノルム勾配)」CVPR 2014);および、端部ボックス(Zitnickらによる「Edge Boxes:Locating Object Proposals from Edges(端部ボックス:端部からの物体提案の位置付け)」ECCV,Lecture Notes in Computer Science,Vol.8693,pp.391−405,2014)。
1つの例示的な実施形態(以下の実施例に使用される)において、ZitnickおよびDollar 2014の端部ボックスが適用される。この方法は、画像分割により完全に包囲される曲線の数がウィンドウにおける物体の存在の良好な予測因子であるという推定に依存している。これらの提案は、2つの主な理由で追跡に特に適用される:制限された計算コストで良好な正確性をもたらす(著者によると元の最適化されていないMatlabコードで画像ごとに0.02秒);および、主な推定(物体が典型的な背景エリアよりも完全に包囲された曲線を含む)が、典型的な対象物体(例えば、人物、車両)および実世界の追跡場面における背景の自然(例えば、道路の場面)の両方に起因して、実世界の追跡用途に当てはまることが多く、ここで視界領域の多くの部分は、道路、歩道、および空など、大きい不定形のエリアである。
しかしながら、他の一般物体提案方法が、検出による追跡のフレームワークで使用され得る。
特徴抽出(S102,S108)
訓練および検出において使用される特徴抽出コンポーネントは、S106で特定されるウィンドウの各々から(または、訓練画像から)特徴を抽出し、ウィンドウの表現を抽出された特徴に基づいて生成する。適切な特徴は、パッチレベルで、例えば、複数のパッチをウィンドウから抽出することにより、および、各パッチに対して、色および/または勾配特徴など、後に統合(例えば、連結)される低レベルの特徴を抽出することにより、抽出されて、パッチ記述子を形成し得る。多次元のウィンドウレベル(または、訓練画像)表現90、92は、パッチ記述子から生成される。各表現90、92は、少なくとも50個、または少なくとも100個、または少なくとも1000個の特徴など、同じ数の特徴(次元)を含み、一部の実施形態において、100万個まで、または10万個まで、または5000個までの特徴を含む。
訓練および検出において使用される特徴抽出コンポーネントは、S106で特定されるウィンドウの各々から(または、訓練画像から)特徴を抽出し、ウィンドウの表現を抽出された特徴に基づいて生成する。適切な特徴は、パッチレベルで、例えば、複数のパッチをウィンドウから抽出することにより、および、各パッチに対して、色および/または勾配特徴など、後に統合(例えば、連結)される低レベルの特徴を抽出することにより、抽出されて、パッチ記述子を形成し得る。多次元のウィンドウレベル(または、訓練画像)表現90、92は、パッチ記述子から生成される。各表現90、92は、少なくとも50個、または少なくとも100個、または少なくとも1000個の特徴など、同じ数の特徴(次元)を含み、一部の実施形態において、100万個まで、または10万個まで、または5000個までの特徴を含む。
1つの実施形態において、フィッシャーベクトル(FV)表現など高次元の特徴表現が物体検出のために使用される。そのような表現は、通常、スライディングウィンドウベースの検出には計算的に高価であり過ぎる。簡潔には、FVは、ガウス混合モデル(GMM)など下層の発生モデルのパラメータに対して、記述子(パッチ記述子など)の対数尤度の勾配を計算することに関与する。ガウス混合モデルは、局所的な記述子が全て放出されると推定されるガウス関数の集合を含む。各ガウス関数は、平均ベクトルおよび共分散行列を含むパラメータの集合により表現され得る。したがって、各局所的な記述子は、重みベクトルにより特徴づけられ、各々が各ガウス関数の考慮されるパラメータである。例えば、少なくとも1個、または少なくとも16個、または少なくとも32個、または少なくとも64個、または少なくとも128個、または少なくとも512個のガウスが、GMMに存在する。共分散行列は対角図であると推定され得る。ベクトルの平方根および全体的な正規化が使用され得る。ウィンドウのセルへの分割は、その後に統合されて最終的なウィンドウ表現において空間情報を提供し得る、各セルに対するベクトルをもたらすために使用され得る。例えば、以下を参照されたい:Sanchezらによる「Image classification with the Fisher vector:Theory and practice(フィッシャーベクトルを用いた画像分類:理論と実践)」IJCV,105(3):222−245,2013;Perronninらによる「Improving the fisher kernel for large−scale image classification(大規模な画像分類のためのフィッシャーカーネルの改良)」Proc.11th European Conference on Computer Vision(ECCV):Part IV,pp.143−156,2010;Sanchezらによる「High−dimensional signature compression for large−scale image classification(大規模な画像分類のための高次元のシグネチャ圧縮)」CVPR 2011;Perronninらによる「Fisher kernels on visual vocabularies for image categorization(画像カテゴリ化のための視覚語彙におけるフィッシャーカーネル)」CVPR 2007;および、米国公開番号第20120076401号および第20120045134号。訓練されたGMMは、任意の画像のコンテンツを対象領域内に記載することを意図する(例えば、街路の場面に存在する物体)。
以下に記載される実施例において、速度およびメモリ消費の両方に関して、追跡のために十分に計算的に効率的である検出器を構築するよう設計される修正を伴って、Cinbisらの方法に大まかに従っている。これらの検出器では、局所的なパッチは、(最低のスケールで12×12のサイズのパッチを伴って)各フレームから8個のスケールで密に抽出される。パッチは、SIFT(勾配)特徴により表され(Loweによる「Distinctive image features from scale−invariant keypoints(スケールが不変のキーポイントからの別個の画像特徴)」(IJCV,60:91−110,2004)を参照)、PCAを使用して64次元と推定される。その後、推定された記述子は、受け入れ可能な性能を維持しながらFV次元性を大幅に削減する手法である、単一のガウスを介するFVとしてコード化される(Perronninらによる「Large−scale image retrieval with compressed fisher vectors(圧縮されたフィッシャーベクトルを用いた大規模な画像検索)」(CVPR,pp.3384−3391,2010)を参照)。粗幾何学が空間プールにより考慮される:ウィンドウは4×4のセルの標準グリッドにさらに分割され、各セルはFVにより記載される。セル単位、または、ウィンドウ単位のFVは、平方根およびl2正規化が適用される最終的な2176次元のシグネチャに連結され、ウィンドウ表現90を生成する。
留意されるように、高次元の表現は、一般的に高い認識性能をもたらすが、速度およびメモリの両方に関して高いコストをもたらす。しかしながら、MOT方法において、対象表現が再特定のために持続的に保存される場合、保存コストが重要になる可能性がある。実施例において使用される比較的に低次元のシグネチャは、良好な効率性と正確性とのトレードオフを提示し、検出による追跡においての使用に特に適切となる。しかしながら、メモリ容量が多いと、表現のサイズの重要性が減少する可能性がある。
例示的な追跡提案アルゴリズムが、深層学習(畳み込みまたは神経ネットワークベース)表現など、ウィンドウの画素の特徴を表す任意の特徴表現を使用して適用され得ることが、さらに言及されるべきである。例えば、Donahueらによる「DeCAF:A Deep Convolutional Activation Feature for Generic Visual Recognition(一般視覚認識のための深層畳み込み起動特徴)」(ICML,pp.647−655,2014年6月)を参照されたい。
訓練物体検出器(S102)および物体検出(S110)
訓練において、検出のために使用されるのと同じ種類の特徴ベースの多次元表現が使用される。訓練画像64の集合の各々は、手動で自動車または人物などの物体カテゴリでラベル化される。各カテゴリに対して、カテゴリでラベル化された画像の表現92が肯定的な訓練画像として使用され、異なるカテゴリでラベル化された画像または対象カテゴリを伴わない画像が、個々の検出器60、62などを訓練するために否定的なサンプルとして使用される。
訓練において、検出のために使用されるのと同じ種類の特徴ベースの多次元表現が使用される。訓練画像64の集合の各々は、手動で自動車または人物などの物体カテゴリでラベル化される。各カテゴリに対して、カテゴリでラベル化された画像の表現92が肯定的な訓練画像として使用され、異なるカテゴリでラベル化された画像または対象カテゴリを伴わない画像が、個々の検出器60、62などを訓練するために否定的なサンプルとして使用される。
分類器の訓練は、Cinbisらによる「Segmentation driven object detection with Fisher vectors(フィッシャーベクトルを用いる分割駆動の物体検出)」(ICCV,pp.2968−2975,2013)の方法で、ロジスティック回帰およびハードネガティブマイニングに基づいて行われてよい。
その後、訓練された分類器60、62は、物体検出のために使用される。
一部の実施形態において、検出器60、62は、オンライン段階において収集されるデータを使用して対象ドメインに適用される。例えば、S128で、個々の初期の検出器60を伴うカテゴリの閾値(高い)確率を有する一般物体提案に対して生成される複数の学習された個別の外観モデルが組み合わされ、更新されたカテゴリレベルの検出器60を生成する。
オンラインの追跡段階において、新しいフレームtが映像ストリームから入手可能である場合は常に、一般物体提案80、82、84、86、88、112は、学習されたカテゴリ特有の線形分類器60、62のうちの少なくとも1つでスコアリングされる。分類器60はベクトルw∈Rdによりパラメータ化され、ここでdは表現の次元である。分類器は、特徴ベクトルφt(x)∈Rdにより表される、フレームztにおける候補ウィンドウxが、例えば、式(3)など、分類器ベクトルwおよびウィンドウの特徴ベクトル90の積の関数である確率P(x|zt;w)を伴う対象カテゴリの物体を含む確率を返す。
外観モデル(ベクトル)62であるwiがwの代わりに方程式(3)において同様に使用され、ウィンドウがウィンドウにおいて事前に特定された物体iを含む確率を計算し得。
分類器(複数可)60、62が、例えば、ロジスティック回帰を介して学習されてよい(S102)。例えば、分類器ベクトルwは、ロジスティック回帰を介して、正規化された経験的なリスク最小化アルゴリズムを使用してロジスティック損失に基づいて予測されてよい。
ここで、yは既知のラベル(例えば、自動車であるか否かなどの二項ラベル)である。wは反復して更新され、損失を最小化する。
この方程式は方程式(3)で補正された確率を提供し、オンライン最適化のための有益な理論特性を有する(Bachらによる「Non−strongly−convex smooth stochastic approximation with convergence rate O(1/n)(収束率O(1/n)を用いる強くない凸上の滑らかな確率近似)」(NIPS 26:773−781,2013)を参照)。
対象物の追跡(S114−S120)
任意のフレーム(最初と異なる)において検出された対象物は、1つ以上の新しい対象物(以前に確認された対象物)、前フレームにおいて確認された1つ以上の既存の対象物、および/または、先のフレームにおいて確認されなかったが1つ以上の先行フレームにおいて確認され、後に失われた1つ以上の再初期化された対象物、を含んでよい。各種類の対象物に対する追跡プロセスは、わずかに異なって進み得る。
任意のフレーム(最初と異なる)において検出された対象物は、1つ以上の新しい対象物(以前に確認された対象物)、前フレームにおいて確認された1つ以上の既存の対象物、および/または、先のフレームにおいて確認されなかったが1つ以上の先行フレームにおいて確認され、後に失われた1つ以上の再初期化された対象物、を含んでよい。各種類の対象物に対する追跡プロセスは、わずかに異なって進み得る。
各既存の対象物に対して、追跡コンポーネント46は、現フレームにおける当該の対象物の位置の予測を、t−1での前フレームにおける予測された位置から、当該の対象物に対する初期化された粒子フィルタを使用して行う(S116)。これは、例えば、以下に記載されるように、寛容なTBD手法を適用してよい:Breitenstein 2011;Isardらによる「Condensation−conditional density propagation for visual tracking(視覚追跡のための濃縮条件の濃度伝搬)」(IJCV,vol.29,pp.5−28,1998)。
既存の対象物の追跡のための他の適切な方法は、上述された米国出願番号第14/505,031号に記載されている。ここに開示される方法は、肯定的−否定的(P−N)学習に基づく、検索による追跡のアルゴリズムを適用する(例えば、Z.Kalalらによる「Tracking−learning−detection(追跡学習検出)」(IEEE TPAMI 34(7):1409−1422(2012),「Kalal 2012」)を参照)が、このフレームワークを複数の対象物の追跡へ、マルチタスク学習を使用して拡張する。これを例示的な方法に適用することで、所与の対象物に対する境界ボックス86を考慮すると、追跡器は、物体インスタンス76がシーケンス12における少なくとも1つの後続の画像に位置付けられると予測される1つ以上の候補の境界物体領域100を予測する。予測された物体領域(複数可)は保存される。
既存の対象物をスコアリングするために、各追跡器は、例えば、外観モデル94など、個々の検出された対象物に対して事前に初期化された個々のインスタンスレベルの外観検出器、および、候補物体領域100を予測する個々の動作モデル110を利用してよい。例示的な実施形態において、粒子フィルタは、ウィンドウをスコアリングするための対象物特有のモデルに加えて、カテゴリに対する一般モデルを使用する。1つの実施形態において、各追跡器により使用される外観検出器に対する外観モデルパラメータは、正規化されたマルチタスク学習フレームワークと一緒に学習されてよい(マルチタスク学習の議論に関しては、T.EvgeniouおよびM.Pontilによる「Regularized multi−task learning(正規化されたマルチタスク学習)」(SIGKDD(2004))(以降、「Evgeniou 2004」)を参照されたい)。統合学習において、各外観モデルは、オンラインで更新されて特有物体76および映像全体で観察される変形に適合し、一方でマルチタスクの正規化を介して他の外観モデルと特徴を共有するよう制約される。
以前に確認されたが前フレームにはない対象物は、事前に初期化された外観モデルに基づいて位置予測を考慮せずに再初期化されてよい。したがって、追跡器は、失われた対象物をスコアリングするために外観モデル94を単独で使用し、S122で検出を検証するために、より高いスコアが必要であってよい。
新しい対象物は、事前に学習された任意の学習モデルに必要な類似の閾値と適合しない(S112)残りの候補対象物である。先行フレームのいずれにおいても確認されない新しい対象物に対して、粒子フィルタ外観モデルおよび動作モデルは、現フレームにおいて初期化され、その後、後続フレームにおいて既存の対象物の検索および位置の予測を行うために使用される。
本明細書に開示される様々な実施形態において、例示的な追跡提案方法は、標準的なスライディングウィンドウの検出による追跡の手法で、いくつかの利点を有する。これらは、良好な物体検出、多数の対象物(および、カテゴリ)への特徴計算を共有することによる拡張性、および、ドメイン全体の伝達性に起因して、ドメイン変化へのロバスト性および明白なドメイン適合の両方の点に関して、向上した追跡正確性を含む。
MOTにおいて一般物体提案を適用することで、良好な正確性がもたらされ得る。一般提案により、候補位置の検索空間が実質的に削減され得る。任意の物体に対して、候補位置は、フレームごとに約1000個の前提まで削減される可能性がある。結果として、追跡において(典型的に、スライディングウィンドウに基づいて)共通に使用されるものより性能のよい検出器が、使用され得る。
例示的な方法により、(任意の対象物およびカテゴリに対する)全ての検出器全体での特徴計算の共有が、提案がカテゴリおよび対象の両方と独立していることを利用することにより可能となる。計算の省力は、多くの(異なるカテゴリの可能性がある)対象物が追跡される際に特に顕著である。これにより、本方法が、群衆における追跡または異なる対象物の長期間の追跡など、共通する実際の想定に対して見積もることが可能となる。
さらに、物体提案は、ドメイン適用のために利用され得る。実際には、MOTのための訓練およびテストデータの分布は異なってよく、いくつかの追跡カメラ32が大きなカメラネットワークに配置されてよく、または、カメラはモバイルプラットフォームにあってよい(例えば、車両に搭載されるカメラ)。本方法の物体提案部分は、端部および輪郭濃度などの物体の一般特性に依存するので、本質的にデータソースに対して不可知論的であり、それ故、ドメイン適用に適している。
本方法おおよびシステムは、例えば、実施のドメインにおける用途を見出してよい:例えば、停車した時にバスを追い抜く車両を検出するためにスクールバスに設置されたカメラ;速度違反を検出するために固定位置または街路清掃車に設置されたカメラ;固定または移動カメラからのバス車線の施行;および、街路上の駐車占有測定。
本明細書に記載される方法は、十分な正確性を提供することができ、一方で設定および運用コストを同時に削減し得る。
例示的な実施形態の範囲を限定する意図なしに、以下の実施例は本方法の用途を明示する。
データ集合:例示的な方法は、公開で入手可能なKITTI追跡の課題の21個の訓練映像における自動車追跡性能に対して評価される(Geigerらによる「Are we ready for autonomous driving?The KITTI vision benchmark suite(自律駆動の準備が整っているか?KITTI視覚基準一式)」(CVPR,pp.3354−3361,2012))。これは、http://www.cvlibs.net/datasets/kitti/eval_tracking.phpで入手可能である。データ集合は、ドイツのカールスルーエの街および周辺で駆動されている間に、移動プラットフォームから記録された映像で構成されている。これは困難なデータ集合であり、コンピュータ視覚アルゴリズムが、典型的にロボットおよび自律駆動の用途において見出される実世界データでどのように行われるか調査するよう設計されている。これらのシーケンスは、1242×375の高解像度を有し、フレームの数、物体の数、カメラモーション、および撮像条件に関して大幅に異なる。訓練映像は、例示的な方法を異なる基準と比較するために使用される。テスト映像のグランドトルーストラックは公開で入手可能でなく、KITTI課題の評価サーバは反復の提出を許容しない。KITTI基準が追跡訓練集合を提供する一方で、例示的な方法において、検出器は別個のデータ集合において事前訓練される。KITTI映像は、全て確認されていないものとして扱われる。例示的な検出器は、監視されないオンラインドメイン適用を行う。したがって、例示的な方法は、任意の手法でこれらのシーケンスの利用可能なグランドトルーストラックを使用しない。グランドトルースは、検出器が映像の解析を終えた後に性能を評価するためにのみ使用される。追跡器は、各映像を独立的に、(i)追跡評価において標準的な実践に対応する際、および、(ii)本明細書に記載されるオンラインアルゴリズムがフレームの順番に依存する際に起動し、それにより、全ての映像の任意の連結における方法を評価することが、アルゴリズムが映像を確認する順番により影響を受ける可能性がある。
事前訓練:一般自動車検出器は、訓練画像において標準的なPascal VOC 2007の検出課題(Everinghamらによる「The Pascal visual object classes(VOC) challenge(パスカル視覚物体クラスの課題)」(IJCV,88(2),pp.303−338,2010))により、事前訓練される。このデータ集合は汎用であるので、(実験において測定される)少なくともある程度まで、より特有なタスク/ドメインへ伝達する可能性が高い事前訓練されたモデルをもたらすと期待することが合理的である。しかしながら、データ集合間に、いくつかの目立った差異がある。例えば、車両を含むVOCデータ集合からの画像は、画像の大部分を占有する単一の車両のみを含むことが多く、KITTIデータ集合において経験するものとは大きく異なる背景に対して設定されてよく、伝達が困難であると予想される。検出器の事前訓練は、オフラインでバッチロジスティック回帰を介して、liblinear(Fanらによる「LIBLINEAR:A library for large linear classification(LIBLINEAR:大規模な線形分類のためのライブラリ)」(JMLR,2008))を使用して、Cinbis 2013に記載されるようなハードネガティブマイニングを用いて行われる。mini−FV GMMモデル(1ガウス)は、40%に近い平均適合率(AP)をもたらし、これはコストの一部分に対してCinbis 2013の結果を下回って18%である。ロジスティック回帰は理論的には補正された確率を提供するが、事前訓練は過信した検出器をもたらす傾向があることが分かった。したがって、簡易的な再補正ステップが事前訓練データに適用され、33%のリコールを行い(すなわち、Pascalテスト集合における物体の3番目のみを検出する)、Pascalテスト集合において約60%の精度をもたらす。
性能測定基準:KITTI評価プロトコルは、MOTの精度(MOTA,アイデンティティスイッチの数と共に、誤検出および検出漏れの割合で構成される)、MOTの正確性(MOTP)、断片化(FRAG)、および、アイデンティティスイッチ(IDS)を含む、CLEAR MOT測定基準(Bernardinらによる「Evaluating Multiple Object Tracking Performance:The CLEAR MOT Metrics(複数物体の追跡性能評価:CLEAR MOT測定基準)」(EURASIP J.on image and Video Processing,Vol.2008,Article ID 246309,2008)を使用して続行され、正確性(P)、リコール(R)、および、誤認警報率(FAR)と共に、大部分が追跡された(MT)および部分的に追跡された(PT)割合により補正される。KITTI追跡評価基準による公開評価コードが使用される(http://kitti.is.tue.mpg.de/kitti/devkit_tracking.zip)。
基準値:例示的な追跡提案(TP)方法は、相当なスライディングウィンドウMOT基準値(ST)と比較される。ST方法は、本明細書に記載されるものと同じ追跡アルゴリズムを、TP方法において使用する提案の代わりに、標準的なスライディングウィンドウ技術を使用して検出動作が行われるという差異を伴って使用する。具体的には、米国出願番号第14/505,031号に記載される効率的なスライディングウィンドウ手法が、ST方法に対して、および、例示的なTP方法において使用される追跡器に対して、使用される。
加えて、米国出願番号第14/195,150号に記載されるドメイン適用ステップを含む、TP−DAおよびST−DAと称される、これらのアルゴリズムの変形が評価される(一般検出器を生成された外観モデルに基づいて更新)。
追加的に、TP方法は、KITTIにおいて良好な結果をもたらす2つのオフラインのTBDアルゴリズムと比較される:オフラインの関連性ベースの追跡(ABT)型の方法:Pirsiavash 2011に記載されるDP−MCF、および、Geiger 2014に記載されるG_TBD。正しい比較のために、著者の本来の追跡コードは、TP方法の提案ベースの検出と組み合わされた。
定量的な追跡結果
表1は、全てのKITTI映像で比較される異なる方法に対する追跡性能測定基準を示す。測定基準は、異なる追跡性能測定器(上記に記述)を表し、FAR(誤認警報率)、IDS(アイデンティティスイッチ)、および、FRAG(断片化)を除いて、より高い性能で改良されるべきである。アスタリスクが付随している方法はオフラインであり、それ以外は因果的/オンラインである。
表1は、全てのKITTI映像で比較される異なる方法に対する追跡性能測定基準を示す。測定基準は、異なる追跡性能測定器(上記に記述)を表し、FAR(誤認警報率)、IDS(アイデンティティスイッチ)、および、FRAG(断片化)を除いて、より高い性能で改良されるべきである。アスタリスクが付随している方法はオフラインであり、それ以外は因果的/オンラインである。
表1における結果は、例示的な追跡提案(TP)方法が、MOT精度(MOTA)全体に関して全ての他の方法より一貫して優れていることを意味し、検出漏れ率、誤検出率、および、アイデンティティスイッチの数で構成される。これは、追跡提案方法により、正確性とリコールとの間の良好なトレードオフが取得可能となることを意味する。実際には、表1は、例示的な追跡提案方法により、他の方法よりも多い対象物が(大部分および部分的に)、高い正確性を維持しながらリコールを改良することにより追跡可能となるが、アイデンティティスイッチおよび追跡断片化の向上を犠牲にする。
ST基準値と比較すると、例示的なTP方法は、ほぼ全ての測定基準で向上を示す。例えば、MOTAおよびリコールは、(MOTPおよびPの両方の)高い正確性に対して約2倍である。これは、結果により証明されるように、TP方法において使用される一般提案が物体検出に適切であるだけでなく、MOTにも適切であることを意味する。さらに、これらの結果は、TP検出器が異なるデータ集合において事前訓練されることの主要因となるドメイン適応を使用する際にもたらされる。これにより、物体提案の一般的な性質により、ドメインの相違に対する頑健性に関して、または、ドメイン適応を明確に行う際に、ドメイン適応に特に適切となる。
追加的に、例示的なTP方法が、このデータ集合に非常に良好な結果を与えると考えられている既存のTBD方法(DP_MCFおよびG_TBD)より、非常に優れていることが確認され得る。それらの方法は映像シーケンス全体でデータ関連性を最適化するが、(低いMOTA、MT、PT、および、R測定基準により測定されるような)低いリコールに対する(高いMOTP、P、および、低いFARにより測定されるような)高い正確性により証明されるように、「容易な」トラックをほとんど生成しないようにするのみである。これは、これらの関連性ベースの追跡方法の性能が、検出の品質により駆動され、一方で例示的なオンラインのドメイン適応方法が、有用な情報を初期には不完全である検出器から効率的に抽出し得ることを示す。
Claims (10)
- フレームのシーケンスにおける複数のフレームの各々に対して、
ウィンドウの集合を、各ウィンドウに対して、前記ウィンドウが物体を含む算出確率に基づいて特定することと、
各特定されたウィンドウに対して、前記ウィンドウの多次元特徴表現を抽出することと、
訓練された検出器で、前記抽出された多次元特徴表現に基づいて、対象物の集合を検出することであって、前記集合の各対象物は、選択されたカテゴリに物体を含むと予測される前記ウィンドウの各々を含み、個々の対象物特有の外観モデルは前記対象物の各々に対して生成される、検出することと、
前記集合における前記対象物のうちの少なくとも1つを、少なくとも1つの後続フレームのために追跡することであって、前記追跡は当該の対象物に対して生成された前記対象物特有の外観モデルに基づく、追跡することと、
を備える追跡方法であって、
ウィンドウの前記集合を前記特定すること、対象物を検出すること、および、前記対象物を追跡すること、のうちの少なくとも1つは、プロセッサで行われる、追跡方法。 - ラベル化された訓練画像から抽出された多次元特徴ベクトルにおいて前記検出器を訓練することをさらに備える、請求項1に記載の方法。
- 現フレームにおいて検出されない直前のフレームの対象物に対して、前記対象物を損失対象物として保存することをさらに備える、請求項1に記載の方法。
- 前記映像シーケンスの直前のフレームにおいて検出されない損失対象物の再初期化を、当該の対象物に対する外観モデルに基づいて行うことをさらに備える、請求項1に記載の方法。
- 閾値の数のフレームに対する高いスコアの対象物と重複する対象物をフィルタリングすることをさらに備える、請求項1に記載の方法。
- 前記追跡することは、現フレームの対象物に対する次フレームにおける位置を予測する動作モデルにさらに基づく、請求項1に記載の方法。
- 前記追跡することは、前記シーケンスの次フレームにおける前記対象物のうちの1つの位置を予測すること、および、前記選択されたカテゴリに対象物を含む前記次フレームにおけるウィンドウを、前記予測された位置および現フレームにおける前記対象物に対して生成された外観モデルに基づいてスコアリングすることを含む、請求項1に記載の方法。
- 前記訓練された検出器は複数の検出器を含み、各々が選択されたカテゴリの集合の各々に対応する、請求項1に記載の方法。
- フレームのシーケンスにおける複数のフレームの各々に対して、各ウィンドウに対する前記ウィンドウが物体を含む算出確率に基づいてウィンドウの集合を特定する一般提案抽出器と、
前記集合における各特定されたウィンドウの多次元特徴表現を抽出するための特徴抽出器と、
対象物の集合を前記抽出された多次元特徴表現に基づいて検出するための物体検出コンポーネントであって、前記集合における各対象物は、選択されたカテゴリに物体を含むと予測される前記ウィンドウの各々を備える、物体検出コンポーネントと、
前記集合における前記対象物の各々に対して個々の対象物特有の外観モデルを生成する外観モデルコンポーネントと、
少なくとも1つの後続フレームのために前記集合における前記対象物のうちの少なくとも1つを追跡する追跡コンポーネントであって、前記追跡は当該の対象物に対して生成された前記対象物特有の外観モデルに基づく、追跡コンポーネントと、
前記一般提案抽出器、特徴抽出器、物体検出コンポーネント、外観モデルコンポーネント、および、追跡コンポーネントを実装するプロセッサと、
を備える、追跡システム。 - フレームのシーケンスにおける第1のフレームに対して、
ウィンドウの第1の集合を、前記第1の集合における各ウィンドウに対して、前記ウィンドウが物体を含む算出確率に基づいて特定することと、
前記第1の集合における各特定されたウィンドウに対して、前記ウィンドウの多次元特徴表現を抽出することと、
訓練された検出器で、前記抽出された多次元特徴表現に基づいて、対象物の第1の集合を検出することであって、前記第1の集合における各対象物は、選択されたカテゴリに物体を含むと予測される前記ウィンドウの各々を備える、検出することと、
前記第1の集合における前記対象物の各々に対する個々の対象物特有の外観モデルを学習することと、
前記シーケンスの次フレームにおける前記第1の集合の前記対象物の各々に対する位置を予測することと、
を備え、
フレームの前記シーケンスにおける前記次フレームに対して、
ウィンドウの第2の集合を、前記第2の集合における各ウィンドウに対して、前記ウィンドウが物体を含む算出確率に基づいて特定することと、
前記第2の集合における各特定されたウィンドウに対して、前記ウィンドウの多次元特徴表現を抽出することと、
訓練された検出器で、前記抽出された多次元特徴表現に基づいて、対象物の第2の集合を検出することであって、前記第2の集合における各対象物は、選択されたカテゴリに物体を含むと予測される前記ウィンドウの各々を備え、対象物の前記第2の集合は予測された位置および外観モデルに基づいて特定される前記第1の集合における前記対象物のうちの少なくとも1つを含む、検出することと、
を備える追跡方法であって、
ウィンドウの前記集合を前記特定すること、前記多次元特徴表現を抽出すること、および、対象物の前記集合を検出すること、のうちの少なくとも1つは、プロセッサで行われる、追跡方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/714,505 | 2015-05-18 | ||
US14/714,505 US9443320B1 (en) | 2015-05-18 | 2015-05-18 | Multi-object tracking with generic object proposals |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016219004A true JP2016219004A (ja) | 2016-12-22 |
Family
ID=55963177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016090268A Pending JP2016219004A (ja) | 2015-05-18 | 2016-04-28 | 一般物体提案を用いる複数物体の追跡 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9443320B1 (ja) |
EP (1) | EP3096292A1 (ja) |
JP (1) | JP2016219004A (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019096006A (ja) * | 2017-11-21 | 2019-06-20 | キヤノン株式会社 | 情報処理装置、情報処理方法 |
JP2019153112A (ja) * | 2018-03-05 | 2019-09-12 | 日本電信電話株式会社 | 物体追跡装置、物体追跡方法、及びコンピュータプログラム |
JP2020500759A (ja) * | 2016-12-02 | 2020-01-16 | バイエリシエ・モトーレンウエルケ・アクチエンゲゼルシヤフト | 単眼動画データに基づく車両の挙動推定システム及び方法 |
JP2020160921A (ja) * | 2019-03-27 | 2020-10-01 | Necソリューションイノベータ株式会社 | 画像認識装置、画像認識方法、及びプログラム |
US10891516B2 (en) | 2018-03-13 | 2021-01-12 | Fujitsu Limited | Non-transitory computer-readable recording medium, learning method, and learning apparatus |
KR20220068373A (ko) * | 2020-11-19 | 2022-05-26 | 연세대학교 산학협력단 | Cctv 환경에서의 보행자 추적 장치 및 방법 |
JP2022528847A (ja) * | 2019-03-28 | 2022-06-16 | アークソフト コーポレイション リミテッド | 手によるハンドルの把握状態の検出方法及び装置 |
JP2022542949A (ja) * | 2019-07-30 | 2022-10-07 | 華為技術有限公司 | 歩行者検出方法及び装置、コンピュータ読み取り可能な記憶媒体並びにチップ |
WO2023062754A1 (ja) * | 2021-10-13 | 2023-04-20 | 日本電気株式会社 | 物体追跡処理装置、物体追跡処理方法及び非一時的なコンピュータ可読媒体 |
JP7517733B2 (ja) | 2022-03-15 | 2024-07-17 | 延世大学校 産学協力団 | マルチスケールオブジェクト探知装置及び方法 |
Families Citing this family (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016006626A (ja) * | 2014-05-28 | 2016-01-14 | 株式会社デンソーアイティーラボラトリ | 検知装置、検知プログラム、検知方法、車両、パラメータ算出装置、パラメータ算出プログラムおよびパラメータ算出方法 |
US9639777B1 (en) * | 2015-12-17 | 2017-05-02 | Linear Algebra Technologies Limited | Systems and methods for providing an image classifier |
US11176423B2 (en) * | 2016-10-24 | 2021-11-16 | International Business Machines Corporation | Edge-based adaptive machine learning for object recognition |
GB2556923B (en) * | 2016-11-25 | 2020-04-15 | Canon Kk | Generation of VCA Reference results for VCA Auto-setting |
US10657424B2 (en) * | 2016-12-07 | 2020-05-19 | Samsung Electronics Co., Ltd. | Target detection method and apparatus |
EP3340104B1 (en) * | 2016-12-21 | 2023-11-29 | Axis AB | A method for generating alerts in a video surveillance system |
US11205120B2 (en) | 2016-12-22 | 2021-12-21 | Samsung Electronics Co., Ltd | System and method for training deep learning classification networks |
US10699184B2 (en) * | 2016-12-29 | 2020-06-30 | Facebook, Inc. | Updating predictions for a deep-learning model |
KR102585234B1 (ko) * | 2017-01-19 | 2023-10-06 | 삼성전자주식회사 | 전자 기기를 위한 비전 인텔리전스 관리 |
CN108509436B (zh) * | 2017-02-24 | 2022-02-18 | 阿里巴巴集团控股有限公司 | 一种确定推荐对象的方法、装置及计算机存储介质 |
EP3593318A4 (en) * | 2017-03-08 | 2020-11-25 | Quantum RGB Ltd. | BIOMETRIC IDENTIFICATION SYSTEM AND METHOD |
CN108664844A (zh) * | 2017-03-28 | 2018-10-16 | 爱唯秀股份有限公司 | 卷积深度神经网络的图像目标语义识别及追踪 |
US10699139B2 (en) | 2017-03-30 | 2020-06-30 | Hrl Laboratories, Llc | System for real-time object detection and recognition using both image and size features |
US10891488B2 (en) | 2017-03-30 | 2021-01-12 | Hrl Laboratories, Llc | System and method for neuromorphic visual activity classification based on foveated detection and contextual filtering |
US11055872B1 (en) * | 2017-03-30 | 2021-07-06 | Hrl Laboratories, Llc | Real-time object recognition using cascaded features, deep learning and multi-target tracking |
US10997421B2 (en) | 2017-03-30 | 2021-05-04 | Hrl Laboratories, Llc | Neuromorphic system for real-time visual activity recognition |
CN108733042B (zh) * | 2017-04-19 | 2021-11-09 | 上海汽车集团股份有限公司 | 自动驾驶车辆的目标跟踪方法及装置 |
CN109426800B (zh) * | 2017-08-22 | 2021-08-13 | 北京图森未来科技有限公司 | 一种车道线检测方法和装置 |
WO2019092312A1 (en) * | 2017-11-13 | 2019-05-16 | Aalto-Korkeakoulusäätiö Sr | Method of creating workflow instructions |
CN108470332B (zh) * | 2018-01-24 | 2023-07-07 | 博云视觉(北京)科技有限公司 | 一种多目标跟踪方法及装置 |
CN110163033B (zh) * | 2018-02-13 | 2022-04-22 | 京东方科技集团股份有限公司 | 正样本获取方法、行人检测模型生成方法和行人检测方法 |
CN108665481B (zh) * | 2018-03-27 | 2022-05-31 | 西安电子科技大学 | 多层深度特征融合的自适应抗遮挡红外目标跟踪方法 |
US11205274B2 (en) * | 2018-04-03 | 2021-12-21 | Altumview Systems Inc. | High-performance visual object tracking for embedded vision systems |
WO2019206413A1 (en) * | 2018-04-26 | 2019-10-31 | Telefonaktiebolaget Lm Ericsson (Publ) | Object tracking and detection in augmented reality applications |
CA3051525A1 (en) * | 2018-08-08 | 2020-02-08 | Sohail Zangenehpour | Apparatus and method for detecting, classifying and tracking road users on frames of video data |
US20210185585A1 (en) | 2018-08-14 | 2021-06-17 | Telefonaktiebolaget Lm Ericsson (Publ) | User plane setup during 5g system to evolved packet system handover |
CN109241972B (zh) * | 2018-08-20 | 2021-10-01 | 电子科技大学 | 基于深度学习的图像语义分割方法 |
CN109325967B (zh) * | 2018-09-14 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 目标跟踪方法、装置、介质以及设备 |
CN109492584A (zh) * | 2018-11-09 | 2019-03-19 | 联想(北京)有限公司 | 一种识别跟踪方法和电子设备 |
EP3891650A1 (en) * | 2018-12-03 | 2021-10-13 | Telefonaktiebolaget LM Ericsson (publ) | Distributed computation for real-time object detection and tracking |
US11562171B2 (en) | 2018-12-21 | 2023-01-24 | Osaro | Instance segmentation by instance label factorization |
CN111860081B (zh) * | 2019-04-30 | 2024-08-02 | 北京嘀嘀无限科技发展有限公司 | 一种时间序列信号的分类方法、装置以及电子设备 |
DE102019208008A1 (de) * | 2019-05-31 | 2020-12-03 | Robert Bosch Gmbh | Verfahren und Vorrichtung zum sicheren Zuordnen identifizierter Objekte in Videobildern |
CN112419362B (zh) * | 2019-08-21 | 2023-07-07 | 中国人民解放军火箭军工程大学 | 一种基于先验信息特征学习的运动目标跟踪方法 |
US11017538B2 (en) * | 2019-10-24 | 2021-05-25 | Microsoft Technology Licensing, Llc | Multiple object tracking |
US11636385B2 (en) * | 2019-11-04 | 2023-04-25 | International Business Machines Corporation | Training an object detector using raw and unlabeled videos and extracted speech |
US11048976B2 (en) * | 2019-11-11 | 2021-06-29 | Midea Group Co., Ltd. | Method and system for controlling machines based on object recognition |
CN111460926B (zh) * | 2020-03-16 | 2022-10-14 | 华中科技大学 | 一种融合多目标跟踪线索的视频行人检测方法 |
CN111881760B (zh) * | 2020-06-30 | 2021-10-08 | 深圳金三立视频科技股份有限公司 | 输电线路防外破识别方法及终端 |
CN112258559B (zh) * | 2020-10-26 | 2024-05-07 | 上海萱闱医疗科技有限公司 | 一种基于多目标跟踪的智能跑步计时评分系统和方法 |
CN112712051B (zh) * | 2021-01-12 | 2024-07-26 | 腾讯科技(深圳)有限公司 | 对象跟踪方法、装置、计算机设备及存储介质 |
CN112785627A (zh) * | 2021-02-02 | 2021-05-11 | 电子科技大学 | 一种基于重识别技术的多目标跟踪方法 |
US11816889B2 (en) | 2021-03-29 | 2023-11-14 | International Business Machines Corporation | Unsupervised video representation learning |
CN113343795B (zh) * | 2021-05-24 | 2024-04-26 | 广州智慧城市发展研究院 | 一种目标关联视频追踪处理方法 |
CN113409359B (zh) * | 2021-06-25 | 2022-11-29 | 之江实验室 | 一种基于特征聚合的多目标跟踪方法 |
CN113435319B (zh) * | 2021-06-25 | 2022-05-10 | 重庆邮电大学 | 一种联合多目标跟踪和行人角度识别的分类方法 |
CN113807389A (zh) * | 2021-08-03 | 2021-12-17 | 嘉洋智慧安全生产科技发展(北京)有限公司 | 一种确定目标对象动态的方法、装置及电子设备 |
KR102520218B1 (ko) * | 2021-10-21 | 2023-04-10 | 동의대학교 산학협력단 | 인공지능형 영상처리를 수행하는 관제 서버에서의 하드웨어 사용을 개선하기 위한 시스템 및 방법 |
CN114202563A (zh) * | 2021-12-15 | 2022-03-18 | 中国农业大学 | 一种基于平衡性联合网络的鱼类多目标跟踪方法 |
CN114973033B (zh) * | 2022-05-30 | 2024-03-01 | 青岛科技大学 | 一种无人机自动检测目标和跟踪方法 |
CN115661672B (zh) * | 2022-10-24 | 2023-03-14 | 中国人民解放军海军工程大学 | 基于GMM的PolSAR图像CFAR检测方法及系统 |
DE102023100405A1 (de) | 2023-01-10 | 2024-07-11 | Dr. Ing. H.C. F. Porsche Aktiengesellschaft | Verfahren und System zur Produktionsplanung für ein Fahrzeug |
FR3147416A1 (fr) * | 2023-03-28 | 2024-10-04 | Idemia Identity & Security France | Procédé de suivi d'objets multiples |
CN116434150B (zh) * | 2023-06-14 | 2023-12-05 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 面向拥挤场景的多目标检测跟踪方法、系统及存储介质 |
Family Cites Families (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5390258A (en) * | 1992-08-07 | 1995-02-14 | Argonne National Laboratories/University Of Chicago Development Corporation | Feature guided method and apparatus for obtaining an image of an object |
US6198833B1 (en) * | 1998-09-16 | 2001-03-06 | Hotv, Inc. | Enhanced interactive video with object tracking and hyperlinking |
GB2360183A (en) * | 1999-11-18 | 2001-09-12 | Anthropics Technology Ltd | Image processing using parametric models |
US7035467B2 (en) * | 2002-01-09 | 2006-04-25 | Eastman Kodak Company | Method and system for processing images for themed imaging services |
US7536044B2 (en) * | 2003-11-19 | 2009-05-19 | Siemens Medical Solutions Usa, Inc. | System and method for detecting and matching anatomical structures using appearance and shape |
US7894647B2 (en) * | 2004-06-21 | 2011-02-22 | Siemens Medical Solutions Usa, Inc. | System and method for 3D contour tracking of anatomical structures |
US7756341B2 (en) | 2005-06-30 | 2010-07-13 | Xerox Corporation | Generic visual categorization method and system |
US7680341B2 (en) | 2006-05-05 | 2010-03-16 | Xerox Corporation | Generic visual classification with gradient components-based dimensionality enhancement |
US20080123900A1 (en) * | 2006-06-14 | 2008-05-29 | Honeywell International Inc. | Seamless tracking framework using hierarchical tracklet association |
US7724962B2 (en) * | 2006-07-07 | 2010-05-25 | Siemens Corporation | Context adaptive approach in vehicle detection under various visibility conditions |
US7885466B2 (en) | 2006-09-19 | 2011-02-08 | Xerox Corporation | Bags of visual context-dependent words for generic visual categorization |
US7885794B2 (en) | 2007-11-30 | 2011-02-08 | Xerox Corporation | Object comparison, retrieval, and categorization methods and apparatuses |
US8463051B2 (en) | 2008-10-16 | 2013-06-11 | Xerox Corporation | Modeling images as mixtures of image models |
US8249343B2 (en) | 2008-10-15 | 2012-08-21 | Xerox Corporation | Representing documents with runlength histograms |
US8774498B2 (en) | 2009-01-28 | 2014-07-08 | Xerox Corporation | Modeling images as sets of weighted features |
US8150858B2 (en) | 2009-01-28 | 2012-04-03 | Xerox Corporation | Contextual similarity measures for objects and retrieval, classification, and clustering using same |
CN101872477B (zh) * | 2009-04-24 | 2014-07-16 | 索尼株式会社 | 检测图像中的对象的方法、装置,及包括该装置的系统 |
US8280828B2 (en) | 2009-06-12 | 2012-10-02 | Xerox Corporation | Fast and efficient nonlinear classifier generated from a trained linear classifier |
US8644622B2 (en) | 2009-07-30 | 2014-02-04 | Xerox Corporation | Compact signature for unordered vector sets with application to image retrieval |
US8380647B2 (en) | 2009-08-14 | 2013-02-19 | Xerox Corporation | Training a classifier by dimension-wise embedding of training data |
US20110137898A1 (en) | 2009-12-07 | 2011-06-09 | Xerox Corporation | Unstructured document classification |
US8230262B2 (en) * | 2010-07-02 | 2012-07-24 | Oracle International Corporation | Method and apparatus for dealing with accumulative behavior of some system observations in a time series for Bayesian inference with a static Bayesian network model |
US8532399B2 (en) | 2010-08-20 | 2013-09-10 | Xerox Corporation | Large scale image classification |
US8731317B2 (en) | 2010-09-27 | 2014-05-20 | Xerox Corporation | Image classification employing image vectors compressed using vector quantization |
US8370338B2 (en) | 2010-12-03 | 2013-02-05 | Xerox Corporation | Large-scale asymmetric comparison computation for binary embeddings |
SG192768A1 (en) * | 2011-02-24 | 2013-09-30 | 3M Innovative Properties Co | System for detection of non-uniformities in web-based materials |
US8498448B2 (en) * | 2011-07-15 | 2013-07-30 | International Business Machines Corporation | Multi-view object detection using appearance model transfer from similar scenes |
US8699789B2 (en) | 2011-09-12 | 2014-04-15 | Xerox Corporation | Document classification using multiple views |
JP2013161126A (ja) * | 2012-02-01 | 2013-08-19 | Honda Elesys Co Ltd | 画像認識装置、画像認識方法および画像認識プログラム |
US9141196B2 (en) * | 2012-04-16 | 2015-09-22 | Qualcomm Incorporated | Robust and efficient learning object tracker |
US9111173B2 (en) * | 2012-04-23 | 2015-08-18 | Honda Motor Co., Ltd. | Learning part-based models of objects |
US9075824B2 (en) | 2012-04-27 | 2015-07-07 | Xerox Corporation | Retrieval system and method leveraging category-level labels |
US8855430B1 (en) * | 2012-05-30 | 2014-10-07 | Google Inc. | Refining image annotations |
US8849041B2 (en) * | 2012-06-04 | 2014-09-30 | Comcast Cable Communications, Llc | Data recognition in content |
JP6125201B2 (ja) * | 2012-11-05 | 2017-05-10 | 株式会社東芝 | 画像処理装置、方法、及びプログラム、並びに、画像表示装置 |
US8948454B2 (en) * | 2013-01-02 | 2015-02-03 | International Business Machines Corporation | Boosting object detection performance in videos |
GB2518589B (en) * | 2013-07-30 | 2019-12-11 | Holition Ltd | Image processing |
US10089330B2 (en) * | 2013-12-20 | 2018-10-02 | Qualcomm Incorporated | Systems, methods, and apparatus for image retrieval |
US9589595B2 (en) * | 2013-12-20 | 2017-03-07 | Qualcomm Incorporated | Selection and tracking of objects for display partitioning and clustering of video frames |
US9158971B2 (en) * | 2014-03-03 | 2015-10-13 | Xerox Corporation | Self-learning object detectors for unlabeled videos using multi-task learning |
-
2015
- 2015-05-18 US US14/714,505 patent/US9443320B1/en active Active
-
2016
- 2016-04-28 JP JP2016090268A patent/JP2016219004A/ja active Pending
- 2016-05-04 EP EP16168460.0A patent/EP3096292A1/en not_active Withdrawn
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020500759A (ja) * | 2016-12-02 | 2020-01-16 | バイエリシエ・モトーレンウエルケ・アクチエンゲゼルシヤフト | 単眼動画データに基づく車両の挙動推定システム及び方法 |
JP7032387B2 (ja) | 2016-12-02 | 2022-03-08 | バイエリシエ・モトーレンウエルケ・アクチエンゲゼルシヤフト | 単眼動画データに基づく車両の挙動推定システム及び方法 |
JP2019096006A (ja) * | 2017-11-21 | 2019-06-20 | キヤノン株式会社 | 情報処理装置、情報処理方法 |
US11222239B2 (en) | 2017-11-21 | 2022-01-11 | Canon Kabushiki Kaisha | Information processing apparatus, information processing method, and non-transitory computer-readable storage medium |
JP2019153112A (ja) * | 2018-03-05 | 2019-09-12 | 日本電信電話株式会社 | 物体追跡装置、物体追跡方法、及びコンピュータプログラム |
WO2019172172A1 (ja) * | 2018-03-05 | 2019-09-12 | 日本電信電話株式会社 | 物体追跡装置、物体追跡方法、及びコンピュータプログラム |
US10891516B2 (en) | 2018-03-13 | 2021-01-12 | Fujitsu Limited | Non-transitory computer-readable recording medium, learning method, and learning apparatus |
JP2020160921A (ja) * | 2019-03-27 | 2020-10-01 | Necソリューションイノベータ株式会社 | 画像認識装置、画像認識方法、及びプログラム |
JP7287650B2 (ja) | 2019-03-27 | 2023-06-06 | Necソリューションイノベータ株式会社 | 画像認識装置、画像認識方法、及びプログラム |
JP7253639B2 (ja) | 2019-03-28 | 2023-04-06 | アークソフト コーポレイション リミテッド | 手によるハンドルの把握状態の検出方法及び装置 |
JP2022528847A (ja) * | 2019-03-28 | 2022-06-16 | アークソフト コーポレイション リミテッド | 手によるハンドルの把握状態の検出方法及び装置 |
JP2022542949A (ja) * | 2019-07-30 | 2022-10-07 | 華為技術有限公司 | 歩行者検出方法及び装置、コンピュータ読み取り可能な記憶媒体並びにチップ |
JP7305869B2 (ja) | 2019-07-30 | 2023-07-10 | 華為技術有限公司 | 歩行者検出方法及び装置、コンピュータ読み取り可能な記憶媒体並びにチップ |
KR102519367B1 (ko) | 2020-11-19 | 2023-04-06 | 연세대학교 산학협력단 | Cctv 환경에서의 보행자 추적 장치 및 방법 |
KR20220068373A (ko) * | 2020-11-19 | 2022-05-26 | 연세대학교 산학협력단 | Cctv 환경에서의 보행자 추적 장치 및 방법 |
WO2023062754A1 (ja) * | 2021-10-13 | 2023-04-20 | 日本電気株式会社 | 物体追跡処理装置、物体追跡処理方法及び非一時的なコンピュータ可読媒体 |
JP7517733B2 (ja) | 2022-03-15 | 2024-07-17 | 延世大学校 産学協力団 | マルチスケールオブジェクト探知装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
EP3096292A1 (en) | 2016-11-23 |
US9443320B1 (en) | 2016-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2016219004A (ja) | 一般物体提案を用いる複数物体の追跡 | |
Huang et al. | Intelligent intersection: Two-stream convolutional networks for real-time near-accident detection in traffic video | |
Azimjonov et al. | A real-time vehicle detection and a novel vehicle tracking systems for estimating and monitoring traffic flow on highways | |
Bisio et al. | A systematic review of drone based road traffic monitoring system | |
Li et al. | Tracking in low frame rate video: A cascade particle filter with discriminative observers of different life spans | |
Elhamod et al. | Automated real-time detection of potentially suspicious behavior in public transport areas | |
US9569531B2 (en) | System and method for multi-agent event detection and recognition | |
Freire-Obregón et al. | Inflated 3D ConvNet context analysis for violence detection | |
US20170006215A1 (en) | Methods and systems for controlling a camera to perform a task | |
Shukla et al. | Moving object tracking of vehicle detection: a concise review | |
Aradhya | Object detection and tracking using deep learning and artificial intelligence for video surveillance applications | |
Li et al. | Robust vehicle tracking for urban traffic videos at intersections | |
Bourja et al. | Real time vehicle detection, tracking, and inter-vehicle distance estimation based on stereovision and deep learning using YOLOv3 | |
Hassan et al. | Multi-object tracking: a systematic literature review | |
Hou et al. | Human detection and tracking over camera networks: A review | |
Gu et al. | Integrated multi-scale event verification in an augmented foreground motion space | |
Pathak et al. | Applying transfer learning to traffic surveillance videos for accident detection | |
Khattak et al. | AMF-MSPF: A retrospective analysis with online object tracking algorithms | |
NGENI et al. | Multiple Object Tracking (Mot) of Vehicles to Solve Vehicle Occlusion Problems Using Deepsort and Quantum Computing | |
Chen et al. | Vision-based traffic surveys in urban environments | |
Narmadha et al. | Robust Deep Transfer Learning Based Object Detection and Tracking Approach. | |
Shrestha et al. | Vehicle tracking using video surveillance | |
Alshaya | Open Challenges for Crowd Density Estimation | |
Chen et al. | Spectrum analysis-based traffic video synopsis | |
Michael et al. | Automatic vehicle detection and tracking in aerial surveillances using SVM |