JP2020534610A - 目標トラッキング方法及び装置、電子機器並びに記憶媒体 - Google Patents

目標トラッキング方法及び装置、電子機器並びに記憶媒体 Download PDF

Info

Publication number
JP2020534610A
JP2020534610A JP2020516429A JP2020516429A JP2020534610A JP 2020534610 A JP2020534610 A JP 2020534610A JP 2020516429 A JP2020516429 A JP 2020516429A JP 2020516429 A JP2020516429 A JP 2020516429A JP 2020534610 A JP2020534610 A JP 2020534610A
Authority
JP
Japan
Prior art keywords
image
target
target image
tracking
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020516429A
Other languages
English (en)
Other versions
JP6999028B2 (ja
Inventor
シャオフイ リウ
シャオフイ リウ
ホンウェイ チン
ホンウェイ チン
Original Assignee
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド, ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド filed Critical ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Publication of JP2020534610A publication Critical patent/JP2020534610A/ja
Application granted granted Critical
Publication of JP6999028B2 publication Critical patent/JP6999028B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本願の実施例は、目標画像の複数の基準画像の特徴を取得することと、前記複数の基準画像の特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を決定することと、前記複数の初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することと、を含む目標トラッキング方法及び装置、電子機器並びに記憶媒体を提供する。本願の上記実施例では、目標トラッキングの基準画像に対する依存性を回避して、目標トラッキングのロバスト性を高めることができる。

Description

(関連出願の相互参照)
本願は、2017年3月6日に中国特許局に提出された、出願番号CN201810182797.X、発明の名称「目標トラッキング方法及び装置、電子機器、プログラム、記憶媒体」の中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
本願は、コンピュータービジョン技術に関し、特に、目標トラッキング方法及び装置、電子機器並びに記憶媒体に関する。
目標トラッキング課題は、一般的には、ビデオシークエンスの第1のフレームの目標物体の位置情報が与えられた前提で、ビデオ中の物体の後続の位置を予測することを指し、目標トラッキング技術は、ビデオ監視、無人運転、ヒューマンコンピュータインタラクションなどの適用シーンに広く応用されている。単一フレームの検出技術及び分割技術が相当に時間をかかるので、目標トラッキング技術を検出分割技術と共に使用して、ビデオ処理の速度を高め、より好適なリアルタイム性を保証することはしばしばある。
本願の実施例では目標トラッキング技術を提供する。
本願の実施例の1つの態様によれば、提供される目標トラッキング方法は、
目標画像の複数の基準画像の特徴を取得することと、
前記複数の基準画像の特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を決定することと、
前記複数の初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することと、を含む。
選択可能に、前記複数の基準画像の特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を決定することは、
前記目標画像に対して特徴抽出を行い、前記目標画像の複数の特徴を得ることと、
前記目標画像の複数の特徴と前記複数の基準画像の特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を得ることと、を含む。
選択可能に、前記目標画像の複数の特徴と前記複数の基準画像の特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を得ることは、
前記目標画像の複数の特徴をそれぞれ前記複数の基準画像の特徴中の対応特徴と接続し、複数の接続特徴を得ることと、
前記複数の接続特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を得ることと、を含む。
選択可能に、前記目標画像に対して特徴抽出を行い、前記目標画像の複数の特徴を得ることは、
前記目標画像に対して畳み込み操作を実行し、中間特徴を得ることと、
前記複数の基準画像のうちの少なくとも一つの基準画像におけるトラッキング目標の位置に基づいて、前記中間特徴に対して複数の関心領域のアライメント操作を実行し、前記目標画像の複数の特徴を得ることと、を含む。
選択可能に、前記中間特徴に対して複数の関心領域のアライメント操作を実行し、前記目標画像の複数の特徴を得ることは、
前記複数の基準画像のうちの少なくとも1つの基準画像におけるトラッキング目標の位置に基づいて、前記中間特徴に対して関心領域のアライメント操作を実行し、前記目標画像の特徴を得ることを含む。
選択可能に、前記複数の基準画像のうちの少なくとも1つの基準画像におけるトラッキング目標の位置に基づいて、前記中間特徴に対して関心領域のアライメント操作を実行し、前記目標画像の特徴を得ることは、
前記複数の基準画像のうちの少なくとも1つの基準画像におけるトラッキング目標に対応する位置限定枠の前記基準画像での位置を関心領域として関心領域アライメント操作を行い、前記目標画像の特徴を得ることを含む。
選択可能に、前記複数の基準画像のうちの少なくとも1つの基準画像におけるトラッキング目標に対応する位置限定枠の前記基準画像での位置を関心領域として関心領域アライメント操作を行い、前記目標画像の特徴を得ることの前に、
前記複数の基準画像のうちの少なくとも1つの基準画像におけるトラッキング目標の位置限定枠を第1の所定の倍数拡大し、前記少なくとも1つの基準画像におけるトラッキング目標に対応する位置限定枠を得ることを更に含む。
選択可能に、前記目標画像に対して畳み込み操作を実行し、中間特徴を得ることの前に、
前記目標画像に対して切り抜き処理を行い、切り抜き画像を得ることを更に含み、
前記目標画像に対して畳み込み操作を実行し、中間特徴を得ることは、
前記切り抜き画像に対して畳み込み操作を実行し、中間特徴を得ることを含む。
選択可能に、前記目標画像に対して切り抜き処理を行い、切り抜き画像を得ることは、
前記目標画像の前に位置する少なくとも1つの第1の画像におけるトラッキング目標の位置情報に基づいて、前記目標画像に対して切り抜き処理を行い、切り抜き画像を得ることを含む。
選択可能に、前記少なくとも1つの第1の画像は前記目標画像の少なくとも1つの前記基準画像を含む。
選択可能に、前記少なくとも1つの第1の画像におけるトラッキング目標の位置情報に基づいて、前記目標画像に対して切り抜き処理を行い、切り抜き画像を得ることは、
前記少なくとも1つの第1の画像におけるトラッキング目標の位置情報に基づいて、前記切り抜き画像の中心点を決定することと、
前記切り抜き画像の中心点に基づいて前記目標画像に対して切り抜き処理を行い、前記切り抜き画像を得ることと、を含む。
選択可能に、前記切り抜き画像の中心点に基づいて前記目標画像に対して切り抜き処理を行い、前記切り抜き画像を得ることは、
前記目標画像を第2の所定の倍数拡大し、拡大処理後の前記目標画像を得ることと、
前記切り抜き画像の中心点に基づいて、前記拡大処理後の前記目標画像に対して切り抜き処理を行い、前記切り抜き画像を得ることと、を含む。
選択可能に、前記複数の初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することは、
前記複数の初期予測位置のうちの少なくとも1つの初期予測位置と前記トラッキング目標の外観基準位置との類似度をそれぞれ決定し、類似度が第1の所定の閾値より大きい少なくとも1つの初期予測位置を得ることと、
前記類似度が第1の所定の閾値より大きい少なくとも1つの初期予測位置に基づいて、前記目標画像に対応する最終位置を決定することと、を含む。
選択可能に、前記類似度が所定の閾値より大きい少なくとも1つの初期予測位置に基づいて、前記目標画像に対応する最終位置を決定することは、
前記類似度が第1の所定の閾値より大きい少なくとも1つの初期予測位置に対して加重平均を行い、前記目標画像に対応する最終位置を得ることを含む。
選択可能に、前記複数の初期予測位置と前記トラッキング目標の外観基準位置との類似度をそれぞれ決定することは、
前記初期予測位置に対応する位置限定枠と前記トラッキング目標の外観基準位置に対応する位置限定枠との交差合併比に基づいて、少なくとも1つの前記初期予測位置と前記トラッキング目標の外観基準位置との類似度を決定することを含む。
選択可能に、前記決定された目標画像におけるトラッキング目標の最終位置を前記トラッキング目標の外観基準位置を記憶するための第1のバッファ領域に格納することを更に含む。
選択可能に、前記複数の初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することは、
前記複数の初期予測位置のうちの少なくとも1つの初期予測位置の信頼度を決定することと、
前記信頼度が第2の所定の閾値より大きい少なくとも1つの前記初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することと、を含む。
選択可能に、前記信頼度が第2の所定の閾値より大きい少なくとも1つの前記初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することは、
前記信頼度が第2の所定の閾値より大きい少なくとも1つの前記初期予測位置に対して加重平均を行い、前記目標画像におけるトラッキング目標の最終位置を得ることを含む。
選択可能に、前記複数の初期予測位置のうちの少なくとも1つの初期予測位置の信頼度を決定することは、
信頼度スコアリングネットワークを用いて前記少なくとも1つの初期予測位置をそれぞれ処理し、前記少なくとも1つの初期予測位置に対応する信頼度を得ることを含む。
選択可能に、前記の信頼度スコアリングネットワークを用いて前記少なくとも1つの初期予測位置をそれぞれ処理し、前記少なくとも1つの初期予測位置に対応する信頼度を得ることの前に、
前記信頼度スコアリングネットワークを用いてサンプル画像の少なくとも1つの初期予測位置を処理し、対応する少なくとも1つの前記初期予測位置の予測信頼度を得ることと、
前記サンプル画像の標識位置に基づいて、前記少なくとも1つの初期予測位置の真実信頼度を決定することと、
前記少なくとも1つの初期予測位置の予測信頼度と真実信頼度に基づいて、前記信頼度スコアリングネットワークをトレーニングすることと、を更に含む。
選択可能に、前記目標画像の複数の基準画像の特徴を取得することは、
第2のバッファ領域から目標画像の複数の基準画像の特徴を取得することを含む。
選択可能に、前記目標画像と複数の前記基準画像の間に少なくとも1つの第2の画像の間隔があり、又は、
前記複数の基準画像は隣接する少なくとも2つの画像フレームを含み、又は
前記複数の基準画像中の任意2つの基準画像は隣接しない。
選択可能に、前記複数の初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することの後、
前記目標画像におけるトラッキング目標の最終位置及び前記複数の基準画像におけるトラッキング目標の位置に基づいて、前記目標画像を基準画像リストに加えるか否かを決定することを更に含む。
選択可能に、前記目標画像におけるトラッキング目標の最終位置及び前記複数の基準画像におけるトラッキング目標の位置に基づいて、前記目標画像を新しく加えられる基準画像とするか否かを決定することは、
前記目標画像におけるトラッキング目標の位置限定枠と前記複数の基準画像におけるトラッキング目標の位置限定枠との交差合併比に基づいて、前記目標画像を基準画像リストに加えるか否かを決定することを含む。
選択可能に、前記目標画像フレーム中のトラッキング目標の位置限定枠と前記複数の基準画像におけるトラッキング目標の各位置限定枠との交差合併比に基づいて、前記目標画像を基準画像リストに加えるか否かを決定することは、
目標画像におけるトラッキング目標の位置限定枠と前記複数の基準画像のトラッキング目標の位置限定枠との交差合併比をそれぞれ決定することと、
決定された複数の交差合併比に基づいて、平均の交差合併比を得ることと、
前記平均の交差合併比が交差合併比閾値以上であることに応答して、前記目標画像を基準画像リストに加えることと、を含む。
選択可能に、前記複数の初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することの後、
前記目標画像と前記複数の基準画像のうちの前記目標画像に最も近い基準画像との間に所定の個数の画像フレームの間隔がある場合に、前記目標画像を基準画像リストに加えることを更に含む。
選択可能に、
前記目標画像を基準画像リストに加えると決定したことに応答して、前記第2のバッファ領域に前記目標画像の特徴をバッファすることを更に含む。
本願の実施例の別の態様によれば、提供される目標トラッキング装置は、
目標画像の複数の基準画像の特徴を取得するための基準取得ユニットと、
前記複数の基準画像の特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を決定するための初期予測ユニットと、
前記複数の初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定するための最終位置ユニットと、を含む。
選択可能に、前記初期予測ユニットは、
前記目標画像に対して特徴抽出を行い、前記目標画像の複数の特徴を得るための特徴抽出モジュールと、
前記目標画像の複数の特徴と前記複数の基準画像の特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を得るための位置予測モジュールと、を含む。
選択可能に、前記位置予測モジュールは、前記目標画像の複数の特徴を前記複数の基準画像の特徴中の対応特徴とそれぞれ一対一に接続し、複数の接続特徴を得ることと、前記複数の接続特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を得ることに用いられる。
選択可能に、前記特徴抽出モジュールは、
前記目標画像に対して畳み込み操作を実行し、中間特徴を得るための畳み込みモジュールと、
前記中間特徴に対して複数の関心領域のアライメント操作を実行し、前記目標画像の複数の特徴を得るためのアライメントモジュールと、を含む。
選択可能に、前記アライメントモジュールは、前記複数の基準画像のうちの少なくとも1つの基準画像におけるトラッキング目標の位置に基づいて、前記中間特徴に対して関心領域のアライメント操作を実行し、前記目標画像の特徴を得るために用いられる。
選択可能に、前記アライメントモジュールは、前記複数の基準画像のうちの少なくとも1つの基準画像におけるトラッキング目標に対応する位置限定枠の前記基準画像での位置を関心領域として関心領域アライメント操作を行い、前記目標画像の特徴を得るために用いられる。
選択可能に、前記アライメントモジュールは、更に前記複数の基準画像のうちの少なくとも1つの基準画像におけるトラッキング目標の位置限定枠を第1の所定の倍数拡大し、前記少なくとも1つの基準画像におけるトラッキング目標に対応する位置限定枠を得るために用いられる。
選択可能に、前記特徴抽出モジュールは
前記目標画像に対して切り抜き処理を行い、切り抜き画像を得るための切り抜きモジュールと、
前記切り抜き画像に対して畳み込み操作を実行し、中間特徴を得るための前記畳み込みモジュールと、を更に含む。
選択可能に、前記切り抜きモジュールは、前記目標画像の前に位置する少なくとも1つの第1の画像におけるトラッキング目標の位置情報に基づいて、前記目標画像に対して切り抜き処理を行い、切り抜き画像を得るために用いられる。
選択可能に、前記少なくとも1つの第1の画像は前記目標画像の少なくとも1つの前記基準画像を含む。
選択可能に、前記切り抜きモジュールは、
前記少なくとも1つの第1の画像におけるトラッキング目標の位置情報に基づいて、前記切り抜き画像の中心点を決定するための中心決定モジュールと、
前記切り抜き画像の中心点に基づいて前記目標画像に対して切り抜き処理を行い、前記切り抜き画像を得るための切り抜き処理モジュールと、を含む。
選択可能に、前記切り抜き処理モジュールは、前記目標画像を第2の所定の倍数拡大し、拡大処理後の前記目標画像を得ることと、前記切り抜き画像の中心点に基づいて、前記拡大処理後の前記目標画像に対して切り抜き処理を行い、前記切り抜き画像を得ることとに用いられる。
選択可能に、前記最終位置ユニットは、
前記複数の初期予測位置のうちの少なくとも1つの初期予測位置と前記トラッキング目標の外観基準位置との類似度をそれぞれ決定し、類似度が第1の所定の閾値より大きい少なくとも1つの初期予測位置を得るための類似度決定モジュールと、
前記類似度が第1の所定の閾値より大きい少なくとも1つの初期予測位置に基づいて、前記目標画像に対応する最終位置を決定するための第1の位置計算モジュールと、を含む。
選択可能に、前記第1の位置計算モジュールは、前記類似度が第1の所定の閾値より大きい少なくとも1つの初期予測位置に対して加重平均を行い、前記目標画像に対応する最終位置を得るために用いられる。
選択可能に、前記類似度決定モジュールは、前記初期予測位置に対応する位置限定枠と前記トラッキング目標の外観基準位置に対応する位置限定枠との交差合併比に基づいて、少なくとも1つの前記初期予測位置と前記トラッキング目標の外観基準位置との類似度を決定するために用いられる。
選択可能に、前記最終位置ユニットは、
前記決定された目標画像におけるトラッキング目標の最終位置を前記トラッキング目標の外観基準位置を記憶するための第1のバッファ領域に格納するための位置記憶モジュールを更に含む。
選択可能に、前記最終位置ユニットは、
前記複数の初期予測位置のうちの少なくとも1つの初期予測位置の信頼度を決定するための信頼度決定モジュールと、
前記信頼度が第2の所定の閾値より大きい少なくとも1つの前記初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定するための第2の位置計算モジュールと、を含む。
選択可能に、前記信頼度決定モジュールは、前記信頼度が第2の所定の閾値より大きい少なくとも1つの前記初期予測位置に対して加重平均を行い、前記目標画像におけるトラッキング目標の最終位置を得るために用いられる。
選択可能に、前記信頼度決定モジュールは、信頼度スコアリングネットワークを用いて前記少なくとも1つの初期予測位置をそれぞれ処理し、前記少なくとも1つの初期予測位置に対応する信頼度を得るために用いられる。
選択可能に、前記信頼度決定モジュールは、更に、
前記信頼度スコアリングネットワークを用いてサンプル画像の少なくとも1つの初期予測位置を処理し、対応する少なくとも1つの前記初期予測位置の予測信頼度を得ることと、
前記サンプル画像の標識位置に基づいて、前記少なくとも1つの初期予測位置の真実信頼度を決定することと、
前記少なくとも1つの初期予測位置の予測信頼度と真実信頼度に基づいて、前記信頼度スコアリングネットワークをトレーニングすることとに用いられる。
選択可能に、前記基準取得ユニットは、第2のバッファ領域から目標画像の複数の基準画像の特徴を取得するために用いられる。
選択可能に、前記目標画像と複数の前記基準画像の間に少なくとも1つの第2の画像の間隔があり、又は、
前記複数の基準画像は隣接する少なくとも2つの画像フレームを含み、又は
前記複数の基準画像中の任意2つの基準画像は隣接しない。
選択可能に、
前記目標画像におけるトラッキング目標の最終位置及び前記複数の基準画像におけるトラッキング目標の位置に基づいて、前記目標画像を基準画像リストに加えるか否かを決定するための基準画像決定ユニットを更に含む。
選択可能に、前記基準画像決定ユニットは、前記目標画像におけるトラッキング目標の位置限定枠と前記複数の基準画像におけるトラッキング目標の位置限定枠との交差合併比に基づいて、前記目標画像を基準画像リストに加えるか否かを決定するために用いられる。
選択可能に、前記基準画像決定ユニットは、
目標画像におけるトラッキング目標の位置限定枠と前記複数の基準画像のトラッキング目標の位置限定枠との交差合併比をそれぞれ決定し、決定された複数の交差合併比に基づいて、平均の交差合併比を得るための交差合併比決定モジュールと、
前記平均の交差合併比が交差合併比閾値以上であることに応答して、前記目標画像を基準画像リストに加えるための添加決定モジュールと、を含む。
選択可能に、
前記目標画像と前記複数の基準画像のうちの前記目標画像に最も近い基準画像との間に所定の個数の画像フレームの間隔がある場合に、前記目標画像を基準画像リストに加えるための基準リスト更新ユニットを更に含む。
選択可能に、
前記目標画像を基準画像リストに加えると決定したことに応答して、前記第2のバッファ領域に前記目標画像の特徴をバッファするための特徴バッファユニットを更に含む。
本願の実施例の別の態様によれば、提供される電子機器は、上記のような目標トラッキング装置を備えるプロセッサを含む。
本願の実施例の別の態様によれば、提供される電子機器は、実行可能コマンドを記憶するためのメモリと、
前記メモリと通信して前記実行可能コマンドを実行して上記のような目標トラッキング方法を完成するためのプロセッサと、を含む。
本願の実施例の別の態様によれば、提供されるコンピューター記憶媒体は、コンピューター可読コマンドを記憶するためのものであり、前記コマンドがプロセッサにより実行される時に、前記プロセッサに上記のような目標トラッキング方法を実行させる。
本願の実施例の別の態様によれば、提供されるコンピュータープログラムは、コンピューター可読コードを含み、前記コンピューター可読コードが機器上で動作する時に、前記機器中のプロセッサに上記のような目標トラッキング方法を実行させる。
本願の実施例の更に1つの態様によれば、提供されるコンピュータープログラム製品は、コンピューター可読コマンドを記憶するためのものであり、前記コマンドが実行される時に、コンピューターに上記のいずれか1つの実現可能な形態に記載の目標トラッキング方法を実行させる。
選択可能な一実施形態では、前記コンピュータプログラム製品は、具体的にコンピュータ記憶媒体であり、別の選択可能な一実施形態では、前記コンピュータプログラム製品は、具体的に例えばSDKなどのソフトウェア製品である。
本願の実施例によれば、目標画像の複数の基準画像の特徴を取得することと、前記複数の基準画像の特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を決定することと、前記複数の初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することと、を含む別の目標トラッキング方法及びそれに対応する装置及び電子機器、コンピューター記憶媒体、コンピュータープログラム並びにコンピュータープログラム製品を更に提供する。
本願の上記実施例で提供される目標トラッキング方法及び装置、電子機器並びに記憶媒体によれば、目標画像の複数の基準画像の特徴を取得し、複数の基準画像の特徴に基づいて、目標画像におけるトラッキング目標の複数の初期予測位置を決定し、複数の初期予測位置に基づいて、目標画像におけるトラッキング目標の最終位置を決定するようになっており、目標トラッキングの基準画像に対する依存性を回避して、目標トラッキングのロバスト性を高めることができる。
以下、図面及び実施例を通じて本願の技術的手段をさらに詳しく説明する。
明細書の一部を構成する図面は、本願の実施例を説明し、その説明と共に本願の原理を解釈することに用いられる。
図面を参照し、以下の詳細な説明により本願をより明瞭に理解することができる。
本願の実施例で提供される目標トラッキング方法のフローチャートである。 本願の実施例で提供される目標トラッキング方法の選択可能な一例のフローチャートである。 図2に示す回帰ネットワーク中の目標フレームブランチで目標フレームのk個のproposalを得る選択可能な一例のフローチャートを示す。 本願の実施例で提供される目標トラッキング装置の構造模式図である。 本願の実施例の端末装置又はサーバーを実現するのに適する電子機器の構造模式図である。
ここで、図面を参照しながら本願の様々な例示的な実施例を詳細に説明する。なお、特に断らない限り、これらの実施例で記述した部材及びステップの相対的配置、数式及び値は本願の範囲を限定するものではないことに注意すべきである。
同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。
以下の少なくとも一つの例示的な実施例に対する説明は実際に説明的なものに過ぎず、本願及びその適用または使用へのなんらの制限にもならない。
関連分野の当業者に既知の技術、方法及び機器については、詳細に説明しない場合があるが、場合によって、前記技術、方法及び機器は明細書の一部と見なすべきである。
なお、類似する符号及び英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。
本願の実施例はコンピュータシステム/サーバーに適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。コンピュータシステム/サーバーとの併用に適する公知の計算システム、環境及び/または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステム及び前記の任意のシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。
コンピュータシステム/サーバーはコンピュータシステムにより実行されるコンピュータシステム実行可能コマンド(例えば、プログラムモジュール)の一般的な言語環境において記述できる。通常、プログラムモジュールはルーチン、プログラム、目的プログラム、コンポーネント、ロジック、データ構造などを含んでよく、それらは特定のタスクを実行するかまたは特定の抽象データ型を実現する。コンピュータシステム/サーバーは分散型クラウドコンピューティング環境において実施でき、分散型クラウドコンピューティング環境において、タスクは通信ネットワークにわたってリンクされた遠隔処理機器により実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してよい。
図1は本願の実施例で提供される目標トラッキング方法のフローチャートである。該方法は例えば端末装置、サーバー、移動機器などのような任意の電子機器により実行されてよい。
ステップ110において、目標画像の複数の基準画像の特徴を取得する。
選択可能な一例では、該ステップ110はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、基準取得ユニット41により実行されてもよい。
トラッキング目標をトラッキングするために、選択可能に、ビデオ記録などの手段により該トラッキング目標のマルチフレーム画像を収集し、これらの画像でのトラッキング目標の位置を決定し、画像の時間の取得を組み合わせることにより、時間による該トラッキング目標の移動軌跡を決定し、トラッキング目標に対するトラッキングを実現することができる。
いくつかの実施例では、トラッキング目標に対するトラッキングを実現するために、既知の1つ又は複数の画像でのトラッキング目標の位置が必要とされ、該位置に基づいて現在トラッキングしようとするトラッキング目標を決定し、又は、トラッキング目標がある特定の目標(例えば、顔又は人体など)であることが知られており、既知のトラッキング目標に対して複数の画像フレームを収集する。
選択可能に、1つ又は複数の画像におけるトラッキング目標の決定された位置に基づいて、トラッキング目標に対するトラッキングを実現することができ、本願の実施例のトラッキングされる目標は既知又は未知の特定の物体又は人物又は他の種類であってよく、本願の実施例はこれについて制限を加えない。
本願の実施例では、複数の基準画像を含む基準画像リストが採用される。ここで、複数の基準画像中の任意2つの基準画像は隣接しても隣接しなくてもよい。例えば、該複数の基準画像はビデオストリーム中の隣接するK個の画像フレームであってよく、又は、該複数の基準画像中の隣接する基準画像の一部がビデオストリームにおいて隣接し、他の一部がビデオにおいて隣接しないようになってよく、又は、該複数の基準画像中の任意2つの隣接する基準画像はビデオストリームにおいて相互に隣接しなくてよく、選択可能に、複数の基準画像の間に1つ又は複数の画像の間隔があってよい。例えば、複数の基準画像中の隣接する基準画像の間に一定数量の画像フレームの間隔があってよく、例えば、N個の画像フレームの間隔があり、ここで、Nが2以上の所定の数値である。Nの数値は適用シーン及び要求に応じて決定してよく、本願の実施例ではNの数値は限定されない。又は、該複数の基準画像中の異なる隣接画像の間に個数が異なる画像の間隔があってもよく、本願の実施例はこれについて制限を加えない。
本明細書中の「複数の基準画像中の隣接する画像又は隣接する基準画像」は、所定の順序付け規則により該複数の基準画像を配列した後隣接する基準画像を指してよく、ここで、該順序付け規則は収集時間又は検出時間により配列するなどのようになってよく、本明細書中の「ビデオストリーム中の隣接する画像」はビデオストリーム又はビデオストリームセグメント中の複数の画像を配列した後隣接する画像を指してよく、該配列はビデオストリーム中の元の順序又はある特定の順序付け規則を指してよく、本願の実施例では、配列の具体的な実現は限定されないことを理解すべきである。
本願の実施例では、選択可能に、目標画像はその複数の基準画像と隣接してよい。又は、目標画像とその基準画像の間に少なくとも1つの画像フレーム(第2の画像という)の間隔があってよい。選択可能に、目標画像とその複数の基準画像中の任意の基準画像の間に1つ又は複数の画像の間隔があってよく、又は、目標画像は複数の基準画像中の一部の基準画像と隣接してよく、複数の基準画像中の別の一部の基準画像との間に1つ又は複数の画像の間隔があってよく、本願の実施例はこれについて制限を加えない。目標画像の1フレーム前の画像を基準画像とする方式と比較すれば、本願の実施例で提供される技術的手段は予測精度を高めることができ、その原因は早い画像の予測がより精確で、早い画像をトラッキング基準画像として誤差累積の問題を効果的に解決できることにある。
本願の実施例では、選択可能に、異なる画像は異なる基準画像を有してよく、又は、複数の画像は同一な基準画像を重複使用してよく、例えば、目標画像は少なくとも1つの第3の画像と同一な基準画像を有し、例えば、目標画像の複数の基準画像が第3の画像の複数の基準画像と完全に同一であり、又は、目標画像の複数の基準画像中の一部の基準画像も第3の画像の基準画像であり、本願の実施例はこれについて制限を加えない。ここで、選択可能に、この少なくとも1つの第3の画像は該目標画像と隣接してよいが、本願の実施例はこれに限定されるものではない。この時に、選択可能に、基準画像の特徴をバッファ領域に記憶してよく、画像のトラッキング目標の位置予測を行う時に、記憶された基準画像の特徴を呼び出せばよく、位置予測の速度が高まる。
本願の実施例では、複数種の方式により基準画像の特徴を取得してよい。いくつかの実施例では、他の装置から基準画像の特徴を取得してよく、例えば、サーバーは端末装置から送信される基準画像の特徴を受信し、更に例えば、電子機器はデータベースから基準画像の特徴を取得し、ここで、該データベースは電子機器のローカルデータベースとして設置され又は他の機器に設置されてよい。別のいくつかの実施例では、基準画像を取得した後、基準画像に対して特徴抽出処理を行い、基準画像の特徴を得てよい。
1つ又は複数の選択可能な実施例では、電子機器のメモリに記憶された複数の基準画像の特徴を取得してよく、例えば、第2のバッファ領域から目標画像の複数の基準画像の特徴を取得する。選択可能に、基準画像の特徴を第2のバッファ領域に記憶し、且つ第2のバッファ領域から基準画像の特徴を取得してよく、ここで、該第2のバッファ領域を位置見本バッファ領域(Location Exemplar Buffer)と呼んでもよいが、本願の実施例では、第2のバッファ領域の名称について制限を加えない。
本願の実施例では、第2のバッファ領域は基準画像の情報を記憶するために用いられ、選択可能に、現在基準画像とする複数の画像の情報、即ち、基準画像リストに現在含まれる複数の基準画像の情報を記憶してよく、例えば、基準画像の特徴を記憶してよく、又は更に基準画像におけるトラッキング目標の位置情報を記憶してよく、本願の実施例はこれについて制限を加えない。
深層回帰ネットワークに基づいて実現される目標トラッキング方法において、深層回帰ネットワークは基準画像ブランチ及び目標画像ブランチからなり、基準画像ブランチは基準画像特徴抽出装置を利用して価値のある位置見本(location exemplar)情報を得ることができ、目標物体の位置を予測するように目標画像ブランチを指導する。選択可能に、一般的にはt−1番のフレームを用いてt番のフレームを予測する策略が採用される。しかしながら、事実的には、t番のフレームの目標物体の位置を予測する時に、t−2番のフレームの前の全ての画像がすでに基準画像ブランチの特徴抽出装置を通過しており、有効な位置見本が得られた。従って、位置見本の重複使用を行って、トラッキングシステムの速度を高めることができる。
ステップ120において、複数の基準画像の特徴に基づいて、目標画像におけるトラッキング目標の複数の初期予測位置を決定する。
選択可能な一例では、該ステップ120はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、初期予測ユニット42により実行されてもよい。
いくつかの実施例では、複数の基準画像のうちのそれぞれの基準画像の特徴に基づいて、目標画像におけるトラッキング目標の1つの初期予測位置を得てよく、それに対して、複数の初期予測位置と複数の基準画像が一対一に対応する。別のいくつかの実施例では、複数の基準画像のうちの少なくとも2つの基準画像の特徴に基づいて、目標画像におけるトラッキング目標の1つの初期予測位置を得てよく、それに対して、複数の初期予測位置の数量と複数の基準画像の数量が等しく又は等しくなく、本願の実施例はこれについて制限を加えない。
1つ又は複数の選択可能な実施例では、
目標画像に対して特徴抽出を行い、目標画像の複数の特徴を得ることと、
目標画像の複数の特徴と複数の基準画像の特徴に基づいて、目標画像におけるトラッキング目標の複数の初期予測位置を得ることと、を含んでよい。
該目標画像の複数の特徴の数量と複数の基準画像の数量が等しくても等しくなくてもよく、本願の実施例はこれについて制限を加えない。
本願の実施例における用語の「特徴「」は特徴ベクトル、特徴行列、特徴テンソル又は特徴マップを指してよく、本願の実施例はこれについて制限を加えないことを理解すべきである。
いくつかの実施例では、目標画像の複数の特徴及び複数の基準画像の特徴に対して加重平均又は他の類型の1種又は複数種の処理を行い、処理結果を得、処理結果に基づいて目標画像におけるトラッキング目標の複数の初期予測位置を得てよい。
いくつかの選択可能な実施例では、目標画像の複数の特徴と複数の基準画像の特徴を接続又はスプライシングし、複数の接続特徴を得、複数の接続特徴又はスプライシング特徴に基づいて、目標画像におけるトラッキング目標の複数の初期予測位置を得てよい。
ここで、選択可能に、目標画像の複数の特徴と複数の基準画像の特徴の接続(又はスプライシング)は、目標画像の複数の特徴をそれぞれ複数の基準画像の特徴中の対応特徴と一対一に接続(又はスプライシング)し、即ち目標画像の複数の特徴を複数の基準画像の特徴と一対一に接続(又はスプライシング)して、複数の接続特徴又はスプライシング特徴を得るようになってよい。
選択可能な実現形態では、ここの接続(又はスプライシング)はチャネル重畳を指してよく、例えば、第1の画像フレームが3つのチャネルにより3つの特徴マップを出力し、基準フレームが3つのチャネルにより3つの特徴マップを出力し、特徴接続により6つの特徴マップを得ることができる。
本願の実施例では、接続特徴に基づいてトラッキング目標の位置を得る方式が多い。いくつかの選択可能な実施例では、全接続層及び/又は他のネットワーク層の処理により、トラッキング目標の位置を得てよく、本願の実施例はこれについて制限を加えない。
本願の実施例では、複数種の方式を用いて目標画像に対して特徴抽出を行ってよく、例えば、目標画像の複数の特徴を得るには、関心領域(region of interest、RoI)プーリング(pooling)により特徴抽出を行ってもよく、又は、関心領域(RoI)アライメント(Align)により特徴抽出を行ってもよく、又は、他の手段により特徴抽出を行ってもよく、本願の実施例はこれについて制限を加えない。
ROI Poolingは、文字通り、Pooling層の一種であり、且つRoIsに対するPoolingであり、その特徴は入力特徴マップのサイズが一定ではないが、出力特徴マップのサイズが一定であることであり、ROIサイズが(7、6)であれば、ROI Poolingプーリングを経た後得られたサイズが(6、6)であり、(7、6)から(6、6)への変換によるあるエッジ画素の損失が不可避である。関心領域アライメント(ROI Align)は双線形補間を利用して、(7、6)のRoI補間を(12、12)に拡張し、この時に(6、6)のROI Poolingを行えば、精度を高めることができる。
なお、本願の実施例では、選択可能に、複数の基準画像のうちの少なくとも1つの基準画像におけるトラッキング目標の位置に基づいて、目標画像に対して特徴抽出を行い、目標画像の特徴を得てよく、ここで、この少なくとも1つの基準画像は複数の基準画像中の一部又は全部であってよい。例えば、K個の基準画像におけるトラッキング目標の位置に基づいて、目標画像に対して特徴抽出を行い、目標画像のK個の特徴を得てよく、Kが1以上の整数であるが、但本願の実施例はこれに限定されるものではない。
いくつかの選択可能な実施例では、目標画像に対して特徴抽出を行い、目標画像の複数の特徴を得ることは、
目標画像に対して畳み込み操作を実行し、中間特徴を得ることと、
中間特徴に対して複数の関心領域のアライメント操作を実行し、目標画像の複数の特徴を得ることと、を含む。
選択可能に、中間特徴は特徴マップ又は他の表現形式であってよい。中間特徴が特徴マップであるとすれば、選択可能に、特徴マップ中で関心領域(RoI)を選択して関心領域(RoI)アライメント操作を行うことにより、目標画像の特徴を得ることができる。このように、複数の関心領域(RoI)を選択することにより、目標画像の複数の特徴を得ることができる。
本願の実施例では、複数種の方式により特徴マップ中で関心領域(RoI)を選択できる。選択可能に、複数の基準画像のうちの少なくとも1つの基準画像におけるトラッキング目標の位置を関心領域とし、中間特徴に対して関心領域(RoI)アライメント操作を実行し、目標画像の特徴を得てよい。いくつかの実施例では、基準画像におけるトラッキング目標の位置に基づいて、関心領域(RoI)を決定してよい。例えば、基準画像におけるトラッキング目標の位置限定枠(bounding box)の基準画像での位置を関心領域(RoI)としてよく、又は基準画像におけるトラッキング目標に対応する位置限定枠に対して水平移動、拡大などの1種又は複数種の操作を行って、関心領域(RoI)を得てよく、本願の実施例はこれについて制限を加えない。
いくつかの実施例では、複数の基準画像のうちの少なくとも1つの基準画像におけるトラッキング目標に対応する位置限定枠の基準画像での位置を関心領域として関心領域アライメント操作を行い、目標画像の特徴を得る。ここで、トラッキング目標に対応する位置限定枠はトラッキング目標の位置限定枠そのものであってもよく、トラッキング目標の位置限定枠の処理により得られたものであってもよく、例えば、基準画像におけるトラッキング目標の位置限定枠を第1の所定の倍数拡大することにより、基準画像のトラッキング目標に対応する位置限定枠を得る。
選択可能に、該第1の所定の倍数は適用シーン又は実際の要求に応じて設定可能であり、例えば該第1の所定の倍数が2.0であるが、本願の実施例は該第1の所定の倍数の数値について制限を加えない。
基準画像におけるトラッキング目標に対応する位置限定枠の基準画像での位置を決定した後、目標画像における該位置に存在する領域を関心領域としてよい。
基準画像から目標画像へのトラッキング目標に変位が存在するため、依然として基準画像中の位置限定枠により目標画像の特徴を得れば、トラッキング目標の精確位置を逃す可能性があるので、基準画像におけるトラッキング目標の位置限定枠を第1の所定の倍数拡大し、拡大後の位置限定枠の基準画像での位置を関心領域(RoI)として関心領域(RoI)アライメント操作を行って、予測正確度を高めることができる。
本願の実施例では、直接目標画像に対して特徴抽出を行ってよく、例えば、目標画像に対して畳み込み操作を行う。又は、目標画像に対して、切り抜き、サイズ調整、縮小、回転、輝度調整などの1種又は複数種を含む前処理を行った後特徴抽出を行い、本願の実施例はこれについて制限を加えない。
いくつかの選択可能な実施例では、目標画像に対して畳み込み操作を実行し、中間特徴を得ることの前に、目標画像に対して切り抜き処理を行い、切り抜き画像を得ることを更に含む。それに対して、切り抜き画像に対して畳み込み操作を行い、中間特徴を得てよい。
選択可能に、所定のサイズに基づいて目標画像に対して切り抜き処理を行ってもよく、又は、ビデオストリーム中の他の画像に基づいて、目標画像に対して切り抜き処理を行ってもよい。例えば、少なくとも1つの第1の画像におけるトラッキング目標の位置情報に基づいて、目標画像に対して切り抜き処理を行い、切り抜き画像を得てよく、ここで、少なくとも1つの第1の画像は目標画像の前に位置する。選択可能に、この少なくとも1つの第1の画像は目標画像と隣接する少なくとも1つの画像を含んでもよく、又は、この少なくとも1つの第1の画像は目標画像の少なくとも1つの基準画像を含んでもよく、本願の実施例はこれについて制限を加えない。
いくつかの実施例では、トラッキング目標が切り抜き画像で占める割合が特定の数値に達しており、本願の実施例はこれについて制限を加えない。
選択可能に、ニューラルネットワーク中の畳み込み層により切り抜き画像に対して畳み込み操作を実行し、中間特徴を得てよく、本願の実施例はこれについて制限を加えない。
選択可能に、いくつかの実施例では、少なくとも1つの第1の画像におけるトラッキング目標の位置情報に基づいて、目標画像に対して切り抜き処理を行い、切り抜き画像を得ることは、
少なくとも1つの第1の画像におけるトラッキング目標の位置情報に基づいて、切り抜き画像の中心点を決定することと、
切り抜き画像の中心点に基づいて目標画像に対して切り抜き処理を行い、切り抜き画像を得ることと、を含む。
目標画像を切り抜く目的は、トラッキング目標を目標画像から分離して、得られた切り抜き画像におけるトラッキング目標の占める割合が所定の割合より大きいようにして、トラッキング目標の位置をより精確に決定することにある。
選択可能に、少なくとも1つの第1の画像におけるトラッキング目標に対応する位置限定枠の中心点の位置に基づいて、切り抜き画像の中心点の位置を決定してよい。例えば、少なくとも1つの第1の画像の数量が複数であり、それに対して、複数の第1の画像におけるトラッキング目標に対応する位置限定枠の中心点の位置の平均値を切り抜き画像の中心点の位置とし、更に例えば、少なくとも1つの第1の画像の個数が1つであり、それに対して、第1の画像におけるトラッキング目標に対応する位置限定枠の中心点の位置を切り抜き画像の中心点の位置として、又は第1の画像におけるトラッキング目標に対応する位置限定枠の中心点の位置に対して水平移動などの1種又は複数種の処理を行って、切り抜き画像の中心点の位置を得るが、本願の実施例はこれに限定されるものではない。
選択可能に、切り抜きプロセスは、中心点の決定と切り抜き画像の長さ及び幅の決定との2つの部分を含んでよく、ここで、選択可能な一例において、中心点は目標画像に近接した(例えば、目標画像に最も近い)基準画像又は目標画像の1フレーム前の画像におけるトラッキング目標の位置中心に基づいて決定されてよく、切り抜き画像の長さ及び幅は基準画像又は1フレーム前の画像におけるトラッキング目標に対応する位置限定枠に基づいて決定されてよい。別の選択可能な例において、少なくとも1つの第1の画像におけるトラッキング目標に対応する位置限定枠の中心点に対して平均処理を行って、切り抜き画像の中心点を得てよいが、本願の実施例はこれに限定されるものではない。
いくつかの実施例では、切り抜く前に、目標画像を第2の所定の倍数拡大し、拡大処理後の目標画像を得てよい。それに対して、切り抜き画像の中心点に基づいて、拡大処理後の目標画像に対して切り抜き処理を行い、切り抜き画像を得てよい。
第1の所定の倍数と第2の所定の倍数が等しくても等しくなくてもよい。第2の所定の倍数は実際の適用シーン又は要求に応じて決定可能であり、例えば、第2の所定の倍数が3.0であるが、本願の実施例はこれに限定されるものではない。
ステップ130において、複数の初期予測位置に基づいて、目標画像におけるトラッキング目標の最終位置を決定する。
選択可能な一例では、該ステップ130はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、最終位置ユニット43により実行されてもい。
選択可能に、初期予測位置及び/又は最終位置はトラッキング目標に対応する位置限定枠の位置、例えば顔枠、人体枠又は特定物体又は部位の位置などを指してよく、本願の実施例ではトラッキング目標の位置の具体的な形態は限定されない。
いくつかの実施例では、複数の初期予測位置に対して例えば数学的平均又は加重平均などの平均処理を行って、トラッキング目標の目標画像での最終位置を得てよい。別のいくつかの実施例では、複数の初期予測位置から少なくとも1つの初期予測位置を選択し、少なくとも1つの初期予測位置に基づいて、トラッキング目標の目標画像での最終位置を得てよい。
1つ又は複数の選択可能な実施例では、複数の初期予測位置の信頼度に基づいて、目標画像におけるトラッキング目標の最終位置を決定する。
選択可能に、複数の初期予測位置の信頼度に基づいて、複数の初期予測位置から少なくとも1つの初期予測位置を選択し、少なくとも1つの初期予測位置に基づいて、最終位置を決定する。例えば、複数の初期予測位置から信頼度の高い少なくとも1つの初期予測位置を選択する。ここで、この少なくとも1つの初期予測位置は複数の初期予測位置のうちの信頼度が最も高い所定の数量の位置であってもよく、複数の初期予測位置のうちの信頼度が第2の所定の閾値より大きい位置であってもよく、本願の実施例はこれについて制限を加えない。
信頼度は該予測位置が該目標画像でのトラッキング目標の真実位置に対応する確率を表し、いくつかの実施例では、信頼度はトレーニングされたニューラルネットワークであるスコアリングネットワークにより得られ、例えば、1つのバイナリ分類ネットワークを利用し、予測位置と真実位置が重なり合った時に、真実値1、予測値0が出力され、予測位置と真実位置が重なり合わない時に、真実値0、予測値1が出力され、本願の実施例ではスコアリングネットワークの具体的な実現は限定されない。
いくつかの実施例では、選択された少なくとも1つの初期予測位置の平均値を最終位置とし、ここで、該平均値は算術平均値、幾何平均値又は加重平均値であってよく、例えば、選択された少なくとも1つの初期予測位置に対して加重平均を行い、目標画像でのトラッキング目標の最終位置を得、ここで、初期予測位置の重み値はその信頼度に依存するものであり、信頼度が大きいほど、重み値が大きくなり、信頼度が小さいほど、重み値が小さくなるが、本願の実施例はこれに限定されるものではない。
信頼度により得られた初期予測位置のうちのずれが大きい初期予測位置を削除してよく、それに対して、得られた最終位置は更に該目標画像におけるトラッキング目標の真実位置に近接し、より好適なトラッキングを実現することができる。
選択可能に、複数の初期予測位置のうちの少なくとも1つの初期予測位置の信頼度を決定することは、
信頼度スコアリングネットワークを利用して複数の初期予測位置をそれぞれ処理し、複数の初期予測位置に対応する信頼度を得ることを含む。
ここで、信頼度スコアリングネットワークはトレーニングして得られたものであり、入力された初期予測位置に対応してトレーニングされた信頼度スコアリングネットワークは対応する信頼度を出力でき、選択可能に、予測信頼度と真実信頼度に基づいて誤差を得て、誤差により逆勾配伝播法を利用してスコアリングネットワークをトレーニングすることができ、トレーニングされたスコアリングネットワークは予測位置が真実位置(既知の目標位置)となる確率をより好適に予測でき、該スコアリングネットワークはトラッキングしようとする特定の物体に対応してトレーニングされ、例えば、顔をトラッキングすることが必要とされる場合に、顔画像を用いて該スコアリングネットワークをトレーニングする。
選択可能に、信頼度スコアリングネットワークを利用して複数の初期予測位置をそれぞれ処理し、複数の初期予測位置に対応する信頼度を得ること前に、
信頼度スコアリングネットワークを用いてサンプル画像の少なくとも1つの初期予測位置を処理し、少なくとも1つの初期予測位置に対応する予測信頼度を得ることと、
サンプル画像の標識位置に基づいて、少なくとも1つの初期予測位置の真実信頼度を決定することと、
少なくとも1つの初期予測位置の予測信頼度と真実信頼度に基づいて、信頼度スコアリングネットワークをトレーニングすることと、ことを更に含む。
信頼度ネットワークのスコアリングの正確性を高めるために、信頼度スコアリングネットワークをトレーニングすることが必要とされ、トレーニングプロセスはニューラルネットワークのトレーニングプロセスと同様であり、いずれも真実信頼度が知られたサンプル画像に基づいて信頼度スコアリングネットワークをトレーニングし、選択可能に、様々なトラッキング目標に特定のトレーニングを採用してよく、例えば、顔をトラッキングする場合に、信頼度スコアリングネットワークをトレーニングするプロセスで、真実信頼度が知られた顔画像を用いて信頼度スコアリングネットワークをトレーニングして、得られた信頼度スコアリングネットワークによる顔画像の信頼度スコアリングがより精確になる。
本願の上記実施例で提供される目標トラッキング方法によれば、目標画像の複数の基準画像の特徴を取得し、複数の基準画像の特徴に基づいて、目標画像におけるトラッキング目標の複数の初期予測位置を決定し、複数の初期予測位置に基づいて、目標画像におけるトラッキング目標の最終位置を決定するようになっており、目標トラッキングの基準画像に対する依存性を回避して、目標トラッキングのロバスト性を高めることができる。
1つ又は複数の選択可能な実施例では、複数の初期予測位置とトラッキング目標の外観基準位置との類似度に基づいて、目標画像におけるトラッキング目標の最終位置を決定する。
選択可能に、複数の初期予測位置とトラッキング目標の外観基準位置との類似度に基づいて、複数の初期予測位置から少なくとも1つの初期予測位置を選択し、例えば、複数の初期予測位置からトラッキング目標の外観基準位置との類似度が高い少なくとも1つの初期予測位置を選択し、ここで、この少なくとも1つの初期予測位置は複数の初期予測位置のうちの外観基準位置との類似度が第1の所定の閾値より大きい位置、又は複数の初期予測位置のうちの外観基準位置との類似度が最も高い所定の数量の位置であってよく、本願の実施例ではこれについて制限を加えない。
選択可能に、他の装置から該トラッキング目標の外観基準位置を取得してよい。又は、トラッキング目標の外観基準位置を記憶するための第1のバッファ領域を設置してよく、該第1のバッファ領域は外観見本バッファ領域(Appearance Exemplar Buffer、AEB)又は他の名称と呼んでもよく、本願の実施例では該第1のバッファ領域の名称について制限を加えない。この時に、第1のバッファ領域から該トラッキング目標の外観基準位置を取得してよい。又は、他の方式により該トラッキング目標の外観基準位置を得てもよく、本願の実施例では該トラッキング目標の外観基準位置の取得方式について制限を加えない。
ここで、該外観基準位置は予め設定されたものであってもよく、又はトラッキング目標の該ビデオストリーム中の1つ又は複数の画像フレームでの位置であってもよく、又はトラッキング目標の該ビデオストリーム中の1つ又は複数の画像フレームでの位置により処理して得られたものであってもよく、例えば、トラッキング目標の外観基準位置は該目標画像の前に位置する少なくとも1つの画像におけるトラッキング目標の最終位置に基づいて得られたものであり、一例において、トラッキング目標の外観基準位置は該目標対象の前に位置するある基準画像におけるトラッキング目標の最終位置であり、例えば該目標画像に最も近い基準画像におけるトラッキング目標の最終位置であり、又は、トラッキング目標の外観基準位置は該目標対象の前に位置する少なくとも1つの基準画像におけるトラッキング目標の最終位置に対して平均又は合併などの1種又は複数種の処理を行うことで得られたものである。該第1のバッファ領域中にバッファされる情報は一定のものであってもよく、又は一定の間隔の画像フレーム又は他のトリガ条件により更新されるものであってもよく、本願の実施例はこれについて制限を加えない。類似度選別により該目標画像との関連度が高い予測位置を得ることで、計算時間を節約し、トラッキング速度を高めると共に、トラッキングの正確度を保証することができる。
選択可能に、初期予測位置と外観基準位置との距離に基づいて、目標画像におけるトラッキング目標の最終位置を決定する。
選択可能に、初期予測位置に対応する位置限定枠とトラッキング目標の外観基準位置に対応する位置限定枠との交差合併比に基づいて、少なくとも1つの初期予測位置とトラッキング目標の外観基準位置との類似度を決定する。
交差合併比(intersection−over−union)は2つの領域の交差集合と合併集合の比率を表し、本願の実施例では、初期予測位置に対応する位置限定枠と外観基準位置に対応する位置限定枠の交集と初期予測位置に対応する位置限定枠と外観基準位置に対応する位置限定枠の并集の割合を指してよく、交差合併比が大きいほど、2つの位置限定枠が類似するようになることを示し、即ち、類似度が大きいほど、交差合併比が小さくなり、2つの位置限定枠の類似度が小さくなる。
選択可能に、本願の実施例は更に他の方式を用いて初期予測位置と外観基準位置の間の類似度を決定してもよく、本願の実施例はこれについて制限を加えない。
選択可能に、類似度が第1の所定の閾値より大きい少なくとも1つの初期予測位置に対して加重平均を行い、目標画像に対応する最終位置を得てよい。
ここで、各初期予測位置が1つの重み値に対応し、類似度が大きい初期予測位置に対応する重み値が大きく、逆に、類似度が小さい初期予測位置に対応する重み値が小さい。
選択可能に、直接類似度が第1の所定の閾値より大きい少なくとも1つの初期予測位置に対して平均を行って、トラッキング目標の目標画像での位置を得てもよく、この時に、この少なくとも1つの初期予測位置が同一な重みに対応する。又は、他の方式を利用してこの少なくとも1つの初期予測位置を処理し、該トラッキング目標の目標画像での位置を得てもよく、本願の実施例はこれについて制限を加えない。
いくつかの選択可能な実施例では、決定された目標画像におけるトラッキング目標の最終位置をトラッキング目標の外観基準位置を記憶するための第1のバッファ領域に格納することを更に含む。
選択可能に、本願の実施例では、上書き又は増加の方式により該トラッキング目標の目標画像での位置を第1のバッファ領域に格納してよく、本願の実施例はこれについて制限を加えない。選択可能に、任意の条件でも該トラッキング目標の目標画像での位置を記憶してよい。又は、トラッキング目標の目標画像での位置が所定の条件を満たした時に第1のバッファ領域に記憶し、例えば、目標画像と第1のバッファ領域に記憶された外観基準位置に対応する画像フレームとの間の間隔が所定の数値であり、又はトラッキング目標の目標画像での位置が所定の条件を満たし、例えば目標画像と第1のバッファ領域に記憶された外観基準位置との間の差異が所定の閾値を超えたなどの場合が挙げられ、本願の実施例では目標画像におけるトラッキング目標の位置の記憶条件について制限を加えない。
1つ又は複数の選択可能な実施例では、トラッキング目標の目標画像での最終位置を決定した後、更に目標画像を基準画像リストに加えるか否かを決定してもよく、つまり、目標画像を用いて基準画像リストを更新するか否かを決定してもよい。ここで、該基準画像リストは、複数の基準画像を含んでよく、処理待ちの画像フレーム中のトラッキング目標のトラッキングに利用可能である。ずっと同一な基準画像の特徴を用いて目標画像に対して位置予測を行えば、トラッキング目標の位置移動が大きい時に、位置が不精確になるので、予測の正確性を高めるために、基準画像リストを定期的又は不定期的に更新してよく、本願の実施例はこれについて制限を加えない。
本願の実施例では、選択可能に、目標画像におけるトラッキング目標の最終位置及び複数の基準画像におけるトラッキング目標の位置に基づいて、目標画像を基準画像リストに加えるか否かを決定してもよく、又は、一定の画像間隔(例えば、M個の画像フレームの間隔)で基準画像リストを更新してもよく、この時に、目標画像と複数の基準画像の間の間隔が所定の条件を満たすか否かに応じて、目標画像を基準画像リストに加えるか否かを決定してもよく、又は、他の根拠に応じて目標画像を基準画像リストに加えるか否かを決定してもよい。
実際の目標トラッキングで、トラッキング目標の運動が複雑であり、その速度が一般的に変わらないというわけではない。t+1番のフレームの目標画像に関して、トラッキング目標のt番のフレームでの位置と複数の基準画像での位置を照合することにより、記憶された基準画像リストを動的に調整して、より適宜な基準画像の特徴を得てよい。
選択可能に、t番のフレームを用いて基準画像リストを更新した場合に、即ちt番のフレームを基準画像リストに加えた場合に、t+1番のフレームの目標画像が複数の基準画像のうちの目標画像に最も近い基準画像と隣接することが可能になり、t番のフレームを基準画像リストに加えなかった場合に、基準画像リストが更新されなく、この時に、t+1番のフレームの目標画像と複数の基準画像のうちの目標画像に最も近い基準画像の間に1つ又は複数の画像の間隔があってよい。例えば、目標画像と複数の基準画像のうちの目標画像に最も近い基準画像の間にN個の画像フレームの間隔があってよく、ここで、Nが2以上の所定の数値である。Nの数値は適用シーンに応じて決定してよく、本願の実施例ではNの数値について制限を加えない。
選択可能に、目標画像におけるトラッキング目標の最終位置及び複数の基準画像におけるトラッキング目標の位置に基づいて、目標画像を基準画像リストに加えるか否かを決定することは、
目標画像におけるトラッキング目標の位置限定枠(bounding box)と複数の基準画像におけるトラッキング目標の位置限定枠(bounding box)との交差合併比に基づいて、目標画像を基準画像リストに加えるか否かを決定することを含む。
選択可能に、目標画像におけるトラッキング目標の位置限定枠と複数の基準画像のトラッキング目標の位置限定枠との交差合併比をそれぞれ決定し、決定された複数の交差合併比に基づいて、平均の交差合併比を得、平均の交差合併比が交差合併比閾値以上であることに応答して、目標画像を基準画像リストに加える。
選択可能に、複数の交差合併比に基づいて平均の交差合併比を得ることは、複数の交差合併比から平均値を求めることで行われ、又は複数の交差合併比に対して加重平均を実施することで行われ、ここで、選択可能に、目標画像に近い基準画像は、交差合併比の重み値が大きい。
いくつかの選択可能な実施例では、最終位置と複数の基準画像のうちの目標画像に最も近い基準画像中の位置との距離が近い(2つの位置限定枠の交差合併比が設定閾値以上である)場合に、該目標画像を基準画像リストに加える必要がなく、現在の基準画像リストの情報を用いて次のフレームの画像の位置予測を指導するのを継続することができる。最終位置と複数の基準画像のうちの目標画像に最も近い基準画像中の位置との距離が遠い(2つの位置限定枠の交差合併比が設定閾値より小さい)場合に、目標画像を基準画像リストに加えることができる。このような動的調整メカニズムにより、先に計算された特徴データ(例えば、中間特徴マップ)を十分に利用可能であり、それにより不必要な特徴抽出プロセスを多く減少した。
例えば、目標トラッキング方法を用いてビデオセグメントでの絶対位置が基本的に変わらない物体をトラッキングすれば、基準画像を更新せず、ずっと同様な基準画像を利用することができ、少なくとも1フレームのビデオ画像におけるトラッキング目標の位置のトラッキング速度を大幅に高め、更にトラッキング効率を高めた。
1つ又は複数の選択可能な実施例では、目標画像と複数の基準画像のうちの目標画像に近い(例えば、最も近い)基準画像の間に所定の個数の画像フレームの間隔があれば、目標画像を基準画像リストに加えると決定する。
特定の問題(例えば顔トラッキングのような特定の目標のトラッキング)に関して、応用する時に特定の基準画像更新策略を用いて目標トラッキング方法の基準画像を調整してよく、普及させる価値が非常に高い。
1つ又は複数の選択可能な実施例では、目標画像を基準画像リストに加えると決定したことに応答して、第2のバッファ領域に目標画像の特徴をバッファする。
選択可能に、第2のバッファ領域に記憶されるデータが持続的に増加してよく、それに対して、基準画像リストに含まれる基準画像の個数が持続的に増大してよく、このように、位置予測が必要とされる時に、第2のバッファから現在記憶された全ての基準画像中の最新の一定数量の基準画像の特徴を呼び出すことができる。選択可能に、記憶空間を節約するために、第2のバッファ領域に所定の数量の基準画像を保存してよく、基準画像リストに1つの新しい基準画像が増加された場合に、記憶時間が早い(例えば、最も早い)1つ又は複数の基準画像を削除してよく、それに対して、該基準画像リストに含まれる基準画像の個数が変わらなくてもよく、位置予測が必要とされる時に、バッファから現在記憶された全ての基準画像の特徴を呼び出せばよい。
図2は本願の実施例で提供される目標トラッキング方法の選択可能な一例のフローチャートである。図2に示すように、トラッキング目標の基準位置情報をバッファし、トラッキング目標の位置の間の類似度を決定するための外観見本バッファ領域(第1のバッファ領域)と、k個の基準画像のうちの少なくとも1つの基準画像の特徴マップ及びk個の基準画像のうちの少なくとも1つの基準画像のトラッキング目標の位置をバッファし、マルチフレームの融合を行うための位置見本バッファ領域(第2のバッファ領域)とを含むトラッキングバッファ領域が設置されてよい。
別の態様では、目標トラッキングネットワーク全体は特徴抽出を行うための回帰ネットワークと類似度比較に利用可能な類似度判別ネットワークとを含んでよい。
回帰ネットワークは、基準画像ブランチと目標フレームブランチという2つのブランチを含んでよく、ここで、基準画像ブランチでは、基準画像に対して3倍拡大し(例えばpadding)を行い、拡大後の画像を得、更に該拡大後の画像を畳み込みニューラルネットワーク(convolutional neural network、CNN)に入力し、中間特徴を得ることができ、次に、中間特徴に対して関心領域アライメント(ROI Align)又は関心領域プーリング(ROI Pooling)処理を行い、基準画像に対応する特徴マップを得、該特徴マップに基づいて、トラッキング目標の該基準画像での位置を得ることができる。なお、更に該基準画像に対応する特徴マップ及びトラッキング目標位置を位置見本バッファ領域に格納してもよい。
目標フレームブランチでは、目標フレームに対して切り抜き処理を行い、切り抜き画像を得、切り抜き画像を畳み込みニューラルネットワーク(CNN)に入力して処理し、中間特徴を得、次に、位置見本バッファ領域にバッファされたk個の基準画像におけるトラッキング目標の位置に基づいて、中間特徴に対して関心領域(RoI)アライメント操作を行い、目標画像のK個の特徴マップを得、次に、目標画像のK個の特徴マップ及び位置見本バッファ領域にバッファされたk個の基準画像の特徴マップに対してスプライシング処理を行い、k個の初期予測位置と呼んでもよいk個のプロポーザル(proposal)を得、最後に、類似度判断ネットワークを用いて該k個のプロポーザル枠のそれぞれと外観見本バッファ領域にバッファされた外観基準位置に対してそれぞれ類似度比較を行い、目標フレームの最終予測結果を得ることができる。
図3は図2に示す回帰ネットワーク中の目標フレームブランチで目標フレームのk個のプロポーザル(proposal)を得る選択可能な一例のフローチャートを示す。図3に示すように、基準フレームブランチに関連する位置見本バッファにk個の位置限定枠が記憶されており、該k個の位置限定枠に基づいて関心領域アライメント(RoI Align)処理を行い、異なったスケールを有する様々な特徴マップを得、マルチスケールプーリングにより重み付け加算を行い、K個の特徴マップを得ることができ、次に、該K個の特徴マップに対して位置見本バッファに記憶されたK個の特徴マップとのスプライシング処理を行い、スプライシング特徴マップを得、次に該スプライシング特徴マップに対して1つ又は複数の(例として3つが図示された)全接続層の処理を行い、k個のプロポーザル(proposal)を得ることができる。
図2及び図3に示す例は本願の実施例で提供される技術的手段をよりよく理解させるためのものに過ぎず、本願の実施例を限定するものと理解してはいけないことを理解すべきである。本願の実施例は図2及び図3に示される例に基づいて様々な変化及び置換えを加えることができ、また一部の動作又はフローが省略可能であり、本願の実施例はこれについて制限を加えない。
本願は各種の目標トラッキング技術の適用シーンに対して、マルチフレーム情報に基づく回帰ネットワーク構成を提案した。本願で提供される目標トラッキング方法は主に目標トラッキングの速度とロバスト性を向上させた。本願の目標トラッキング構成は深層回帰ネットワークの特徴重複使用技術に基づき、より効率的な中間特徴マップ管理構想を利用し、システム全体の深層回帰ネットワークのフィードフォワード時の特徴重複使用を増強し、トラッキング方法の高い効率を保証した。一方、本願では関心領域の特徴マップ、マルチフレーム重複使用及び情報融合に基づく策略が提案され、従来の回帰アルゴリズムの基準画像に対する依存性の問題が解決され、トラッキングシステムは試験においてより高いロバスト性を示した。全体的に、本願は高速を保持すると共に目標トラッキング方法のロバスト性を向上させた。
ユーザが携帯電話、カメラを用いて顔及び一般の物体を検出する時に、一般的には、目標トラッキングアルゴリズムとの組み合わせにより速度を高め、機器の消費電力を低減すると考えられる。本願の実施例は深層回帰ネットワークによる目標トラッキング技術を基礎として特徴バッファ及び特徴重複使用のメカニズムを利用し、目標トラッキングの速度を大幅に高めることができ、特定のタスク(顔トラッキング)上で1500fpsの高速度トラッキングを実現でき、また、複数の基準画像の特徴に基づいてトラッキングを行えばトラッキングの正確度が高められる。これは実際の製品応用において非常に肝心なこととなり、従来のアルゴリズムの前向き速度を大幅に高めた。
本願の肝心なところはロバスト性の高い実用的高速目標トラッキングアルゴリズムを提案することにあり、本願のアルゴリズムは深層回帰ネットワーク特徴重複使用技術に基づいて提案されたものであり、従来の深層回帰ネットワークは主に基準画像ブランチ及び目標フレームブランチからなり、2つのフレームの間の目標物体変位のモデル化により目標フレームの目標物体位置の予測を実現する。本願では、位置見本バッファを用いて計算された中間特徴(基準画像の特徴)を記憶し、その後の予測中でその前にバッファされた基準画像の特徴を重複使用して、複数の基準画像の特徴を速やかに用いてトラッキング目標の位置を予測することを可能にすることが提案される。目標画像ブランチ中で、本願では、関心領域アライメント(RoI Align)により特徴共有を実現することが提案され、特徴バッファ及び特徴共有といった2つのメカニズムにより速やかなマルチフレーム融合予測が可能になり、速やかでロバスト性が高い目標トラッキングを実現できる。
本願の実施例の技術的手段は高い拡張性を有し、システムは様々なマルチフレーム融合策略と組み合わせることが可能であり、例えば、類似度比較の方法、又は特定のタスク上でスコアリングする示された方法によりマルチフレームの結果融合を行って、いずれも好適な効果を図ることができる。
その前の1フレームを基準画像として次のフレームの位置を予測する他の目標トラッキングアルゴリズムにおいて、通行人トラッキングで柱により遮蔽された時に、基準画像遮蔽により基準画像の計算した位置見本にドリフトが発生し、精確に予測することができない。本願の実施例で提供される目標トラッキング方法はマルチフレーム基準画像を用いることで該問題を効果的に解決することができる。
本願の実施例の肝心なところは特徴バッファに基づく構成を提案し、高精度の実用的高速目標トラッキング方法を実現することにある。本願は回帰ネットワークの構造の分析により、特徴バッファによる回帰ネットワークの中間特徴マップのメンテナンス及び重複使用メカニズムを提案する。従来の深層回帰ネットワークは主に基準画像ブランチ及び目標フレームブランチからなり、2つのフレームの間の目標物体変位のモデル化により目標フレームの目標物体位置の予測を実現する。本願の実施例では、位置見本バッファを用いて計算された中間特徴(基準フレームブランチで計算された位置見本)を記憶し、その後の予測中でその前にバッファされた位置見本を重複使用して、複数の基準画像見本を速やかに用いて物体を予測ことを可能にすることが提案される。本願の実施例で提供される方法は様々な目標トラッキングシーンに適用可能であり、深層回帰ネットワークに基づく目標トラッキングアルゴリズムの動作速度を元の2倍程度に向上させ、トラッキングのリアルタイム性を大幅に高め、機器の消費電力を低下させた。
当業者であれば、上記方法の実施例を実現する全てまたは一部のステップはプログラムによって関連ハードウェアに命令を出すことにより完成できることを理解でき、前記プログラムは、ROM、RAM、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ読み取り可能記憶媒体に記憶可能であり、該プログラムは実行される時に、上記方法の実施例を含むステップを実行する。
図4は本願の実施例で提供される目標トラッキング装置の構造模式図である。該実施例の装置は本願の上記の各方法の実施例を実現するために用いられる。図4に示すように、該実施例の装置は、
目標画像の複数の基準画像の特徴を取得するための基準取得ユニット41を含む。
トラッキング目標をトラッキングするために、選択可能に、ビデオ記録などの手段により該トラッキング目標のマルチフレーム画像を収集し、これらの画像でのトラッキング目標の位置を決定し、画像の時間の取得を組み合わせることにより、時間による該トラッキング目標の移動軌跡を決定し、トラッキング目標に対するトラッキングを実現することができる。
いくつかの実施例では、トラッキング目標に対するトラッキングを実現するために、既知の1つ又は複数の画像でのトラッキング目標の位置が必要とされ、該位置に基づいて現在トラッキングしようとするトラッキング目標を決定し、又は、トラッキング目標がある特定の目標(例えば、顔又は人体など)であることが知られており、既知のトラッキング目標に対して複数の画像フレームを収集する。
選択可能に、1つ又は複数の画像におけるトラッキング目標の決定された位置に基づいて、トラッキング目標に対するトラッキングを実現することができ、本願の実施例のトラッキングされる目標は既知又は未知の特定の物体又は人物又は他の種類であってよく、本願の実施例はこれについて制限を加えない。
本願の実施例では、複数の基準画像を含む基準画像リストが採用される。ここで、複数の基準画像中の任意2つの基準画像は隣接しても隣接しなくてもよい。例えば、該複数の基準画像はビデオストリーム中の隣接するK個の画像フレームであってよく、又は、該複数の基準画像中の隣接する基準画像の一部がビデオストリームにおいて隣接し、他の一部がビデオにおいて隣接しないようになってよく、又は、該複数の基準画像中の任意2つの隣接する基準画像はビデオストリームにおいて相互に隣接しなくてよく、選択可能に、複数の基準画像の間に1つ又は複数の画像の間隔があってよい。例えば、複数の基準画像中の隣接する基準画像の間に一定数量の画像フレームの間隔があってよく、例えば、N個の画像フレームの間隔があり、ここで、Nが2以上の所定の数値である。Nの数値は適用シーン及び要求に応じて決定してよく、本願の実施例ではNの数値は限定されない。又は、該複数の基準画像中の異なる隣接画像の間に個数が異なる画像の間隔があってもよく、本願の実施例はこれについて制限を加えない。
選択可能に、目標画像と複数の基準画像の間に少なくとも1つの画像フレーム(第2の画像という)の間隔があり、又は、複数の基準画像は隣接する少なくとも2つの画像フレームを含み、又は、複数の基準画像中の任意2つの基準画像は隣接しない。選択可能に、目標画像とその複数の基準画像中の任意の基準画像の間に1つ又は複数の画像の間隔があってよく、又は、目標画像は複数の基準画像中の一部の基準画像と隣接し、複数の基準画像中の別の一部の基準画像との間に1つ又は複数の画像の間隔があってよく、本願の実施例はこれについて制限を加えない。目標画像の1フレーム前の画像を基準画像とする態様と比較すれば、本願の実施例で提供される技術的手段は予測精度を高めることができ、その原因は早い画像の予測がより精確で、早い画像をトラッキング基準画像として誤差累積の問題を効果的に解決できることにある。
1つ又は複数の選択可能な実施例では、基準取得ユニット41は電子機器のメモリに記憶された複数の基準画像の特徴を取得してよく、例えば、第2のバッファ領域から目標画像の複数の基準画像の特徴を取得する。選択可能に、基準画像の特徴を第2のバッファ領域に記憶し、且つ第2のバッファ領域から基準画像の特徴を取得してよく、ここで、該第2のバッファ領域を位置見本バッファ領域(Location Exemplar Buffer)と呼んでもよいが、本願の実施例では、第2のバッファ領域の名称について制限を加えない。
初期予測ユニット42は、複数の基準画像の特徴に基づいて、目標画像におけるトラッキング目標の複数の初期予測位置を決定するために用いられる。
最終位置ユニット43は、複数の初期予測位置に基づいて、目標画像におけるトラッキング目標の最終位置を決定するために用いられる。
本願の上記実施例で提供される目標トラッキング装置によれば、目標画像の複数の基準画像の特徴を取得し、複数の基準画像の特徴に基づいて、目標画像におけるトラッキング目標の複数の初期予測位置を決定し、複数の初期予測位置に基づいて、目標画像におけるトラッキング目標の最終位置を決定するようになっており、目標トラッキングの基準画像に対する依存性を回避して、目標トラッキングのロバスト性を高めることができる。
1つ又は複数の選択可能な実施例では、初期予測ユニット42は、
目標画像に対して特徴抽出を行い、目標画像の複数の特徴を得るための特徴抽出モジュールと、
目標画像の複数の特徴と複数の基準画像の特徴に基づいて、目標画像におけるトラッキング目標の複数の初期予測位置を得るための位置予測モジュールと、を含む。
選択可能に、いくつかの選択可能な実施例では、位置予測モジュールは、目標画像の複数の特徴と複数の基準画像の特徴を接続又はスプライシングし、複数の接続特徴を得ることと、複数の接続特徴に基づいて、目標画像におけるトラッキング目標の複数の初期予測位置を得ることとに用いられる。
ここで、選択可能に、目標画像の複数の特徴と複数の基準画像の特徴の接続(又はスプライシング)は、目標画像の複数の特徴をそれぞれ複数の基準画像の特徴中の対応特徴と一対一に接続(又はスプライシング)し、即ち目標画像の複数の特徴を複数の基準画像の特徴と一対一に接続(又はスプライシング)して、複数の接続特徴又はスプライシング特徴を得るようになってよい。
いくつかの選択可能な実施例では、特徴抽出モジュールは、
目標画像に対して畳み込み操作を実行し、中間特徴を得るための畳み込みモジュールと、
中間特徴に対して複数の関心領域のアライメント操作を実行し、目標画像の複数の特徴を得るためのアライメントモジュールとを含む。
選択可能に、アライメントモジュールは、基準画像におけるトラッキング目標の位置に基づいて、中間特徴に対して関心領域(RoI)アライメント操作を実行し、目標画像の特徴を得るために用いられる。
本願の実施例では、複数種の方式により特徴マップ中で関心領域(RoI)を選択できる。選択可能に、基準画像におけるトラッキング目標の位置に基づいて、中間特徴に対して関心領域(RoI)アライメント操作を実行し、目標画像の特徴を得てよい。いくつかの実施例では、アライメントモジュールは、基準画像におけるトラッキング目標に対応する位置限定枠の基準画像での位置を関心領域(RoI)として関心領域(RoI)アライメント操作を行い、目標画像の特徴を得るために用いられる。例えば、基準画像におけるトラッキング目標に対応する位置限定枠(bounding box)の基準画像での位置を関心領域(RoI)としてよく、又は、基準画像におけるトラッキング目標に対応する位置限定枠に対して水平移動などの1種又は複数種の操作を行うことにより、関心領域(RoI)を得てよく、本願の実施例はこれについて制限を加えない。
選択可能に、アライメントモジュールは、更に基準画像におけるトラッキング目標の位置限定枠を第1の所定の倍数拡大し、基準画像のトラッキング目標に対応する位置限定枠を得るために用いられる。
選択可能に、該第1の所定の倍数は適用シーン又は実際の要求に応じて設定可能であり、例えば該第1の所定の倍数が2.0であるが、本願の実施例は該第1の所定の倍数の数値について制限を加えない。
基準画像から目標画像へのトラッキング目標に変位が存在するため、依然として基準画像中の位置限定枠により目標画像の特徴を得れば、トラッキング目標の精確位置を逃す可能性があるので、基準画像におけるトラッキング目標の位置限定枠を第1の所定の倍数拡大し、拡大後の位置限定枠の基準画像での位置を関心領域(RoI)として関心領域(RoI)アライメント操作を行って、予測正確度を高めることができる。
いくつかの選択可能な実施例では、特徴抽出モジュールは、
目標画像に対して切り抜き処理を行い、切り抜き画像を得るための切り抜きモジュールと、
この時に、切り抜き画像に対して畳み込み操作を実行し、中間特徴を得るための畳み込みモジュールと、を更に含む。
選択可能に、所定のサイズに基づいて目標画像に対して切り抜き処理を行ってよく、又は、ビデオストリーム中の他の画像に基づいて、目標画像に対して切り抜き処理を行ってよい。例えば、切り抜きモジュールは、目標画像の前に位置する少なくとも1つの第1の画像におけるトラッキング目標の位置情報に基づいて、目標画像に対して切り抜き処理を行い、切り抜き画像を得るために用いられる。選択可能に、この少なくとも1つの第1の画像は目標画像と隣接する少なくとも1つの画像を含んでよく、又は、この少なくとも1つの第1の画像は目標画像の少なくとも1つの基準画像を含み、本願の実施例はこれについて制限を加えない。
選択可能に、いくつかの実施例では、切り抜きモジュールは、
少なくとも1つの第1の画像におけるトラッキング目標の位置情報に基づいて、切り抜き画像の中心点を決定するための中心決定モジュールと、
切り抜き画像の中心点に基づいて目標画像に対して切り抜き処理を行い、切り抜き画像を得るための切り抜き処理モジュールと、を含む。
目標画像を切り抜く目的は、トラッキング目標を目標画像から分離して、得られた切り抜き画像におけるトラッキング目標の占める割合が所定の割合より大きいようにして、トラッキング目標の位置をより精確に決定することにある。
選択可能に、切り抜きプロセスは、中心点の決定と切り抜き画像の長さ及び幅の決定との2つの部分を含んでよく、ここで、選択可能な一例において、中心点は目標画像に近接した(例えば、目標画像に最も近い)基準画像又は目標画像の1フレーム前の画像におけるトラッキング目標の位置中心に基づいて決定されてよく、切り抜き画像の長さ及び幅は基準画像又は1フレーム前の画像におけるトラッキング目標に対応する位置限定枠に基づいて決定されてよい。別の選択可能な例において、少なくとも1つの第1の画像におけるトラッキング目標に対応する位置限定枠の中心点に対して平均処理を行って、切り抜き画像の中心点を得てよいが、本願の実施例はこれに限定されるものではない。
いくつかの実施例では、切り抜き処理モジュールは、更に、目標画像を第2の所定の倍数拡大し、拡大処理後の目標画像を得るために用いられ、それに対して、切り抜き画像の中心点に基づいて、拡大処理後の目標画像に対して切り抜き処理を行い、切り抜き画像を得てよい。
1つ又は複数の選択可能な実施例では、最終位置ユニット43は、
複数の初期予測位置のうちの少なくとも1つの初期予測位置とトラッキング目標の外観基準位置との類似度をそれぞれ決定し、類似度が第1の所定の閾値より大きい少なくとも1つの初期予測位置を得るための類似度決定モジュールと、
類似度が第1の所定の閾値より大きい少なくとも1つの初期予測位置に基づいて、目標画像に対応する最終位置を決定するための第1の位置計算モジュールと、を含む。
選択可能に、他の装置から該トラッキング目標の外観基準位置を取得してよい。又は、トラッキング目標の外観基準位置を記憶するための第1のバッファ領域を設置してよく、該第1のバッファ領域は外観見本バッファ領域(Appearance Exemplar Buffer:AEB)又は他の名称と呼んでもよく、本願の実施例では該第1のバッファ領域の名称について制限を加えない。この時に、第1のバッファ領域から該トラッキング目標の外観基準位置を取得してよい。又は、他の方式により該トラッキング目標の外観基準位置を得てもよく、本願の実施例では該トラッキング目標の外観基準位置の取得方式について制限を加えない。
類似度選別により該目標画像との関連度が高い予測位置を得ることで、計算時間を節約し、トラッキング速度を高めると共に、トラッキングの正確度を保証することができる。
選択可能に、第1の位置計算モジュールは、類似度が第1の所定の閾値より大きい少なくとも1つの初期予測位置に対して加重平均を行い、目標画像に対応する最終位置を得るために用いられる。
ここで、各初期予測位置が1つの重み値に対応し、類似度が大きい初期予測位置に対応する重み値が大きく、逆に、類似度が小さい初期予測位置に対応する重み値が小さい。
選択可能に、類似度決定モジュールは、初期予測位置に対応する位置限定枠とトラッキング目標の外観基準位置に対応する位置限定枠との交差合併比に基づいて、少なくとも1つの初期予測位置とトラッキング目標の外観基準位置との類似度を決定するために用いられる。
いくつかの選択可能な実施例では、最終位置ユニット43は、
決定された目標画像におけるトラッキング目標の最終位置をトラッキング目標の外観基準位置を記憶するための第1のバッファ領域に格納するための位置記憶モジュールを更に含む。
選択可能に、本願の実施例では、上書き又は増加の方式により該トラッキング目標の目標画像での位置を第1のバッファ領域に格納してよく、本願の実施例はこれについて制限を加えない。選択可能に、任意の条件でも該トラッキング目標の目標画像での位置を記憶してよい。又は、トラッキング目標の目標画像での位置が所定の条件を満たした時に第1のバッファ領域に記憶し、例えば、目標画像と第1のバッファ領域に記憶された外観基準位置に対応する画像フレームとの間の間隔が所定の数値であり、又はトラッキング目標の目標画像での位置が所定の条件を満たし、例えば目標画像と第1のバッファ領域に記憶された外観基準位置との間の差異が所定の閾値を超えたなどの場合が挙げられ、本願の実施例では目標画像におけるトラッキング目標の位置の記憶条件について制限を加えない。
1つ又は複数の選択可能な実施例では、最終位置ユニット43は、
複数の初期予測位置のうちの少なくとも1つの初期予測位置の信頼度を決定するための信頼度決定モジュールと、
信頼度が第2の所定の閾値より大きい少なくとも1つの初期予測位置に基づいて、目標画像におけるトラッキング目標の最終位置を決定するための第2の位置計算モジュールと、を含む。
信頼度は該予測位置が該目標画像でのトラッキング目標の真実位置に対応する確率を表し、この信頼度はトレーニングされたニューラルネットワークであるスコアリングネットワークにより得られ、例えば、1つのバイナリ分類ネットワークを利用し、予測位置と真実位置が重なり合った時に、真実値1、予測値0が出力され、予測位置と真実位置が重なり合わない時に、真実値0、予測値1が出力される。該実施例では主に特定の物体(例えば、顔、人体など)をトラッキングする。
選択可能に、信頼度決定モジュールは、信頼度が第2の所定の閾値より大きい少なくとも1つの初期予測位置に対して加重平均を行い、目標画像におけるトラッキング目標の最終位置を得るために用いられる。
ここで重み値は信頼度に関連し、信頼度が大きいほど重み値が大きくなり、信頼度が小さいほど、重み値が小さくなる。
選択可能に、信頼度決定モジュールは、信頼度スコアリングネットワークを用いて少なくとも1つの初期予測位置をそれぞれ処理し、少なくとも1つの初期予測位置に対応する信頼度を得るために用いられる。
ここで、信頼度スコアリングネットワークはトレーニングして得られたものであり、入力された初期予測位置に対応してトレーニングされた信頼度スコアリングネットワークは対応する信頼度を出力でき、選択可能に、予測信頼度と真実信頼度に基づいて誤差を得て、誤差により逆勾配伝播法を利用してスコアリングネットワークをトレーニングすることができ、トレーニングされたスコアリングネットワークは予測位置が真実位置(既知の目標位置)となる確率をより好適に予測でき、該スコアリングネットワークはトラッキングしようとする特定の物体に対応してトレーニングされ、例えば、顔をトラッキングすることが必要とされる場合に、顔画像を用いて該スコアリングネットワークをトレーニングする。
選択可能に、信頼度決定モジュールは、更に、
信頼度スコアリングネットワークを用いてサンプル画像の少なくとも1つの初期予測位置を処理し、少なくとも1つの初期予測位置に対応する予測信頼度を得ることと、
サンプル画像の標識位置に基づいて、少なくとも1つの初期予測位置の真実信頼度を決定することと、
少なくとも1つの初期予測位置の予測信頼度と真実信頼度に基づいて、信頼度スコアリングネットワークをトレーニングすることとに用いられる。
信頼度ネットワークのスコアリングの正確性を高めるために、信頼度スコアリングネットワークをトレーニングすることが必要とされ、トレーニングプロセスはニューラルネットワークのトレーニングプロセスと同様であり、いずれも真実信頼度が知られたサンプル画像に基づいて信頼度スコアリングネットワークをトレーニングし、選択可能に、様々なトラッキング目標に特定のトレーニングを採用してよく、例えば、顔をトラッキングする場合に、信頼度スコアリングネットワークをトレーニングするプロセスで、真実信頼度が知られた顔画像を用いて信頼度スコアリングネットワークをトレーニングして、得られた信頼度スコアリングネットワークによる顔画像の信頼度スコアリングがより精確になる。
1つ又は複数の選択可能な実施例では、
目標画像におけるトラッキング目標の最終位置及び複数の基準画像におけるトラッキング目標の位置に基づいて、目標画像を基準画像リストに加えるか否かを決定するための基準画像決定ユニットを更に含む。
ここで、該基準画像リストは複数の基準画像を含んでよく、該基準画像リストは処理待ちの画像フレーム中のトラッキング目標をトラッキングするために用いられる。ずっと同一な基準画像の特徴を用いて目標画像に対して位置予測を行えば、トラッキング目標の位置移動が大きい時に、位置が不精確になるので、予測の正確性を高めるために、基準画像リストを定期的又は不定期的に更新してよく、本願の実施例はこれについて制限を加えない。
選択可能に、基準画像決定ユニットは、目標画像におけるトラッキング目標の位置限定枠bounding boxと前記複数の基準画像におけるトラッキング目標の位置限定枠bounding boxとの交差合併比に基づいて、目標画像を基準画像リストに加えるか否かを決定するために用いられる。
選択可能に、基準画像決定ユニットは、
目標画像におけるトラッキング目標の位置限定枠と複数の基準画像のトラッキング目標の位置限定枠との交差合併比をそれぞれ決定し、決定された複数の交差合併比に基づいて、平均の交差合併比を得るための交差合併比決定モジュールと、
平均の交差合併比が交差合併比閾値以上であることに応答して、目標画像を基準画像リストに加えるための添加決定モジュールと、を含む。
1つ又は複数の選択可能な実施例では、
目標画像と複数の基準画像のうちの目標画像に近い(例えば、最も近い)基準画像の間に所定の個数の画像フレームの間隔があれば、目標画像を基準画像リストに加えるための基準リスト更新ユニットを更に含む。
特定の問題(例えば顔トラッキングのような特定の目標のトラッキング)に関して、応用する時に特定の基準フレーム更新策略を用いて目標トラッキング方法の基準フレームを調整してよく、普及させる価値が非常に高い。
1つ又は複数の選択可能な実施例では、目標画像を基準画像リストに加えると決定したことに応答して、第2のバッファ領域に目標画像の特徴をバッファするための特徴バッファユニットを更に含む。
選択可能に、第2のバッファ領域に記憶されるデータが持続的に増加してよく、それに対して、基準画像リストに含まれる基準画像の個数が持続的に増大してよく、このように、位置予測が必要とされる時に、第2のバッファから現在記憶された全ての基準画像中の最新の一定数量の基準画像の特徴を呼び出すことができる。選択可能に、記憶空間を節約するために、第2のバッファ領域に所定の数量の基準画像を保存してよく、基準画像リストに1つの新しい基準画像が増加された場合に、記憶時間が早い(例えば、最も早い)1つ又は複数の基準画像を削除してよく、それに対して、該基準画像リストに含まれる基準画像の個数が変わらなくてもよく、位置予測が必要とされる時に、バッファから現在記憶された全ての基準画像の特徴を呼び出せばよい。
本願の実施例の別の態様によれば、提供される電子機器は、本願の上記のいずれか1つの実施例の目標トラッキング装置を備えるプロセッサを含む。
本願の実施例の別の態様によれば、提供される電子機器は、実行可能コマンドを記憶するためのメモリと、
メモリと通信して実行可能コマンドを実行して本願で提供される目標トラッキング方法の上記のいずれか1つの実施例を完成するためのプロセッサと、を含む。
本願の実施例の別の態様によれば、提供されるコンピューター記憶媒体は、コンピューター可読コマンドを記憶するためのものであり、コマンドがプロセッサにより実行される時に、該プロセッサに本願で提供される目標トラッキング方法の上記のいずれか1つの実施例を実行させる。
本願の実施例の別の態様によれば、提供されるコンピュータープログラムは、コンピューター可読コードを含み、コンピューター可読コードが機器上で動作する時に、機器中のプロセッサに本願で提供される目標トラッキング方法を実行させる。
本願の実施例の更に1つの態様によれば、提供されるコンピュータープログラム製品は、コンピューター可読コマンドを記憶するためのものであり、前記コマンドが実行される時に、コンピューターに上記のいずれか1つの実現可能な形態に記載の目標トラッキング方法を実行させる。
1つ又は複数の選択可能な実施形態では、本願の実施例は、コンピューター可読コマンドを記憶するためのコンピュータープログラム製品であって、前記コマンドが実行される時に、コンピューターに上記のいずれか1つの実施例に記載の目標トラッキング方法を実行させるコンピュータープログラム製品を更に提供する。
該コンピュータプログラム製品は具体的にはハードウェア、ソフトウェア又はそれらの組合せにより実現可能である。選択可能な一例において、前記コンピュータプログラム製品は具体的にはコンピュータ記憶媒体として実現され、別の選択可能な一例において、前記コンピュータプログラム製品は具体的には、例えばソフトウェア開発キット(Software Development Kit:SDK)などのソフトウェア製品として実現される。
本願の実施例は、目標画像の複数の基準画像の特徴を取得することと、複数の基準画像の特徴に基づいて、目標画像におけるトラッキング目標の複数の初期予測位置を決定することと、複数の初期予測位置に基づいて、目標画像におけるトラッキング目標の最終位置を決定することと、を含む別の目標トラッキング方法及びそれに対応する装置と電子機器、コンピューター記憶媒体、コンピュータープログラム並びにコンピュータープログラム製品を更に提供する。
いくつかの実施例では、該目標トラッキング指示は具体的には呼び出しコマンドであってよく、第1の装置は呼び出すことで目標トラッキングを実行するように第2の装置を指示することができ、それに対して、呼び出しコマンドを受信したことに応答して、第2の装置は上記目標トラッキング方法中のいずれか1つの実施例におけるステップ及び/又はフローを実行することができる。
本願の実施例における「第1の」、「第2の」などの用語は区別するためのものに過ぎず、本願の実施例に対する限定と理解してはならないことを理解すべきである。
更に、本願では、「複数の」は2つ又は2つ以上を指してよく、「少なくとも1つの」は1つ、2つ又は2つ以上を指してよいことを理解すべきである。
更に、本願で言及された任意の部材、データ又は構造は、明確に限定され又は明細書の前後で反対的に示唆された場合でなければ、一般的には1つ又は複数と理解してよいことを理解すべきである。
更に、本願ではそれぞれの実施例についての説明はそれぞれの実施例の相違点を重点として強調し、その同一又は類似的な点について相互に参照してよく、簡単化するために、ここで一つずつに繰り返して説明しないことを理解すべきである。
本願の実施例は、例えば、携帯端末、パーソナルコンピュータ(PC)、タブレット型コンピュータ、サーバーなどであってよい電子機器を更に提供する。以下、図5を参照し、本願の実施例の端末装置又はサーバーを実現するのに適する電子機器500の構造模式図を示し、図5に示すように、コンピュータシステム500は1つ又は複数のプロセッサ、通信部などを含み、前記1つ又は複数のプロセッサは、例えば、1つ又は複数の中央処理ユニット(CPU)501、及び/又は1つ又は複数の画像プロセッサ(GPU)513などであり、プロセッサは、読み取り専用メモリ(ROM)502に記憶された実行可能コマンド又は記憶部508からランダムアクセスメモリ(RAM)503にロードされた実行可能コマンドによって各種の適切な動作及び処理を実現することができる。通信部512はネットワークカードを含んでよいが、それに限定されなく、前記ネットワークカードはIB(Infiniband)ネットワークカードを含んでよいが、それに限定されない。
プロセッサは読み取り専用メモリ502及び/又はランダムアクセスメモリ503と通信して実行可能コマンドを実行し、通信バス504を介して通信部512に接続され、通信部512を介して他のターゲットデバイスと通信してよく、それにより本願の実施例で提供されるいずれか一項の方法に対応する操作を完成し、例えば、目標画像の複数の基準画像の特徴を取得し、複数の基準画像の特徴に基づいて、目標画像におけるトラッキング目標の複数の初期予測位置を決定し、複数の初期予測位置に基づいて、目標画像におけるトラッキング目標の最終位置を決定する。
また、RAM503には、装置の動作に必要な各種のプログラムやデータが格納されていてもよい。CPU501、ROM502及びRAM503は、通信バス504を介して相互に接続される。RAM503を有する場合に、ROM502は選択可能なモジュールである。RAM503は実行可能コマンドを格納するか、または動作時に実行可能コマンドをROM502に書き込み、実行可能コマンドによってプロセッサ501に上記通信方法に対応する操作を実行させる。入力/出力(I/O)インタフェース505も通信バス504に接続される。通信部512は、統合的に設置されてもよく、複数のサブモジュール(例えば複数のIBネットワークカード)を有し、通信バスのリンク上にあるように設置されてもよい。
キーボード、マウスなどを含む入力部506と、陰極線管(CRT)、液晶ディスプレイー(LCD)など及びスピーカなどを含む出力部507と、ハードディスクなどを含む記憶部508と、LANカード、モデムなどのネットワークインタフェースカードを含む通信部509などがI/Oインタフェース505に接続されている。通信部分509は例えばインターネットのようなネットワークを介して通信処理を行う。ドライブ510も必要に応じてI/Oインタフェース505に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体511は、必要に応じてドライブ510上に装着され、そこから読み出されたコンピュータプログラムを必要に応じて記憶部508にインストールする。
なお、図5に示す構造は選択可能な一実施形態に過ぎず、実践過程では、実際の必要に応じて上記図5の部品の数及び種類を選択、削除、追加、または置換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えばGPUとCPUは分離設置するかまたはGPUをCPUに統合するようにしてよく、通信部は分離設置してもよく、またCPUまたはGPUに統合設置してもよいことを説明する必要がある。これらの置換可能な実施形態はいずれも本願の保護範囲に属する。
特に、本願の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本願の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例により提供される方法のステップを対応して実行する対応のコマンドを含んでよく、例えば、目標画像の複数の基準画像の特徴を取得し、複数の基準画像の特徴に基づいて、目標画像におけるトラッキング目標の複数の初期予測位置を決定し、複数の初期予測位置に基づいて、目標画像におけるトラッキング目標の最終位置を決定する。このような実施例では、該コンピュータプログラムは通信部509によってネットワークからダウンロード及びインストールされ、及び/又はリムーバブル媒体511からインストールされ得る。中央処理ユニット(CPU)501によって該コンピュータプログラムを実行する時に、本発明の方法で限定された上記機能を実行する。
本明細書における様々な実施例は漸進的に説明され、各実施例は他の実施例との相違点に集中して説明したが、各実施例間の同一または類似の部分については相互に参照すればよい。システム実施例については、それは基本的に方法実施例に対応するので、説明は比較的簡単であり、関連部分は方法実施例の説明の一部を参照すればよい。
本願の方法及び装置は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組合わせによって本願の方法及び装置を実現することができる。前記方法のステップのための上記順序は説明することのみを目的とし、本願の方法のステップは、特に断らない限り、以上で具体的に説明した順序に限定されない。また、いくつかの実施例では、本願は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本願の方法を実現するための機械可読コマンドを含む。従って、本願は本願の方法を実行するためのプログラムが記憶された記録媒体も含む。
本願の説明は、例示及び説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本願を限定するというわけでない。当業者にとっては多くの修正及び変形を加えることができるのは明らかであろう。実施例は本願の原理及び実際応用をより明瞭に説明するため、かつ当業者が本願を理解して特定用途に適した各種の修正を加えた各種の実施例を設計可能にするように選択され説明されたものである。

Claims (58)

  1. 目標トラッキング方法であって、
    目標画像の複数の基準画像の特徴を取得することと、
    前記複数の基準画像の特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を決定することと、
    前記複数の初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することと、を含むことを特徴とする目標トラッキング方法。
  2. 前記複数の基準画像の特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を決定することは、
    前記目標画像に対して特徴抽出を行い、前記目標画像の複数の特徴を得ることと、
    前記目標画像の複数の特徴と前記複数の基準画像の特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を得ることと、を含むことを特徴とする請求項1に記載の方法。
  3. 前記目標画像の複数の特徴と前記複数の基準画像の特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を得ることは、
    前記目標画像の複数の特徴をそれぞれ前記複数の基準画像の特徴中の対応特徴と接続し、複数の接続特徴を得ることと、
    前記複数の接続特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を得ることと、を含むことを特徴とする請求項2に記載の方法。
  4. 前記目標画像に対して特徴抽出を行い、前記目標画像の複数の特徴を得ることは、
    前記目標画像に対して畳み込み操作を実行し、中間特徴を得ることと、
    前記中間特徴に対して複数の関心領域のアライメント操作を実行し、前記目標画像の複数の特徴を得ることと、を含むことを特徴とする請求項2又は3に記載の方法。
  5. 前記中間特徴に対して複数の関心領域のアライメント操作を実行し、前記目標画像の複数の特徴を得ることは、
    前記複数の基準画像のうちの少なくとも1つの基準画像におけるトラッキング目標の位置に基づいて、前記中間特徴に対して関心領域のアライメント操作を実行し、前記目標画像の特徴を得ることを含むことを特徴とする請求項4に記載の方法。
  6. 前記複数の基準画像のうちの少なくとも1つの基準画像におけるトラッキング目標の位置に基づいて、前記中間特徴に対して関心領域のアライメント操作を実行し、前記目標画像の特徴を得ることは、
    前記少なくとも1つの基準画像のうちのそれぞれの基準画像におけるトラッキング目標に対応する位置限定枠の前記各基準画像での位置を関心領域として関心領域アライメント操作を行い、前記目標画像の特徴を得ることを含むことを特徴とする請求項5に記載の方法。
  7. 前記少なくとも1つの基準画像のうちのそれぞれの基準画像におけるトラッキング目標に対応する位置限定枠の前記各基準画像での位置を関心領域として関心領域アライメント操作を行い、前記目標画像の特徴を得ることの前に、
    前記少なくとも1つの基準画像のうちのそれぞれの基準画像におけるトラッキング目標の位置限定枠を第1の所定の倍数拡大し、前記各基準画像におけるトラッキング目標に対応する位置限定枠を得ることを更に含むことを特徴とする請求項6に記載の方法。
  8. 前記目標画像に対して畳み込み操作を実行し、中間特徴を得ることの前に、
    前記目標画像に対して切り抜き処理を行い、切り抜き画像を得ることを更に含み、
    前記目標画像に対して畳み込み操作を実行し、中間特徴を得ることは、
    前記切り抜き画像に対して畳み込み操作を実行し、中間特徴を得ることを含むことを特徴とする請求項4〜7のいずれか一項に記載の方法。
  9. 前記目標画像に対して切り抜き処理を行い、切り抜き画像を得ることは、
    前記目標画像の前に位置する少なくとも1つの第1の画像におけるトラッキング目標の位置情報に基づいて、前記目標画像に対して切り抜き処理を行い、切り抜き画像を得ることを含むことを特徴とする請求項8に記載の方法。
  10. 前記少なくとも1つの第1の画像は前記目標画像の少なくとも1つの前記基準画像を含むことを特徴とする請求項9に記載の方法。
  11. 前記の少なくとも1つの第1の画像におけるトラッキング目標の位置情報に基づいて、前記目標画像に対して切り抜き処理を行い、切り抜き画像を得ることは、
    前記少なくとも1つの第1の画像におけるトラッキング目標の位置情報に基づいて、前記切り抜き画像の中心点を決定することと、
    前記切り抜き画像の中心点に基づいて前記目標画像に対して切り抜き処理を行い、前記切り抜き画像を得ることと、を含むことを特徴とする請求項9又は10に記載の方法。
  12. 前記切り抜き画像の中心点に基づいて前記目標画像に対して切り抜き処理を行い、前記切り抜き画像を得ることは、
    前記目標画像を第2の所定の倍数拡大し、拡大処理後の前記目標画像を得ることと、
    前記切り抜き画像の中心点に基づいて、前記拡大処理後の前記目標画像に対して切り抜き処理を行い、前記切り抜き画像を得ることと、を含むことを特徴とする請求項11に記載の方法。
  13. 前記複数の初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することは、
    前記複数の初期予測位置から少なくとも1つの初期予測位置を選択することと、
    前記少なくとも1つの初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することと、を含むことを特徴とする請求項1〜12のいずれか一項に記載の方法。
  14. 前記複数の初期予測位置から少なくとも1つの初期予測位置を選択することは、
    前記複数の初期予測位置から前記トラッキング目標の外観基準位置との類似度が第1の所定の閾値より大きい少なくとも1つの初期予測位置を選択することを含むことを特徴とする請求項13に記載の方法。
  15. 前記初期予測位置に対応する位置限定枠と前記トラッキング目標の外観基準位置に対応する位置限定枠との交差合併比に基づいて、前記初期予測位置と前記トラッキング目標の外観基準位置との類似度を決定することを更に含むことを特徴とする請求項14に記載の方法。
  16. 前記決定された目標画像におけるトラッキング目標の最終位置を前記トラッキング目標の外観基準位置を記憶するための第1のバッファ領域に格納することを更に含むことを特徴とする請求項14又は15に記載の方法。
  17. 前記複数の初期予測位置から少なくとも1つの初期予測位置を選択することは、
    前記複数の初期予測位置から信頼度が第2の所定の閾値より大きい少なくとも1つの初期予測位置を選択することを含むことを特徴とする請求項13に記載の方法。
  18. 信頼度スコアリングネットワークを用いて前記初期予測位置を処理し、前記初期予測位置に対応する信頼度を得ることを更に含むことを特徴とする請求項17に記載の方法。
  19. 前記信頼度スコアリングネットワークを用いてサンプル画像の少なくとも1つの初期予測位置を処理し、対応する少なくとも1つの前記初期予測位置の予測信頼度を得ることと、
    前記サンプル画像の標識位置情報に基づいて、前記少なくとも1つの初期予測位置の真実信頼度を決定することと、
    前記少なくとも1つの初期予測位置の予測信頼度と真実信頼度に基づいて、前記信頼度スコアリングネットワークをトレーニングすることを更に含むことを特徴とする請求項18に記載の方法。
  20. 前記少なくとも1つの初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することは、
    前記少なくとも1つの初期予測位置に対して加重平均を行い、前記目標画像におけるトラッキング目標の最終位置を得ることを含むことを特徴とする請求項13〜19のいずれか一項に記載の方法。
  21. 前記の目標画像の複数の基準画像の特徴を取得することは、
    第2のバッファ領域から目標画像の複数の基準画像の特徴を取得することを含むことを特徴とする請求項1〜20のいずれか一項に記載の方法。
  22. 前記目標画像と複数の前記基準画像の間に少なくとも1つの第2の画像の間隔があり、又は、
    前記複数の基準画像は隣接する少なくとも2つの画像フレームを含み、又は、
    前記複数の基準画像中の任意2つの基準画像は隣接しないことを特徴とする請求項1〜21のいずれか一項に記載の方法。
  23. 前記複数の初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することの後に、
    前記目標画像におけるトラッキング目標の最終位置及び前記複数の基準画像におけるトラッキング目標の位置に基づいて、前記目標画像を基準画像リストに加えるか否かを決定することを更に含むことを特徴とする請求項1〜22のいずれか一項に記載の方法。
  24. 前記目標画像におけるトラッキング目標の最終位置及び前記複数の基準画像におけるトラッキング目標の位置に基づいて、前記目標画像を基準画像リストに加えるか否かを決定する前記目標画像を新しく加えられる基準画像とするか否かを決定することは、
    前記目標画像におけるトラッキング目標の位置限定枠と前記複数の基準画像におけるトラッキング目標の位置限定枠との交差合併比に基づいて、前記目標画像を基準画像リストに加えるか否かを決定することを含むことを特徴とする請求項23に記載の方法。
  25. 前記目標画像フレーム中のトラッキング目標の位置限定枠と前記複数の基準画像におけるトラッキング目標の各位置限定枠との交差合併比に基づいて、前記目標画像を基準画像リストに加えるか否かを決定することは、
    目標画像におけるトラッキング目標の位置限定枠と前記複数の基準画像のトラッキング目標の位置限定枠との交差合併比をそれぞれ決定することと、
    決定された複数の交差合併比に基づいて、平均の交差合併比を得ることと、
    前記平均の交差合併比が交差合併比閾値以上であることに応答して、前記目標画像を基準画像リストに加えることと、を含むことを特徴とする請求項24に記載の方法。
  26. 前記複数の初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定することの後に、
    前記目標画像と前記複数の基準画像のうちの前記目標画像に最も近い基準画像との間に所定の個数の画像フレームに間隔があることに応答して、前記目標画像を基準画像リストに加えることを更に含むことを特徴とする請求項1〜22のいずれか一項に記載の方法。
  27. 前記目標画像を基準画像リストに加えると決定したことに応答して、前記第2のバッファ領域に前記目標画像の特徴をバッファすることを更に含むことを特徴とする請求項23〜26のいずれか一項に記載の方法。
  28. 目標トラッキング装置であって、
    目標画像の複数の基準画像の特徴を取得するための基準取得ユニットと、
    前記複数の基準画像の特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を決定するための初期予測ユニットと、
    前記複数の初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定するための最終位置ユニットと、を含むことを特徴とする目標トラッキング装置。
  29. 前記初期予測ユニットは、
    前記目標画像に対して特徴抽出を行い、前記目標画像の複数の特徴を得るための特徴抽出モジュールと、
    前記目標画像の複数の特徴と前記複数の基準画像の特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を得るための位置予測モジュールと、を含むことを特徴とする請求項28に記載の装置。
  30. 前記位置予測モジュールは、前記目標画像の複数の特徴をそれぞれ前記複数の基準画像の特徴中の対応特徴と接続し、複数の接続特徴を得、前記複数の接続特徴に基づいて、前記目標画像におけるトラッキング目標の複数の初期予測位置を得るために用いられることを特徴とする請求項29に記載の装置。
  31. 前記特徴抽出モジュールは、
    前記目標画像に対して畳み込み操作を実行し、中間特徴を得るための畳み込みモジュールと、
    前記中間特徴に対して複数の関心領域のアライメント操作を実行し、前記目標画像の複数の特徴を得るためのアライメントモジュールと、を含むことを特徴とする請求項29又は30に記載の装置。
  32. 前記アライメントモジュールは、前記複数の基準画像のうちの少なくとも1つの基準画像におけるトラッキング目標の位置に基づいて、前記中間特徴に対して関心領域のアライメント操作を実行し、前記目標画像の特徴を得るために用いられることを特徴とする請求項31に記載の装置。
  33. 前記アライメントモジュールは、前記複数の基準画像のうちの少なくとも1つの基準画像におけるトラッキング目標に対応する位置限定枠の前記基準画像での位置を関心領域として関心領域アライメント操作を行い、前記目標画像の特徴を得るために用いられることを特徴とする請求項32に記載の装置。
  34. 前記アライメントモジュールは、更に前記複数の基準画像のうちの少なくとも1つの基準画像におけるトラッキング目標の位置限定枠を第1の所定の倍数拡大し、前記少なくとも1つの基準画像におけるトラッキング目標に対応する位置限定枠を得るために用いられることを特徴とする請求項33に記載の装置。
  35. 前記特徴抽出モジュールは、
    前記目標画像に対して切り抜き処理を行い、切り抜き画像を得るための切り抜きモジュールと、
    前記切り抜き画像に対して畳み込み操作を実行し、中間特徴を得るための前記畳み込みモジュールと、を更に含むことを特徴とする請求項31〜34のいずれか一項に記載の装置。
  36. 前記切り抜きモジュールは、前記目標画像の前に位置する少なくとも1つの第1の画像におけるトラッキング目標の位置情報に基づいて、前記目標画像に対して切り抜き処理を行い、切り抜き画像を得るために用いられることを特徴とする請求項35に記載の装置。
  37. 前記少なくとも1つの第1の画像は前記目標画像の少なくとも1つの前記基準画像を含むことを特徴とする請求項36に記載の装置。
  38. 前記切り抜きモジュールは、
    前記少なくとも1つの第1の画像におけるトラッキング目標の位置情報に基づいて、前記切り抜き画像の中心点を決定するための中心決定モジュールと、
    前記切り抜き画像の中心点に基づいて前記目標画像に対して切り抜き処理を行い、前記切り抜き画像を得るための切り抜き処理モジュールと、を含むことを特徴とする請求項36又は37に記載の装置。
  39. 前記切り抜き処理モジュールは、前記目標画像を第2の所定の倍数拡大し、拡大処理後の前記目標画像を得ることと、前記切り抜き画像の中心点に基づいて、前記拡大処理後の前記目標画像に対して切り抜き処理を行い、前記切り抜き画像を得ることとに用いられることを特徴とする請求項38に記載の装置。
  40. 前記最終位置ユニットは、
    前記複数の初期予測位置のうちの少なくとも1つの初期予測位置と前記トラッキング目標の外観基準位置との類似度をそれぞれ決定し、類似度が第1の所定の閾値より大きい少なくとも1つの初期予測位置を得るための類似度決定モジュールと、
    前記類似度が第1の所定の閾値より大きい少なくとも1つの初期予測位置に基づいて、前記目標画像に対応する最終位置を決定するための第1の位置計算モジュールと、を含むことを特徴とする請求項28〜39のいずれか一項に記載の装置。
  41. 前記第1の位置計算モジュールは、前記類似度が第1の所定の閾値より大きい少なくとも1つの初期予測位置に対して加重平均を行い、前記目標画像に対応する最終位置を得るために用いられることを特徴とする請求項40に記載の装置。
  42. 前記類似度決定モジュールは、前記初期予測位置に対応する位置限定枠と前記トラッキング目標の外観基準位置に対応する位置限定枠との交差合併比に基づいて、少なくとも1つの前記初期予測位置と前記トラッキング目標の外観基準位置との類似度を決定するために用いられることを特徴とする請求項40又は41に記載の装置。
  43. 前記最終位置ユニットは、
    前記決定された目標画像におけるトラッキング目標の最終位置を前記トラッキング目標の外観基準位置を記憶するための第1のバッファ領域に格納するための位置記憶モジュールを更に含むことを特徴とする請求項40〜42のいずれか一項に記載の装置。
  44. 前記最終位置ユニットは、
    前記複数の初期予測位置のうちの少なくとも1つの初期予測位置の信頼度を決定するための信頼度決定モジュールと、
    前記信頼度が第2の所定の閾値より大きい少なくとも1つの前記初期予測位置に基づいて、前記目標画像におけるトラッキング目標の最終位置を決定するための第2の位置計算モジュールと、を含むことを特徴とする請求項28〜39のいずれか一項に記載の装置。
  45. 前記信頼度決定モジュールは、前記信頼度が第2の所定の閾値より大きい少なくとも1つの前記初期予測位置に対して加重平均を行い、前記目標画像におけるトラッキング目標の最終位置を得るために用いられることを特徴とする請求項44に記載の装置。
  46. 前記信頼度決定モジュールは、信頼度スコアリングネットワークを用いて前記少なくとも1つの初期予測位置をそれぞれ処理し、前記少なくとも1つの初期予測位置に対応する信頼度を得るために用いられることを特徴とする請求項44又は45に記載の装置。
  47. 前記信頼度決定モジュールは、更に、
    前記信頼度スコアリングネットワークを用いてサンプル画像の少なくとも1つの初期予測位置を処理し、対応する少なくとも1つの前記初期予測位置の予測信頼度を得ることと、
    前記サンプル画像の標識位置に基づいて、前記少なくとも1つの初期予測位置の真実信頼度を決定することと、
    前記少なくとも1つの初期予測位置の予測信頼度と真実信頼度に基づいて、前記信頼度スコアリングネットワークをトレーニングすることとに用いられることを特徴とする請求項46に記載の装置。
  48. 前記基準取得ユニットは、第2のバッファ領域から目標画像の複数の基準画像の特徴を取得するために用いられることを特徴とする請求項28〜47のいずれか一項に記載の装置。
  49. 前記目標画像と複数の前記基準画像の間に少なくとも1つの第2の画像の間隔があり、又は
    前記複数の基準画像は隣接する少なくとも2つの画像フレームを含み、又は
    前記複数の基準画像中の任意2つの基準画像は隣接しないことを特徴とする請求項28〜48のいずれか一項に記載の装置。
  50. 前記目標画像におけるトラッキング目標の最終位置及び前記複数の基準画像におけるトラッキング目標の位置に基づいて、前記目標画像を基準画像リストに加えるか否かを決定するための基準画像決定ユニットを更に含むことを特徴とする請求項28〜49のいずれか一項に記載の装置。
  51. 前記基準画像決定ユニットは、前記目標画像におけるトラッキング目標の位置限定枠と前記複数の基準画像におけるトラッキング目標の位置限定枠との交差合併比に基づいて、前記目標画像を基準画像リストに加えるか否かを決定するために用いられることを特徴とする請求項50に記載の装置。
  52. 前記基準画像決定ユニットは、
    目標画像におけるトラッキング目標の位置限定枠と前記複数の基準画像のトラッキング目標の位置限定枠との交差合併比をそれぞれ決定し、決定された複数の交差合併比に基づいて、平均の交差合併比を得るための交差合併比決定モジュールと、
    前記平均の交差合併比が交差合併比閾値以上であることに応答して、前記目標画像を基準画像リストに加えるための添加決定モジュールと、を含むことを特徴とする請求項51に記載の装置。
  53. 前記目標画像と前記複数の基準画像のうちの前記目標画像に最も近い基準画像との間に所定の個数の画像フレームの間隔がある場合に、前記目標画像を基準画像リストに加えるための基準リスト更新ユニットを更に含むことを特徴とする請求項28〜49のいずれか一項に記載の装置。
  54. 前記目標画像を基準画像リストに加えると決定したことに応答して、前記第2のバッファ領域に前記目標画像の特徴をバッファするための特徴バッファユニットを更に含むことを特徴とする請求項50〜53のいずれか一項に記載の装置。
  55. 電子機器であって、
    請求項28〜54のいずれか一項に記載の目標トラッキング装置を備えるプロセッサを含むことを特徴とする電子機器。
  56. 電子機器であって、
    実行可能コマンドを記憶するためのメモリと、
    前記メモリと通信して前記実行可能コマンドを実行して請求項1〜27のいずれか一項に記載の目標トラッキング方法を完成するためのプロセッサと、を含むことを特徴とする電子機器。
  57. コンピューター可読コマンドを記憶するためのコンピューター記憶媒体であって、
    前記コマンドがプロセッサにより実行される時に、前記プロセッサに請求項1〜27のいずれか一項に記載の目標トラッキング方法を実行させることを特徴とするコンピューター記憶媒体。
  58. コンピューター可読コードを備えるコンピュータープログラム製品であって、
    前記コンピューター可読コードが機器上で動作する時に、前記機器中のプロセッサに請求項1〜27のいずれか一項に記載の目標トラッキング方法を実行させることを特徴とするコンピュータープログラム製品。
JP2020516429A 2018-03-06 2019-02-27 目標トラッキング方法及び装置、電子機器並びに記憶媒体 Active JP6999028B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810182797.XA CN108460787B (zh) 2018-03-06 2018-03-06 目标跟踪方法和装置、电子设备、程序、存储介质
CN201810182797.X 2018-03-06
PCT/CN2019/076354 WO2019170023A1 (zh) 2018-03-06 2019-02-27 目标跟踪方法和装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
JP2020534610A true JP2020534610A (ja) 2020-11-26
JP6999028B2 JP6999028B2 (ja) 2022-01-18

Family

ID=63217237

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020516429A Active JP6999028B2 (ja) 2018-03-06 2019-02-27 目標トラッキング方法及び装置、電子機器並びに記憶媒体

Country Status (6)

Country Link
US (1) US11216955B2 (ja)
JP (1) JP6999028B2 (ja)
KR (1) KR102366733B1 (ja)
CN (1) CN108460787B (ja)
SG (1) SG11202002622QA (ja)
WO (1) WO2019170023A1 (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304758B (zh) * 2017-06-21 2020-08-25 腾讯科技(深圳)有限公司 人脸特征点跟踪方法及装置
WO2019170024A1 (zh) * 2018-03-06 2019-09-12 北京市商汤科技开发有限公司 目标跟踪方法和装置、电子设备、存储介质
CN108460787B (zh) 2018-03-06 2020-11-27 北京市商汤科技开发有限公司 目标跟踪方法和装置、电子设备、程序、存储介质
US11436717B2 (en) * 2018-04-04 2022-09-06 Panasonic Intellectual Property Management Co., Ltd. Image processing device and image processing method
WO2019232099A1 (en) * 2018-05-29 2019-12-05 Google Llc Neural architecture search for dense image prediction tasks
CN109034136B (zh) * 2018-09-06 2021-07-20 湖北亿咖通科技有限公司 图像处理方法、装置、摄像设备及存储介质
US11514585B2 (en) * 2018-09-17 2022-11-29 Nokia Solutions And Networks Oy Object tracking
CN110163889A (zh) * 2018-10-15 2019-08-23 腾讯科技(深圳)有限公司 目标跟踪方法、目标跟踪装置、目标跟踪设备
CN109711241B (zh) * 2018-10-30 2021-07-20 百度在线网络技术(北京)有限公司 物体检测方法、装置与电子设备
US10929986B2 (en) * 2018-12-19 2021-02-23 Fca Us Llc Techniques for using a simple neural network model and standard camera for image detection in autonomous driving
CN111414904B (zh) * 2019-01-08 2023-12-01 北京地平线机器人技术研发有限公司 处理感兴趣区域数据的方法和装置
CN109785385B (zh) * 2019-01-22 2021-01-29 中国科学院自动化研究所 视觉目标跟踪方法及系统
CN110335313B (zh) * 2019-06-17 2022-12-09 腾讯科技(深圳)有限公司 音频采集设备定位方法及装置、说话人识别方法及系统
CN115311330B (zh) * 2019-10-11 2023-04-07 杭州云栖智慧视通科技有限公司 一种基于位置预测的视频多目标跟踪方法
CN112668377A (zh) * 2019-10-16 2021-04-16 清华大学 信息识别系统及其方法
KR102301239B1 (ko) * 2020-05-07 2021-09-09 에스케이텔레콤 주식회사 지능형 카메라 영상에 대한 프라이버시 마스킹장치 및 방법
CN111738133A (zh) * 2020-06-17 2020-10-02 北京奇艺世纪科技有限公司 模型训练方法、目标检测方法、装置、电子设备及可读存储介质
CN111931844B (zh) * 2020-08-07 2023-11-28 商汤集团有限公司 图像处理方法及装置、电子设备和存储介质
CN112037257B (zh) * 2020-08-20 2023-09-29 浙江大华技术股份有限公司 一种目标跟踪方法、终端及其计算机可读存储介质
CN112053384B (zh) * 2020-08-28 2022-12-02 西安电子科技大学 基于边界框回归模型的目标跟踪方法
US20220172386A1 (en) * 2020-11-27 2022-06-02 Samsung Electronics Co., Ltd. Method and device for simultaneous localization and mapping (slam)
CN112734938A (zh) * 2021-01-12 2021-04-30 北京爱笔科技有限公司 行人位置预测方法、装置、计算机设备和存储介质
KR102308752B1 (ko) * 2021-02-22 2021-10-05 주식회사 에스아이에이 객체 추적 방법 및 장치
CN113139985B (zh) * 2021-03-16 2022-09-16 北京理工大学 消除无人机与地面站通信延迟影响的跟踪目标框选方法
CN112950675A (zh) * 2021-03-18 2021-06-11 深圳市商汤科技有限公司 一种目标跟踪的方法、装置、电子设备及存储介质
CN113470079A (zh) * 2021-07-15 2021-10-01 浙江大华技术股份有限公司 一种落脚区域的输出方法、装置及电子设备
US20230154139A1 (en) * 2021-11-16 2023-05-18 Salesforce.Com, Inc. Systems and methods for contrastive pretraining with video tracking supervision
KR102615378B1 (ko) * 2021-12-16 2023-12-19 숭실대학교 산학협력단 행동인식 기반 위험 상황 감지 시스템 및 방법
KR102512360B1 (ko) * 2022-03-25 2023-03-22 국방과학연구소 이동 표적 추적 시 오포착 방지를 위한 필터 정보 제공 방법 및 이를 이용한 전자 장치
CN116030397B (zh) * 2023-03-27 2023-08-01 湖南大学 一种基于时序信息交互的腔镜手术视频分割方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010145965A (ja) * 2008-12-22 2010-07-01 Fujinon Corp オートフォーカスシステム
JP2012159958A (ja) * 2011-01-31 2012-08-23 Secom Co Ltd 移動物体追跡装置
WO2013001940A1 (ja) * 2011-06-29 2013-01-03 オリンパスイメージング株式会社 追尾装置及び追尾方法
JP2013021726A (ja) * 2012-10-18 2013-01-31 Canon Inc 被写体追跡装置及びその制御方法
JP2017156886A (ja) * 2016-02-29 2017-09-07 Kddi株式会社 画像間類似度を考慮して物体を追跡する装置、プログラム及び方法

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000113158A (ja) 1998-10-01 2000-04-21 Toshiba Corp 物体追跡装置及びその方法
CN101169827B (zh) * 2007-12-03 2010-06-02 北京中星微电子有限公司 一种对图像中的特征点进行跟踪的方法及装置
JP5208893B2 (ja) 2009-09-14 2013-06-12 セコム株式会社 移動物体追跡装置
JP5476955B2 (ja) 2009-12-04 2014-04-23 ソニー株式会社 画像処理装置および画像処理方法、並びにプログラム
JP5528151B2 (ja) * 2010-02-19 2014-06-25 パナソニック株式会社 対象物追跡装置、対象物追跡方法、および対象物追跡プログラム
US9135514B2 (en) * 2010-05-21 2015-09-15 Qualcomm Incorporated Real time tracking/detection of multiple targets
GB2485390A (en) 2010-11-12 2012-05-16 Sony Corp Video Surveillance System that Detects Changes by Comparing a Current Image with a Reference Image
JP2014241505A (ja) 2013-06-11 2014-12-25 ソニー株式会社 撮影装置および撮影方法、テンプレート生成装置およびテンプレート生成方法、並びにプログラム
US10283162B2 (en) * 2014-02-05 2019-05-07 Avatar Merger Sub II, LLC Method for triggering events in a video
US20150369918A1 (en) * 2014-06-20 2015-12-24 Syntronics, Llc Laser alignment and tracking system
JP6525545B2 (ja) 2014-10-22 2019-06-05 キヤノン株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
US9791541B2 (en) * 2014-12-19 2017-10-17 The Boeing Company System and method to improve object tracking using multiple tracking systems
TWI557691B (zh) 2015-09-23 2016-11-11 睿緻科技股份有限公司 監視攝影裝置及其使用的區域式移動偵測方法
CN106709932B (zh) 2015-11-12 2020-12-04 创新先进技术有限公司 一种人脸位置跟踪方法、装置和电子设备
CN113589833A (zh) 2016-02-26 2021-11-02 深圳市大疆创新科技有限公司 用于视觉目标跟踪的方法
JP6832504B2 (ja) 2016-08-08 2021-02-24 パナソニックIpマネジメント株式会社 物体追跡方法、物体追跡装置およびプログラム
CN106326837B (zh) * 2016-08-09 2019-09-17 北京旷视科技有限公司 对象追踪方法和装置
CN106529587B (zh) 2016-08-26 2019-06-25 北京航空航天大学 基于目标点识别的视觉航向识别方法
CN106909909B (zh) * 2017-03-08 2021-02-02 王华锋 一种基于共享卷积特征的人脸检测与对齐方法
CN107169939A (zh) * 2017-05-31 2017-09-15 广东欧珀移动通信有限公司 图像处理方法及相关产品
CN107562805B (zh) * 2017-08-08 2020-04-03 浙江大华技术股份有限公司 一种以图搜图的方法及装置
CN108090916B (zh) * 2017-12-21 2019-05-07 百度在线网络技术(北京)有限公司 用于跟踪视频中的目标图形的方法和装置
US11068741B2 (en) 2017-12-28 2021-07-20 Qualcomm Incorporated Multi-resolution feature description for object recognition
CN108416799A (zh) 2018-03-06 2018-08-17 北京市商汤科技开发有限公司 目标跟踪方法和装置、电子设备、程序、存储介质
CN108460787B (zh) * 2018-03-06 2020-11-27 北京市商汤科技开发有限公司 目标跟踪方法和装置、电子设备、程序、存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010145965A (ja) * 2008-12-22 2010-07-01 Fujinon Corp オートフォーカスシステム
JP2012159958A (ja) * 2011-01-31 2012-08-23 Secom Co Ltd 移動物体追跡装置
WO2013001940A1 (ja) * 2011-06-29 2013-01-03 オリンパスイメージング株式会社 追尾装置及び追尾方法
US20130113941A1 (en) * 2011-06-29 2013-05-09 Olympus Imaging Corp. Tracking apparatus and tracking method
JP2013021726A (ja) * 2012-10-18 2013-01-31 Canon Inc 被写体追跡装置及びその制御方法
JP2017156886A (ja) * 2016-02-29 2017-09-07 Kddi株式会社 画像間類似度を考慮して物体を追跡する装置、プログラム及び方法

Also Published As

Publication number Publication date
KR102366733B1 (ko) 2022-02-23
US11216955B2 (en) 2022-01-04
CN108460787B (zh) 2020-11-27
WO2019170023A1 (zh) 2019-09-12
JP6999028B2 (ja) 2022-01-18
CN108460787A (zh) 2018-08-28
US20200219268A1 (en) 2020-07-09
SG11202002622QA (en) 2020-04-29
KR20200040885A (ko) 2020-04-20

Similar Documents

Publication Publication Date Title
JP6999028B2 (ja) 目標トラッキング方法及び装置、電子機器並びに記憶媒体
US11783496B2 (en) Scalable real-time hand tracking
JP7165731B2 (ja) 目標検出方法及び装置、トレーニング方法、電子機器並びに媒体
JP7147078B2 (ja) ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム
US11270158B2 (en) Instance segmentation methods and apparatuses, electronic devices, programs, and media
CN111860479A (zh) 光学字符识别方法、装置、电子设备及存储介质
JP7163372B2 (ja) 目標トラッキング方法及び装置、電子機器並びに記憶媒体
JP2023509953A (ja) ターゲット追跡方法、装置、電子機器及び記憶媒体
CN110881109B (zh) 用于增强现实应用的视频中的实时叠加放置
CN108416799A (zh) 目标跟踪方法和装置、电子设备、程序、存储介质
US20200125898A1 (en) Methods and systems of segmentation of a document
CN114063858B (zh) 图像处理方法、装置、电子设备及存储介质
Xiong et al. Snap angle prediction for 360 panoramas
US11741611B2 (en) Cyclical object segmentation neural networks
CN114066814A (zh) 一种ar设备的手势3d关键点检测方法、电子设备
Fan et al. High-speed tracking based on multi-CF filters and attention mechanism
US20230394875A1 (en) Method and device for multi-dnn-based face recognition using parallel-processing pipelines
CN111968030B (zh) 信息生成方法、装置、电子设备和计算机可读介质
Huang et al. Mtd: Multi-timestep detector for delayed streaming perception
CN113379794A (zh) 基于注意力-关键点预测模型的单目标跟踪系统及方法
Liu et al. Fingertip in the eye: An attention-based method for real-time hand tracking and fingertip detection in egocentric videos
US20240161364A1 (en) Generating image mattes without trimap segmenetations via a multi-branch neural network
Zhang et al. Learning adaptive weighted response consistency correlation filters for real-time UAV tracking
Hayat et al. An improved spatial–temporal regularization method for visual object tracking
Jeon et al. Mondrian: On-Device High-Performance Video Analytics with Compressive Packed Inference

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200318

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200318

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210518

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210817

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211221

R150 Certificate of patent or registration of utility model

Ref document number: 6999028

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250