CN109074473B - 用于对象跟踪的方法和系统 - Google Patents

用于对象跟踪的方法和系统 Download PDF

Info

Publication number
CN109074473B
CN109074473B CN201680084445.XA CN201680084445A CN109074473B CN 109074473 B CN109074473 B CN 109074473B CN 201680084445 A CN201680084445 A CN 201680084445A CN 109074473 B CN109074473 B CN 109074473B
Authority
CN
China
Prior art keywords
feature
target object
dimensional
feature map
spatial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680084445.XA
Other languages
English (en)
Other versions
CN109074473A (zh
Inventor
王晓刚
邵婧
吕健勤
康恺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Publication of CN109074473A publication Critical patent/CN109074473A/zh
Application granted granted Critical
Publication of CN109074473B publication Critical patent/CN109074473B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Neurology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及一种用于跟踪视频中的目标对象的方法和系统。所述方法包括:从所述视频提取含有所述目标对象的3维(3D)特征块;将所提取的3D特征块分解成含有所述目标对象的空间信息的2维(2D)空间特征图和含有所述目标对象的空间‑时间信息的2D空间‑时间特征图;在所述2D空间特征图中估计所述目标对象的位置;在所述2D空间‑时间特征图中确定所述目标对象的速度和加速度;根据所确定的速度和加速度校准所述目标对象的估计位置;以及根据校准后的位置跟踪所述视频中的所述目标对象。

Description

用于对象跟踪的方法和系统
技术领域
本公开涉及一种用于跟踪视频中的目标对象的方法和系统。
背景技术
跟踪视频中的目标对象是一项至关重要的任务。一般来说,应首先从视频的每一帧识别目标对象(例如,一群目标对象或个别目标对象)。接着,执行跟踪以分别采集对象的移动。因此,目标对象的位置与其动态特征(例如,速度和加速度)是在不同的任务中进行检测,这限制了对象跟踪的准确度。
开发了大量基于学习的方法用于对象跟踪。作为一种成功应用于对象跟踪的深度学习模型,卷积神经网络(CNN)已展现出在速度和准确度方面的优良表现。期望开发CNN来增强对象跟踪的准确度。
发明内容
下文呈现对本公开的简化概述,以便提供对本公开的一些方面的基本理解。此概述并非本公开的详尽综述。此概述既不标识本公开的重要或关键要素,也不划定本公开的特定实施方式的任何范围或权利要求书的任何范围。其唯一目的是以简化形式呈现本公开的一些概念,以作为稍后呈现的更详细描述的序言。
为了至少部分地解决以上问题中的一个问题,提供一种用于跟踪视频中的目标对象的方法和系统。所述方法包括:从所述视频提取含有所述目标对象的3维(3D)特征块;将所提取的3D特征块分解成含有所述目标对象的空间信息的2维(2D)空间特征图和含有所述目标对象的空间-时间信息的2D空间-时间特征图;在所述2D空间特征图中估计所述目标对象的位置;在所述2D空间-时间特征图中确定所述目标对象的速度和加速度;根据所确定的速度和加速度校准所述目标对象的估计位置;以及根据校准后的位置跟踪所述视频中的所述目标对象。
在本申请的一个实施方式中,所述2D空间特征图可在第一空间方向和与所述第一空间方向相交的第二空间方向上延伸。
在本申请的一个实施方式中,所述2D空间-时间特征图可包括:第一2D空间-时间特征图,其在所述第一空间方向和时间方向上延伸且包括所述目标对象的所述速度和所述加速度在所述第一空间方向上的分量;以及第二2D空间-时间特征图,其在所述第二空间方向和所述时间方向上延伸且包括所述目标对象的所述速度和所述加速度在所述第二空间方向上的分量。
在本申请的一个实施方式中,所述方法可包括提供包括特征提取层的CNN,其中,所述提取可包括:在所述特征提取层中对所述视频的每一帧进行过滤以获得第一特征图;评估所述第一特征图与含有所述目标对象的关注特征(FOI)的预设图像之间的重叠度和类似度;以及根据所述重叠度和所述类似度从所述第一特征图中选择第二特征图,其中,所述第二特征图仅含有所述目标对象的所述FOI;以及将所述视频的每一帧上的所选第二特征图组合在一起以建构所述3D特征块。在替代实施例中,所述评估包括将所述第一特征图与从所述预设图像生成的二元掩模进行比较。
在本申请的一个实施方式中,所述CNN还可包括联接到所述特征提取层的交换层,以及其中,所述分解可包括:从所述特征提取层接收所述3D特征块;禁用所接收特征块在所述时间方向上的数据以获得所述2D空间特征图;以及禁用所述所接收特征块在所述第一空间方向和所述第二空间方向中的一个方向上的数据以获得所述2D空间-时间特征图。
在本申请的一个实施方式中,所述CNN还可包括联接到所述交换层的2D空间特征提取层,以及其中,所述估计可包括:从所述交换层接收所述2D空间特征图;增强所述FOI在所述2D空间特征图中的差异;根据增强后的FOI识别所述目标对象;以及估计所识别目标对象的所述位置。
在本申请的一个实施方式中,所述CNN还可包括联接到所述交换层且平行于所述2D空间特征提取层的2D空间-时间特征提取层,以及其中,所述确定可包括:从所述交换层接收所述2D空间-时间特征图;增强所述FOI在所述2D空间-时间特征图中的差异;根据增强后的FOI识别所述目标对象;以及在所述时间方向上对所识别目标对象执行求导操作,以确定所述目标对象的所述速度和所述加速度。
在本申请的一个实施方式中,所述方法可包括:独立地训练所述特征提取层;以及基于训练后的特征提取层单独地训练所述2D空间特征提取层和所述2D空间-时间特征提取层。
在另一方面中提供一种用于跟踪视频中的目标对象的系统。所述系统可包括:存储器,其存储可执行组件;以及处理器,其电联接到所述存储器以执行所述可执行组件。所述可执行组件用于:从所述视频提取含有所述目标对象的3D特征块;将所提取的3D特征块分解成含有所述目标对象的空间信息的2D空间特征图和含有所述目标对象的空间-时间信息的2D空间-时间特征图;在所述2D空间特征图中估计所述目标对象的位置;在所述2D空间-时间特征图中确定所述目标对象的速度和加速度;根据所确定的速度和加速度校准所述目标对象的估计位置;以及根据校准后的位置跟踪所述视频中的所述目标对象。
在又一方面中提供一种用于跟踪视频中的目标对象的系统。所述系统可包括:特征提取器,其用于从所述视频提取含有所述目标对象的3D特征块;分解器,其用于将所提取的3D特征块分解成含有所述目标对象的空间信息的2D空间特征图和含有所述目标对象的空间-时间信息的2D空间-时间特征图;定位器,其用于在所述2D空间特征图中估计所述目标对象的位置;运动检测器,其用于在所述2D空间-时间特征图中确定所述目标对象的速度和加速度;校准器,其用于根据所确定的速度和加速度校准所述目标对象的估计位置;以及跟踪器,其用于根据校准后的位置跟踪所述视频中的所述目标对象。
在再一方面中提供一种计算机可读存储介质。所述计算机可读存储介质存储有可由处理器运行以执行以下操作的计算机可读指令。所述操作包括:从所述视频提取含有所述目标对象的3维特征块;将所提取的3维特征块分解成含有所述目标对象的空间信息的2维空间特征图和含有所述目标对象的空间-时间信息的2维空间-时间特征图;在所述2维空间特征图中估计所述目标对象的位置;在所述2维空间-时间特征图中确定所述目标对象的速度和加速度;根据所确定的速度和加速度校准所述目标对象的估计位置;以及根据校准后的位置跟踪所述视频中的所述目标对象。
附图说明
在下文参照附图描述本申请的示例性非限制性实施方式。附图是说明性的,且一般未按确切比例绘制。不同图上的相同或相似元件用相同附图标号标记。
图1示出根据本申请的一个实施方式的用于跟踪视频中的目标对象的示例性系统;
图2是示出根据本申请的一个实施方式的用于跟踪视频中的目标对象的过程的流程图;以及
图3示出根据本申请的一个实施方式的用于提供视频的属性信息的示例性系统。
具体实施方式
现将详细参考发明人为实施本申请而提出的本申请的一些特定实施方式。附图中示出这些特定实施方式的示例。尽管结合这些特定实施方式描述了本申请,但本领域技术人员应了解,这并不意欲将本申请限于所描述的实施方式。在以下描述中,阐述众多具体细节以便提供对本申请的透彻理解。本申请可以在没有这些具体细节中的一些细节或全部细节的情况下实践。在其它情况下,并未详细描述众所周知的过程操作,以免不必要地混淆本申请。
本文中使用的术语仅用于描述具体实施方式的目的,而并不意欲限制本申请。如本文所使用,除非上下文另外清楚地指示,否则单数形式“一”和“所述”旨在还包含复数形式。还应理解,术语“包括(comprise/comprising)”在本说明书中使用时指代所陈述的特征、整体、步骤、操作、元件和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组的存在或添加。
图1中示出用于跟踪对象的示例性系统1000。在下文中,将出于说明的目的而在CNN的框架下描述用于对象跟踪的系统和过程。含有目标对象的视频1100输入到特征提取层1200。特征提取层1200可在各种CNN模型中实施,例如AlexNet、Clarifai、Overfeat、GoogleNet和视觉几何群组(VGG)。如本领域技术人员应该理解的那样,特征提取层1200可在多个层中实施。相应地,较低层中的特征采集低级信息,而较高层中的特征可表示更抽象的概念。多个过滤操作可应用于视频1100以提取3D特征块1210。3D特征块1210可例如但不限于在水平方向(表示为X)、竖直方向(表示为Y)和时间方向(表示为T)上延伸。
应该承认,在单个卷积操作中处理3D特征块的成本将很高。因此,3D特征块1210可在交换层1300中分解成一个或多个(例如,三个)2D片层。3D特征块1210的XY片层(即,2D空间特征图1320)可表示传统上经由上述过滤操作从视频1100的帧提取的特征图。因此,3D特征块1210的XY片层含有目标对象的空间信息。因此,XT片层(即,第一2D空间-时间特征图1340)和YT片层(即,第二2D空间-时间特征图1360)含有目标对象的空间-时间信息,因为这两者同时在空间方向和时间方向上延伸。可通过启用在三个方向中的两个方向上的数据且禁用在其余方向上的数据而实施分解操作。
如上文已论述的那样,2D空间特征图1320可被看作是从视频1100的帧提取的特征图。2D空间特征图1320可包括各种对象和背景的各种类型的语义意义表示。在替代实施例中,可进一步过滤2D空间特征图1320以增强其表示能力(差异)。在差异增强的情况下,可从其它对象和背景中识别包含于视频的每一帧中的目标对象。因此,可基于所识别对象估计第一组位置1420。
2D空间-时间特征图1340和1360表示视频沿着空间方向的轮廓。2D空间-时间特征图1340和1360也可包括各种对象和背景的各种类型的语义意义表示。在替代实施例中,还可进一步过滤2D空间-时间特征图1340和1360以增强其表示能力(差异)。在差异增强的情况下,可从其它对象和背景中识别含于视频的每一帧中的目标对象。虽然2D空间-时间特征图1340和1360具有的空间表示少于2D空间特征图1320的空间表示,但2D空间-时间特征图1340和1360具有关于时间的额外信息。因此,可通过例如但不限于求导操作从2D空间-时间特征图1340和1360导出动态信息(例如,速度与加速度1440和1460)。
在对象跟踪领域,获得所识别目标的动态信息是至关重要的。例如,可利用动态信息来预测目标对象在视频的后续帧中的运动。在应用中,可从XT片层(即,第一2D空间-时间特征图1340)导出在X方向上的速度和加速度(分别表示为VX和AX),且可从YT片层(即,第一2D空间-时间特征图1340)导出在Y方向上的速度和加速度(分别表示为VY和AY)。可利用动态信息VX、AX、VY和AY中的至少一个来校准先前在2D空间特征图中估计的第一组位置1420。利用校准后的位置1500,有可能以更高准确度跟踪对象。
图2示出上述用于跟踪视频中的目标对象的过程2000。在步骤S2010,从输入视频提取3D特征块。在步骤S2020,可将所提取的3D特征块分解成2D空间特征图和2D空间-时间特征图。在替代实施例中,2D空间特征图在第一空间方向和与所述第一空间方向相交的第二空间方向上延伸。在此情况下,2D空间-时间特征图可包括在第一空间方向和时间方向上延伸的第一2D空间-时间特征图以及在第二空间方向和时间方向上延伸的第二2D空间-时间特征图。在步骤S2030,可估计所识别对象在2D空间特征图中的位置。在步骤S2040,可确定在2D空间-时间特征图中的速度和加速度。在步骤S2050,可利用所确定的速度和加速度校准先前估计的位置。在步骤S2060,可使用校准后的位置来执行视频中的对象跟踪任务。
如上文已描述的那样,将多个过滤操作应用于视频以提取3D特征块,其中,3D特征块中的每一个3D特征块表示视频中的特定特征,例如人头部、树叶、人群场景等。在实际应用中,并非全部3D特征块都对识别目标对象至关重要。例如,在目标对象为年轻女子的情况下,可在后续操作中忽略表示不相关特征(例如,房顶拐角、水波)的3D特征块以减轻计算负荷。相反,可保留表示称为关注特征(FOI)的相关特征(例如,头发、鞋子)的3D特征块。此过程称为裁剪操作。裁剪操作的关键点在于如何评定候选特征与FOI之间的相关性。在替代实施方式中,首先,将帧转发到特征提取层以利用第一组过滤器进行卷积,从而得出第一组特征图。接着,通过察看第一组特征图在含有目标对象的FOI的二元掩模上的空间分布来评定相关性,其中,如本领域技术人员将理解的那样,二元掩模是根据一组预设验证图像来准备的。
在所述评定中,采用两个基准标记,其称为亲和性得分(affinity score)和突出得分(conspicuous score)。亲和性得分测量第一组特征图与二元掩模之间的重叠度。对于第一组特征图
Figure GDA0001822849660000061
中的第i个二元掩模Si和第n个特征图,亲和性得分
Figure GDA0001822849660000062
由以下规则表达:
Figure GDA0001822849660000063
其中,1[·]为在其输入为真时返回1的指示函数,且·表示逐元素乘法运算。突出得分测量第一组特征图与二元掩模之间的类似度。对于第一组特征图
Figure GDA0001822849660000064
中的第i个二元掩模Si和第n个特征图,突出得分
Figure GDA0001822849660000065
由以下规则表达:
Figure GDA0001822849660000066
接着,相对于第n个特征图建构直方图H,以评定第n个特征图与含于二元掩模中的FOI之间的相关性。根据以下逻辑对二元掩模下标i∈[1,m]中的每一个上的直方图H进行求和:
Figure GDA0001822849660000067
方程式(3)表达,如果亲和性得分
Figure GDA0001822849660000068
大于预定阈值τα或突出得分
Figure GDA0001822849660000069
大于预定阈值τk,则将直方图H加上1。直方图Hn将在每个二元掩模上的求和运算之后返回特定值。以相同方式计算且以降序排序针对第一组特征图中的每一特征图(即,针对第一组过滤器中的每一过滤器)的直方图Hn。可手动地设定FOI的数目。如果FOI的数目被设定为10,则从第一组特征图中选择具有最大的10个Hn的特征图,以构成第二组特征图。在此情况下,通过将视频的每一帧上的所选第二组特征图组合在一起来建构10个3D特征块。
图3示出根据本申请的另一实施方式的用于提供视频的属性信息的示例性系统3000。可将含有目标对象的视频3100输入到特征提取层3200中。包括目标对象的FOI的3D特征块3210可从特征提取层3200提取,且在交换层3300中经历分解操作以分解成2D空间特征图3320、第一2D空间-时间特征图3340和第二2D空间-时间特征图3360。2D空间特征图3320可含有目标对象的空间信息,例如目标对象在视频的帧中的位置。第一2D空间-时间特征图3340和第二2D空间-时间特征图3360可含有目标对象的空间-时间信息,例如目标对象的速度和加速度。2D空间特征图3320、第一2D空间-时间特征图3340和第二2D空间-时间特征图3360可分别转发到2D空间特征分支3420、第一2D空间-时间特征分支3440和第二2D空间-时间特征分支3460,以进一步增强其语义表示(差异)。语义表示被增强的2D特征图可在串接层3500中组合以建构具有目标对象的空间和时间信息的3D特征图。例如SVM的分类器3600可应用于所建构的3D特征图以提供目标对象的属性信息(位置、速度、加速度等)。
在替代实施例中,可预先训练特征提取层3200以给出经过良好学习的3D特征块。接着,可基于经过良好学习的3D特征块单独地训练2D空间特征分支3420、第一2D空间-时间特征分支3440与第二2D空间-时间特征分支3460。接着,可基于经过良好学习的特征提取层3200、2D空间特征分支3420、第一2D空间-时间特征分支3440和第二2D空间-时间特征分支3460来单独地训练例如SVM的分类器3600。此训练过程实现整个系统3000的高学习效率。
在本申请的一个方面中,提出一种用于跟踪视频中的目标对象的方法。所述方法包括:从所述视频提取含有所述目标对象的3维(3D)特征块;将所提取的3D特征块分解成含有所述目标对象的空间信息的2维(2D)空间特征图和含有所述目标对象的空间-时间信息的2D空间-时间特征图;在所述2D空间特征图中估计所述目标对象的位置;在所述2D空间-时间特征图中确定所述目标对象的速度和加速度;根据所确定的速度和加速度校准所述目标对象的估计位置;以及根据校准后的位置跟踪所述视频中的所述目标对象。
在本申请的一个实施方式中,所述2D空间特征图可在第一空间方向和与所述第一空间方向相交的第二空间方向上延伸。
在本申请的一个实施方式中,所述2D空间-时间特征图可包括:第一2D空间-时间特征图,其在所述第一空间方向和时间方向上延伸且包括所述目标对象的所述速度和所述加速度在所述第一空间方向上的分量;以及第二2D空间-时间特征图,其在所述第二空间方向和所述时间方向上延伸且包括所述目标对象的所述速度和所述加速度在所述第二空间方向上的分量。
在本申请的一个实施方式中,所述方法可包括提供包括特征提取层的CNN,其中,所述提取可包括:在所述特征提取层中对所述视频的每一帧进行过滤以获得第一特征图;评估所述第一特征图与含有所述目标对象的关注特征(FOI)的预设图像之间的重叠度和类似度;以及根据所述重叠度和所述类似度从所述第一特征图中选择第二特征图,其中,所述第二特征图仅含有所述目标对象的所述FOI;以及将所述视频的每一帧上的所选第二特征图组合在一起以建构所述3D特征块。在替代实施例中,所述评估包括将所述第一特征图与从所述预设图像生成的二元掩模进行比较。
在本申请的一个实施方式中,所述CNN还可包括联接到所述特征提取层的交换层,以及其中,所述分解可包括:从所述特征提取层接收所述3D特征块;禁用所接收特征块在所述时间方向上的数据以获得所述2D空间特征图;以及禁用所述所接收特征块在所述第一空间方向和所述第二空间方向中的一个方向上的数据以获得所述2D空间-时间特征图。
在本申请的一个实施方式中,所述CNN还可包括联接到所述交换层的2D空间特征提取层,以及其中,所述估计可包括:从所述交换层接收所述2D空间特征图;增强所述FOI在所述2D空间特征图中的差异;根据增强后的FOI识别所述目标对象;以及估计所识别目标对象的所述位置。
在本申请的一个实施方式中,所述CNN还可包括联接到所述交换层且平行于所述2D空间特征提取层的2D空间-时间特征提取层,以及其中,所述确定可包括:从所述交换层接收所述2D空间-时间特征图;增强所述FOI在所述2D空间-时间特征图中的差异;根据增强后的FOI识别所述目标对象;以及在所述时间方向上对所识别目标对象执行求导操作,以确定所述目标对象的所述速度和所述加速度。
在本申请的一个实施方式中,所述方法可包括:独立地训练所述特征提取层;以及基于训练后的特征提取层单独地训练所述2D空间特征提取层和所述2D空间-时间特征提取层。
在另一方面中提供一种用于跟踪视频中的目标对象的系统。所述系统可包括:存储器,其存储可执行组件;以及处理器,其电联接到所述存储器以执行所述可执行组件。所述可执行组件用于:从所述视频提取含有所述目标对象的3D特征块;将所提取的3D特征块分解成含有所述目标对象的空间信息的2D空间特征图和含有所述目标对象的空间-时间信息的2D空间-时间特征图;在所述2D空间特征图中估计所述目标对象的位置;在所述2D空间-时间特征图中确定所述目标对象的速度和加速度;根据所确定的速度和加速度校准所述目标对象的估计位置;以及根据校准后的位置跟踪所述视频中的所述目标对象。
在又一方面中提供一种用于跟踪视频中的目标对象的系统。所述系统可包括:特征提取器,其用于从所述视频提取含有所述目标对象的3D特征块;分解器,其用于将所提取的3D特征块分解成含有所述目标对象的空间信息的2D空间特征图和含有所述目标对象的空间-时间信息的2D空间-时间特征图;定位器,其用于在所述2D空间特征图中估计所述目标对象的位置;运动检测器,其用于在所述2D空间-时间特征图中确定所述目标对象的速度和加速度;校准器,其用于根据所确定的速度和加速度校准所述目标对象的估计位置;以及跟踪器,其用于根据校准后的位置跟踪所述视频中的所述目标对象。
在又一方面中提供一种计算机可读存储介质。所述计算机可读存储介质存储有可由处理器运行以执行以下操作的计算机可读指令。所述操作包括:从所述视频提取含有所述目标对象的3维特征块;将所提取的3维特征块分解成含有所述目标对象的空间信息的2维空间特征图和含有所述目标对象的空间-时间信息的2维空间-时间特征图;在所述2维空间特征图中估计所述目标对象的位置;在所述2维空间-时间特征图中确定所述目标对象的速度和加速度;根据所确定的速度和加速度校准所述目标对象的估计位置;以及根据校准后的位置跟踪所述视频中的所述目标对象。
如本领域技术人员所能够理解的那样,本申请可实现为系统、方法或计算机程序产品。因此,本申请可采取完全为硬件的实施方式和方面,而在本文中,硬件通常被称为“单元”、“电路”、“模块”或“系统”。许多功能和许多原理在实施时最好由集成电路(IC)支持,例如数字信号处理器和其软件或者专用IC。可以预期的是,本领域普通技术人员根据本文公开的概念和原理的教导能够通过最少的实验而容易地生成IC,而不必考虑例如由可用时间、当前技术和经济考量等驱使的可能繁重的工作量和许多其它设计选项。因此,为了简化和最小化混淆根据本申请的原理和概念的任何风险,对此类软件和IC(如果存在的话)的进一步论述将受限于对于优选实施方式所使用的原理和概念而言必要的部分。另外,本申请可采取完全为软件的实施方式(包含固件、驻存软件、微码等)或可采取组合了软件的实施方式。例如,系统可包括存储可执行组件的存储器以及处理器,所述处理器电联接到存储器以执行可执行组件来执行系统的、如参照图1到3所论述的操作。另外,本申请可采用体现在任何有形表达介质中的计算机程序产品的形式,所述有形表达介质具有体现于介质中的计算机可用程序代码。

Claims (32)

1.一种用于跟踪视频中的目标对象的方法,包括:
从所述视频提取含有所述目标对象的3维特征块;
将所提取的3维特征块分解成:
含有所述目标对象的空间信息的2维空间特征图;和
含有所述目标对象的空间-时间信息的2维空间-时间特征图;
在所述2维空间特征图中估计所述目标对象的位置;
在所述2维空间-时间特征图中确定所述目标对象的速度和加速度;
根据所确定的速度和加速度校准所述目标对象的估计位置;以及
根据校准后的位置跟踪所述视频中的所述目标对象。
2.根据权利要求1所述的方法,
其中,所述2维空间特征图在以下方向上延伸:
第一空间方向;以及
与所述第一空间方向相交的第二空间方向;以及
其中,所述2维空间-时间特征图包括:
第一2维空间-时间特征图,所述第一2维空间-时间特征图在所述第一空间方向和时间方向上延伸,并且包括所述目标对象的所述速度和所述加速度在所述第一空间方向上的分量;以及
第二2维空间-时间特征图,所述第二2维空间-时间特征图在所述第二空间方向和所述时间方向上延伸,并且包括所述目标对象的所述速度和所述加速度在所述第二空间方向上的分量。
3.根据权利要求2所述的方法,还包括提供包括特征提取层的卷积神经网络,其中,所述提取包括:
在所述特征提取层中对所述视频的每一帧进行过滤以获得第一特征图;
评估所述第一特征图与含有所述目标对象的关注特征的预设图像之间的重叠度和类似度;以及
根据所述重叠度和所述类似度从所述第一特征图中选择第二特征图,其中,所述第二特征图仅含有所述目标对象的所述关注特征;以及
将所述视频的每一帧上的所选第二特征图组合在一起以建构所述3维特征块。
4.根据权利要求3所述的方法,其中,所述卷积神经网络还包括联接到所述特征提取层的交换层,以及其中,所述分解包括:
从所述特征提取层接收所述3维特征块;
禁用所接收特征块在所述时间方向上的数据以获得所述2维空间特征图;以及
禁用所接收特征块在所述第一空间方向和所述第二空间方向中的一个方向上的数据以获得所述2维空间-时间特征图。
5.根据权利要求4所述的方法,其中,所述卷积神经网络还包括联接到所述交换层的2维空间特征提取层,以及其中,所述估计包括:
从所述交换层接收所述2维空间特征图;
增强所述关注特征在所述2维空间特征图中的差异;
根据增强后的关注特征识别所述目标对象;以及
估计所识别目标对象的所述位置。
6.根据权利要求5所述的方法,其中,所述卷积神经网络还包括联接到所述交换层且平行于所述2维空间特征提取层的2维空间-时间特征提取层,以及其中,所述确定包括:
从所述交换层接收所述2维空间-时间特征图;
增强所述关注特征在所述2维空间-时间特征图中的差异;
根据增强后的关注特征识别所述目标对象;以及
在所述时间方向上对所识别目标对象执行求导操作,以确定所述目标对象的所述速度和所述加速度。
7.根据权利要求6所述的方法,还包括:
独立地训练所述特征提取层;以及
基于训练后的特征提取层单独地训练所述2维空间特征提取层和所述2维空间-时间特征提取层。
8.根据权利要求3所述的方法,其中,所述评估包括将所述第一特征图与从所述预设图像生成的二元掩模进行比较。
9.一种用于跟踪视频中的目标对象的系统,包括:
存储器,所述存储器存储可执行组件;以及
处理器,所述处理器电联接到所述存储器以执行所述可执行组件,从而进行以下操作:
从所述视频提取含有所述目标对象的3维特征块;
将所提取的3维特征块分解成:
含有所述目标对象的空间信息的2维空间特征图;和
含有所述目标对象的空间-时间信息的2维空间-时间特征图;
在所述2维空间特征图中估计所述目标对象的位置;
在所述2维空间-时间特征图中确定所述目标对象的速度和加速度;
根据所确定的速度和加速度校准所述目标对象的估计位置;以及
根据校准后的位置跟踪所述视频中的所述目标对象。
10.根据权利要求9所述的系统,
其中,所述2维空间特征图在以下方向上延伸:
第一空间方向;以及
与所述第一空间方向相交的第二空间方向;以及
其中,所述2维空间-时间特征图包括:
第一2维空间-时间特征图,所述第一2维空间-时间特征图在所述第一空间方向和时间方向上延伸,并且包括所述目标对象的所述速度和所述加速度在所述第一空间方向上的分量;以及
第二2维空间-时间特征图,所述第二2维空间-时间特征图在所述第二空间方向和所述时间方向上延伸,并且包括所述目标对象的所述速度和所述加速度在所述第二空间方向上的分量。
11.根据权利要求10所述的系统,还包括包含特征提取层的卷积神经网络,其中,所述提取包括:
在所述特征提取层中对所述视频的每一帧进行过滤以获得第一特征图;
评估所述第一特征图与含有所述目标对象的关注特征的预设图像之间的重叠度和类似度;以及
根据所述重叠度和所述类似度从所述第一特征图中选择第二特征图,其中,所述第二特征图仅含有所述目标对象的所述关注特征;以及
将所述视频的每一帧上的所选第二特征图组合在一起以建构所述3维特征块。
12.根据权利要求11所述的系统,其中,所述卷积神经网络还包括联接到所述特征提取层的交换层,以及其中,所述分解包括:
从所述特征提取层接收所述3维特征块;
禁用所接收特征块在所述时间方向上的数据以获得所述2维空间特征图;以及
禁用所接收特征块在所述第一空间方向和所述第二空间方向中的一个方向上的数据以获得所述2维空间-时间特征图。
13.根据权利要求12所述的系统,其中,所述卷积神经网络还包括联接到所述交换层的2维空间特征提取层,以及其中,所述估计包括:
从所述交换层接收所述2维空间特征图;
增强所述关注特征在所述2维空间特征图中的差异;
根据增强后的关注特征识别所述目标对象;以及
估计所识别目标对象的所述位置。
14.根据权利要求13所述的系统,其中,所述卷积神经网络还包括联接到所述交换层且平行于所述2维空间特征提取层的2维空间-时间特征提取层,以及其中,所述确定包括:
从所述交换层接收所述2维空间-时间特征图;
增强所述关注特征在所述2维空间-时间特征图中的差异;
根据增强后的关注特征识别所述目标对象;以及
在所述时间方向上对所识别目标对象执行求导操作,以确定所述目标对象的所述速度和所述加速度。
15.根据权利要求14所述的系统,其中,所述特征提取层被独立地训练;以及所述2维空间特征提取层和所述2维空间-时间特征提取层基于训练后的特征提取层而单独地被训练。
16.根据权利要求11所述的系统,其中,所述评估包括将所述第一特征图与从所述预设图像生成的二元掩模进行比较。
17.一种用于跟踪视频中的目标对象的系统,包括:
特征提取器,所述特征提取器用于从所述视频提取含有所述目标对象的3维特征块;
分解器,所述分解器用于将所提取的3维特征块分解成:
含有所述目标对象的空间信息的2维空间特征图;和
含有所述目标对象的空间-时间信息的2维空间-时间特征图;
定位器,所述定位器用于在所述2维空间特征图中估计所述目标对象的位置;
运动检测器,所述运动检测器用于在所述2维空间-时间特征图中确定所述目标对象的速度和加速度;
校准器,所述校准器用于根据所确定的速度和加速度校准所述目标对象的估计位置;以及
跟踪器,所述跟踪器用于根据校准后的位置跟踪所述视频中的所述目标对象。
18.根据权利要求17所述的系统,
其中,所述2维空间特征图在以下方向上延伸:
第一空间方向;以及
与所述第一空间方向相交的第二空间方向;以及
其中,所述2维空间-时间特征图包括:
第一2维空间-时间特征图,所述第一2维空间-时间特征图在所述第一空间方向和时间方向上延伸,并且包括所述目标对象的所述速度和所述加速度在所述第一空间方向上的分量;以及
第二2维空间-时间特征图,所述第二2维空间-时间特征图在所述第二空间方向和所述时间方向上延伸,并且包括所述目标对象的所述速度和所述加速度在所述第二空间方向上的分量。
19.根据权利要求18所述的系统,还包括包含特征提取层的卷积神经网络,其中,所述特征提取器在所述特征提取层中实施且用于:
在所述特征提取层中对所述视频的每一帧进行过滤以获得第一特征图;
评估所述第一特征图与含有所述目标对象的关注特征的预设图像之间的重叠度和类似度;以及
根据所述重叠度和所述类似度从所述第一特征图中选择第二特征图,其中,所述第二特征图仅含有所述目标对象的所述关注特征;以及
将所述视频的每一帧上的所选第二特征图组合在一起以建构所述3维特征块。
20.根据权利要求19所述的系统,其中,所述卷积神经网络还包括联接到所述特征提取层的交换层,以及其中,所述分解器在所述交换层中实施且用于:
从所述特征提取层接收所述3维特征块;
禁用所接收特征块在所述时间方向上的数据以获得所述2维空间特征图;以及
禁用所接收特征块在所述第一空间方向和所述第二空间方向中的一个方向上的数据以获得所述2维空间-时间特征图。
21.根据权利要求20所述的系统,其中,所述卷积神经网络还包括联接到所述交换层的2维空间特征提取层,以及其中,所述定位器在所述2维空间特征提取层中实施且用于:
从所述交换层接收所述2维空间特征图;
增强所述关注特征在所述2维空间特征图中的差异;
根据增强后的关注特征识别所述目标对象;以及
估计所识别目标对象的所述位置。
22.根据权利要求21所述的系统,其中,所述卷积神经网络还包括联接到所述交换层且平行于所述2维空间特征提取层的2维空间-时间特征提取层,以及其中,所述运动检测器在所述2维空间-时间特征提取层中实施且用于:
从所述交换层接收所述2维空间-时间特征图;
增强所述关注特征在所述2维空间-时间特征图中的差异;
根据增强后的关注特征识别所述目标对象;以及
在所述时间方向上对所识别目标对象执行求导操作,以确定所述目标对象的所述速度和所述加速度。
23.根据权利要求22所述的系统,其中,所述特征提取层被独立地训练;以及所述2维空间特征提取层和所述2维空间-时间特征提取层基于训练后的特征提取层而单独地被训练。
24.根据权利要求19所述的系统,其中,所述评估在比较器中实施以将所述第一特征图与从所述预设图像生成的二元掩模进行比较。
25.一种计算机可读存储介质,所述计算机可读存储介质存储有可由处理器运行以执行以下操作的计算机可读指令,所述操作包括:
从视频中提取含有目标对象的3维特征块;
将所提取的3维特征块分解成:
含有所述目标对象的空间信息的2维空间特征图;和
含有所述目标对象的空间-时间信息的2维空间-时间特征图;
在所述2维空间特征图中估计所述目标对象的位置;
在所述2维空间-时间特征图中确定所述目标对象的速度和加速度;
根据所确定的速度和加速度校准所述目标对象的估计位置;以及
根据校准后的位置跟踪所述视频中的所述目标对象。
26.根据权利要求25所述的计算机可读存储介质,
其中,所述2维空间特征图在以下方向上延伸:
第一空间方向;以及
与所述第一空间方向相交的第二空间方向;以及
其中,所述2维空间-时间特征图包括:
第一2维空间-时间特征图,所述第一2维空间-时间特征图在所述第一空间方向和时间方向上延伸,并且包括所述目标对象的所述速度和所述加速度在所述第一空间方向上的分量;以及
第二2维空间-时间特征图,所述第二2维空间-时间特征图在所述第二空间方向和所述时间方向上延伸,并且包括所述目标对象的所述速度和所述加速度在所述第二空间方向上的分量。
27.根据权利要求26所述的计算机可读存储介质,其中,所述提取包括:
在卷积神经网络的特征提取层中对所述视频的每一帧进行过滤以获得第一特征图;
评估所述第一特征图与含有所述目标对象的关注特征的预设图像之间的重叠度和类似度;以及
根据所述重叠度和所述类似度从所述第一特征图中选择第二特征图,其中,所述第二特征图仅含有所述目标对象的所述关注特征;以及
将所述视频的每一帧上的所选第二特征图组合在一起以建构所述3维特征块。
28.根据权利要求27所述的计算机可读存储介质,其中,所述卷积神经网络还包括联接到所述特征提取层的交换层,以及其中,所述分解包括:
从所述特征提取层接收所述3维特征块;
禁用所接收特征块在所述时间方向上的数据以获得所述2维空间特征图;以及
禁用所接收特征块在所述第一空间方向和所述第二空间方向中的一个方向上的数据以获得所述2维空间-时间特征图。
29.根据权利要求28所述的计算机可读存储介质,其中,所述卷积神经网络还包括联接到所述交换层的2维空间特征提取层,以及其中,所述估计包括:
从所述交换层接收所述2维空间特征图;
增强所述关注特征在所述2维空间特征图中的差异;
根据增强后的关注特征识别所述目标对象;以及
估计所识别目标对象的所述位置。
30.根据权利要求29所述的计算机可读存储介质,其中,所述卷积神经网络还包括联接到所述交换层且平行于所述2维空间特征提取层的2维空间-时间特征提取层,以及其中,所述确定包括:
从所述交换层接收所述2维空间-时间特征图;
增强所述关注特征在所述2维空间-时间特征图中的差异;
根据增强后的关注特征识别所述目标对象;以及
在所述时间方向上对所识别目标对象执行求导操作,以确定所述目标对象的所述速度和所述加速度。
31.根据权利要求30所述的计算机可读存储介质,其中,
所述特征提取层被独立地训练;以及所述2维空间特征提取层和所述2维空间-时间特征提取层基于训练后的特征提取层被单独地训练。
32.根据权利要求27所述的计算机可读存储介质,其中,所述评估包括将所述第一特征图与从所述预设图像生成的二元掩模进行比较。
CN201680084445.XA 2016-04-11 2016-04-11 用于对象跟踪的方法和系统 Active CN109074473B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2016/078982 WO2017177367A1 (en) 2016-04-11 2016-04-11 Method and system for object tracking

Publications (2)

Publication Number Publication Date
CN109074473A CN109074473A (zh) 2018-12-21
CN109074473B true CN109074473B (zh) 2020-04-24

Family

ID=60042284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680084445.XA Active CN109074473B (zh) 2016-04-11 2016-04-11 用于对象跟踪的方法和系统

Country Status (3)

Country Link
US (1) US10825187B2 (zh)
CN (1) CN109074473B (zh)
WO (1) WO2017177367A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109074473B (zh) 2016-04-11 2020-04-24 北京市商汤科技开发有限公司 用于对象跟踪的方法和系统
EP3526964B1 (en) 2016-10-14 2024-02-21 Genetec Inc. Masking in video stream
US10360494B2 (en) * 2016-11-30 2019-07-23 Altumview Systems Inc. Convolutional neural network (CNN) system based on resolution-limited small-scale CNN modules
CN111524159A (zh) * 2019-02-01 2020-08-11 北京京东尚科信息技术有限公司 图像处理方法和设备、存储介质和处理器
CN109993091B (zh) * 2019-03-25 2020-12-15 浙江大学 一种基于背景消除的监控视频目标检测方法
CN110246154B (zh) * 2019-05-07 2022-12-27 重庆邮电大学 一种基于ica-r多特征融合与自适应更新的视觉目标跟踪方法
EP3815617A1 (en) * 2019-10-30 2021-05-05 Koninklijke Philips N.V. Image-processing method and apparatus for object detection or identification
CN110749351A (zh) * 2019-11-05 2020-02-04 苏州美能华智能科技有限公司 对象的关注目标确定方法、装置及系统
CN111709951B (zh) * 2020-08-20 2020-11-13 成都数之联科技有限公司 目标检测网络训练方法及系统及网络及装置及介质
US11966452B2 (en) 2021-08-05 2024-04-23 Ford Global Technologies, Llc Systems and methods for image based perception
US11663807B2 (en) 2021-08-05 2023-05-30 Ford Global Technologies, Llc Systems and methods for image based perception
EP4131174A1 (en) * 2021-08-05 2023-02-08 Argo AI, LLC Systems and methods for image based perception

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101694716A (zh) * 2009-10-10 2010-04-14 北京理工大学 一种针对多点目标的立体视觉光学跟踪系统
CN102004910A (zh) * 2010-12-03 2011-04-06 上海交通大学 基于surf特征点图匹配和运动生成模型的视频目标跟踪方法
CN104143074A (zh) * 2013-05-07 2014-11-12 李东舸 一种用于基于运动特征信息生成运动特征码的方法和设备
CN104732187A (zh) * 2013-12-18 2015-06-24 杭州华为企业通信技术有限公司 一种图像跟踪处理的方法及设备

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8620038B2 (en) * 2006-05-05 2013-12-31 Parham Aarabi Method, system and computer program product for automatic and semi-automatic modification of digital images of faces
US8526717B2 (en) * 2007-05-15 2013-09-03 Vision Interface Technologies, LLC Rich color transition curve tracking method
JP5368687B2 (ja) * 2007-09-26 2013-12-18 キヤノン株式会社 演算処理装置および方法
US8098891B2 (en) * 2007-11-29 2012-01-17 Nec Laboratories America, Inc. Efficient multi-hypothesis multi-human 3D tracking in crowded scenes
CN101216885A (zh) * 2008-01-04 2008-07-09 中山大学 一种基于视频的行人人脸检测与跟踪算法
US8170278B2 (en) * 2008-08-06 2012-05-01 Sri International System and method for detecting and tracking an object of interest in spatio-temporal space
CN101727570B (zh) * 2008-10-23 2012-05-23 华为技术有限公司 跟踪方法、检测跟踪处理设备和监控系统
US8355079B2 (en) * 2009-02-10 2013-01-15 Thomson Licensing Temporally consistent caption detection on videos using a 3D spatiotemporal method
US8233711B2 (en) * 2009-11-18 2012-07-31 Nec Laboratories America, Inc. Locality-constrained linear coding systems and methods for image classification
US8345984B2 (en) * 2010-01-28 2013-01-01 Nec Laboratories America, Inc. 3D convolutional neural networks for automatic human action recognition
CN101827224B (zh) * 2010-04-23 2012-04-11 河海大学 一种新闻视频中主播镜头的检测方法
CN101915852B (zh) * 2010-08-06 2012-05-23 北京交大资产经营有限公司 基于立体视觉的速度测量方法
US8934675B2 (en) * 2012-06-25 2015-01-13 Aquifi, Inc. Systems and methods for tracking human hands by performing parts based template matching using images from multiple viewpoints
CN103679687A (zh) * 2012-09-18 2014-03-26 杭州海康威视数字技术股份有限公司 一种智能跟踪高速球机的目标跟踪的方法
CN103020986B (zh) * 2012-11-26 2016-05-04 哈尔滨工程大学 一种运动目标跟踪方法
CN104008371B (zh) * 2014-05-22 2017-02-15 南京邮电大学 一种基于多摄像机的区域可疑目标跟踪与识别方法
US10045730B2 (en) * 2014-09-11 2018-08-14 The Mitre Corporation Methods and systems for rapid screening of mild traumatic brain injury
US9754351B2 (en) * 2015-11-05 2017-09-05 Facebook, Inc. Systems and methods for processing content using convolutional neural networks
CN109074473B (zh) 2016-04-11 2020-04-24 北京市商汤科技开发有限公司 用于对象跟踪的方法和系统
CN109522902B (zh) * 2017-09-18 2023-07-07 微软技术许可有限责任公司 空-时特征表示的提取
US10733714B2 (en) * 2017-11-09 2020-08-04 Samsung Electronics Co., Ltd Method and apparatus for video super resolution using convolutional neural network with two-stage motion compensation
US10797863B2 (en) * 2017-12-28 2020-10-06 Intel Corporation Multi-domain cascade convolutional neural network
US11346950B2 (en) * 2018-11-19 2022-05-31 Huawei Technologies Co., Ltd. System, device and method of generating a high resolution and high accuracy point cloud
US11748903B2 (en) * 2019-01-02 2023-09-05 Zebra Technologies Corporation System and method for robotic object detection using a convolutional neural network

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101694716A (zh) * 2009-10-10 2010-04-14 北京理工大学 一种针对多点目标的立体视觉光学跟踪系统
CN102004910A (zh) * 2010-12-03 2011-04-06 上海交通大学 基于surf特征点图匹配和运动生成模型的视频目标跟踪方法
CN104143074A (zh) * 2013-05-07 2014-11-12 李东舸 一种用于基于运动特征信息生成运动特征码的方法和设备
CN104732187A (zh) * 2013-12-18 2015-06-24 杭州华为企业通信技术有限公司 一种图像跟踪处理的方法及设备

Also Published As

Publication number Publication date
CN109074473A (zh) 2018-12-21
US10825187B2 (en) 2020-11-03
WO2017177367A1 (en) 2017-10-19
US20190043205A1 (en) 2019-02-07

Similar Documents

Publication Publication Date Title
CN109074473B (zh) 用于对象跟踪的方法和系统
Li et al. A weighted sparse coding framework for saliency detection
CN112669349B (zh) 一种客流统计方法、电子设备及存储介质
Ullah et al. Crowd motion segmentation and anomaly detection via multi-label optimization
KR102138680B1 (ko) 영상 인식 장치 및 방법
JP2015215877A (ja) ステレオ画像の対において物体を検出する方法
CN110827262B (zh) 一种基于连续有限帧红外图像的弱小目标检测方法
US20170147609A1 (en) Method for analyzing and searching 3d models
CN112200056B (zh) 人脸活体检测方法、装置、电子设备及存储介质
CN105303163A (zh) 一种目标检测的方法及检测装置
CN111814690A (zh) 一种目标重识别方法、装置和计算机可读存储介质
CN111353385B (zh) 一种基于掩膜对齐与注意力机制的行人再识别方法和装置
CN114902299A (zh) 图像中关联对象的检测方法、装置、设备和存储介质
US20160110909A1 (en) Method and apparatus for creating texture map and method of creating database
CN113256683B (zh) 目标跟踪方法及相关设备
CN109492530B (zh) 基于深度多尺度时空特征的健壮性视觉物体跟踪方法
CN115018886B (zh) 运动轨迹识别方法、装置、设备及介质
KR101592087B1 (ko) 배경 영상의 위치를 이용한 관심맵 생성 방법 및 이를 기록한 기록 매체
JP2023065296A (ja) 平面検出装置及び方法
CN110751034B (zh) 行人行为识别方法及终端设备
Pandey et al. Implementation of 5-block convolutional neural network (cnn) for saliency improvement on flying object detection in videos
Truong et al. Single object tracking using particle filter framework and saliency-based weighted color histogram
CN108764209A (zh) 一种基于监控视频的人物异常行为自动检测方法
An et al. A novel unsupervised approach to discovering regions of interest in traffic images
CN114022673A (zh) 跌倒检测方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant