CN108027972A - 用于对象跟踪的系统和方法 - Google Patents

用于对象跟踪的系统和方法 Download PDF

Info

Publication number
CN108027972A
CN108027972A CN201580082259.8A CN201580082259A CN108027972A CN 108027972 A CN108027972 A CN 108027972A CN 201580082259 A CN201580082259 A CN 201580082259A CN 108027972 A CN108027972 A CN 108027972A
Authority
CN
China
Prior art keywords
feature
cnn
target
thermal map
gnet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580082259.8A
Other languages
English (en)
Other versions
CN108027972B (zh
Inventor
王晓刚
王立君
欧阳万里
卢湖川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Publication of CN108027972A publication Critical patent/CN108027972A/zh
Application granted granted Critical
Publication of CN108027972B publication Critical patent/CN108027972B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

公开了一种用于对象跟踪的方法,其包括:确定视频序列的第一帧中的关注区域(ROI),其中ROI居中于待跟踪对象的真值目标位置;将确定的ROI在第一CNN(卷积网络)前向馈送,以在第一CNN的较高层获得多个第一特征图和在第一CNN的较低层获得多个第二特征图,其中在图像分类任务上预先对第一CNN进行训练,使得第一特征图包括较多的用于确定视频序列中待跟踪对象的类别的语义特征,而第二特征图携载较多的用于将待跟踪对象与具有类似外观的干扰项分开的鉴别信息;通过分别利用第一特征图和第二特征图训练而得的第二CNN和第三CNN(sel‑CNN),分别从第一特征图和第二特征图中选择多个特征图;基于选择的第一特征图和第二特征图,分别预测用于指示当前帧中的对象的目标位置的两个目标热图;以及基于两个预测的目标热图,估计当前帧中的对象的最终目标位置。

Description

用于对象跟踪的系统和方法
技术领域
本公开涉及一种用于对象跟踪的系统及其方法。
背景技术
作为计算机视觉中的根本问题之一,视觉跟踪已经得到广泛应用。尽管在过去的十年中已经取得很大进展,但在设计可以很好地处理重大外观变化、姿势变化、严重遮挡和背景混乱的稳健跟踪器方面仍存在巨大的挑战。
为了解决这些问题,现有的基于外观的跟踪方法采用生成模型(generativemodel)或鉴别模型(discriminative model)来将前景与背景分开,并将同时出现的对象区分出来。这些方法的一个主要缺点在于,它们依赖于低级手工制作的特征,而这些低级手工制作的特征不能捕获目标的语义信息、对显著的外观变化不稳健并且只具有有限的鉴别力。
在大规模视觉数据集的出现和计算能力的快速发展的驱动下,深度神经网络(DNN),尤其是卷积神经网络(CNN)由于对特征表示(representations)具有强大的学习能力,已经在图像分类和对象检测方面呈现出不同凡响的性能。不同于手工制作的特征,CNN从大量有注释的视觉数据和大量的对象类别(诸如,图像网络(Image Net))中学习的特征携载有丰富的高级语义信息,并且在区别不同类别的对象方面很强。这些特征在数据集上具有良好的泛化能力(generation capability)。最近的研究也已表明,此类特征对数据损坏比较稳健。它们的神经元响应在对象身份上有很强的选择性,即,对于特定对象,只有神经元的子集作出响应并且不同的对象具有不同的响应神经元。
发明内容
基于下面的原理提出了本申请的技术方案。
第一,不同级别/深度的CNN特征具有配合跟踪问题的不同性质。顶部卷积层捕获比较抽象的高级语义特征。它们在区别不同类别的对象方面很强,并且对图像变形和遮挡比较稳健。然而,它们不太能鉴别相同类别的对象,如示例所示。较低层提供更详细的局部特征,有助于将目标与具有类似外观的干扰项(例如,相同类别的其他对象)分开。但是它们对外观的巨大变化不太稳健。基于这些原理,提出本申请以在跟踪期间根据干扰项(distracter)是否出现而自动地切换这两个层的使用。
第二,在图像网络(Image Net)上预先训练的CNN特征用于区分通用对象(genericobject)。然而,对于特定目标,并非所有的特征都可用于稳健跟踪。一些特征响应可能会充当噪声。因此,如果使用所有的特征图,则难以将目标对象与背景区分开。相反,通过适当的特征选择,可以清除与目标的表示不相关的噪声特征图,而剩余的特征图可以更准确地突出目标并抑制来自背景的响应。本申请提议的有原则的(principled)方法选择鉴别性特征图并且丢弃有噪声或不相关的特征图,从而进行目标跟踪。
本申请的一方面公开了一种用于对象跟踪的方法,其包括:
确定视频序列的第一帧中的关注区域(ROI),其中所述ROI居中于待跟踪对象的真值目标位置;
将确定的ROI在第一CNN(卷积网络)前向馈送,以在所述第一CNN的较高层获得多个第一特征图和在所述第一CNN的较低层获得多个第二特征图,其中在图像分类任务上对所述第一CNN预先进行训练,使得所述第一特征图包括较多的用于确定所述视频序列中待跟踪对象的类别的语义特征,而所述第二特征图携载较多的用于将所述待跟踪对象与具有类似外观的干扰项分开的鉴别信息;
通过分别利用所述第一特征图和所述第二特征图来训练第二CNN和第三CNN(sel-CNN),分别从所述第一特征图和所述第二特征图中选择多个特征图;
基于选择的第一特征图和第二特征图,分别预测用于指示当前帧中的对象的目标位置的两个目标热图;以及
基于两个预测的目标热图,估计所述当前帧中的对象的最终目标位置。
本申请的一方面还公开了一种用于对象跟踪的系统,其包括:
特征图选择单元,用于确定视频序列的第一帧中的关注区域(ROI),其中所述ROI居中于待跟踪对象的真值目标位置,以及将所述确定的ROI在第一CNN(卷积网络)前向馈送,以在所述CNN的较高层获得多个第一特征图和在所述第一CNN的较低层获得多个第二特征图;
热图预测单元,其与所述特征图选择单元电通信并且用于基于所述第一特征图和所述第二特征图来分别预测用于指示当前帧中的目标位置的两个目标热图;以及
目标定位单元,其用于基于两个预测的目标热图来估计当前帧中的ROI的最终目标位置,
其中,在图像分类任务上对所述第一CNN预先进行训练,使得所述第一特征图包括较多的用于确定所述视频序列中待跟踪对象的类别的语义特征,而所述第二特征图携载较多的用于将所述对象与具有类似外观的干扰项分开的鉴别信息。
本申请的另一方面还公开了一种用于对象跟踪的系统,其包括:
存储器,其存储可执行部件;以及
处理器,其执行所述可执行部件以便执行所述系统的操作,所述可执行部件包括:
特征图选择部件,其用于确定视频序列的第一帧中的关注区域(ROI),其中所述ROI居中于待跟踪对象的真值目标位置,以及将所述确定的ROI在第一CNN(卷积网络)前向馈送,以在所述CNN的较高层获得多个第一特征图和在所述第一CNN的较低层获得多个第二特征图;
热图预测部件,其用于基于所述第一特征图和所述第二特征图来分别预测指示当前帧中的目标位置的两个目标热图;以及
目标定位部件,其用于基于两个预测的热图来估计所述当前帧中的所述ROI的最终目标位置。
与现有的视觉跟踪方法相比,所提议或要求的解决方案具有显著有益于跟踪性能的两个优点中的至少一个:
1)为了更准确的视觉跟踪,使用有原则的特征选择方法来自动地选择卷积网络的鉴别性特征图并且丢弃有噪声或不相关的特征图。
2)共同地考虑不同级别的两个卷积层,以便它们彼此互补。具体而言,顶层对较多语义特征进行编码并且充当类别检测器,而较低层携载较多鉴别性信息并且可以更好地将目标与具有类似外观的干扰项分开。
附图说明
下文参考附图描述本发明的示例性非限制实施方案。附图是说明性的,并且一般不按确切的比例绘制。不同图上的相同或类似元件次用相同的附图标号。
图1是示出根据本申请的一个实施方案的图1所示的系统的操作的示意场景。
图2是示出根据本申请的实施方案的、适用于图1的示意场景的用于对象跟踪的系统的示意图。
图3是示出根据本申请的一个实施方案的、用于对象跟踪的方法的流程图的示意图。
图4是示出根据本申请的一个实施方案的、训练步骤S32的流程图的示意图。
图5是示出根据本申请的一个实施方案的、预测步骤S33的流程图的示意图。
图6是示出根据本申请的一个实施方案的、预测步骤S34的流程图的示意图。
图7示出符合本申请的实施方案的用于对象跟踪的系统。
具体实施方式
下面将详细地参考本发明的一些具体实施方案,包括发明人预期的用于实施本发明的最佳模式。附图中示出这些具体实施方案的示例。尽管结合这些具体实施方案描述本发明,但应理解,这并非用于将本发明限于所述实施方案。相反,这些描述旨在涵盖可以包括在如所附权利要求书限定的本发明的精神和范围内的替代方案、修改和等效物。以下描述中列出了许多具体细节,以便彻底理解本发明。在实践中,可以在没有这些具体细节中的一些或全部的情况下实施本发明。在其他情况下,没有详细地描述众所周知的过程操作,以免不必要地使本发明变得模糊。
本文中使用的术语仅仅是出于描述特定实施方案的目的,而并非用于限制本发明。除非上下文另有明确说明,否则本文中使用的单数形式“一”、“一个”和“所述”也可表示包括复数形式。还应理解,本说明书中使用的术语“包括”和/或“包括”用于说明存在所述特征、整数、步骤、操作、元件和/或部件,但并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件和/或它们的组合。
图1是示出根据本申请的实施方案的、用于对象跟踪的系统的操作的示意场景。对于给定目标,在VGG网络的较低层和较高层(例如,conv4-3和conv5-3层,如图所示)执行特征图选择方法,以选择最相关的特征图并且避免过度拟合噪声特征图。捕获目标的类别信息的广义神经网络(GNet)以在全卷积网络的较高层(conv5-3层)中选择的靠前的(top)特征图为基础搭建。将目标与具有类似外观的背景区别开的特定神经网络(SNet)以从全卷积网络的较低(conv4-3)层中选择的靠前的特征图为基础搭建。GNet和SNet都在第一帧中初始化,以对目标执行前景热图回归并且采用不同的在线更新策略。对于新的帧,将含有目标和背景上下文的、居中于最后目标位置的关注区域(ROI)进行修剪并且传播通过全卷积网络,使得通过GNet和SNet分别基于从全卷积网络的较高层中所选第一特征图和从全卷积网络的较低层所选第二特征图中生成两个前景热图。
SNet和GNet共享由两个额外的卷积层组成的相同网络架构。第一额外卷积层具有(例如,9×9)尺寸的卷积核,并且输出多个(例如,36个)特征图作为下一层的输入。第二额外卷积层具有尺寸相对小(例如,5×5)的核,并且输出输入图像的前景热图。将ReLU选作这两层的非线性函数。基于两个热图独立地执行目标定位。通过用于决定使用哪个热图的干扰项检测方案来确定最终目标。
图2是示出根据本申请的实施方案的、适用于图1的示意场景的用于对象跟踪的系统的示意图。如图所示,用于对象跟踪的系统1000可包括特征图选择单元10、热图预测单元20和目标定位单元30。下文将分别进一步论述特征图选择单元10、热图预测单元20和目标定位单元30。
特征图选择单元10
特征图选择单元10进行操作以:确定视频序列的第一帧中的关注区域(ROI),其中,ROI居中于待跟踪对象的真值目标位置,预定的真值目标位置包括待跟踪对象的目标区域和背景上下文;以及将每个确定的ROI在第一CNN(卷积网络)前向馈送,并且在CNN的较高层获得多个第一特征图和在第一CNN的较低层获得多个第二特征图;其中在图像分类任务上对第一CNN预先进行训练,使得第一特征图包括较多的用于确定视频序列中待跟踪对象的类别的语义特征,而第二特征图携载较多的用于将对象与具有类似外观的干扰项分开的鉴别信息。
特征图选择单元10用于分别利用第一特征图和第二特征图通过下列方式来将两个卷积神经网络初始化:将两个特征图分别输入到两个CNN中,以在每个CNN中输出对象的预测位置;将预测位置与对象的真值目标位置进行比较以获得预测误差;将误差反向传播通过CNN,直至获得的误差小于阈值;并且从每个CNN中输出多个特征图。随后,特征图选择单元10进行操作以:确定每个特征图对目标函数的显著性(significance);根据显著性值按降序排列所有的特征图;从较高层和较低层中选择排在最前面的K个特征图,其中在后续帧的在线跟踪阶段,提取特征图并且从所提取的图中选择对应的K个特征图,如下文将论述。
如可以看出,所提议的特征图选择是基于通过第一CNN(也被称为sel-CNN)的目标热图回归模型,并且在例如VGG的conv4-3和conv5-3层上独立地进行。sel-CNN(第一CNN)由随机失活层(dropout layer)紧接着卷积层组成,而没有任何非线性变换。将特征图(conv4-3或con5-3)选作输入以预测目标热图M,该目标热图是居中于真值目标位置的二维高斯,其中方差与目标尺寸成比例。通过最小化预测的前景热图与目标热图M之间的平方损失来训练sel-CNN:
在使用反向传播的参数学习收敛之后,sel-CNN参数是固定的,并且根据它们对损失函数的影响来选择特征图。将输入的特征图F矢量化成由vec(F)表示的矢量。将fi表示为vec(F)的第i个元素。由特征图的扰动δF造成的损失函数的变化可由二阶泰勒展开式计算,如下:
其中分别是关于输入的特征图的目标函数的一阶和二阶导数。特征图中的元素的数量非常大,例如,在一些情况下,将超过270,000个。计算所有二阶导数hij的复杂度就是O(270,0002),这太耗费时间。因此,在本实施方案中,逼近具有对角矩阵的海塞矩阵,其中略公式(2)的右手侧的第三项。经由反向传播可以有效地计算一阶导数gi和二阶导数hii
元素fi的显著性(significance)被定义为在将fi设置为零(即,δfi=0-fi)之后目标函数的变化。根据公式(2)可以将fi的显著性计算为:
第k个特征图的显著性进一步被定义为它的所有元素的显著性的总和:
其中s(x,y,k)是由第k个特征图上的位置(x,y)索引的元素的显著性。所有的特征图都根据它们的显著性按降序分类,并且为当前的跟踪任务选择前K个特征图。这些选择的特征图对目标函数产生显著影响,并且因此与跟踪任务最相关。特征图选择方法可以以在线方式进行。在实验中,只在第一帧处进行特征选择并且实现了良好的性能。这应该部分地归因于CNN特征的稳健性。
使用成本函数(cost function)的二次逼近来移除神经网络中的一些连接的想法可以追溯到1989年。目标是减少参数的数量并且提高速度,而本申请的目标是移除有噪声特征图并且提高跟踪准确性。
热图预测单元20
热图预测单元20接收第一特征图和第二特征图,以基于所接收的特征图来分别预测用于指示当前帧中的目标位置的两个目标热图。根据本申请的一个实施方案,热图预测单元20具有广义网络和特定网络,其中广义网络(GNet)基于从第一特征图中选择的最前面的特征图来捕获目标对象的类别信息;并且特定网络(SNet)基于从conv4-3层选择的最前面的第二特征图来将目标对象与具有类似外观的背景区别开。如上文论述,SNet和GNet共享由两个额外的卷积层组成的相同网络架构。第一额外卷积层具有(例如,9×9)尺寸的卷积核,并且输出多个(例如,36个)特征图作为下一层的输入。第二额外卷积层具有尺寸相对小(例如,5×5)的核,并且输出输入图像的前景热图。将ReLU选作这两层的非线性函数。
GNet和SNet都在第一帧中初始化,以对目标执行前景热图回归。通过将下列平方损失函数最小化,在第一帧中对SNet和GNet进行初始化:
其中下标U∈{S,G}分别表示SNet和GNet;表示由网络预测的前景热图;M是目标热图;WU是卷积层的权重参数;β是权重衰减的折衷参数(tradeoff parameter)。
应注意,用于选择特征的sel-CNN以及用于定位的SNet和GNet具有不同的CNN结构。sel-CNN架构非常简单以避免使用噪声特征图来过度拟合目标函数,而SNet和GNet更复杂。由于通过特征图选择已经丢弃了噪声特征图,因此越复杂的模型有助于越准确的跟踪。
对于新的帧,将含有目标和背景上下文的、居中于最后目标位置的关注区域(ROI)进行修剪并且传播通过全卷积网络,使得分别由GNet和SNet生成两个前景热图,并且使得由GNet和SNet分别根据从第一CNN的较高层选择的第一特征图和从第一CNN的较低层选择的第二特征图中生成两个前景热图,并且基于两个热图独立地执行目标定位,这将在下文进一步论述。
在本申请的一个实施方案中,首先在由GNet产生的热图上执行目标定位。将目标位置表示为其中x、y和σ分别表示目标边界框的中心坐标和尺度(scale)。给定上一帧中的目标位置假设当前帧中的目标候选的位置符合高斯分布:
其中Σ是指示位置参数的方差的对角协方差矩阵。将第i个候选的置信度计算为候选区域内的所有热图值的总和:
其中表示由GNet生成的热图;Ri是根据位置参数的第i个目标候选的区域;j表示坐标索引。由GNet将具有最高置信的候选预测为目标。
目标定位单元30
目标定位单元30基于两个预测的热图通过干扰项检测机制来估计当前帧中的目标位置。
如上论述,GNet基于较高层(例如,conv5-3层)捕获语义特征并且对类别内变化高度地保持不变。因此,由GNet生成的前景热图突出目标和具有类似外观的背景干扰项。
为了防止跟踪器转向背景,本申请还提议一种用来确定最终目标位置的干扰项检测。将由GNet预测的目标位置表示为热图中的对应目标区域为RG。背景干扰项的概率由目标区域内部与外部的置信值之间的比例评估。
其中表示所预测的热图上的背景区域。当比例Pd小于预定义阈值(在所有实验中都是0.2)时,假设没有出现背景干扰项并且将GNet预测的目标位置用作最终结果。否则,在SNet预测的热图上执行上述相同的目标定位程序,并且将具有最高置信的候选标记为目标。
返回到根据本申请的一个实施方案的目标定位单元30,该目标定位单元30用于:根据居中于视频序列最后帧中的预测目标位置的高斯分布对一组目标候选区域进行取样;基于GNet估计的目标热图来预测当前帧中的最佳目标候选,其中通过计算每个候选区域内的热图值的总和而获得每个候选的目标置信,并且将具有最高置信的候选选作最佳目标候选;以及通过将背景区域内的热图值与最佳候选区域中的那些热图值进行比较来检测干扰项。如果没有检测到干扰项,则将通过使用GNet的热图预测出的最佳目标位置确定当前帧中的最终目标位置,否则,将通过使用SNet的特定热图确定出的目标定位来预测最终目标位置。
更新单元40
更新单元40使用先前的跟踪结果以在线方式更新热图预测单元,以适应目标外观变化。
为了避免由在线更新引入的背景噪声,提出本申请以在第一帧中的初始化之后固定GNet并且只更新SNet。使用两个不同的规则来更新SNet:适应规则(adaptation rule)和鉴别规则(discrimination rule),它们分别旨在使SNet适应目标外观变化和提高对前景和背景的鉴别力。根据适应规则,使用这些预定数量的帧内的最可信(例如,10)的跟踪结果,每预定数量的(例如,20个)帧便微调SNet。基于鉴别规则,当检测到干扰项时,进一步使用第一帧和当前帧中的跟踪结果并通过将下列目标函数最小化来更新SNet:
其中WS表示SNet的卷积权重;(x,y)是空间坐标;和Mt分别表示由SNet预测的第t个帧的热图和根据预测的目标位置(居中于目标位置的二维高斯)生成的热图。前景任务Φt指示预测的目标边界框,即,如果位置(x,y)属于目标区域,则Φt(x,y)=1,否则Φt(x,y)=0。
公式(9)中的第二项对应于用于定位第一帧中的目标对象的损失。当出现干扰项或目标受到严重遮挡时,估计的目标区域对于学习外观而言并不可靠。因此,在添加第一帧以用于监督学习时选择保守方案,从而使得所学习的模型仍具有在第一帧中考虑过的外观。估计的目标区域不用于更新模型,因为它不可靠。因此,公式(9)中的第三项消除目标区域的损失,并且只考虑第t个帧中的背景区域的损失。其加强了该模型以更注重将背景干扰项分配为背景。公式(9)中的第二项和第三项的组合可以帮助SNet更好地将目标与背景分开,并且减轻由遮挡或干扰项造成的模型退化。
下文将参考图3论述根据本申请的一个实施方案的用于对象跟踪的方法3000。如图所示,在步骤S31处,将视频序列的第一帧在第一CNN(卷积网络)前向馈送,以在CNN的较高层获得待跟踪对象的多个第一特征图和在第一CNN的较低层获得对象的多个第二特征图。具体而言,将确定视频序列的第一帧中的关注区域(ROI)(居中于目标位置的ROI包括目标区域和背景上下文),随后将确定的ROI在第一CNN前向馈送,以在CNN的较高层获得待跟踪对象的多个第一特征图和在第一CNN的较低层获得对象的多个第二特征图。
在步骤S32处,该方法分别利用第一特征图和第二特征图来训练第二CNN和第三CNN(sel-CNN),以分别从第一特征图和第二特征图中选择多个特征图。具体而言,在图像分类任务上对第一CNN预先进行训练,使得第一特征图包括较多的用于确定视频序列中待跟踪对象的类别的语义特征,而第二特征图携载较多的用于将对象与具有类似外观的干扰项分开的鉴别信息。
图4是示出根据本申请的一个实施方案的、用于训练S32的流程图的示意图。如图所示,训练还包括步骤S321:分别利用第一特征图和第二特征图初始化两个sel-CNN,其中两个特征图分别用于在每个sel-CNN中输出对象的预测位置。在步骤S322处,将预测位置与对象的真值目标位置进行比较以获得预测误差,并且在步骤S323处,将误差反向传播通过sel-CNN,直至所获得的误差小于阈值。
在步骤S324处,确定从两个sel-CNN中的每个输出的每个特征图的显著性,并且根据显著性值按降序排列所有的特征图,其中将选择来自较高层和较低层中的排在最前面的K个特征图,其中K是大于或等于1的整数。
在步骤S325处,在用于后续帧的在线跟踪阶段,提取特征图并且从所提取的特征图中选择它们对应的K个特征图作为第一特征图和第二特征图。
返回到图3,方法3000还包括步骤S33:由训练的第二CNN和第三CNN分别基于第一特征图和第二特征图来预测指示当前帧中的目标位置的两个目标热图。图5是示出根据本申请的一个实施方案的预测的步骤S33的流程图的示意图。如图所示,在步骤S501中,通过下列方式初始化GNet和SNet:将两个特征图分别输入到两个CNN中,以在每个sel-CNN中输出对象的热图;将热图与对象的真值热图进行比较,以获得预测误差;以及将误差反向传播通过sel-CNN,直至获得的误差小于阈值,并且将获得第一帧的目标热图。随后,在步骤S502处,初始化的GNet和SNet为后续的每个帧独立地估计目标热图,其中居中于最后目标位置的关注区域(ROI)含有目标和背景上下文,并且被修剪和传播通过CNN,使得分别由GNet和SNet根据从CNN的较高层选择的第一特征图和从第一CNN的较低层选择的第二特征图生成两个前景热图,并且基于两个热图独立地执行目标定位。在本申请的一个实施方案中,GNet和SNet中的每个由第一卷积层和非线性地连接到第一层的第二卷积层组成,其中第一卷积层具有尺寸较大的卷积核,并且第二卷积层具有相对小尺寸的核。
再次返回到图3,方法3000还包括步骤S34,在该步骤中将基于当前帧中的两个预测热图来估计对象的目标位置。在本申请的一个实施方案中,步骤S34可以包括如图6所示的处理:
步骤S341:根据居中于在视频序列最后帧中预测的目标位置的高斯分布对一组目标候选区域进行取样;
步骤S342:基于GNet估计的目标热图来预测当前帧中的最佳目标候选,其中通过计算每个候选区域内的热图值的总和而获得每个候选的目标置信,并且将具有最高置信的候选选作最佳目标候选;
步骤S343:将背景区域内的热图值与最佳候选区域中的那些热图值进行比较,以检测干扰项;
步骤S344:确定是否检测到干扰项。如果没有检测到干扰项,则在步骤S345处,将通过使用GNet的热图预测出的最佳目标位置确定为步骤S345处的当前帧中的最终目标位置,否则,在步骤S346处,将通过使用SNet的特定热图确定出的目标定位来预测最终目标位置。
图7示出符合本申请的实施方案的用于对象跟踪的系统700。在此实施方案中,如图3所示的过程可以由系统700中的软件实施。参考图7,系统700包括存储可执行部件的存储器71,以及处理器72,所述处理器电耦合到存储器71以执行可执行部件,以执行系统700的操作。可执行部件可以包括:特征图选择部件73,用于确定视频序列的第一帧中的、包括待跟踪对象的像素的关注区域(ROI),并且将确定的ROI向前馈通过第一CNN(卷积网络),而且在第一CNN的较高层获得多个第一特征图和在第一CNN的较低层获得多个第二特征图;热图预测部件74,用于分别基于第一特征图和第二特征图来预测指示当前帧中的目标位置的两个目标热图;以及目标定位部件75,用于基于两个预测的热图来估计当前帧中的ROI的最终目标位置。
如上文论述,可以在图像分类任务上对第一CNN预先进行训练,使得第一特征图包括较多的用于确定视频序列中待跟踪对象的类别的语义特征,而第二特征图携载较多的用于将对象与具有类似外观的干扰项分开的鉴别信息。
与上文论述的特征图选择单元相同,特征图选择部件具有两个卷积神经网络(即,sel-CNN),并且其中特征图选择单元用于:分别利用第一特征图和第二特征图通过下列方式来初始化两个sel-CNN:将两个特征图分别输入到两个CNN中,以在每个sel-CNN输出对象的热图;将热图与对象的真值热图进行比较,以获得预测误差;以及将误差反向传播通过sel-CNN,直至获得的误差小于阈值;根据两个训练的sel-CNN来确定第一特征图和第二特征图中的每个的显著性;根据显著性值按降序独立地排列第一特征图和第二特征图中的那些特征图;并且从较高层和较低层中选择排在最前面的K个特征图,其中K是大于或等于1的整数;其中在后续帧的在线跟踪阶段,分别从第一CNN的较高层和较低层中提取第一特征图和第二特征图,并且选择它们对应的K个特征图并充当所述选择的第一特征图和第二特征图。
在一个实施方案中,热图预测部件具有广义网络和特定网络,其中广义神经网络(GNet)基于从第一特征图选择出的、最前面的特征图来捕获目标对象的类别信息;特定神经网络(SNet)基于从较低层选择出的、最前面的第二特征图来将目标对象与具有类似外观的背景区别开。GNet和SNet在第一帧中初始化以对目标对象执行前景热图回归;对于新的帧,将含有目标和背景上下文的、居中于最后目标位置的关注区域(ROI)进行修剪并且传播通过全卷积网络;以及分别由GNet和SNet生成两个前景热图。
GNet和SNet都按照以下步骤进行初始化:分别从第一帧选择出的第一特征图和第二特征图在GNet和SNet馈送,以预测两个目标热图;将预测的热图与真值热图进行比较以获得预测误差;将误差反向传播通过GNet和SNet,直至获得误差小于阈值;并且其中真值热图根据居中于真值目标位置的二维高斯分布进行分布,其中方差与对象的目标尺寸成比例。
如参考目标定位单元所论述,目标定位部件用于:根据居中于视频序列最后帧中的预测目标位置的高斯分布对一组目标候选区域进行取样;基于GNet估计的目标热图来预测当前帧中的最佳目标候选,其中通过对每个候选区域内的热图值求和而获得个候选的目标置信,并且将具有最高置信的候选选作最佳目标候选;以及将背景区域内的热图值与最佳候选区域中的那些热图值进行比较,以检测干扰项;如果没有检测到干扰项,则将通过使用GNet的热图预测出的最佳目标位置确定当前帧中的最终目标位置,否则,将通过使用SNet的特定热图确定出的目标定位来预测最终目标位置。
第一CNN由随机失活层(dropout layer)紧接着卷积层组成,而没有任何非线性变换。GNet和SNet中的每个由第一卷积层和非线性地连接到第一层的第二卷积层组成,其中第一卷积层具有尺寸较大的卷积核,并且第二卷积层具有相对小尺寸的核。
如图所示,系统700还可以包括更新部件76,该部件用于使用先前的跟踪位置以在线方式更新热图预测单元,以适应目标外观变化。
如本领域的技术人员将了解,本发明可以体现为系统、方法或计算机程序产品。因此,本发明可以采用在本文中一般全都可以称为“单元”、“电路”、“模块”或“系统”的全硬件实施方案和硬件方面的形式。本发明功能中的很多功能和本发明原理中的很多原理可由集成电路(IC)很好地实施,诸如,数字信号处理器和软件或者专用IC。尽管可能会存在大量的努力和很多设计选择(这些选择例如由可用时间、当前技术和经济考虑等因素驱使),但可以预期,本领域的技术人员在由本文中公开的概念和原理的引导下,能够利用最少的实验生成IC。因此,为了简洁起见并且最小化那些可能会模糊本发明原理和概念的任何风险,此类软件和IC的进一步论述(若有的话)将限于优选实施方案所使用的必要原理和概念。
尽管已描述了本发明的优选示例,但在了解本发明基本概念后,本领域的技术人员可以对这些示例作出变化或更改。所附权利要求书意图包括落入本发明的范围内的优选示例和所有变化或更改。
显然,在不脱离本发明的精神和范围的情况下,本领域的技术人员可以对本发明作出变化或更改。因此,如果这些变化或更改属于权利要求书和等效技术的范围,则它们也可以落入本发明的范围内。

Claims (27)

1.一种用于对象跟踪的方法,包括:
确定视频序列的第一帧中的关注区域(ROI),其中所述ROI居中于待跟踪对象的真值目标位置;
将确定的ROI在第一CNN(卷积网络)前向馈送,以在所述第一CNN的较高层获得多个第一特征图和在所述第一CNN的较低层获得多个第二特征图,其中,在图像分类任务上对所述第一CNN预先进行训练,使得所述第一特征图包括较多的用于确定所述视频序列中待跟踪对象的类别的语义特征,而所述第二特征图携载较多的用于将所述待跟踪对象与具有类似外观的干扰项分开的鉴别信息;
通过分别利用所述第一特征图和所述第二特征图训练而得的第二CNN和第三CNN(sel-CNN),分别从所述第一特征图和所述第二特征图中选择多个特征图;
基于选择的第一特征图和第二特征图,分别预测用于指示当前帧中的对象的目标位置的两个目标热图;以及
基于两个预测的目标热图,估计所述当前帧中的对象的最终目标位置。
2.根据权利要求1所述的方法,其中所述训练还包括:
分别利用所述第一特征图和所述第二特征图初始化两个sel-CNN,其中所述第一特征图和所述第二特征图分别用于在每个所述sel-CNN中输出对象的热图;
将所述热图与所述对象的真值热图进行比较,以获得用于每个所述sel-CNN的预测误差;以及
将所述误差反向传播通过每个所述sel-CNN,直至获得的误差小于阈值。
3.根据权利要求2所述的方法,其中所述训练还包括:
根据经过训练的两个sel-CNN来确定所述第一特征图和所述第二特征图中的每个特征图的显著性;
根据显著性值按降序独立地排列所述第一特征图和所述第二特征图中的特征图;以及
从较高层和较低层中选择排在靠前的K个特征图,其中K是大于或等于1的整数;
其中,在后续帧的在线跟踪阶段,分别从所述第一CNN的较高层和较低层中提取所述第一特征图和所述第二特征图,并且选择它们对应的K个特征图并充当所述选择的第一特征图和第二特征图。
4.根据权利要求1所述的方法,其中所述预测包括:
初始化GNet和SNet并且获得用于所述第一帧的目标热图;
对于每个后续帧,由初始化的GNet和SNet独立地估计所述目标热图,
其中,居中于最后目标位置的ROI含有目标和背景上下文,并被修剪和传播通过所述第一CNN以获得所述第一特征图和所述第二特征图,选择出的第一特征图和第二特征图分别传播通过所述GNet和所述SNet;以及
其中分别由所述GNet和所述SNet生成两个前景热图,并且基于所述两个前景热图独立地执行目标定位预测。
5.根据权利要求4所述的方法,其中通过下列方式初始化GNet和SNet:
将为所述第一帧选择的第一特征图和第二特征图分别在所述GNet和所述SNet馈送,以预测两个目标热图;
将预测的热图与真值热图进行比较,以获得预测误差;以及
将所述误差反向传播通过所述GNet和所述SNet,直至所述获得的误差小于阈值;
其中所述真值热图根据居中于所述真值目标位置的二维高斯分布进行分布,其中方差与所述对象的目标尺寸成比例。
6.根据权利要求5所述的方法,其中所述估计还包括:
根据居中于所述视频序列的最后帧中的预测目标位置的高斯分布对一组目标候选区域进行取样;
基于所述GNet估计的目标热图来预测所述当前帧中的最佳目标候选,其中每个候选的目标置信通过对每个候选区域中的热图值进行求和而获得,并且将具有最高目标置信的候选选作所述最佳目标候选;
将背景区域内的所述热图值与最佳候选区域中的热图值进行比较,以检测干扰项;
如果没有检测到干扰项,则将通过使用GNet的热图预测出的最佳目标位置确定当前帧中的最终目标位置,否则,将通过使用SNet的特定热图确定出的目标定位来预测最终目标位置。
7.根据权利要求1所述的方法,其中所述GNet和所述SNet均包括第一卷积层和第二卷积层,所述第二卷积层非线性地连接到所述第一卷积层,
其中所述第一卷积层具有尺寸较大的卷积核并且所述第二卷积层具有尺寸相对小的卷积核。
8.根据权利要求4至7中任一项所述的方法,还包括:
利用所述对象的先前跟踪位置以在线方式更新所述SNet,以适应目标外观变化。
9.一种用于对象跟踪的系统,包括:
特征图选择单元,用于确定视频序列的第一帧中的关注区域(ROI),其中所述ROI居中于待跟踪对象的真值目标位置,以及将所述确定的ROI在第一CNN(卷积网络)前向馈送,以在所述CNN的较高层获得多个第一特征图和在所述第一CNN的较低层获得多个第二特征图;
热图预测单元,其与所述特征图选择单元电通信并且用于基于所述第一特征图和所述第二特征图来分别预测用于指示当前帧中的目标位置的两个目标热图;以及
目标定位单元,其用于基于两个预测的目标热图来估计当前帧中的ROI的最终目标位置,
其中,在图像分类任务上对所述第一CNN预先进行训练,使得所述第一特征图包括较多的用于确定所述视频序列中待跟踪对象的类别的语义特征,而所述第二特征图携载较多的用于将所述对象与具有类似外观的干扰项分开的鉴别信息。
10.根据权利要求9所述的系统,其中所述特征图选择单元具有两个卷积神经网络(sel-CNN),并且
其中所述特征图选择单元用于:
分别利用所述第一特征图和所述第二特征图通过下列方式初始化两个所述sel-CNN:将所述第一特征图和所述第二特征图分别输入到所述两个sel-CNN中,以在每个所述sel-CNN中输出所述对象的热图;将所述热图与所述对象的真值热图进行比较,以获得用于每个所述sel-CNN的预测误差;以及将所述误差反向传播通过所述sel-CNN,直至所述获得的误差小于阈值;
根据经过训练的两个sel-CNN来确定所述第一特征图和所述第二特征图中每个特征图的显著性;
根据显著性值按降序独立地排列所述第一特征图和所述第二特征图中的那些特征图;以及
从较高层和较低层中选择排在靠前的K个特征图,其中K是大于或等于1的整数;
其中,在后续帧的在线跟踪阶段,分别从所述第一CNN的所述较高层和所述较低层中提取所述第一特征图和所述第二特征图,并且选择它们对应的K个特征图并充当所选择的第一特征图和第二特征图。
11.根据权利要求10所述的系统,其中所述热图预测单元具有广义网络(GNet)和特定网络(SNet),
其中所述广义网络基于从所述第一特征图选择的最前面特征图来捕获所述目标对象的类别信息;以及
所述特定网络基于从所述较低层选择的最前面的第二特征图来将所述目标对象与具有类似外观的背景区别开。
12.根据权利要求11所述的系统,其中所述GNet和所述SNet在所述第一帧中初始化,以对所述目标对象来执行前景热图回归;
对于新的帧,所述ROI在含有目标和背景上下文的最后目标位置居中,并且进行修剪和传播通过所述第一CNN,使得由所述GNet和所述SNet分别根据从所述第一CNN的较高层选择的第一特征图和从所述第一CNN的较低层选择的第二特征图中生成两个前景热图。
13.根据权利要求11所述的系统,其中通过下列方式将GNet和SNet初始化:
将为所述第一帧选择的第一特征图和第二特征图分别在所述GNet和所述SNet馈送,以预测两个目标热图;
将预测的热图与真值热图进行比较,以获得预测误差;
将所述误差反向传播通过所述GNet和所述SNet,直至所获得的误差小于阈值;以及
其中所述真值热图是在所述真值目标位置居中的二维高斯分布,其中方差与所述对象的目标尺寸成比例。
14.根据权利要求12所述的系统,其中所述目标定位单元用于:
根据在所述视频序列的最后帧中的预测目标位置居中的高斯分布对一组目标候选区域进行取样;
基于所述GNet估计的目标热图来预测当前帧中的最佳目标候选,其中每个候选的目标置信通过对每个候选区域中的热图值进行求和而获得,并且将具有最高目标置信的候选选作所述最佳目标候选;以及
将背景区域内的热图值与所述最佳候选区域中的热图值进行比较,以检测干扰项;
如果没有检测到干扰项,将通过使用GNet的热图预测出的最佳目标位置确定当前帧中的最终目标位置,否则,将通过使用SNet的特定热图确定出的目标定位来预测最终目标位置。
15.根据权利要求9所述的系统,其中所述sel-CNN由随机失活层紧接着卷积层组成,而没有任何非线性变换。
16.根据权利要求11所述的系统,其中所述GNet和所述SNet均包括第一卷积层和第二卷积层,所述第二卷积层非线性地连接到所述第一卷积层,
其中所述第一卷积层具有尺寸较大的卷积核并且所述第二卷积层具有尺寸相对小的卷积核。
17.根据权利要求9至16中任一项所述的系统,其还包括:
更新单元,其用于使用先前的跟踪位置以在线方式更新所述热图预测单元,以适应目标外观变化。
18.一种用于对象跟踪的系统,其包括:
存储器,其存储可执行部件;以及
处理器,其执行所述可执行部件以便执行所述系统的操作,所述可执行部件包括:
特征图选择部件,其用于确定视频序列的第一帧中的关注区域(ROI),其中所述ROI居中于待跟踪对象的真值目标位置,以及将所述确定的ROI在第一CNN(卷积网络)前向馈送,以在所述CNN的较高层获得多个第一特征图和在所述第一CNN的较低层获得多个第二特征图;
热图预测部件,其用于基于所述第一特征图和所述第二特征图来分别预测指示当前帧中的目标位置的两个目标热图;以及
目标定位部件,其用于基于两个预测的热图来估计所述当前帧中的所述ROI的最终目标位置。
19.根据权利要求18所述的系统,其中在图像分类任务上对所述第一CNN预先进行训练,使得所述第一特征图包括较多的用于确定所述视频序列中待跟踪对象的类别的语义特征,而所述第二特征图携载较多的用于将所述对象与具有类似外观的干扰项分开的鉴别信息。
20.根据权利要求19所述的系统,其中所述特征图选择部件具有两个卷积神经网络(即,sel-CNN),并且
其中所述特征图选择单元用于:
分别利用所述第一特征图和所述第二特征图通过下列方式初始化所述两个sel-CNN:将所述两个特征图分别输入到所述两个sel-CNN中,以在每个所述sel-CNN输出所述对象的热图;将所述热图与所述对象的真值热图进行比较,以获得用于每个所述sel-CNN的预测误差;以及将所述误差反向传播通过所述sel-CNN,直至所述获得的误差小于阈值;
根据经过训练的两个sel-CNN来确定所述第一特征图和所述第二特征图中每个特征图的显著性;
根据显著性值按降序独立地排列所述第一特征图和所述第二特征图中的那些特征图;以及
从较高层和较低层中选择排在最前面的K个特征图,其中K是大于或等于1的整数;
其中,在后续帧的在线跟踪阶段,分别从所述第一CNN的所述较高层和所述较低层中提取所述第一特征图和所述第二特征图,并且选择它们对应的K个特征图并充当所选择的第一特征图和第二特征图。
21.根据权利要求18所述的系统,其中所述热图预测部件具有广义网络(GNet)和特定网络(SNet),
其中,所述GNet基于从所述第一特征图选择出的、最前面的特征图来捕获所述目标对象的类别信息;以及
所述SNet基于从所述较低层选择出的、最前面的第二特征图来将所述目标对象与具有相似外观的背景区别开。
22.根据权利要求21所述的系统,其中所述GNet和所述SNet在所述第一帧中初始化,以对于所述目标对象来执行前景热图回归;
对于新的帧,在最后目标位置居中的所述ROI含有目标和背景上下文,并且进行修剪和传播通过所述第一CNN,使得由所述GNet和所述SNet分别根据从所述第一CNN的较高层选择的第一特征图和从所述第一CNN的较低层选择的第二特征图中生成两个前景热图。
23.根据权利要求22所述的系统,其中通过下列方式初始化GNet和所述SNet:
将为所述第一帧选择的第一特征图和第二特征图分别在所述GNet和所述SNet馈送,以预测两个目标热图;
将预测的热图与真值热图进行比较,以获得预测误差;
将所述误差反向传播通过所述GNet和所述SNet,直至所述获得的误差小于阈值;以及
其中所述真值热图根据在所述真值目标位置居中的二维高斯进行分布,其中方差与所述对象的目标尺寸成比例。
24.根据权利要求22所述的系统,其中所述目标定位部件用于:
根据在所述视频序列的最后帧中的预测目标位置居中的高斯分布对一组目标候选区域进行取样;
基于所述GNet估计的所述目标热图来预测所述当前帧中的最佳目标候选,其中通过对每个候选区域内的热图值求和而获得个候选的目标置信,并且将具有最高置信的所述候选选作所述最佳目标候选;以及
将背景区域内的所述热图值与所述最佳候选区域中的那些热图值进行比较,以检测干扰项;
如果没有检测到干扰项,则将通过使用GNet的热图预测出的最佳目标位置确定当前帧中的最终目标位置,否则,将通过使用SNet的特定热图确定出的目标定位来预测最终目标位置。
25.根据权利要求18所述的系统,其中所述sel-CNN由随机失活层紧接着卷积层组成,而没有任何非线性变换。
26.根据权利要求18所述的系统,其中所述GNet和SNet中的每个包括第一卷积层和第二卷积层,所述第二卷积层非线性地连接到所述第一卷积层,
其中所述第一卷积层具有尺寸较大的卷积核并且所述第二卷积层具有尺寸相对小的核。
27.根据权利要求18到26中任一项所述的系统,其还包括:
更新部件,其用于使用先前的跟踪位置以在线方式更新所述热图预测单元,以适应目标外观变化。
CN201580082259.8A 2015-07-30 2015-07-30 用于对象跟踪的系统和方法 Active CN108027972B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2015/085528 WO2017015947A1 (en) 2015-07-30 2015-07-30 A system and a method for object tracking

Publications (2)

Publication Number Publication Date
CN108027972A true CN108027972A (zh) 2018-05-11
CN108027972B CN108027972B (zh) 2022-03-15

Family

ID=57884035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580082259.8A Active CN108027972B (zh) 2015-07-30 2015-07-30 用于对象跟踪的系统和方法

Country Status (3)

Country Link
US (1) US10558891B2 (zh)
CN (1) CN108027972B (zh)
WO (1) WO2017015947A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458864A (zh) * 2019-07-02 2019-11-15 南京邮电大学 基于整合语义知识和实例特征的目标跟踪方法与目标跟踪器
CN110765795A (zh) * 2019-09-24 2020-02-07 北京迈格威科技有限公司 二维码识别方法、装置及电子设备
CN111666962A (zh) * 2019-03-07 2020-09-15 京东数字科技控股有限公司 序列数据的目标定位方法和装置
CN112348822A (zh) * 2019-08-08 2021-02-09 佳能株式会社 图像处理设备和图像处理方法

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10769453B2 (en) * 2017-05-16 2020-09-08 Samsung Electronics Co., Ltd. Electronic device and method of controlling operation of vehicle
WO2017212459A1 (en) 2016-06-09 2017-12-14 Sentient Technologies (Barbados) Limited Content embedding using deep metric learning algorithms
US10255522B2 (en) * 2016-06-17 2019-04-09 Facebook, Inc. Generating object proposals using deep-learning models
CN106156781B (zh) * 2016-07-12 2019-09-10 北京航空航天大学 排序卷积神经网络构建方法及其图像处理方法与装置
CN107679529B (zh) * 2016-08-01 2019-12-24 杭州海康威视数字技术股份有限公司 一种物流包裹图片处理方法、装置及系统
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
US10664722B1 (en) * 2016-10-05 2020-05-26 Digimarc Corporation Image processing arrangements
US10296794B2 (en) * 2016-12-20 2019-05-21 Jayant Rtti On-demand artificial intelligence and roadway stewardship system
US10861184B1 (en) 2017-01-19 2020-12-08 X Development Llc Object pose neural network system
US20180211403A1 (en) * 2017-01-20 2018-07-26 Ford Global Technologies, Llc Recurrent Deep Convolutional Neural Network For Object Detection
CN108229491B (zh) * 2017-02-28 2021-04-13 北京市商汤科技开发有限公司 从图片中检测物体关系的方法、装置和设备
US10147019B2 (en) * 2017-03-20 2018-12-04 Sap Se Small object detection
CN107038221B (zh) * 2017-03-22 2020-11-17 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
US11037330B2 (en) * 2017-04-08 2021-06-15 Intel Corporation Low rank matrix compression
WO2018212538A1 (en) * 2017-05-16 2018-11-22 Samsung Electronics Co., Ltd. Electronic device and method of detecting driving event of vehicle
CN107679455A (zh) * 2017-08-29 2018-02-09 平安科技(深圳)有限公司 目标跟踪装置、方法及计算机可读存储介质
US10755142B2 (en) * 2017-09-05 2020-08-25 Cognizant Technology Solutions U.S. Corporation Automated and unsupervised generation of real-world training data
US10755144B2 (en) 2017-09-05 2020-08-25 Cognizant Technology Solutions U.S. Corporation Automated and unsupervised generation of real-world training data
US10169679B1 (en) * 2017-10-13 2019-01-01 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same
CN108038491B (zh) * 2017-11-16 2020-12-11 深圳市华尊科技股份有限公司 一种图像分类方法及装置
CN107944412A (zh) * 2017-12-04 2018-04-20 国网山东省电力公司电力科学研究院 基于多层卷积神经网络的输电线路自动识别系统及方法
JP6892606B2 (ja) * 2018-03-02 2021-06-23 日本電信電話株式会社 位置特定装置、位置特定方法及びコンピュータプログラム
US10762662B2 (en) * 2018-03-14 2020-09-01 Tata Consultancy Services Limited Context based position estimation of target of interest in videos
CN108470179B (zh) * 2018-03-29 2022-04-15 百度在线网络技术(北京)有限公司 用于检测对象的方法和装置
CN108491816A (zh) * 2018-03-30 2018-09-04 百度在线网络技术(北京)有限公司 在视频中进行目标跟踪的方法和装置
KR102108953B1 (ko) * 2018-05-16 2020-05-11 한양대학교 산학협력단 센서 품질 저하에 강인한 딥러닝 기반 카메라, 라이더 센서 융합 인지 방법 및 시스템
KR102108951B1 (ko) * 2018-05-16 2020-05-11 한양대학교 산학협력단 영상의 전역 문맥 정보를 활용하는 딥러닝 기반 물체 검출 방법 및 시스템
US10769485B2 (en) * 2018-06-19 2020-09-08 Himax Technologies Limited Framebuffer-less system and method of convolutional neural network
DE102018211329A1 (de) * 2018-07-10 2020-01-16 Robert Bosch Gmbh Verfahren zur Wegstreckenmessung sowie System zur Wegstreckenmessung
CN109146886B (zh) * 2018-08-19 2022-02-11 沈阳农业大学 一种基于深度密度的rgbd图像语义分割优化方法
US11003766B2 (en) * 2018-08-20 2021-05-11 Microsoft Technology Licensing, Llc Enhancing cybersecurity and operational monitoring with alert confidence assignments
US11238612B2 (en) * 2018-08-28 2022-02-01 Beijing Jingdong Shangke Information Technology Co., Ltd. Device and method of tracking poses of multiple objects based on single-object pose estimator
JP7192109B2 (ja) * 2018-10-12 2022-12-19 ノキア テクノロジーズ オサケユイチア コンテキスト埋め込みおよび領域ベースの物体検出のための方法および装置
US10769744B2 (en) * 2018-10-31 2020-09-08 Kabushiki Kaisha Toshiba Computer vision system and method
CN109376681B (zh) * 2018-11-06 2021-09-03 广东工业大学 一种多人姿态估计方法及系统
CN111488475A (zh) * 2019-01-29 2020-08-04 北京三星通信技术研究有限公司 图像检索方法、装置、电子设备及计算机可读存储介质
CN111524161B (zh) * 2019-02-01 2023-05-05 杭州海康威视数字技术股份有限公司 提取轨迹的方法和装置
CN109815931B (zh) * 2019-02-01 2024-02-23 广东工业大学 一种视频物体识别的方法、装置、设备以及存储介质
CN111581414B (zh) * 2019-02-18 2024-01-16 北京京东尚科信息技术有限公司 服饰识别、分类及检索的方法、装置、设备及存储介质
EP3933764A4 (en) * 2019-02-28 2022-04-27 FUJIFILM Corporation AREA DETERMINATION DEVICE, METHOD, PROGRAM, LEARNING DEVICE, METHOD, PROGRAM AND IDENTIFICATION DEVICE
CN109978072A (zh) * 2019-04-03 2019-07-05 青岛伴星智能科技有限公司 一种基于深度学习的字符比对方法和比对系统
EP3942462B1 (en) * 2019-04-23 2024-03-13 L'oreal Convolution neural network based landmark tracker
US11417096B2 (en) * 2019-05-21 2022-08-16 Vimeo.Com, Inc. Video format classification and metadata injection using machine learning
CN110555870B (zh) * 2019-09-09 2021-07-27 北京理工大学 基于神经网络的dcf跟踪置信度评价与分类器更新方法
JP2021071794A (ja) * 2019-10-29 2021-05-06 キヤノン株式会社 主被写体判定装置、撮像装置、主被写体判定方法、及びプログラム
CN111461182B (zh) * 2020-03-18 2023-04-18 北京小米松果电子有限公司 图像处理方法、图像处理装置及存储介质
US11388423B2 (en) * 2020-03-23 2022-07-12 Alibaba Group Holding Limited Region-of-interest based video encoding
US11410263B1 (en) 2020-05-25 2022-08-09 Digimarc Corporation Methods and arrangements for enhanced digital signal detection
US11551445B2 (en) 2020-08-14 2023-01-10 Sony Corporation Heatmap visualization of object detections
CN112131944B (zh) * 2020-08-20 2023-10-17 深圳大学 一种视频行为识别方法及系统
CN112207821B (zh) * 2020-09-21 2021-10-01 大连遨游智能科技有限公司 视觉机器人的目标搜寻方法及机器人
US11532147B2 (en) * 2020-09-25 2022-12-20 Microsoft Technology Licensing, Llc Diagnostic tool for deep learning similarity models
US11462040B2 (en) * 2020-10-28 2022-10-04 Adobe Inc. Distractor classifier
CN112816474B (zh) * 2021-01-07 2022-02-01 武汉大学 一种基于目标感知的深度孪生网络高光谱视频目标跟踪方法
CN113112523B (zh) * 2021-03-26 2024-04-26 常州工学院 基于无锚点孪生网络的目标跟踪方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101650728A (zh) * 2009-08-26 2010-02-17 北京邮电大学 视频高层特征检索系统及其实现
US20100110183A1 (en) * 2008-10-31 2010-05-06 International Business Machines Corporation Automatically calibrating regions of interest for video surveillance
US20140201126A1 (en) * 2012-09-15 2014-07-17 Lotfi A. Zadeh Methods and Systems for Applications for Z-numbers
CN104680508A (zh) * 2013-11-29 2015-06-03 华为技术有限公司 卷积神经网络和基于卷积神经网络的目标物体检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103260081B (zh) * 2012-02-21 2016-08-10 中国移动通信集团公司 一种视频图像缩放处理方法及装置
US10346726B2 (en) * 2014-12-15 2019-07-09 Samsung Electronics Co., Ltd. Image recognition method and apparatus, image verification method and apparatus, learning method and apparatus to recognize image, and learning method and apparatus to verify image
EP3234867A4 (en) * 2014-12-17 2018-08-15 Nokia Technologies Oy Object detection with neural network

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100110183A1 (en) * 2008-10-31 2010-05-06 International Business Machines Corporation Automatically calibrating regions of interest for video surveillance
CN101650728A (zh) * 2009-08-26 2010-02-17 北京邮电大学 视频高层特征检索系统及其实现
US20140201126A1 (en) * 2012-09-15 2014-07-17 Lotfi A. Zadeh Methods and Systems for Applications for Z-numbers
CN104680508A (zh) * 2013-11-29 2015-06-03 华为技术有限公司 卷积神经网络和基于卷积神经网络的目标物体检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HANXI LI ET AL.: "Robust Online Visual Tracking with a Single Convolutional Neural Network", 《ASIAN CONFERENCE ON COMPUTER VISION》 *
张军: "基于视频的运动人体异常行为分析识别研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666962A (zh) * 2019-03-07 2020-09-15 京东数字科技控股有限公司 序列数据的目标定位方法和装置
CN110458864A (zh) * 2019-07-02 2019-11-15 南京邮电大学 基于整合语义知识和实例特征的目标跟踪方法与目标跟踪器
CN112348822A (zh) * 2019-08-08 2021-02-09 佳能株式会社 图像处理设备和图像处理方法
CN110765795A (zh) * 2019-09-24 2020-02-07 北京迈格威科技有限公司 二维码识别方法、装置及电子设备
CN110765795B (zh) * 2019-09-24 2023-12-12 北京迈格威科技有限公司 二维码识别方法、装置及电子设备

Also Published As

Publication number Publication date
US20180165548A1 (en) 2018-06-14
CN108027972B (zh) 2022-03-15
US10558891B2 (en) 2020-02-11
WO2017015947A1 (en) 2017-02-02

Similar Documents

Publication Publication Date Title
CN108027972A (zh) 用于对象跟踪的系统和方法
CN111259850B (zh) 一种融合随机批掩膜和多尺度表征学习的行人重识别方法
Fiaz et al. Handcrafted and deep trackers: Recent visual object tracking approaches and trends
Voeikov et al. TTNet: Real-time temporal and spatial video analysis of table tennis
Chen et al. Convolutional regression for visual tracking
CN105022982B (zh) 手部运动识别方法和装置
CN108960086A (zh) 基于生成对抗网络正样本增强的多姿态人体目标跟踪方法
CN108470354A (zh) 视频目标跟踪方法、装置和实现装置
CN107633226B (zh) 一种人体动作跟踪特征处理方法
CN112183153A (zh) 一种基于视频分析的对象行为检测方法及装置
Li et al. Subpixel-pixel-superpixel-based multiview active learning for hyperspectral images classification
CN101283376A (zh) 使用轨迹分段分析的双向跟踪
Hu et al. Transrac: Encoding multi-scale temporal correlation with transformers for repetitive action counting
CN110298248A (zh) 一种基于语义分割的多目标跟踪方法及系统
CN109344777A (zh) 基于elm的高光谱遥感影像土地利用覆盖的优化分类方法
CN104809455B (zh) 基于可判别性二叉树投票的动作识别方法
Jiang et al. Ocean observation data prediction for Argo data quality control using deep bidirectional LSTM network
CN112991394B (zh) 基于三次样条插值和马尔科夫链的kcf目标跟踪方法
Rout et al. Rotation adaptive visual object tracking with motion consistency
Heidler et al. A deep active contour model for delineating glacier calving fronts
Jiang et al. Visual object tracking in RGB-D data via genetic feature learning
CN110097579A (zh) 基于路面纹理上下文信息的多尺度车辆跟踪方法及装置
CN114707604A (zh) 一种基于时空注意力机制的孪生网络跟踪系统及方法
CN114140524A (zh) 一种多尺度特征融合的闭环检测系统及方法
Tian et al. A collaborative visual tracking architecture for correlation filter and convolutional neural network learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant