CN109492530B - 基于深度多尺度时空特征的健壮性视觉物体跟踪方法 - Google Patents

基于深度多尺度时空特征的健壮性视觉物体跟踪方法 Download PDF

Info

Publication number
CN109492530B
CN109492530B CN201811176417.8A CN201811176417A CN109492530B CN 109492530 B CN109492530 B CN 109492530B CN 201811176417 A CN201811176417 A CN 201811176417A CN 109492530 B CN109492530 B CN 109492530B
Authority
CN
China
Prior art keywords
target object
residual error
representing
correlation filter
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811176417.8A
Other languages
English (en)
Other versions
CN109492530A (zh
Inventor
朱征宇
刘冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201811176417.8A priority Critical patent/CN109492530B/zh
Publication of CN109492530A publication Critical patent/CN109492530A/zh
Application granted granted Critical
Publication of CN109492530B publication Critical patent/CN109492530B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Abstract

本发明公开了一种基于深度多尺度时空特征的健壮性视觉物体跟踪算法,包括以下步骤:S1:构建改进的深度残差网络,用于表征目标物体的外观特征;S2:通过对残差单元参数的处理,得到目标物体的特征表示;S3:目标物体的多尺度特征和改进的深度残差网络相结合,用于健壮地识别目标物体的外观变化;S4:目标物体的时空上下文特征和改进的深度残差网络相结合,用于计算目标物体的运动轨迹;S5:核相关滤波器和改进的深度残差网络相结合,用于计算目标物体的位置。本发明提高了算法的运行速度及计算效率,健壮地识别目标物体的外观变化,从而跟踪计算目标物体的最新位置。

Description

基于深度多尺度时空特征的健壮性视觉物体跟踪方法
技术领域
本发明涉及计算机图像处理技术领域,特别涉及基于深度多尺度时空特征的健壮性视觉物体跟踪方法。
背景技术
物体跟踪是计算机视觉及其相关研究领域中的一个重要而具有挑战性的任务,同时也是各类机器视觉研究领域中一个开放性的研究问题,在自动监控、人机交互、车辆导航、生物医学、虚拟现实、机器人、安全监控、等领域有着广泛的应用。
物体跟踪是在一个视频场景中,从目标物体第一次在场景中出现,直到最终离开视频场景,一直对一个或一组物体进行检测、识别、定位及跟踪。跟踪的物体可以是视频场境中能够检测到的任意感兴趣的物体。给出一系列的视频帧的图像去跟踪一个或一组目标物体,每一帧就是一个连续视频序列中的一张子图像。目标物体在每一帧中的位置或者形状都可能会发生变化,因此,在自然场景的视频序列中,对目标物体进行持续跟踪是一个非常复杂的过程。
物体跟踪方法的目的就是在视频序列的初始帧的图像中指定目标物体的初始位置及状态等信息,并用一个目标框选定需要跟踪的目标物体,之后,在后续连续的视频序列中,通过各种视觉物体跟踪方法估计并计算目标物体的位置及状态等相关信息,自动确定目标物体的边框。
一般来说,在一个运动场景中,目标物体和其周围的背景都在不断地发生变化,进行稳定而精确地定位跟踪是很难实现的。精确而实时的物体跟踪将会显著提升物体识别、行为分析和高层事件理解等任务的性能。虽然在过去的几十年里,视觉物体跟踪已经受到研究人员的广泛关注,并在过去的几年里,取得了很大的进步,部分跟踪方法已经能够处理突然的外观变化、物体离开摄像机视野以及目标飘移等关键问题,但是,在复杂的视频场景中,能够获得健壮而可靠地跟踪结果,仍然是视觉物体跟踪研究领域中的一个极具挑战性的难题。物体跟踪方法的智能处理需要快速、可靠并健壮地对视频图像进行目标的检测、分类、跟踪以及相关的活动分析,研究人员主要致力于开发智能跟踪方法并实时地进行运动物体的跟踪定位。
不同的视觉物体跟踪方法,重点解决的问题也不同,因此所使用的策略也是不同的。起先,由于粒子滤波器(也称为蒙特卡罗序列方法)[A Tutorial on Particle Filtersfor On-line Nonlinear/Non-Gaussian Bayesian Tracking]在计算机视觉中取得了很大的成功,视觉物体跟踪在状态空间常常建模为一个贝叶斯推理问题。与规则的基于穷举搜索策略的方法相比,粒子滤波器的主要优点是:跟踪过程中,减少了样本块的数量。粒子滤波器的另一个优点是:样本可以保持一个常量不变,独立于跟踪目标物体的大小,并不是简单地用一个因子扩展目标周围的搜索区域。尽管粒子滤波器取得了很大的成功,但是粒子滤波器常常遇到由于次优的样本技术产生的样本贫乏问题。因此,接着,就有研究人员开始将各种更先进的蒙特卡洛采样方法应用于视觉物体跟踪中,这样可以显著提升视觉物体跟踪方法的性能。
除此之外,一些跟踪方法利用相关滤波器对目标物体和周围的背景进行区分。相关滤波器可以设计为在跟踪过程中在每个感兴趣物体产生相关峰值,而在背景区域展现出低响应。准确地对目标物体进行定位的性能使得相关滤波器非常适合用于目标跟踪任务。由于相关滤波器只需要快速傅立叶变换(FFT)和一些矩阵运算,因此相关滤波器的运算速度相对较快,这就使得相关滤波器非常适合于实时的应用。但是,降低模型的漂移同时获得高健壮性和尺度自适应的估计仍然是一个开放的问题。
发明内容
针对现有技术不能有效跟踪目标物体外观大小变化的问题,本发明提供一种基于深度多尺度时空特征的健壮性视觉物体跟踪方法,通过将目标物体的多尺度特征、时空上下文特征及核相关滤波器与改进的深度残差网络相结合,用于识别目标物体外观的变化,以跟踪定位目标物体的最新位置。
为了实现上述目的,本发明提供以下技术方案:
本发明提供一种基于深度多尺度时空特征的健壮性视觉物体跟踪方法,包括以下步骤:
S1:构建改进的深度残差网络,用于表征目标物体的外观特征;
S2:通过对残差单元参数的处理,得到目标物体的特征表示;
S3:目标物体的多尺度特征和改进的深度残差网络相结合,用于健壮地识别目标物体的外观变化;
S4:目标物体的时空上下文特征和改进的深度残差网络相结合,用于计算目标物体的运动轨迹;
S5:核相关滤波器和改进的深度残差网络相结合,用于计算目标物体的位置。
优选的,所述S1中,所述改进的深度残差网络包括:
卷积层conv1输出端连接第二个残差单元输入端,第二个残差单元输出端连接第三个残差单元输入端,第三个残差单元输出端连接第四个残差单元输入端,第二个残差单元、第三个残差单元及第四个残差单元的输出端分别连接卷积层conv2、conv3及conv4的输入端,卷积层conv4的输出端连接转置层的输入端,用于使残差单元输出的图像特征维度相同。
优选的,所述S1中,所述改进的深度残差网络还包括:
卷积层conv2及conv3的输出端连接第一跳跃连接的输入端,转置层及第一跳跃连接的输出端连接第二跳跃连接的输入端,第二跳跃连接的输出端输出图像特征,用于将残差单元的多尺度特征充分联合,以表征目标物体的外观特征。
优选的,所述S2中,残差单元参数处理函数表达式为:
Figure GDA0003307382440000041
公式(1)中,xH、xh、xi分别表示第H个、第h个、第i个残差单元的输入,h≤i≤H,
Figure GDA0003307382440000042
表示非线性的残差函数,Wi表示第i个残差单元的权重矩阵。
优选的,所述S3中,计算目标物体多尺度特征的表达式为:
Figure GDA0003307382440000043
公式(2)中,
Figure GDA0003307382440000044
表示通道j的归一化特征图,xj表示通道j的特征图,d表示每个特征图张量的通道数。
优选的,所述S4中,所述时空上下文特征包括时间上下文特征和空间上下文特征:
所述时间上下文特征,用于获得目标物体的时间信息,以便可靠地识别目标物体的运动轨迹;
所述空间上下文特征,用于提供与目标物体同时出现的背景信息,以计算目标物体的运动轨迹。
优选的,所述S5包括以下步骤:
S5-1:通过改进的深度残差网络生成目标物体的图像特征块;
S5-2:构建核相关滤波器;
S5-3:将图像特征块和核相关滤波器与改进的深度残差网络相结合,以计算目标物体的位置。
优选的,所述核相关滤波器的表达式为:
Figure GDA0003307382440000051
公式(3)中,P,Y,Q分别是p,y,q傅里叶变换形式,p表示图像特征块,y表示高斯函数,q表示核相关滤波器;
Figure GDA0003307382440000052
表示在第t帧的第j个通道上创建的核相关滤波器;
Figure GDA0003307382440000053
表示第t帧的响应输出;
Figure GDA0003307382440000054
表示第t帧第j个通道的图像特征块;
Figure GDA0003307382440000055
表示第t帧第c个通道的图像特征块,
Figure GDA0003307382440000056
表示
Figure GDA0003307382440000057
的复共轭,λ是正则化参数,
Figure GDA0003307382440000058
表示第t帧核相关滤波器的分子,Bt表示第t帧核相关滤波器的分母。
优选的,所述目标物体位置的计算公式为:
Figure GDA0003307382440000059
公式(4)中,yt表示核相关滤波器的最大相关分值,argmax表示最大值的集合,
Figure GDA00033073824400000510
表示逆傅立叶运算,d表示每个特征图张量的通道数,j表示特征图的通道,
Figure GDA00033073824400000511
表示第t-1帧核相关滤波器的分子的复共轭,
Figure GDA00033073824400000512
表示第t帧第j通道的图像特征块,Bt-1表示第t-1帧核相关滤波器的分母,λ是正则化参数。
综上所述,由于采用了上述技术方案,与现有技术相比,本发明至少具有以下有益效果:
1.本发明构建改进的深度残差网络,用于跟踪目标物体外观及位置变化,提高方法的计算速度。
2.本发明通过将目标物体的时空上下文特征及核相关滤波器与改进的深度残差网络相结合,以提高处理目标物体尺度变化的能力及健壮地解决自适应地估计目标物体大小变化的问题。
3.本发明提高了视觉物体跟踪过程的精确度和健壮性。
附图说明:
图1为根据本发明示例性实施例的一种视觉物体跟踪方法流程示意图。
图2为根据本发明示例性实施例的一种改进的深度残差网络结构图。
具体实施方式
下面结合实施例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
图1为本发明示例性实施例的一种基于深度多尺度时空特征的健壮性视觉物体跟踪方法,具体包括以下步骤:
S1:构建改进的深度残差网络,用于表征目标物体的外观特征。
本实施例中,本发明在经典的深度残差网络(DRN,Deep Residual Network)进行改进,用于表征目标物体的外观特征。
图2为本发明的一种改进的深度残差网络结构示例图。本发明在经典的深度残差网络上去除了第五个残差单元、平均池化层和全连接层,使用多个残差层的多尺度特征捕获目标物体外观特征。本发明在第二个残差单元(res2)、第三个残差单元(res3)、第四个残差单元(res4)的输出端分别增加了卷积层conv2、conv3、conv4,并在卷积层conv4的输出端增加转置层(ConvTranspose),用于保证每个残差单元输出的图像特征维度相同;即图像image输入卷积层conv1,卷积层conv1输出端连接第二个残差单元输入端,第二个残差单元输出端连接第三个残差单元输入端,第三个残差单元输出端连接第四个残差单元输入端,第二个残差单元、第三个残差单元及第四个残差单元的输出端分别连接卷积层conv2、conv3及conv4的输入端,卷积层conv4的输出端连接转置层的输入端;本发明在卷积层conv2及conv3的输出端添加第一跳跃连接,并在转置层及第一跳跃连接的输出端添加第二跳跃连接,即卷积层conv2及conv3的输出端连接第一跳跃连接的输入端,转置层及第一跳跃连接的输出端连接第二跳跃连接的输入端,用于将残差单元的多尺度特征充分联合,则第二跳跃连接的输出端输出图像特征以表征目标物体的外观特征。
本发明中图像(image)的原始输入参数x的递归函数gh(x)的表达式为以下公式:
gh(x)≡Wh·f(B(W'h·f(B(x)))) (1)
公式(1)中,Wh表示第h个残差单元的权重矩阵,W'h表示是Wh的转置矩阵,f表示修整线性单元,B表示批正则化函数,·表示卷积运算。
本发明中每个残差单元之间输入参数和输出参数可等价定义为:
Figure GDA0003307382440000071
公式(2)中,xh
Figure GDA0003307382440000072
分别表示第h个残差单元的输入和输出,f表示修整线性单元,m(xh)表示xh的等价映射,
Figure GDA0003307382440000076
表示非线性的残差函数,Wh={Wh,e|1≤e≤E}表示第h个残差单元的权重矩阵,e表示第h个残差单元的层数,E∈{2,3}表示残差单元的最大层数。
S2:通过对残差单元参数的处理,得到目标物体的特征表示。
本发明使用改进的深度残差网络中的残差单元的多尺度特征提取目标物体的特征进行融合处理,得到目标物体的特征,以表示目标物体的外观变化。
本实施例中,本发明所述修整线性单元f为等价映射,则不同残差单元之间输入参数的关系式为以下公式:
Figure GDA0003307382440000073
公式(3)中,xH、xh、xi分别表示第H个、第h个、第i个残差单元的输入,h≤i≤H,
Figure GDA0003307382440000077
表示非线性的残差函数,Wi表示第i个残差单元的权重。
本发明根据链式规则产生的反向传播,获取损失函数
Figure GDA0003307382440000074
Figure GDA0003307382440000075
公式(4)中,xH、xh、xi分别表示第H个、第h个、第i个残差单元的输入,h≤i≤H,
Figure GDA0003307382440000081
表示非线性的残差函数,Wi表示第i个残差单元的权重矩阵,
Figure GDA0003307382440000082
表示求偏导。
S3:目标物体的多尺度特征和改进的深度残差网络相结合。
本发明将改进的深度残差网络和目标物体的多尺度特征相结合,用于降低本发明的计算成本,提高方法的计算效率,以健壮地识别目标物体的外观变化。
本发明在改进的深度残差网络中输入目标物体的基础上,同时输入目标物体周围67个不同大小的多尺度模板(尺度步长为:1.05,尺度因子为:{1.05-33,1.05-32,1.05-31,...,1.0531,1.0532,1.0533}),上述67个多尺度模板被聚集到一起,以便可以对目标物体外观的变化进行更加健壮的处理。
本发明将目标物体的特征图x输入改进后的深度残差网络,则定义对于每个通道j,输入特征图x的归一化特征图为
Figure GDA0003307382440000083
其尺度因子γ表示为:
Figure GDA0003307382440000084
公式(5)中,kj表示通道j的缩放特征值,γj表示通道j的尺度因子,
Figure GDA0003307382440000085
表示通道j的归一化特征图。
本发明对每个特征图进行独立的正则化处理,用于精确地估计目标物体的多尺度特征,从而增强改进后的深度残差网络的识别能力:
Figure GDA0003307382440000086
公式(6)中,
Figure GDA0003307382440000087
表示通道j的归一化特征图,xj表示通道j的特征图,d表示每个特征图张量的通道数。
S4:目标物体的时空上下文特征和改进的深度残差网络相结合。
一系列目标物体的静态图像连续变化(每秒超过24帧)的画面构成视频,因此目标物体的外观是逐渐发生变化的,即第一静态图像中目标物体的姿态、大小、空间、时间和形状等方面的特征将影响并约束第二静态图像中目标物体的外观变化。
本发明将目标物体的时空上下文特征与改进的深度残差网络相结合,用于获取目标物体动态的时间上下文特征和空间上下文特征,以精确地估计目标物体的运动轨迹。目标物体的的时间上下文特征在跟踪过程中获得目标物体的时间信息,以便可靠地识别目标物体的运动轨迹;目标物体的空间上下文特征可提供与目标物体同时出现的背景信息等附加线索,且背景信息在跟踪过程中是较为固定的,因此空间上下文特征用于精确地估计物体的运动轨迹。
本发明在第一静态图像中基于目标物体和其周围背景建立第一空间上下文特征模型,并进行不断的学习;本发明将学习完成的第一空间上下文特征模型用于在第二静态图像中更新,从而建立第二空间上下文特征模型。
Figure GDA0003307382440000091
公式(7)中,
Figure GDA0003307382440000092
分别表示第h个、第h+1个残差单元的空间上下文特征,
Figure GDA0003307382440000093
是第h个残差单元的时间上下文特征,
Figure GDA0003307382440000094
是在空间上下文特征中第h个残差单元的权重,f表示修整线性单元,
Figure GDA0003307382440000095
表示非线性的残差函数。
在反向传播中损失函数
Figure GDA0003307382440000096
的空间上下文特征的梯度是由链式规则产生的:
Figure GDA0003307382440000097
在反向传播中损失函数
Figure GDA00033073824400000911
的时间上下文特征的梯度是由链式规则产生的:
Figure GDA0003307382440000098
公式(9)中,
Figure GDA0003307382440000099
表示时间上下文特征的第h个残差单元梯度,
Figure GDA00033073824400000910
表示空间上下文特征的h个残差单元的累加梯度,
Figure GDA0003307382440000101
表示第h+1个残差单元的时间上下文特征,
Figure GDA0003307382440000103
表示求偏导。
本发明将目标物体的空间上下文特征和时间上下文特征之间的融合可以将梯度从空间上下文特征反向传播到时间上下文特征。
S5:核相关滤波器和改进的深度残差网络相结合。
本发明将核相关滤波器和改进的深度残差网络相结合,用于提高跟踪方法的计算性能,以跟踪目标物体的最新位置。
S5-1:通过改进的深度残差网络生成目标物体的图像特征块。
本实施例中,本发明将目标物体的参数输入改进的深度残差网络,从而生成目标物体相对应的图像特征块p:p∈RM×N,R表示图像特征块的二维空间向量矩阵,M和N分别表示图像特征块的宽度和高度。
本发明中图像特征块p的每个循环位移v的大小是相同的,循环位移的内积为p*δu,δu是平移狄拉克函数,且内积要尽可能地接近高斯函数y。
S5-2:构建核相关滤波器。
本发明需构建核相关滤波器q={q1,q2,...qd},d表示每个特征图张量的通道数。每个通道都需在图像特征块p上进行训练,以便得到每个通道的最优滤波器。每个训练样本都有一个高斯函数y进行标识,表示最大相关值在目标物体中心位置处的期望卷积输出。
高斯函数的表达式为以下公式:
Figure GDA0003307382440000102
公式(10)中,m和M表示图像特征块的宽度,n和N表示图像特征块的高度,(m,n)∈{0,1,...,M-1}×{0,1,…,N-1},σ是卷积核的带宽。
本发明采用的核相关滤波器的基本公式为:
Figure GDA00033073824400001111
公式(11)中,
Figure GDA0003307382440000111
表示图像特征块的域,M和N分别表示图像特征块的宽度和高度;u表示图像特征块的域;p*δu表示循环位移的内积,*表示以一种传统的方式通过计算内积将循环相关推广到多通道信号;q表示核相关滤波器;y表示高斯函数;★表示循环互相关。
本发明通过对核相关滤波器进行训练,求解最小化值,得到有效的核相关滤波器。
Figure GDA0003307382440000112
公式(12)中,ε表示最小化值,argminq表示有效核相关滤波器q的集合,m和n分别表示图像特征块的宽度和高度,d表示每个特征图张量的通道数,qj表示第j通道上的滤波器,pj表示第j通道的图像特征块,y表示高斯函数,★表示循环互相关,λ是正则化参数。
本发明通过在傅里叶域中求取最小值ε以创建有效的快速跟踪滤波器,用于跟踪目标物体的运动轨迹。
Figure GDA0003307382440000113
公式(13)中,P,Y,Q分别是p,y,q傅里叶变换形式;
Figure GDA0003307382440000114
表示在第t帧的第j个通道上创建的核相关滤波器;
Figure GDA0003307382440000115
表示第t帧的响应输出;
Figure GDA0003307382440000116
表示第t帧第j个通道的图像特征块;c和d表示每个特征图张量的通道数且c≤d,c和d均为正整数;
Figure GDA0003307382440000117
表示第t帧第c个通道的图像特征块,
Figure GDA0003307382440000118
表示
Figure GDA0003307382440000119
的复共轭,λ是正则化参数,
Figure GDA00033073824400001110
表示第t帧核相关滤波器的分子,Bt表示第t帧核相关滤波器的分母。
S5-3:将图像特征块和核相关滤波器相结合与改进的深度残差网络,以计算目标物体的位置。
本发明将图像特征块和核相关滤波器相结合,用于预测目标物体的位置。
本发明在目标物体跟踪方法过程中,在目标物体第一帧中提取一个与图像特征块p相同大小的新图像特征块z,从而在傅立叶域中计算滤波器的最大相关分值yt,用于定位目标物体的最新位置。
Figure GDA0003307382440000121
公式(14)中,argmax表示最大值的集合,
Figure GDA0003307382440000122
表示逆傅立叶运算,d表示每个特征图张量的通道数,j表示特征图的通道,
Figure GDA0003307382440000123
表示第t-1帧核相关滤波器的分子的复共轭,
Figure GDA0003307382440000124
表示第t帧第j通道的图像特征块,Bt-1表示第t-1帧核相关滤波器的分母,λ是正则化参数。
其中,
Figure GDA0003307382440000125
Figure GDA0003307382440000126
公式(15)中,
Figure GDA0003307382440000127
Yt分别是
Figure GDA0003307382440000128
yt的傅立叶变换形式,
Figure GDA0003307382440000129
分别表示第t帧、第t-1帧核相关滤波器的分子,
Figure GDA00033073824400001210
表示Yt复共轭,
Figure GDA00033073824400001211
表示第t帧第j个通道的图像特征块,η=0.01表示学习率。
公式(16)中,P是p的傅里叶变换形式,Bt表示第t帧核相关滤波器的分母,c和d表示每个特征图张量的通道数且c≤d,c和d均为正整数,
Figure GDA00033073824400001212
表示第t帧第c个通道的图像特征块,
Figure GDA00033073824400001213
表示
Figure GDA00033073824400001214
的复共轭,η=0.01表示学习率。
本实施例中,目标物体在第t帧的状态可表示为st=(βtt),βt表示目标物体第t帧的位置,αt表示目标物体第t帧的尺度,则目标物体从第一帧到第t帧的状态集合为s1:t={s1,...,st}。目标物体的初始位置β1在第一帧给定,本发明的目标是根据目标物体第t帧的位置βt估计第t+1帧的位置βt+1,即本发明通过在第t帧中计算的目标位置为中心提取一个目标物体窗口,来获得第t+1帧中的目标物体的特征表示,该区域中目标物体的大小是127×127像素。
表1.基于深度多尺度时空特征的健壮性视觉物体跟踪方法
Figure GDA0003307382440000131

Claims (7)

1.基于深度多尺度时空特征的健壮性视觉物体跟踪方法,其特征在于,包括以下步骤:
S1:构建改进的深度残差网络,用于表征目标物体的外观特征;
卷积层conv1输出端连接第二个残差单元输入端,第二个残差单元输出端连接第三个残差单元输入端,第三个残差单元输出端连接第四个残差单元输入端,第二个残差单元、第三个残差单元及第四个残差单元的输出端分别连接卷积层conv2、conv3及conv4的输入端,卷积层conv4的输出端连接转置层的输入端,用于使残差单元输出的图像特征维度相同;
卷积层conv2及conv3的输出端连接第一跳跃连接的输入端,转置层及第一跳跃连接的输出端连接第二跳跃连接的输入端,第二跳跃连接的输出端输出图像特征,用于将残差单元的多尺度特征充分联合,以表征目标物体的外观特征;
S2:通过对残差单元参数的处理,得到目标物体的特征表示;
S3:目标物体的多尺度特征和改进的深度残差网络相结合,用于健壮地识别目标物体的外观变化;
S4:目标物体的时空上下文特征和改进的深度残差网络相结合,用于计算目标物体的运动轨迹;
S5:核相关滤波器和改进的深度残差网络相结合,用于计算目标物体的位置。
2.如权利要求1所述的基于深度多尺度时空特征的健壮性视觉物体跟踪方法,其特征在于,所述S2中,残差单元参数处理函数表达式为:
Figure FDA0003307382430000011
公式(1)中,xH、xh、xi分别表示第H个、第h个、第i个残差单元的输入,h≤i≤H,
Figure FDA0003307382430000012
表示非线性的残差函数,Wi表示第i个残差单元的权重矩阵。
3.如权利要求1所述的基于深度多尺度时空特征的健壮性视觉物体跟踪方法,其特征在于,所述S3中,计算目标物体多尺度特征的表达式为:
Figure FDA0003307382430000021
公式(2)中,
Figure FDA0003307382430000022
表示通道j的归一化特征图,xj表示通道j的特征图,d表示每个特征图张量的通道数。
4.如权利要求1所述的基于深度多尺度时空特征的健壮性视觉物体跟踪方法,其特征在于,所述S4中,所述时空上下文特征包括时间上下文特征和空间上下文特征;
所述时间上下文特征,用于获得目标物体的时间信息,以便可靠地识别目标物体的运动轨迹;
所述空间上下文特征,用于提供与目标物体同时出现的背景信息,以计算目标物体的运动轨迹。
5.如权利要求1所述的基于深度多尺度时空特征的健壮性视觉物体跟踪方法,其特征在于,所述S5包括以下步骤:
S5-1:通过改进的深度残差网络生成目标物体的图像特征块;
S5-2:构建核相关滤波器;
S5-3:将图像特征块和核相关滤波器与改进的深度残差网络相结合,以计算目标物体的位置。
6.如权利要求5所述的基于深度多尺度时空特征的健壮性视觉物体跟踪方法,其特征在于,所述核相关滤波器的表达式为:
Figure FDA0003307382430000023
公式(3)中,P,Y,Q分别是p,y,q傅里叶变换形式,p表示图像特征块,y表示高斯函数,q表示核相关滤波器;
Figure FDA0003307382430000024
表示在第t帧的第j个通道上创建的核相关滤波器;
Figure FDA0003307382430000025
表示第t帧的响应输出;
Figure FDA0003307382430000026
表示第t帧第j个通道的图像特征块;
Figure FDA0003307382430000027
表示第t帧第c个通道的图像特征块,
Figure FDA0003307382430000028
表示
Figure FDA0003307382430000029
的复共轭,λ是正则化参数,
Figure FDA0003307382430000031
表示第t帧核相关滤波器的分子,Bt表示第t帧核相关滤波器的分母;d表示每个特征图张量的通道数。
7.如权利要求5所述的基于深度多尺度时空特征的健壮性视觉物体跟踪方法,其特征在于,目标物体位置的计算公式为:
Figure FDA0003307382430000032
公式(4)中,yt表示核相关滤波器的最大相关分值,argmax表示最大值的集合,
Figure FDA0003307382430000033
表示逆傅立叶运算,d表示每个特征图张量的通道数,j表示特征图的通道,
Figure FDA0003307382430000034
表示第t-1帧核相关滤波器的分子的复共轭,
Figure FDA0003307382430000035
表示第t帧第j通道的图像特征块,Bt-1表示第t-1帧核相关滤波器的分母,λ是正则化参数。
CN201811176417.8A 2018-10-10 2018-10-10 基于深度多尺度时空特征的健壮性视觉物体跟踪方法 Active CN109492530B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811176417.8A CN109492530B (zh) 2018-10-10 2018-10-10 基于深度多尺度时空特征的健壮性视觉物体跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811176417.8A CN109492530B (zh) 2018-10-10 2018-10-10 基于深度多尺度时空特征的健壮性视觉物体跟踪方法

Publications (2)

Publication Number Publication Date
CN109492530A CN109492530A (zh) 2019-03-19
CN109492530B true CN109492530B (zh) 2022-03-04

Family

ID=65690235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811176417.8A Active CN109492530B (zh) 2018-10-10 2018-10-10 基于深度多尺度时空特征的健壮性视觉物体跟踪方法

Country Status (1)

Country Link
CN (1) CN109492530B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110738684A (zh) * 2019-09-12 2020-01-31 昆明理工大学 一种基于相关滤波融合卷积残差学习的目标跟踪方法
CN111223128A (zh) * 2020-01-17 2020-06-02 深圳大学 目标跟踪方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869178A (zh) * 2016-04-26 2016-08-17 昆明理工大学 一种基于多尺度组合特征凸优化的复杂目标动态场景无监督分割方法
CN107680119A (zh) * 2017-09-05 2018-02-09 燕山大学 一种基于时空上下文融合多特征及尺度滤波的跟踪算法
CN107844784A (zh) * 2017-12-08 2018-03-27 广东美的智能机器人有限公司 人脸识别方法、装置、计算机设备和可读存储介质
CN108090906A (zh) * 2018-01-30 2018-05-29 浙江大学 一种基于区域提名的宫颈图像处理方法及装置
CN108573499A (zh) * 2018-03-16 2018-09-25 东华大学 一种基于尺度自适应和遮挡检测的视觉目标跟踪方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10902243B2 (en) * 2016-10-25 2021-01-26 Deep North, Inc. Vision based target tracking that distinguishes facial feature targets

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869178A (zh) * 2016-04-26 2016-08-17 昆明理工大学 一种基于多尺度组合特征凸优化的复杂目标动态场景无监督分割方法
CN107680119A (zh) * 2017-09-05 2018-02-09 燕山大学 一种基于时空上下文融合多特征及尺度滤波的跟踪算法
CN107844784A (zh) * 2017-12-08 2018-03-27 广东美的智能机器人有限公司 人脸识别方法、装置、计算机设备和可读存储介质
CN108090906A (zh) * 2018-01-30 2018-05-29 浙江大学 一种基于区域提名的宫颈图像处理方法及装置
CN108573499A (zh) * 2018-03-16 2018-09-25 东华大学 一种基于尺度自适应和遮挡检测的视觉目标跟踪方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Convolutional neural networks based scale-adaptive kernelized correlation filter for robust visual object tracking;Bing Liu 等;《2017 International Conference on Security, Pattern Analysis and Cybernetics》;20171231;第423-428页 *
Residual Networks Behave Like Ensembles of Relatively Shallow Networks;Andreas Veit 等;《arXiv:1605.06431v2》;20161031;第1-9页 *
基于多特征-多表示融合的SAR图像目标识别;张新征 等;《雷达学报》;20171031;第6卷(第5期);第492-502页 *
基于深度残差网络的高光谱遥感数据霾监测;陆永帅 等;《光学学报》;20171130;第37卷(第11期);第1-11页 *
基于自适应特征选择的多尺度相关滤波跟踪;沈秋 等;《光学学报》;20170531;第37卷(第5期);第1-10页 *

Also Published As

Publication number Publication date
CN109492530A (zh) 2019-03-19

Similar Documents

Publication Publication Date Title
CN108665481B (zh) 多层深度特征融合的自适应抗遮挡红外目标跟踪方法
CN107369166B (zh) 一种基于多分辨率神经网络的目标跟踪方法及系统
Liu et al. Improved human action recognition approach based on two-stream convolutional neural network model
CN111311647B (zh) 一种基于全局-局部及卡尔曼滤波的目标跟踪方法及装置
Kim et al. Fast pedestrian detection in surveillance video based on soft target training of shallow random forest
CN111814719A (zh) 一种基于3d时空图卷积的骨架行为识别方法
CN105488812A (zh) 一种融合运动特征的时空显著性检测方法
CN107203745B (zh) 一种基于跨域学习的跨视角动作识别方法
CN107067410B (zh) 一种基于增广样本的流形正则化相关滤波目标跟踪方法
US11163989B2 (en) Action localization in images and videos using relational features
CN111639571B (zh) 基于轮廓卷积神经网络的视频动作识别方法
CN110781736A (zh) 基于双流网络将姿态和注意力相结合的行人重识别方法
CN112232134A (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
CN109492530B (zh) 基于深度多尺度时空特征的健壮性视觉物体跟踪方法
CN109034258A (zh) 基于特定物体像素梯度图的弱监督目标检测方法
Zhang et al. Unsupervised depth estimation from monocular videos with hybrid geometric-refined loss and contextual attention
Fu et al. Robust multi-kernelized correlators for UAV tracking with adaptive context analysis and dynamic weighted filters
CN110084834B (zh) 一种基于快速张量奇异值分解特征降维的目标跟踪方法
Song et al. 2d lidar map prediction via estimating motion flow with gru
CN116543021A (zh) 一种基于特征融合的Siamese网络视频单目标跟踪方法
CN110766093A (zh) 一种基于多帧特征融合的视频目标重识别方法
CN114707604A (zh) 一种基于时空注意力机制的孪生网络跟踪系统及方法
Puchała et al. Feature engineering techniques for skeleton-based two-person interaction classification in video
CN114581485A (zh) 一种基于语言建模式孪生网络的目标跟踪方法
CN113033356A (zh) 一种尺度自适应的长期相关性目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant