CN112085765A - 结合粒子滤波及度量学习的视频目标跟踪方法 - Google Patents

结合粒子滤波及度量学习的视频目标跟踪方法 Download PDF

Info

Publication number
CN112085765A
CN112085765A CN202010967549.3A CN202010967549A CN112085765A CN 112085765 A CN112085765 A CN 112085765A CN 202010967549 A CN202010967549 A CN 202010967549A CN 112085765 A CN112085765 A CN 112085765A
Authority
CN
China
Prior art keywords
target
tracking
template
sample
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010967549.3A
Other languages
English (en)
Inventor
王洪雁
张莉彬
袁海
张鼎卓
周贺
薛喜扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Zhejiang Sci Tech University ZSTU
Zhejiang University of Science and Technology ZUST
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010967549.3A priority Critical patent/CN112085765A/zh
Publication of CN112085765A publication Critical patent/CN112085765A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

结合粒子滤波及度量学习的视频目标跟踪方法,属于目标跟踪领域,所提方法首先离线训练可有效获取目标高层抽象特征的卷积神经网络;而后,基于核回归度量学习方法学习加权距离度量矩阵以最小化核回归预测误差,并利用梯度下降法求解所得最优化问题进而获得表征最优候选目标的距离度量矩阵;再者,基于所得最优候选目标预测值计算重构误差以构建目标观测模型;最后,引入短时与长期稳定更新相结合的更新策略,并基于粒子滤波跟踪框架实现目标有效跟踪,本发明具有较高目标跟踪精度及较好鲁棒性。

Description

结合粒子滤波及度量学习的视频目标跟踪方法
技术领域
本发明属于目标跟踪领域,具体涉及一种结合粒子滤波及度量学习的目标跟踪方法。
背景技术
作为计算机视觉领域的研究热点,视觉跟踪基于可见光以及红外等媒介持续感知感兴趣,是计算机视觉领域的研究热点之一,在视频监控、自动驾驶、人机交互等方面具有广泛应用。近年来,众多高效且鲁棒的视觉跟踪算法相继被提出,大大促进了目标视觉跟踪的实用化进程。然而,由于实际场景的复杂性,跟踪过程中存在诸如光照变化、尺寸变化、目标遮挡等大量干扰及不确定因素,从而导致跟踪性能显著下降。因此,如何提高复杂场景下目标跟踪算法精度及鲁棒性仍是视觉跟踪领域的研究难点之一。
针对复杂场景下目标视觉跟踪性能下降问题,Wang N等人首次提出深度学习跟踪(Deep Learning Tracking,DLT)算法,其基于堆叠降噪自编码器(Stacked DenoisingAutoencoder,SDAE)进行无监督训练以获得目标深层特征,而后于解码器后增加分类层以区分目标背景进而实现目标跟踪。然而,由于自编码器仅可提取浅层特征,无法获取具有本质属性的高层特征,因而表达能力有限,从而使得目标背景区分能力较差,进而导致跟踪性能提升有限。针对此问题,基于卷积神经网络(Convolutional Neural Network,CNN)可高效且鲁棒提取目标深层特征的特点,Wang L等首先分析CNN中每层输出特征,而后构建特征筛选网络并实现匹配跟踪。需要注意的是,相关匹配方法虽具有较好的目标识别及鲁棒性能,但跟踪开始之前此方法需对视频序列预训练以提升跟踪精度从而使得计算复杂度显著上升进而导致算法实时性较差。为改善目标跟踪实时性,HELD D等提出一种基于回归网络的通用目标跟踪方法(Generic Object Tracking Using Regression Networks,GOTURN)以离线训练CNN网络,其将上一帧目标预测信息与当前帧搜索区域同时输入CNN网络以回归当前帧目标位置,算法实时性能较好,可达100帧/秒。然而,该算法对相似目标较为敏感,且对噪声及遮挡等干扰鲁棒性较差。基于此,Mozhdehi R等构造一种基于深度卷积神经网络与粒子滤波的视觉跟踪框架(Hierarchical Convolutional Feature Tracker,HCFT),其集成深度卷积网络良好的特征提取特性以及粒子滤波复杂场景下优异的目标跟踪能力以提升遮挡及噪声等复杂场景下目标跟踪性能。然而,值得注意的是,上述跟踪系统中目标背景可分性较差,因而复杂背景下跟踪器易发生漂移。针对此问题,Hu J等提出基于深度度量学习(Deep Metric Learning,DML)的跟踪模型,其基于前馈神经网络结构学习分层非线性距离度量标准以改善目标背景区分性能,从而将深度网络所得最匹配模板的候选者确定为真实目标。然而,该模型虽然可提升目标背景的可分性,但由于没有考虑遮挡、变形、光照等不利因素使得跟踪精度改善有限。
发明内容
针对复杂环境下由于光照变化、目标形变、部分遮挡等因素导致目标跟踪性能显著下降的问题,本发明提出一种结合粒子滤波及度量学习的视频目标跟踪方法,包括如下步骤:
步骤1:离线训练获得目标高层抽象特征的卷积神经网络;
步骤2:基于核回归度量学习方法学习加权距离度量矩阵以最小化核回归预测误差,并通过梯度下降法求解所得最优化问题进而获得表征最优候选目标的距离度量矩阵;
步骤3:基于最优候选目标预测值计算重构误差,并通过粒子滤波构建目标观测模型,获取目标状态最优估计;
步骤4:引入短时与长期稳定更新相结合的更新策略实现目标有效跟踪。
本发明与现有技术相比具有以下优点:本发明所提算法在复杂环境下进行目标跟踪具有较高的目标跟踪精度和鲁棒性。且由定性分析可以观察到,所提算法在部分遮挡、光照变化、目标形变等复杂场景下具有较强鲁棒性;基于定量分析可知,相较于对比算法,多数测试序列场景下,所提算法平均中心误差较低,平均重叠率较高,这是因为所提模型考虑候选目标模板之间相关性,提高了复杂场景下算法跟踪稳健性;核回归距离度量衡量粒子相似性,从而提升了跟踪有效性;目标模板局部结构化表示改善了噪声及遮挡场景下所提算法的鲁棒性及跟踪精度。
附图说明
图1为本发明实现的流程图。
图2为本发明中CNN网络结构。
图3为六种不同的跟踪算法跟踪结果图。
图4为不同跟踪方法的跟踪成功率曲线图。
图5为不同跟踪方法的跟踪整体精度图。
具体实施方式
下面结合附图和具体实施例对本发明的实现步骤做进一步详细描述:本发明提出一种基于粒子滤波与度量学习的目标跟踪方法。所提方法首先离线训练可有效获取目标高层抽象特征的卷积神经网络;而后,基于核回归度量学习方法学习加权距离度量矩阵以最小化核回归预测误差,并利用梯度下降法求解所得最优化问题进而获得表征最优候选目标的距离度量矩阵;再者,基于所得最优候选目标预测值计算重构误差以构建目标观测模型;最后,引入短时与长期稳定更新相结合的更新策略,并基于粒子滤波跟踪框架实现目标有效跟踪。实验结果表明,与现有主流跟踪算法相比,复杂环境下所提方法具有较高目标跟踪精度及较好鲁棒性。实现本发明的基本思路是,首先离线训练可有效获取目标高层抽象特征的卷积神经网络;而后,基于核回归度量学习方法学习加权距离度量矩阵以最小化核回归预测误差,并利用梯度下降法求解所得最优化问题进而获得表征最优候选目标的距离度量矩阵;再者,基于所得最优候选目标预测值计算重构误差并利用粒子滤波技术构建目标观测模型;最后,引入短时与长期稳定更新相结合的更新策略实现目标有效跟踪。具体步骤包含如下:
1离线训练可有效获得目标高层抽象特征的卷积神经网络
本发明基于具有卓越分类能力的深度卷积网络AlexNet构造视频跟踪特征深度提取模型。该模型输入图片规格为227*227像素;为有效保留图像局部特征,权衡欠拟合以及过拟合。
网络第一层卷积核尺寸设置为11*11*96,步长为4,卷积核个数为64以提取视频序列各类深层特征;权衡计算复杂度及特征抽取,第一卷积层后接具有3卷积核的卷积层;设置第五卷积层中卷积核尺寸为3*3*256,步长为1,提取图像中目标背景样本作为后续度量学习样本;在第一、二和五卷积层后衔接尺寸为3*3,步长为2的池化层。
需要注意的是,由于最大池化法较平均池化法可更好地提取纹理信息,本发明采用最大池化方法以降低计算复杂度、提升模型稳健性并保留关键信息;第五卷积层后衔接三个全连接层以充分融合样本信息;基于全连接层所得融合特征,分类层SoftMax函数对其分类以区分目标背景;卷积层激活函数均采用ReLU函数,且于卷积层后增加归一化层以降低过拟合。所提深度特征提取模型基于给定运动目标视频序列离线训练AlexNet网络,以提升其泛化能力进而改善目标跟踪性能。网络结构如图2所示。
2基于核回归度量学习方法学习加权距离度量矩阵以最小化核回归预测误差,并利用梯度下降法求解所得最优化问题进而获得表征最优候选目标的距离度量矩阵。
基于训练样本集x=(x1,x2,...,xn)∈RB×N核回归度量学习以将训练样本数据映射至高可分性空间从而获取表征目标特征差异的距离度量,即:
Figure BDA0002682885810000031
其中,xi,xj∈RB×N为样本,B为训练样本特征维度,N为样本数量,DA(xi,xj)为样本xi和xj之间的马氏距离,||·||2表示样本间距离平方,M∈RB×B为度量矩阵,其为半正定矩阵。由于直接学习度量矩阵M需要在优化过程中明确半正定约束,计算效率较低。为了降低计算复杂度,可对其实施Cholesky分解,即M=ATA,A∈Rb×B可视为从原始特征空间RB到新度量空间Rb的映射矩阵,其中b<<B,则可得:
DA(xi,xj)=||A(xi-xj)||2=(xi-xj)TATA(xi-xj) (2)
核回归中样本xi的目标估计值
Figure BDA0002682885810000032
可通过邻近样本加权平均获得,即:
Figure BDA0002682885810000033
其中,c为样本xi的邻近数,y=(y1,y2,...,yn)∈{0,1}为样本xn对应类别标签,Kij为xi与临近样本xj之间高斯核距离函数,表征二者之间相似性,其可表示为:
Figure BDA0002682885810000041
其中,δ为正则化常量,仿真实验中设置δ2=1。
本发明采用累积二次回归误差表征训练样本集平方误差L,并最小化此误差以获得最优映射矩阵A,即:
Figure BDA0002682885810000042
不难发现,问题(5)为关于优化变量A的非线性问题,较难直接获得闭式解。相较于其他优化方法,梯度下降法只需估计一阶导数,计算复杂度较小、优化结果较好。基于此,本文采用梯度下降方法求解上述问题。基于链式法则,问题(5)中目标函数关于变量A的导数可表示为:
Figure BDA0002682885810000043
基于式(3),
Figure BDA0002682885810000044
可表示为:
Figure BDA0002682885810000045
基于式(4),
Figure BDA0002682885810000046
可表示为:
Figure BDA0002682885810000047
其中,
Figure BDA0002682885810000048
通过式(2)求解,即:
Figure BDA0002682885810000049
将式(7)-(9)代入式(6),可得:
Figure BDA00026828858100000410
基于上式,基于梯度下降法迭代更新映射矩阵A,即:
Figure BDA00026828858100000411
其中,ρ为学习速率,仿真实验中取值为0.001,f为迭代次数。将上式所得最优映射矩阵A代入M=ATA则可求得最优度量矩阵M。实验中,映射矩阵A初始值可设为单位矩阵,为防止陷入局部最小值,可多次随机初始化。
3基于所得最优候选目标预测值计算重构误差并利用粒子滤波技术构建目标观测模型,从而估计目标最优状态。
(1)粒子滤波框架
实给定观测图像X1:r={x1,x2,…,xr}及其对应状态H1:r={h1,h2,…,hr},可基于粒子滤波递归估计目标最优状态,即:
Figure BDA0002682885810000051
其中,∝为正比算子,
Figure BDA0002682885810000052
为观测模型,表征状态
Figure BDA0002682885810000053
下图像xr出现概率,
Figure BDA0002682885810000054
为在第r帧中第i个候选粒子对应状态值。
给定1到r帧的观测结果X1:r,基于贝叶斯推理框架递归推导上式以获得当前帧中最优目标状态,可得:
Figure BDA0002682885810000055
其中,
Figure BDA0002682885810000056
为相邻状态间运动模型,表示连续两帧间目标状态相关性。最优目标状态
Figure BDA0002682885810000057
可基于如下最大后验估计获得:
Figure BDA0002682885810000058
设时刻r下目标状态向量为hr={hrx,hry,scrrrr},其中hrx,hry,scrrrr为六自由度仿射变换参数,分别表示水平位移、垂直位移、旋转角度、水平尺度因子、扭曲角和宽高比例。假设状态变量相互独立且服从高斯分布,则相邻帧间目标运动模型可构建如下:
Figure BDA0002682885810000059
其中,
Figure BDA00026828858100000510
表示
Figure BDA00026828858100000511
服从均值为hr-1、方差为∑的高斯分布,∑为对角协方差矩阵,其元素为仿射参数方差。
由于候选目标仅在最临近帧中更新估计,当运动模型
Figure BDA00026828858100000512
固定时,最优候选目标可直接基于观测模型
Figure BDA00026828858100000513
选择,因此,本发明基于候选目标重构误差构造观测模型
Figure BDA00026828858100000514
(2)基于所得最优候选目标预测值计算重构误差并构建目标观测模型
设m个候选目标Y=[Y1,Y2,…,Ym]可由包含w个模板的模板集T=[t1,t2,…,tw]表示。为避免局部变化导致模板更新精度降低,将每个模板分割为W个局部块,则模板集的第g个局部块可表示为:Tg=t1g,t2g,…,twg]∈Rb×w,其中,tig,i=1,2,…,w为第i个模板的第g个局部块。类似地,将每个候选目标Yg分割为W个局部块{yg|g=1,2,…,W}∈Rb×1,利用特征映射A对每个yg进行核回归距离度量,则可得如下关于候选目标度量系数的最小化问题:
Figure BDA0002682885810000061
其中,zg∈Rw×1为模板局部块g对应系数向量,λ为惩罚参数,||·||2
Figure BDA0002682885810000062
范数,||·||1
Figure BDA0002682885810000063
范数。
上述问题中,第一项为候选目标局部重构误差。在进行局部重构误差度量时,由于复杂跟踪环境中出现的多数干扰特征对度量模型贡献较小,且干扰特征过多会出现维数“爆炸”现象,从而造成度量精度降低,因此上述模型采用稀疏表示寻找能最好表示候选目标与模板局部块间特征的最优稀疏表示系数,使候选目标与模板局部块间误差最小。但在复杂环境下进行目标跟踪时,干扰信息会影响稀疏性及准确性,基于此,引入正则化约束项来平衡稀疏性和候选目标与模板局部块间误差,因此采用稀疏理论构建式(16)第二项为度量系数正则化约束项。
由于上述优化问题可视为W个优化问题的累加,且各优化变量相互独立,由此,可将此问题拆分为W个子优化问题,即:
Figure BDA0002682885810000064
基于上式(17)模型,可通过加速近端梯度(Accelerated Proximal Gradient,APG)算法实现高效求解。
APG算法主要思路:通过迭代更新
Figure BDA0002682885810000065
和向量v(k)以求解最优系数向量zg。每次迭代分两步进行:(1)保持v(k)不变,更新
Figure BDA0002682885810000066
(2)线性组合
Figure BDA0002682885810000067
Figure BDA0002682885810000068
更新向量v(k)。由此,可预先估计当前v(k)和时间参数ξ,时间参数ξ表示如下:
ξ=v(k)-2β(ATTg)T(ATTgv(k)-ATyg) (18)
其中,β为梯度下降步长,仿真实验中设置为0.01。为方便求解
Figure BDA0002682885810000069
构建如下软阈值函数:
Figure BDA00026828858100000610
其中,
Figure BDA00026828858100000611
通过APG算法优化
Figure BDA00026828858100000612
最终解析解为:
Figure BDA00026828858100000613
其中,
Figure BDA00026828858100000614
为软阈值算子,可定义为:
Figure BDA00026828858100000615
为更新v(k+1),线性组合
Figure BDA00026828858100000616
Figure BDA00026828858100000617
即:
Figure BDA00026828858100000618
其中,αk通常设定为
Figure BDA00026828858100000619
k≥1;当k=0时,α0=1;初始化v(0)
Figure BDA00026828858100000620
为全零向量。当目标函数下降值小于预先设定阈值
Figure BDA0002682885810000071
时,则APG算法满足收敛条件,算法迭代终止。
综合上述表达,对应候选目标重构误差可表示如下:
Figure BDA0002682885810000072
基于式(24)计算所有候选目标的重构误差{ε12,…,εm},则候选目标Yg的似然模型
Figure BDA0002682885810000073
构建为:
Figure BDA0002682885810000074
其中,Γ是归一化因子,γ为控制高斯核的参数,本发明实验取0.01。
将式(24)所得
Figure BDA0002682885810000077
带入式(12)即可获取目标状态最优估计,从而实现目标有效跟踪。
4引入短时与长期稳定更新相结合的更新策略实现目标有效跟踪
实际跟踪过程中,保持目标模板不变无法有效跟踪复杂场景下多变的目标,因而模板更新一直是在线目标跟踪的热点问题。若从首帧开始基于固定模板实施跟踪,则光照变化、背景杂波或部分遮挡等因素导致跟踪器无法较好地捕捉目标;反之,若快速更新模板,每次更新都会引入误差,则随着时间流逝误差逐渐累积从而导致跟踪器偏离目标。针对上述问题,本发明引入短时与长期稳定更新相结合的在线跟踪策略以更新目标模板。
模板初始化:首先确定目标首帧所处位置,而后基于所提跟踪方法获得前n帧跟踪结果并归一化,最后将其组合为模板集T=[t1,t2,…,tn]∈Rb×n
模板动态更新:模板与跟踪结果相似性可表示为ψ=[ψ12,…,ψn],设阈值为η,则跟踪结果与第u个模板相似性ψu可表示为:
Figure BDA0002682885810000075
式中,
Figure BDA0002682885810000076
为第r帧跟踪结果,相似度值ψu越大表明跟踪结果与模板越相似。
设最大相似度为Λ,其可表示为:
Λ=maxψu (26)
将其与阈值η比较,若最大相似度Λ>η,表明本次跟踪结果与某目标模板相似度最大,则更新对应模板;反之,不做更新。仿真实验中阈值取值为η=0.7。
基于以上所述,具体更新方案可表述如下:
短时更新:为提高目标状态估计性能,对首帧后续各帧,若最大相似度Λ>η,表明该模板与某目标相似度最大,为提高后续各帧的跟踪准确度,可用本跟踪结果替换对应模板,并保存跟踪所得目标状态;反之,则表明相邻帧变化较大,此时不更新模板。
长期稳定更新:连续多帧所得最大相似度值Λ<η,导致无法及时更新模板,此时连续多帧的最大相似度均小于给定阈值,从而加大多帧累积误差,针对此类情况,可于跟踪过程中每隔10帧更新模板。由于起始帧目标始终真实,所提更新策略须包含首模板以增强跟踪鲁棒性。
综上所述:本发明所提结合粒子滤波与度量学习的目标跟踪算法可表述为:
(1)初始化CNN网络,粒子初始权重均设为1/N;
(2)首帧内采集目标背景样本,并通过式(11)实施MLKR以获得最优映射矩阵A及对应距离度量矩阵M;
(3)基于CNN和度量学习区分目标背景,并计算每个粒子置信度(权重);
(4)基于式(16)设定候选目标度量系数zg初始值;
(5)利用APG方法求解问题式(17)以求解zg
(6)重复步骤(5),直到满足收敛条件;
(7)基于式(21)求解zg,并基于式(23)、式(24)和式(12)获取目标状态最优估计,并实施在线跟踪;
(8)获得跟踪结果,基于式(25)、(26)计算本次跟踪最大相似度;
(9)若跟踪最大相似度大于阈值,则用本帧跟踪结果更新模板;反之,不做更新;
(10)若跟踪最大相似度持续小于阈值,为防止跟踪累计误差过大,可每隔10帧更新目标模板;
(11)判断是否跟踪至最后一帧,若没有,重复步骤(3)~(10);反之,结束跟踪,获得最终跟踪结果并保存所得目标框。
本发明针对复杂环境下由于光照变化、目标形变、部分遮挡等因素导致目标跟踪性能显著下降的问题,提出一种基于粒子滤波与度量学习的目标跟踪方法。所提方法首先离线训练CNN网络以提升网络特征提取及泛化能力,并基于训练所得CNN网络获取目标高层抽象特征;其次,由于核回归度量学习方法(Metric Learning Kernel Regression,MLKR)相较于邻域分量分析(Neighborhood Components Analysis,NCA)以及大边距最近邻度量学习(Large Margin Nearest Neighbor Metric Learning,LMNNML)等具有较好的正负样本区分能力,对目标背景样本构建MLKR以获取表征最优候选目标的度量矩阵;而后,基于所得最优候选目标预测值计算重构误差以构建目标观测模型;最后,基于短时与长期稳定更新结合的更新策略在线更新模板以降低遮挡、形变等不利因素影响从而实现基于粒子滤波框架的目标有效跟踪。仿真实验表明,与现有主流算法相比,复杂场景下所提方法具有较高目标跟踪精度及较好鲁棒性。
本发明的效果可通过以下仿真进一步说明:
仿真条件:硬件环境如下:Intel Core(TM)i5-4258 CPU,主频2.4GHz,内存8GB,实验软件测试环境为:Python3.7、MATLAB 2017a以及开源深度学习框架Caffe。采用的实验数据集为OTB数据集。仿真条件设置如下:首帧所提取正负样本数分别为100和400,后续各帧正负样本数分别为30和120以更新目标模板。权衡算法跟踪精确性及计算复杂度,若粒子数过多,将显著增加算法计算量,反之,若粒子数过少,则可能无法获取最优目标状态,基于此,每帧跟踪粒子数设置为600,粒子权重初始化为1/600。本文使用的CNN网络,采用深度学习框架Caffe,网络权值更新采用梯度下降法,设置局部区域归一化参数α=0.0001,τ=0.75,以起到“侧抑制”作用,增强网络提取复杂环境信息的泛化能力;学习率设置为0.001,训练周期为300,以最大程度减少“过拟合”现象发生。其中,本发明采用平均跟踪重叠率和平均中心位置误差定量分析所提方法的跟踪性能。平均中心位置误差为真实目标位置(x0,y0)与算法所得目标位置(x1,y1)之间距离误差,可表示为:
Figure BDA0002682885810000091
平均跟踪重叠率表示如下:
Figure BDA0002682885810000092
仿真内容:
仿真1:定性分析:图3为6种跟踪算法的结果对比。MotorRolling视频序列包含快速运动、背景杂波和光照变化等挑战性因素,在第52及64帧,目标由空中下降到地面,背景明显变化,DFT和TLD出现跟踪漂移或跟踪目标框与真实目标大小不符现象,而所提算法始终可以较好地跟踪目标,其可归因于本文算法考虑背景杂波及快速运动影响并对目标与背景样本进行误差学习,从而实现运动目标精确估计。Jogging序列中跟踪目标存在明显遮挡,所提算法与TLD可定位目标并有效跟踪,其余四种算法出现跟踪丢失现象,表明部分遮挡条件下所提方法亦具有较好的跟踪效果。Boy序列中目标快速运动,同时出现比例变化和旋转等其他因素干扰,401帧之后CT算法出现跟踪漂移现象,原因在于其泛化能力较差,无法较好适应显著外观变化,而本文算法始终可以精确跟踪。Skating1序列属于较为复杂的跟踪场景,其中目标背景对比度较低,且存在较强光照变化。此场景下,目标分辨率较低,CT、DFT及TLD均出现目标丢失情况,其源于目标背景相似性较大,对比算法对相似目标背景无法有效区分,而本文算法通过长短时结合的在线更新策略及时更新目标模板,从而可有效区分目标背景进而实现稳定跟踪。由于Matrix序列光照变化较大,对比算法均出现跟踪丢失现象,所提算法仍可较好地锁定目标,这是由于本文算法基于MLKR精准度量目标背景距离,并有效判别每帧跟踪结果以确保最优候选目标得以选择。快速运动导致运动模糊情况下,Bird2序列中目标外观尺度同时发生较大变化,Struck以及DFT无法准确估计目标尺度从而导致跟踪失败,而所提算法可自适应目标尺度变化因而可在目标尺度变化条件下仍可锁定目标。Tiger2序列出现严重遮挡以及强背景杂波,五种对比算法均发生不同程度漂移或跟踪框与真实目标尺度不符,本文算法仍能稳定跟踪目标,且具有较高跟踪精度及鲁棒性,此可归因为所提算法通过引入重构误差构建似然模型且采用局部化模板方法以解决目标遮挡和背景杂波,表明其具有较强鲁棒性。
仿真2:定量分析:表1和2分别为不同算法在每个视频序列的平均跟踪重叠率与平均中心位置误差。其中,加粗字体表示跟踪性能最优值,下划线为跟踪效果次优值。跟踪重叠率越大,平均中心位置误差越小表示跟踪效果越好。由表1、2可知,7种不同测试序列中所提算法相较于对比跟踪算法均有较好的跟踪效果。其可归因于所提算法采用MLKR并引入误差项构建似然模型降低相似目标与背景之间的敏感度。与现有主流跟踪器相比,所提跟踪器在遮挡或噪声等序列上表现较为出色,主要原因可表述如下:
(1)所提模型考虑候选目标模板之间相关性,提高了复杂场景下算法跟踪稳健性;
(2)核回归距离度量衡量粒子相似性,从而提升了跟踪有效性;
(3)目标模板局部结构化表示改善了噪声及遮挡场景下所提算法的鲁棒性及跟踪精度。
表1不同跟踪方法的平均重叠率
Figure BDA0002682885810000101
表2不同跟踪方法的平均中心位置误差
Figure BDA0002682885810000102
图4为不同跟踪方法的跟踪成功率曲线图;图5为不同跟踪方法的跟踪整体精度图;成功率曲线图表示将重合率大于给定阈值的视频帧作为成功跟踪帧,当阈值从0变化到1时,记录成功跟踪的帧数占视频总帧数的比率;整体精度图表示中心位置误差在距离阈值范围内(例如0到50像素)成功帧数与总帧数的百分比。由图4可知,多数视频序列中,所提算法目标跟踪成功率高于对比算法;Skating1序列中,所提算法相较于CT成功率偏低,然而整体跟踪精度仍优于CT算法,且其他视频序列中所提算法整体跟踪精度亦优于对比算法。由此可知,复杂场景下所提算法整体性能优于对比方法,且具有较好的鲁棒性。
仿真3:不同跟踪方法在各个测试序列下的平均运行速度:为验证所提算法跟踪时效性,本发明采用每秒运行帧数(frame per second,FPS)衡量算法速度(算法运行50次,平均所得FPS作为评估指标),不同测试序列中各算法所得FPS如表3所示。由表3可知,所提算法速度高于CNN-PF、Struck及DFT,逊于CT及TLD,然而,正如前文所述,不同测试序列中所提算法跟踪性能整体优于对比算法。需要注意的是,基于粒子滤波的跟踪算法计算复杂度通常正比于候选粒子数量,因此,可通过先验或时间序列信息自适应调整粒子数量以降低复杂度,从而较好地均衡跟踪性能以及实时性。
表3不同跟踪方法在各个测试序列下的平均运行速度:帧/秒
Figure BDA0002682885810000111
综上所述,本发明提出一种融合度量学习与粒子滤波的目标跟踪算法。所提方法通过CNN网络提取视频序列中正负样本,并基于MLKR对其度量学习以获得表征最优候选目标的度量矩阵;而后基于所得最优候选目标预测值计算重构误差以构建目标观测模型;最后,基于短时及长期稳定更新相结合的更新策略更新目标模板以改善算法鲁棒性。基于OTB数据集中所选包含遮挡、运动模糊、光照变化、比例变化以及背景杂波等复杂因素的七个视频测试序列,通过与CNN-PF、Struck、CT、TLD以及DFT等五种主流跟踪器对比验证了所提算法的有效性。由定性分析可以观察到,所提算法在部分遮挡、光照变化、目标形变等复杂场景下具有较强鲁棒性;基于定量分析可知,相较于对比算法,多数测试序列场景下,所提算法平均中心误差较低,平均重叠率较高,从而表明所提算法整体跟踪性能较优。由此,本发明所提算法可以为工程应用中在复杂环境下进行目标跟踪提供坚实的理论与实现依据。

Claims (5)

1.一种结合粒子滤波及度量学习的视频目标跟踪方法,其特征在于:包括如下步骤:
步骤1:离线训练获得目标高层抽象特征的卷积神经网络;
步骤2:基于核回归度量学习方法学习加权距离度量矩阵以最小化核回归预测误差,并通过梯度下降法求解所得最优化问题进而获得表征最优候选目标的距离度量矩阵;
步骤3:基于最优候选目标预测值计算重构误差,并通过粒子滤波构建目标观测模型,获取目标状态最优估计;
步骤4:引入短时与长期稳定更新相结合的更新策略实现目标有效跟踪。
2.如权利要求1所述的结合粒子滤波及度量学习的视频目标跟踪方法,其特征在于:步骤1通过深度卷积网络AlexNet构造视频跟踪特征深度提取模型,深度特征提取模型输入图片规格为227*227像素,网络第一层卷积核尺寸设置为11*11*96,步长为4,卷积核个数为64,第一卷积层后接具有3卷积核的卷积层,设置第五卷积层中卷积核尺寸为3*3*256、步长为1,提取图像中目标背景样本作为后续度量学习样本,在第一、二和五卷积层后衔接尺寸为3*3、步长为2的池化层,第五卷积层后衔接三个全连接层,基于全连接层取得融合特征,分类层通过SoftMax函数分类以区分目标背景,卷积层激活函数均采用ReLU函数,且卷积层后具有归一化层,视频跟踪特征深度提取模型基于给定运动目标视频序列离线训练AlexNet网络,得到目标高层抽象特征的卷积神经网络。
3.如权利要求1所述的结合粒子滤波及度量学习的视频目标跟踪方法,其特征在于:步骤2具体包括如下步骤:
通过训练样本集x=(x1,x2,...,xn)∈RB×N核回归度量学习,将训练样本数据映射至高可分性空间,获取表征目标特征差异的距离度量:
Figure FDA0002682885800000011
其中,xi,xj∈RB×N为样本,B为训练样本特征维度,N为样本数量,DA(xi,xj)为样本xi和xj之间的马氏距离,||·||2表示样本间距离平方,M∈RB×B为度量矩阵,M=ATA,A∈Rb×B视为从原始特征空间RB到新度量空间Rb的映射矩阵,其中b<<B,则:
DA(xi,xj)=||A(xi-xj)||2=(xi-xj)TATA(xi-xj) (2)
核回归中样本xi的目标估计值
Figure FDA0002682885800000012
通过邻近样本加权平均获得:
Figure FDA0002682885800000013
其中,c为样本xi的邻近数,y=(y1,y2,...,yn)∈{0,1}为样本xn对应类别标签,Kij为xi与临近样本xj之间高斯核距离函数,表征二者之间相似性表示为:
Figure FDA0002682885800000021
其中,δ为正则化常量;
采用累积二次回归误差表征训练样本集平方误差L,并最小化误差L获得最优映射矩阵A:
Figure FDA0002682885800000022
采用梯度下降方法求解,基于链式法则,问题(5)中目标函数关于变量A的导数表示为:
Figure FDA0002682885800000023
Figure FDA0002682885800000024
表示为:
Figure FDA0002682885800000025
Figure FDA0002682885800000026
表示为:
Figure FDA0002682885800000027
其中
Figure FDA0002682885800000028
得:
Figure FDA0002682885800000029
基于梯度下降法迭代更新映射矩阵A:
Figure FDA00026828858000000210
其中,ρ为学习速率,f为迭代次数,将所得最优映射矩阵A代入M=ATA,求得最优度量矩阵M。
4.如权利要求1所述的结合粒子滤波及度量学习的视频目标跟踪方法,其特征在于:步骤3具体包括如下步骤:
设m个候选目标Y=[Y1,Y2,…,Ym]由包含w个模板的模板集T=[t1,t2,…,tw]表示,将每个模板分割为W个局部块,则模板集的第g个局部块表示为:Tg=[t1g,t2g,…,twg]∈Rb×w,其中,tig,i=1,2,…,w为第i个模板的第g个局部块;将每个候选目标Yg分割为W个局部块{yg|g=1,2,…,W}∈Rb×1,利用特征映射A对每个yg进行核回归距离度量,则得如下关于候选目标度量系数的最小化问题:
Figure FDA0002682885800000031
其中,zg∈Rw×1为模板局部块g对应系数向量,λ为惩罚参数,||·||2为l2范数,||·||1为l1范数;
优化问题视为W个优化问题的累加,且各优化变量相互独立,将优化问题拆分为W个子优化问题:
Figure FDA0002682885800000032
通过加速近端梯度算法实现高效求解,对应候选目标重构误差表示如下:
Figure FDA0002682885800000033
基于式(14)计算所有候选目标的重构误差{ε12,…,εm},则候选目标Yg的似然模型
Figure FDA0002682885800000034
构建为:
其中,Γ是归一化因子,γ为控制高斯核的参数;
将式(15)所得
Figure FDA0002682885800000036
带入式(16)获取目标状态最优估计;
实给定观测图像X1:r={x1,x2,…,xr}及其对应状态H1:r={h1,h2,…,hr},基于粒子滤波递归估计目标最优状态:
Figure FDA0002682885800000037
其中,∝为正比算子,
Figure FDA0002682885800000038
为观测模型,表征状态
Figure FDA0002682885800000039
下图像xr出现概率,
Figure FDA00026828858000000310
为在第r帧中第i个候选粒子对应状态值;
给定1到r帧的观测结果X1:r,基于贝叶斯推理框架递归推导式(12)获得当前帧中最优目标状态,得:
Figure FDA00026828858000000311
其中,
Figure FDA00026828858000000312
为相邻状态间运动模型,表示连续两帧间目标状态相关性;
最优目标状态
Figure FDA00026828858000000313
基于如下最大后验估计获得:
Figure FDA00026828858000000314
设时刻r下目标状态向量为hr={hrx,hry,scrrrr},其中hrx,hry,scrrrr为六自由度仿射变换参数,分别表示水平位移、垂直位移、旋转角度、水平尺度因子、扭曲角和宽高比例,假设状态变量相互独立且服从高斯分布,相邻帧间目标运动模型构建如下:
Figure FDA00026828858000000315
其中,
Figure FDA00026828858000000316
表示
Figure FDA00026828858000000317
服从均值为hr-1、方差为∑的高斯分布,∑为对角协方差矩阵,其元素为仿射参数方差;
候选目标仅在最临近帧中更新估计,当运动模型
Figure FDA0002682885800000041
固定时,最优候选目标直接基于观测模型
Figure FDA0002682885800000042
选择。
5.如权利要求1所述的结合粒子滤波及度量学习的视频目标跟踪方法,其特征在于:步骤4具体包括如下步骤:
模板初始化:首先确定目标首帧所处位置,而后基于所提跟踪方法获得前n帧跟踪结果并归一化,最后将其组合为模板集T=[t1,t2,…,tn]∈Rb×n
模板动态更新:模板与跟踪结果相似性可表示为ψ=[ψ12,…,ψn],设阈值为η,则跟踪结果与第u个模板相似性ψu表示为:
Figure FDA0002682885800000043
式中,
Figure FDA0002682885800000044
为第r帧跟踪结果,相似度值ψu越大表明跟踪结果与模板越相似。
设最大相似度为Λ,其表示为:
Λ=maxψu (21)
将最大相似度为Λ与阈值η比较,若最大相似度Λ>η,表明本次跟踪结果与某目标模板相似度最大,则更新对应模板;反之,不做更新。
CN202010967549.3A 2020-09-15 2020-09-15 结合粒子滤波及度量学习的视频目标跟踪方法 Pending CN112085765A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010967549.3A CN112085765A (zh) 2020-09-15 2020-09-15 结合粒子滤波及度量学习的视频目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010967549.3A CN112085765A (zh) 2020-09-15 2020-09-15 结合粒子滤波及度量学习的视频目标跟踪方法

Publications (1)

Publication Number Publication Date
CN112085765A true CN112085765A (zh) 2020-12-15

Family

ID=73736281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010967549.3A Pending CN112085765A (zh) 2020-09-15 2020-09-15 结合粒子滤波及度量学习的视频目标跟踪方法

Country Status (1)

Country Link
CN (1) CN112085765A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989953A (zh) * 2021-02-20 2021-06-18 西安理工大学 一种基于度量学习的目标遮挡检测与跟踪方法
CN113128605A (zh) * 2021-04-23 2021-07-16 浙江理工大学 基于粒子滤波及深度距离度量学习的目标跟踪方法
CN113160271A (zh) * 2021-03-15 2021-07-23 华侨大学 一种融合相关滤波和粒子滤波的高精度红外目标跟踪方法
CN114216463A (zh) * 2021-11-04 2022-03-22 国家电网有限公司 一种路径优化目标定位方法及装置、存储介质、无人设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345762A (zh) * 2013-06-19 2013-10-09 无锡引域智能机器人有限公司 基于流形学习的贝叶斯视觉跟踪方法
CN104616324A (zh) * 2015-03-06 2015-05-13 厦门大学 基于自适应表观模型和点-集距离度量学习的目标跟踪方法
CN107103616A (zh) * 2017-04-27 2017-08-29 中国科学院长春光学精密机械与物理研究所 一种目标跟踪方法及系统
US20170263005A1 (en) * 2016-03-10 2017-09-14 Sony Corporation Method for moving object detection by a kalman filter-based approach
CN109102521A (zh) * 2018-06-22 2018-12-28 南京信息工程大学 一种基于并行注意力相关滤波的视频目标跟踪方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345762A (zh) * 2013-06-19 2013-10-09 无锡引域智能机器人有限公司 基于流形学习的贝叶斯视觉跟踪方法
CN104616324A (zh) * 2015-03-06 2015-05-13 厦门大学 基于自适应表观模型和点-集距离度量学习的目标跟踪方法
US20170263005A1 (en) * 2016-03-10 2017-09-14 Sony Corporation Method for moving object detection by a kalman filter-based approach
CN107103616A (zh) * 2017-04-27 2017-08-29 中国科学院长春光学精密机械与物理研究所 一种目标跟踪方法及系统
CN109102521A (zh) * 2018-06-22 2018-12-28 南京信息工程大学 一种基于并行注意力相关滤波的视频目标跟踪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUNLIN HU: "《Deep Metric Learning for Visual Tracking》", IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》, vol. 26, no. 11, pages 1 - 13 *
RONGQING HUANG: "《Kernel Regression with Sparse Metric Learning》", 《ARXIV:1712.09001V1》, pages 1 - 44 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989953A (zh) * 2021-02-20 2021-06-18 西安理工大学 一种基于度量学习的目标遮挡检测与跟踪方法
CN112989953B (zh) * 2021-02-20 2024-02-13 西安理工大学 一种基于度量学习的目标遮挡检测与跟踪方法
CN113160271A (zh) * 2021-03-15 2021-07-23 华侨大学 一种融合相关滤波和粒子滤波的高精度红外目标跟踪方法
CN113160271B (zh) * 2021-03-15 2023-10-31 华侨大学 一种融合相关滤波和粒子滤波的高精度红外目标跟踪方法
CN113128605A (zh) * 2021-04-23 2021-07-16 浙江理工大学 基于粒子滤波及深度距离度量学习的目标跟踪方法
CN114216463A (zh) * 2021-11-04 2022-03-22 国家电网有限公司 一种路径优化目标定位方法及装置、存储介质、无人设备

Similar Documents

Publication Publication Date Title
CN110070074B (zh) 一种构建行人检测模型的方法
CN112085765A (zh) 结合粒子滤波及度量学习的视频目标跟踪方法
CN107633226B (zh) 一种人体动作跟踪特征处理方法
CN106778687B (zh) 基于局部评估和全局优化的注视点检测方法
CN110781262B (zh) 基于视觉slam的语义地图的构建方法
CN111582349B (zh) 一种基于YOLOv3和核相关滤波改进的目标跟踪算法
CN110728694B (zh) 一种基于持续学习的长时视觉目标跟踪方法
CN107169117B (zh) 一种基于自动编码器和dtw的手绘图人体运动检索方法
Xue et al. Low-rank approximation and multiple sparse constraint modeling for infrared low-flying fixed-wing UAV detection
CN108038515A (zh) 无监督多目标检测跟踪方法及其存储装置与摄像装置
CN112884742A (zh) 一种基于多算法融合的多目标实时检测、识别及跟踪方法
CN113327272B (zh) 一种基于相关滤波的鲁棒性长时跟踪方法
CN112329784A (zh) 一种基于时空感知及多峰响应的相关滤波跟踪方法
CN113449658A (zh) 基于空域、频域、时域的夜间视频序列显著性检测方法
CN107368802B (zh) 基于kcf和人脑记忆机制的运动目标跟踪方法
Abdullah et al. Objects detection and tracking using fast principle component purist and kalman filter.
CN108257148B (zh) 特定对象的目标建议窗口生成方法及其在目标跟踪的应用
CN108280845B (zh) 一种针对复杂背景的尺度自适应目标跟踪方法
CN108921872B (zh) 一种适用于长程跟踪的鲁棒性视觉目标跟踪方法
Chen et al. Single-object tracking algorithm based on two-step spatiotemporal deep feature fusion in a complex surveillance scenario
CN115393631A (zh) 基于贝叶斯层图卷积神经网络的高光谱图像分类方法
CN115311327A (zh) 融合共现统计与fhog梯度特征的目标跟踪方法及系统
Guangjing et al. Research on static image recognition of sports based on machine learning
CN114067240A (zh) 一种融合行人特性的在线更新策略行人单目标跟踪方法
Kavitha et al. An extreme learning machine and action recognition algorithm for generalized maximum clique problem in video event recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination