CN108961308A - 一种漂移检测的残差深度特征目标跟踪方法 - Google Patents
一种漂移检测的残差深度特征目标跟踪方法 Download PDFInfo
- Publication number
- CN108961308A CN108961308A CN201810558287.8A CN201810558287A CN108961308A CN 108961308 A CN108961308 A CN 108961308A CN 201810558287 A CN201810558287 A CN 201810558287A CN 108961308 A CN108961308 A CN 108961308A
- Authority
- CN
- China
- Prior art keywords
- target
- frame
- indicate
- residual error
- tracking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/251—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30232—Surveillance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种漂移检测的残差深度特征目标跟踪方法,通过卷积神经网络提取分层特征,然后在卷积神经网络加入残差结构,连接不同的网络层,实现浅层和深层特征的融合,不需要人为设计特征融合方式,网络结构能够自动实现特征融合的功能,用深度特征区分目标和背景,比传统特征更具有分辨力;在预测当前帧的目标位置时,提出了一个检测模型漂移的策略,设计了一个响应强度下降计数器,通过对比相邻帧响应强度的大小计数,根据计数器的数值,用来判断是否出现模型漂移,以采取相对应的模型更新方案作为补救措施,实现精确跟踪。
Description
技术领域
本发明涉及图像处理和计算机视觉技术领域,特别是一种漂移检测的残差深度特征目标跟踪方法。
背景技术
在各交通路段,都有着监控摄像头的身影,它们时刻观察着来往车辆,并对违规车辆进行身份信息确认和跟踪,其中,使用的目标跟踪技术,已是计算机视觉领域的核心研究课题之一,在现实生活中有着广泛的应用,不仅仅在交通监控,智能手机,智能机器人,自动驾驶,军事等领域都有它在发挥着重要作用。
传统的目标跟踪算法遇到目标形变,光照变化,背景杂乱等困难时,并不能取得很好的跟踪效果,无法满足人们的需求。随着深度学习的蓬勃发展,对计算机视觉领域产生着巨大的影响,人们开始在其中寻找解决问题的方法。近年来目标跟踪以2014年JFHenriques等人(Henriques J F,Rui C,Martins P,et al.High-Speed Tracking withKernelized Correlation Filters[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2014,37(3):583-596)提出的核相关滤波算法最具有代表性,有着极高的跟踪速度,使人们看到了实时跟踪的可能性,但是使用的传统特征导致跟踪的效果不佳。同一年,由K Simonyan等人(Simonyan K,Zisserman A.Very deep convolutionalnetworks for large-scale image recognition[J].arXiv preprint arXiv:1409.1556,2014.)提出的深度卷积神经网络在ILSVRC-2014上大放异彩,深度学习开始在计算机视觉上发挥作用,在2015年由K He等人(He K,Zhang X,Ren S,et al.Deep Residual Learningfor Image Recognition[J].2015:770-778.)提出的残差网络,其中应用的残差结构为训练更深的网络提供途径,但是跟踪的实时性无法很好地满足要求。在随后的研究中,将深度网络作为端到端的跟踪,如2016年由H Nam等人(Nam H,Han B.Learning Multi-domainConvolutional Neural Networks for Visual Tracking[C]//Computer Vision andPattern Recognition.IEEE,2016:4293-4302.)提出的学习多域的神经网络,将原始图像作为输入,直接输出跟踪结果,还有将深度网络作为特征提取器,如M Danelljan等人(Danelljan M,G,Khan F S,et al.Convolutional Features for CorrelationFilter Based Visual Tracking[C]//IEEE International Conference on ComputerVision Workshop.IEEE Computer Society,2015:621-629.)提出的有效的卷积操作用于跟踪,取得了非常好的跟踪精度,仍然面临着跟踪速度满足不了实时跟踪需要的难题。同时,M Danelljan等人(Danelljan M,Bhat G,Khan F S,et al.ECO:EfficientConvolution Operators for Tracking[J].2016:6931-6939.)探究了不同卷积层特征对于跟踪的影响,得出浅层特征更适合跟踪的结论;而由C Ma等人(Ma C,Huang J B,Yang X,et al.Hierarchical Convolutional Features for Visual Tracking[C]//IEEEInternational Conference on Computer Vision.IEEE Computer Society,2015:3074-3082.)提出的卷积分层特征用于跟踪,阐述了神经网络浅层和深层特征对于跟踪的影响,有效利用浅层和深层特征能够显著提升跟踪效果,但是人工选取特征融合的方式不利于精确的目标跟踪。
传统特征的片面性,传统跟踪模型对于模型漂移问题检测手段和补救措施的缺乏,限制着传统跟踪方法的性能。
发明内容
本发明所要解决的技术问题是克服现有技术的不足而提供一种漂移检测的残差深度特征目标跟踪方法,本发明实现更加准确地跟踪目标,提取的深度融合特征能够应对不同场景下目标遇到的困难,跟踪方法具有鲁棒性。
本发明为解决上述技术问题采用以下技术方案:
根据本发明提出的一种漂移检测的残差深度特征目标跟踪方法,包括以下步骤:
步骤一、训练残差深度特征网络;
残差深度特征网络的结构包括4个卷积层、2个全连接层和1个残差结构;4个卷积层分别是conv1、conv2、conv3和conv4,2个全连接层分别是fc5和fc6,其中,conv1、conv2、conv3和conv4分别为第一卷积层、第二卷积层、第三卷积层和第四卷积层,fc5为第一全连接层,fc6为第二全连接层、也是网络输出层;
conv1、conv2、conv3、conv4、fc5和fc6依次顺序连接,残差结构用于将第二卷积层输出特征与第四卷积层输出特征进行线性相加,再通过激活函数输出,实现不同层的输出特征融合,对目标和背景进行分类;
步骤二、从当前帧裁剪得到的样本集,该样本集输入步骤一训练得到的残差深度特征网络,输出残差深度特征网络conv4的值,conv4输出值与相对应的回归标签构成训练样本集,根据训练样本集训练目标模板并且定位当前帧目标;
步骤三、检测模型漂移策略;
通过确定响应矩阵的峰值强度PSR连续下降现象来确定目标模板出现问题的位置;具体如下:
响应矩阵fp是由当前帧测试样本集和初始帧训练样本集,根据计算得出,其中,ZP为测试样本集,XP为训练样本集,K表示核空间的核矩阵,上标∧均表示傅里叶变换;
响应矩阵的峰值强度计算如下式所示,
其中PSR为峰值强度,max_fp表示响应矩阵fp中元素最大值,μ表示fp中旁瓣的平均值,σ表示fp中旁瓣的标准差;
定义一个响应强度下降计数器counter,初始帧数值为0,设置计数器阈值为η,通过计数器的数值判断PSR连续下降的现象是否出现;设第t帧的PSR为a,第(t)+1帧的PSR为b,若b-a<0,则counter数值加1,若b-a>=0,则counter数值变为0,每一帧计算响应矩阵,计算counter数值,若counter>η,判断当前帧跟踪出现问题,上一帧更新的目标模板不适合定位当前帧目标,出现模型漂移;
步骤四、更新目标模型;
目标模型包含目标模板和外观模型,通过更新目标模板和外观模型实现对目标的精确跟踪;
若counter<=η,判断当前帧定位准确,计算目标位置其中,r,c分别表示目标位置坐标的横坐标和纵坐标,按照以下公式对第(t+n)帧进行目标模板和外观模型的更新,其中n≥1;
model_wt+n=(1-γ)model_wt+n-1+γwt+n
model_xt+n=(1-γ)model_xt+n-1+γxt+n
其中model_wt+n-1表示第(t+n-1)帧的目标模板,wt+n表示第(t+n)帧的目标模板,model_wt+n表示更新后的目标模板;model_xt+n-1表示第(t+n-1)帧的外观模型,xt+n表示第(t+n)帧的外观模型,model_xt+n表示更新后的外观模型,γ表示比例系数,是决定前一帧模板信息与当前帧模板信息的融合权重;
若counter>η,判断当前帧定位不准确,计算目标位置按照以下公式进行目标模板和外观模型的更新;
model_wt+n=model_wt-1
model_xt+n=model_xt-1
目标模板和外观模型更新后,在下一帧图像,实现目标定位,再进行目标模板和外观模型更新,直至所有图像完成目标跟踪。
作为本发明所述的一种漂移检测的残差深度特征目标跟踪方法进一步优化方案,步骤二具体如下:
设训练样本集为(X,Y),从当前帧裁剪得到的样本集,该样本集输入到步骤一训练完成的残差深度特征网络,残差深度特征网络中的conv4层输出的值为样本集特征X,Y表示X对应的回归标签;训练样本集中第i个样本表示为(xi,yi),其中,xi表示训练样本集中第i个特征,yi表示xi对应的回归标签,i=1,2,…N,N为训练样本总数;
训练样本集线性可分时,线性回归函数表示为f(xi)=wTxi,上标T表示转置,通过求解公式(1),即最小化损失函数,确定w;
其中,f(xi)表示xi对应的预测回归标签,λ代表正则化系数,w表示权重系数,公式(1)写成矩阵形式为
其中X=[x1,x2,...,xN]T,X中每一行代表一个训练样本,Y是列向量,Y中列向量的每个元素代表X中行代表的训练样本对应的回归标签,求解公式(2)得目标模板
w=(XHX+λI)-1XHY (3)
其中上标H表示复共轭转置,I表示单位矩阵;
涉及到求逆运算,引入循环矩阵,训练样本集中的所有样本是由定义所跟踪的目标在图片中位置样本循环移位所得,定义跟踪的目标在图片中的位置的样本记为目标样本;所有的循环矩阵都能够在傅氏空间中使用离散傅里叶矩阵进行对角化,则
其中,Xp是目标样本循环移位得到的训练样本集,每一行代表一个训练样本,xp代表目标样本,初始帧的目标样本是根据给定的需要定位的目标位置得到,随后的目标样本是根据当前帧的前一帧预测的位置得出置,是xp的傅里叶变换,上标∧均表示傅里叶变换,F是傅里叶变换矩阵;初始帧确定的训练样本集对应的回归标签记为y,带入公式(3)解得目标模板为
其中上标*表示共轭,⊙表示点乘;
若遇到训练样本集线性不可分,引入核函数φ(Xp),训练样本集Xp映射到核空间线性可分;令K表示核空间的核矩阵,
其中表示Xp在变换空间上的自相关,若是循环矩阵,则目标模板
检测阶段得到测试样本集ZP的响应矩阵,ZP是在检测阶段,根据上一帧预测当前帧目标位置确定的目标样本zp循环移位得到的测试样本集,表示XP和ZP在变换空间上的互相关;
响应矩阵fp计算如公式(9)所示,
其中,φ(Zp)表示测试样本集Zp映射到核空间,则预测目标位置是fP中元素最大值位置,即
其中,p(r,c)表示预测出的目标位置。
作为本发明所述的一种漂移检测的残差深度特征目标跟踪方法进一步优化方案,λ设为1e-4。
作为本发明所述的一种漂移检测的残差深度特征目标跟踪方法进一步优化方案,η=6。
作为本发明所述的一种漂移检测的残差深度特征目标跟踪方法进一步优化方案,γ为0.01。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
(1)本发明提出了漂移检测的残差深度特征目标跟踪算法,通过卷积神经网络提取分层特征,然后在卷积神经网络加入残差结构,连接不同的网络层,实现浅层和深层特征的融合,不需要人为设计特征融合方式,网络结构能够自动实现特征融合的功能,用深度特征区分目标和背景,比传统特征更具有分辨力;在预测当前帧的目标位置时,提出了一个检测模型漂移的策略,设计了一个响应强度下降计数器,通过对比相邻帧响应强度的大小计数,根据计数器的数值,用来判断是否出现模型漂移,以采取相对应的模型更新方案作为补救措施,实现精确跟踪;
(2)通过将残差结构加入卷积神经网络来实现不同层特征的自动融合,同时在算法中加入一个模型漂移检测策略,用来判断是否出现响应强度连续下降的现象,判断当前帧定位准确性,以此来指导目标外观和模板的更新;在与当下的几种跟踪算法进行对比,实现更加准确地跟踪目标,提取的深度融合特征能够应对不同场景下目标遇到的困难,跟踪算法具有鲁棒性。
附图说明
图1是残差深度特征网络结构。
图2是Board视频序列目标中心误差与响应强度曲线对比图。
图3是本发明方法与对比算法OPE评估曲线;其中,(a)为跟踪精确率曲线图,(b)为跟踪遮挡目标精确率曲线图,(c)为跟踪平面外旋转目标精确率曲线图,(d)为跟踪成功率曲线图,(e)为跟踪背景杂乱目标成功率曲线图,(f)为跟踪遮挡目标成功率曲线图。
图4是本发明方法框架图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
如图4是本发明方法框架图,具体步骤如下:
(1)训练残差深度特征网络
整个网络结构见图1,含有4个卷积层,2个全连接层和1个残差结构。Conv1包含的具体操作是卷积层→BN(Batch Normalization)层→池化层。卷积层含有多个卷积核,能够提取不同方面的特征,这些特征能够最本质地分辨目标;BN层作为网络的归一化层,能够对卷积层的输出做归一化处理,能够加速训练网络,防止“梯度弥散”,提升网络泛化性能;池化层主要有两个作用,一个是不变性,包括平移,旋转特征不变性,另一个作用是保留主要的特征同时减少参数,防止网络训练过拟合。Conv2包含的具体操作是卷积层→BN层;Conv3包含的具体操作是卷积层→BN层;Conv4包含的具体操作是卷积层→BN层→池化层;加入的残差结构实现的功能是将Conv2的输出与Conv4的卷积输出线性相加,再通过激活函数输出(卷积层包括卷积核激活函数输出),实现不同层的输出特征融合;Fc5表示全连接层;Fc6是网络输出层。
网络训练是在VOT2015数据集上训练。视频序列每帧图片裁剪若干个正样本(图片中含有目标)和若干个负样本(图片中不含有目标)。将训练视作二分类问题,训练网络识别目标和背景,因此输出层采用softmax输出,输出2个概率值分别代表图片被网络判断为目标和背景的概率。网络输入图片大小为224*224*3。一个迭代次数代表训练一个完整数据集,再次训练需要打乱数据集样本顺序。重要的一点是,第一次迭代是从网络参数随机初始化开始的,第二次迭代,Conv1-Fc5网络参数使用第一次迭代训练好的对应层的参数进行训练,而Fc6即分类层参数随机初始化再次训练,以此类推,训练100个迭代次数,网络收敛,保存网络模型。在训练目标模板和定位阶段时,将网络的Conv4层输出值作为融合特征,输出维度大小为56*56*64。
(2)训练目标模板并且定位当前帧目标;
从当前帧裁剪得到的样本集,该样本集输入步骤一训练得到的残差深度特征网络,输出残差深度特征网络conv4的值,conv4输出值与相对应的回归标签构成训练样本集,根据训练样本集训练目标模板并且定位当前帧目标;
定位目标根据初始帧训练得到目标模板,在检测阶段,即随后的帧中,根据目标模板定位目标位置。
设训练样本集为(X,Y),从当前帧裁剪得到的样本集,该样本集输入到步骤一训练完成的残差深度特征网络,残差深度特征网络中的conv4层输出的值为样本集特征X,Y表示X对应的回归标签。训练样本集中第i个样本表示为(xi,yi),其中,xi表示训练样本集中第i个特征,是训练样本输入预训练的残差融合特征网络(图1)Conv4输出值,yi表示xi对应的回归标签,i=1,2,…N,N为训练样本总数;
训练样本集线性可分时,线性回归函数表示为f(xi)=wTxi,上标T表示转置,通过求解公式(1),即最小化损失函数,确定w;
其中,f(xi)表示xi对应的预测回归标签,λ代表正则化系数,w表示权重系数,公式(1)写成矩阵形式为
其中X=[x1,x2,...,xN]T,X中每一行代表一个训练样本,Y是列向量,Y中列向量的每个元素代表X中行代表的训练样本对应的回归标签,求解公式(2)得目标模板
w=(XHX+λI)-1XHY (3)
其中上标H表示复共轭转置,I表示单位矩阵。
涉及到求逆运算,引入循环矩阵,训练样本集中的所有样本是由我们定义所跟踪的目标在图片中位置样本循环移位所得,定义跟踪的目标在图片中的位置的样本记为目标样本。所有的循环矩阵都能够在傅氏空间中使用离散傅里叶矩阵进行对角化,则
其中,Xp是目标样本循环移位得到的训练样本集,每一行代表一个训练样本,xp代表目标样本,初始帧的目标样本是根据我们给定的需要定位的目标位置得到,随后的目标样本是根据当前帧的前一帧预测的位置得出置,是xp的傅里叶变换,上标∧均表示傅里叶变换,F是傅里叶变换矩阵;初始帧确定的训练样本集对应的回归标签记为y,带入公式(3)解得目标模板为
其中上标*表示共轭,⊙表示点乘;
若遇到训练样本集线性不可分,引入核函数φ(Xp),训练样本集Xp映射到核空间线性可分;令K表示核空间(变换空间)的核矩阵,
其中表示Xp在变换空间上的自相关,若是循环矩阵,则目标模板
检测阶段得到测试样本集ZP的响应矩阵,ZP是在检测阶段,根据上一帧预测当前帧目标位置确定的目标样本zp循环移位得到的测试样本集,输入到残差融合特征网络的Conv4输出值,表示XP和ZP在变换空间上的互相关;
响应矩阵fp计算如公式(9)所示,
其中,φ(Zp)表示测试样本集Zp映射到核空间。则预测目标位置是fP中元素最大值位置,即
其中,p(r,c)表示预测出的目标位置,r,c分别表示目标位置坐标的横坐标和纵坐标。
(3)检测模型漂移策略
响应矩阵是定位的核心依据,响应矩阵是由目标模板当前帧测试样本集ZP和初始帧训练样本集XP按照公式(9)计算得出;目标在跟踪过程中不断发生变化,而当前的模型只能含有之前目标样本信息,不能反映目标的变化。当目标变化较大时,无法识别出目标,导致目标丢失;若快速更新目标模型,就会形成误差的积累,产生模型的漂移,导致计算出的响应矩阵不准确,无法正确定位目标当前位置,而响应矩阵含有可以判断目标模板是否定位正确的信息。响应矩阵峰值强度是实现模型漂移检测策略的基础,它的计算如公式(11)所示,
其中PSR为峰值强度,max_fp表示响应矩阵fp中元素最大值,即峰值,μ表示fp中旁瓣的平均值,σ表示fp中旁瓣的标准差;
响应矩阵峰值强度因为每个视频属性不同,无法通过简单的设置阈值认为峰值强度低于阈值就判定跟踪出现问题,出现模型漂移。这里以图2来说明这个问题。
图2是Board视频序列计算出的每一帧对应的目标中心误差和PSR(峰值强度)曲线图。在图中竖线处,PSR最低值6.485是在第493帧出现,此时,它所对应的目标中心误差开始急剧增加,在几帧内达到误差峰值。说明在第493帧时,更新的目标模板出现问题,出现模型漂移,它已经不适合做目标定位了。
根据图2,在目标中心误差较低的帧,PSR偶有波动,在目标中心误差开始急剧增加时,PSR开始在连续的帧数急剧下降,这种下降的现象在所有的跟踪出现问题的视频里都出现了。因此,可通过确定PSR连续下降现象来确定目标模板出现问题的位置。
因此,定义一个响应强度下降计数器counter,初始帧数值为0,设置计数器阈值为η(实验中η=6),通过计数器的数值判断下降的现象是否出现。设第t帧的PSR为a,第(t+1)帧的PSR为b,即
PSR(t)=a
PSR(t+1)=b (12)
若b-a<0,则counter数值加1,若b-a>=0,则counter数值变为0,每一帧计算响应矩阵,计算counter数值,若counter>η,判断当前帧跟踪出现问题,上一帧更新的目标模板不适合定位当前帧目标,出现模型漂移,能够指导后续的模型更新,采取相对应的措施实现目标精确跟踪。
(4)更新目标模板和外观模型
判断模型是否漂移,即目标模板是否能够准确跟踪目标,是实现正确更新目标位置、目标外观和目标模板的前提条件,也是保证后续精确跟踪的前提条件。
目标模板反映目标的本质特征,外观模型反映物体的外观特征。若counter<=η,判断当前帧定位准确,按照公式(10)计算目标位置,按照以下公式(13)和公式(14)对第(t+n)帧进行目标模型和外观模型的更新。
model_wt+n=(1-γ)model_wt+n-1+γwt+n (13)
model_xt+n=(1-γ)model_xt+n-1+γxt+n (14)
其中model_wt+n-1表示第(t+n-1)帧的目标模板,wt+n表示第(t+n)帧的目标模板,model_wt+n表示更新后的目标模板;model_xt+n-1表示第(t+n-1)帧的外观模型,xt+n表示第(t+n)帧的外观模型,model_xt+n表示更新后的外观模型,γ表示比例系数,是决定前一帧模板信息与当前帧模板信息的融合权重,实验设置为0.01。
若counter>η,判断当前帧定位不准确,按照公式(10)计算目标位置,按照以下公式(15)和公式(16)进行目标模型和外观模型的更新。
model_wt+n=model_wt-1 (15)
model_xt+n=model_xt-1 (16)
与公式(13)和公式(14)的区别是,在当前帧定位不准确的前提下,将目标模板返回到连续下降帧的初始帧,同理,对于外观模型也进行相同的操作。
目标模板和外观模型更新后,在下一帧图像,实现目标定位,再进行目标模板和外观模型更新,直至所有图像完成目标跟踪。
(5)实验验证与分析
本发明提出的一种漂移检测的残差深度特征目标跟踪算法,跟踪核心部件是残差融合特征网络,将Conv4输出作为融合特征,残差深度特征网络结构能够自动实现特征融合的功能,同时在跟踪算法中提出了检测模型漂移策略和相对应的更新模型方案作为补救措施,实现精确跟踪。该网络是在VOT2015数据集预训练的,学习率设置为0.01,实验结果分析基准为Visual Tracket Benchmark。
为了测试本发明提出的跟踪算法的性能,实验中选择了共计35个视频作为测试的跟踪视频序列,这些视频是从OTB100数据集中精心选择的,不同视频中的跟踪目标有着不同的场景,测试算法在目标遇到如光照变化,快速运动,目标遮挡,尺度变化,背景杂乱,平面内旋转等跟踪困难时实现的跟踪结果。实验中将本发明算法与3种算法进行实验,并对跟踪结果对比,这3种算法分别为RPT,KCF,CNT。
实验部分采用visual tracking benchamark中的OPE准则评估跟踪算法性能,OPE(one pass evaluaton)常用两种评估方式精确度(precision)和成功率(success rate),精确度越高表明跟踪效果越好,成功率越高表明跟踪效果越好。测试视频采用OTB100精选的30个视频。
根据图3所示,在准确率曲线图3中的(a)中,本发明提出的算法在比较的4种算法中排第一,达到0.806,在成功率曲线图3中的(d)中,排第二,与第一名RPT跟踪算法相差0.002,综合评分,本发明的跟踪效果优于其他5种算法。在具体的评比中,曲线图3中的(b)目标被遮挡和曲线图3中的(c)目标发生平面外旋转,在这两项测试中,本发明的算法在准确率上都排第一,同样在曲线图3中的(e)、(f)中,出现背景杂乱和目标遮挡,在成功率对比中本发明算法也排第一。
实验证明,本发明提出的一种漂移检测的残差深度特征目标跟踪算法,通过将残差结构加入卷积神经网络来实现不同层特征的自动融合,同时在算法中加入一个模型漂移检测策略,用来判断是否出现响应强度连续下降的现象,判断当前帧定位准确性,以此来指导目标外观和模板的更新。在与当下的几种跟踪算法进行对比,实现更加准确地跟踪目标,提取的深度融合特征能够应对不同场景下目标遇到的困难,跟踪算法具有鲁棒性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围内。
Claims (5)
1.一种漂移检测的残差深度特征目标跟踪方法,其特征在于,包括以下步骤:
步骤一、训练残差深度特征网络;
残差深度特征网络的结构包括4个卷积层、2个全连接层和1个残差结构;4个卷积层分别是conv1、conv2、conv3和conv4,2个全连接层分别是fc5和fc6,其中,conv1、conv2、conv3和conv4分别为第一卷积层、第二卷积层、第三卷积层和第四卷积层,fc5为第一全连接层,fc6为第二全连接层、也是网络输出层;
conv1、conv2、conv3、conv4、fc5和fc6依次顺序连接,残差结构用于将第二卷积层输出特征与第四卷积层输出特征进行线性相加,再通过激活函数输出,实现不同层的输出特征融合,对目标和背景进行分类;
步骤二、从当前帧裁剪得到的样本集,该样本集输入步骤一训练得到的残差深度特征网络,输出残差深度特征网络conv4的值,conv4输出值与相对应的回归标签构成训练样本集,根据训练样本集训练目标模板并且定位当前帧目标;
步骤三、检测模型漂移策略;
通过确定响应矩阵的峰值强度PSR连续下降现象来确定目标模板出现问题的位置;具体如下:
响应矩阵fp是由当前帧测试样本集和初始帧训练样本集,根据计算得出,其中,ZP为测试样本集,XP为训练样本集,K表示核空间的核矩阵,上标∧均表示傅里叶变换;
响应矩阵的峰值强度计算如下式所示,
其中PSR为峰值强度,max_fp表示响应矩阵fp中元素最大值,μ表示fp中旁瓣的平均值,σ表示fp中旁瓣的标准差;
定义一个响应强度下降计数器counter,初始帧数值为0,设置计数器阈值为η,通过计数器的数值判断PSR连续下降的现象是否出现;设第t帧的PSR为a,第(t+1)帧的PSR为b,若b-a<0,则counter数值加1,若b-a>=0,则counter数值变为0,每一帧计算响应矩阵,计算counter数值,若counter>η,判断当前帧跟踪出现问题,上一帧更新的目标模板不适合定位当前帧目标,出现模型漂移;
步骤四、更新目标模型;
目标模型包含目标模板和外观模型,通过更新目标模板和外观模型实现对目标的精确跟踪;
若counter<=η,判断当前帧定位准确,计算目标位置其中,r,c分别表示目标位置坐标的横坐标和纵坐标,按照以下公式对第(t+n)帧进行目标模板和外观模型的更新,其中n≥1;
mod el_wt+n=(1-γ)mod el_wt+n-1+γwt+n
mod el_xt+n=(1-γ)mod el_xt+n-1+γxt+n
其中mod el_wt+n-1表示第(t+n-1)帧的目标模板,wt+n表示第(t+n)帧的目标模板,model_wt+n表示更新后的目标模板;mod el_xt+n-1表示第(t+n-1)帧的外观模型,xt+n表示第(t+n)帧的外观模型,model_xt+n表示更新后的外观模型,γ表示比例系数,是决定前一帧模板信息与当前帧模板信息的融合权重;
若counter>η,判断当前帧定位不准确,计算目标位置按照以下公式进行目标模板和外观模型的更新;
mod el_wt+n=mod el_wt-1
mod el_xt+n=model_xt-1
目标模板和外观模型更新后,在下一帧图像,实现目标定位,再进行目标模板和外观模型更新,直至所有图像完成目标跟踪。
2.根据权利要求1所述的一种漂移检测的残差深度特征目标跟踪方法,其特征在于,步骤二具体如下:
设训练样本集为(X,Y),从当前帧裁剪得到的样本集,该样本集输入到步骤一训练完成的残差深度特征网络,残差深度特征网络中的conv4层输出的值为样本集特征X,Y表示X对应的回归标签;训练样本集中第i个样本表示为(xi,yi),其中,xi表示训练样本集中第i个特征,yi表示xi对应的回归标签,i=1,2,...N,N为训练样本总数;
训练样本集线性可分时,线性回归函数表示为f(xi)=wTxi,上标T表示转置,通过求解公式(1),即最小化损失函数,确定w;
其中,f(xi)表示xi对应的预测回归标签,λ代表正则化系数,w表示权重系数,公式(1)写成矩阵形式为
其中X=[x1,x2,...,xN]T,X中每一行代表一个训练样本,Y是列向量,Y中列向量的每个元素代表X中行代表的训练样本对应的回归标签,求解公式(2)得目标模板
w=(XHX+λI)-1XHY (3)
其中上标H表示复共轭转置,I表示单位矩阵;
涉及到求逆运算,引入循环矩阵,训练样本集中的所有样本是由定义所跟踪的目标在图片中位置样本循环移位所得,定义跟踪的目标在图片中的位置的样本记为目标样本;所有的循环矩阵都能够在傅氏空间中使用离散傅里叶矩阵进行对角化,则
其中,Xp是目标样本循环移位得到的训练样本集,每一行代表一个训练样本,xp代表目标样本,初始帧的目标样本是根据给定的需要定位的目标位置得到,随后的目标样本是根据当前帧的前一帧预测的位置得出置,是xp的傅里叶变换,上标∧均表示傅里叶变换,F是傅里叶变换矩阵;初始帧确定的训练样本集对应的回归标签记为y,带入公式(3)解得目标模板为
其中上标*表示共轭,⊙表示点乘;
若遇到训练样本集线性不可分,引入核函数φ(Xp),训练样本集Xp映射到核空间线性可分;令K表示核空间的核矩阵,
其中表示Xp在变换空间上的自相关,若是循环矩阵,则目标模板
检测阶段得到测试样本集ZP的响应矩阵,ZP是在检测阶段,根据上一帧预测当前帧目标位置确定的目标样本zp循环移位得到的测试样本集,表示XP和ZP在变换空间上的互相关;
响应矩阵fp计算如公式(9)所示,
其中,φ(Zp)表示测试样本集Zp映射到核空间,则预测目标位置是fp中元素最大值位置,即
其中,p(r,c)表示预测出的目标位置。
3.根据权利要求2所述的一种漂移检测的残差深度特征目标跟踪方法,其特征在于,λ设为1e-4。
4.根据权利要求2所述的一种漂移检测的残差深度特征目标跟踪方法,其特征在于,η=6。
5.根据权利要求2所述的一种漂移检测的残差深度特征目标跟踪方法,其特征在于,γ为0.01。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810558287.8A CN108961308B (zh) | 2018-06-01 | 2018-06-01 | 一种漂移检测的残差深度特征目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810558287.8A CN108961308B (zh) | 2018-06-01 | 2018-06-01 | 一种漂移检测的残差深度特征目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108961308A true CN108961308A (zh) | 2018-12-07 |
CN108961308B CN108961308B (zh) | 2021-07-02 |
Family
ID=64492555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810558287.8A Active CN108961308B (zh) | 2018-06-01 | 2018-06-01 | 一种漂移检测的残差深度特征目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108961308B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109978908A (zh) * | 2019-03-21 | 2019-07-05 | 西安电子科技大学 | 一种适应大尺度形变的单目标快速跟踪定位方法 |
CN109977928A (zh) * | 2019-04-25 | 2019-07-05 | 中国科学院自动化研究所 | 一种机器人目标行人检索方法 |
CN110175649A (zh) * | 2019-05-28 | 2019-08-27 | 南京信息工程大学 | 一种关于重新检测的快速多尺度估计目标跟踪方法 |
CN110246160A (zh) * | 2019-06-20 | 2019-09-17 | 腾讯科技(深圳)有限公司 | 视频目标的检测方法、装置、设备及介质 |
CN112580478A (zh) * | 2020-12-14 | 2021-03-30 | 深圳创怀医疗科技有限公司 | 判断样本漂动的方法以及电子设备 |
CN113361596A (zh) * | 2021-06-04 | 2021-09-07 | 安徽农业大学 | 一种传感器数据增广方法、系统及存储介质 |
CN115546734A (zh) * | 2022-11-25 | 2022-12-30 | 常熟理工学院 | 基于深度学习的电梯人流视觉统计方法、系统及存储介质 |
CN115565114A (zh) * | 2022-11-17 | 2023-01-03 | 中央广播电视总台 | 视频画面漂移识别方法、装置及计算机设备、存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102027440A (zh) * | 2008-03-18 | 2011-04-20 | 艾利普提克实验室股份有限公司 | 对象与运动检测 |
CN104599289A (zh) * | 2014-12-31 | 2015-05-06 | 安科智慧城市技术(中国)有限公司 | 目标跟踪方法及装置 |
CN104599286A (zh) * | 2013-10-31 | 2015-05-06 | 展讯通信(天津)有限公司 | 一种基于光流的特征跟踪方法及装置 |
CN104751493A (zh) * | 2015-04-21 | 2015-07-01 | 南京信息工程大学 | 基于梯度纹理特征的稀疏跟踪方法 |
US20180122069A1 (en) * | 2013-01-24 | 2018-05-03 | Kineticor, Inc. | Systems, devices, and methods for tracking moving targets |
-
2018
- 2018-06-01 CN CN201810558287.8A patent/CN108961308B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102027440A (zh) * | 2008-03-18 | 2011-04-20 | 艾利普提克实验室股份有限公司 | 对象与运动检测 |
US20180122069A1 (en) * | 2013-01-24 | 2018-05-03 | Kineticor, Inc. | Systems, devices, and methods for tracking moving targets |
CN104599286A (zh) * | 2013-10-31 | 2015-05-06 | 展讯通信(天津)有限公司 | 一种基于光流的特征跟踪方法及装置 |
CN104599289A (zh) * | 2014-12-31 | 2015-05-06 | 安科智慧城市技术(中国)有限公司 | 目标跟踪方法及装置 |
CN104751493A (zh) * | 2015-04-21 | 2015-07-01 | 南京信息工程大学 | 基于梯度纹理特征的稀疏跟踪方法 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109978908B (zh) * | 2019-03-21 | 2023-04-28 | 西安电子科技大学 | 一种适应大尺度形变的单目标快速跟踪定位方法 |
CN109978908A (zh) * | 2019-03-21 | 2019-07-05 | 西安电子科技大学 | 一种适应大尺度形变的单目标快速跟踪定位方法 |
CN109977928A (zh) * | 2019-04-25 | 2019-07-05 | 中国科学院自动化研究所 | 一种机器人目标行人检索方法 |
CN109977928B (zh) * | 2019-04-25 | 2021-03-23 | 中国科学院自动化研究所 | 一种机器人目标行人检索方法 |
CN110175649A (zh) * | 2019-05-28 | 2019-08-27 | 南京信息工程大学 | 一种关于重新检测的快速多尺度估计目标跟踪方法 |
CN110175649B (zh) * | 2019-05-28 | 2022-06-07 | 南京信息工程大学 | 一种关于重新检测的快速多尺度估计目标跟踪方法 |
CN110246160A (zh) * | 2019-06-20 | 2019-09-17 | 腾讯科技(深圳)有限公司 | 视频目标的检测方法、装置、设备及介质 |
CN110246160B (zh) * | 2019-06-20 | 2022-12-06 | 腾讯科技(深圳)有限公司 | 视频目标的检测方法、装置、设备及介质 |
CN112580478A (zh) * | 2020-12-14 | 2021-03-30 | 深圳创怀医疗科技有限公司 | 判断样本漂动的方法以及电子设备 |
CN113361596A (zh) * | 2021-06-04 | 2021-09-07 | 安徽农业大学 | 一种传感器数据增广方法、系统及存储介质 |
CN115565114A (zh) * | 2022-11-17 | 2023-01-03 | 中央广播电视总台 | 视频画面漂移识别方法、装置及计算机设备、存储介质 |
CN115565114B (zh) * | 2022-11-17 | 2023-03-21 | 中央广播电视总台 | 视频画面漂移识别方法、装置及计算机设备、存储介质 |
CN115546734A (zh) * | 2022-11-25 | 2022-12-30 | 常熟理工学院 | 基于深度学习的电梯人流视觉统计方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108961308B (zh) | 2021-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108961308A (zh) | 一种漂移检测的残差深度特征目标跟踪方法 | |
Liao et al. | Deep facial spatiotemporal network for engagement prediction in online learning | |
CN104063719B (zh) | 基于深度卷积网络的行人检测方法及装置 | |
CN109816689A (zh) | 一种多层卷积特征自适应融合的运动目标跟踪方法 | |
CN106709511A (zh) | 基于深度学习的城市轨道交通全景监控视频故障检测方法 | |
CN108537136A (zh) | 基于姿态归一化图像生成的行人重识别方法 | |
CN110070074A (zh) | 一种构建行人检测模型的方法 | |
CN106951870B (zh) | 主动视觉注意的监控视频显著事件智能检测预警方法 | |
CN109190446A (zh) | 基于三元组聚焦损失函数的行人再识别方法 | |
CN107832802A (zh) | 基于人脸比对的人脸图像质量评价方法及装置 | |
CN109284733A (zh) | 一种基于yolo和多任务卷积神经网络的导购消极行为监控方法 | |
CN108447080A (zh) | 基于分层数据关联和卷积神经网络的目标跟踪方法、系统和存储介质 | |
CN109886356A (zh) | 一种基于三分支神经网络的目标追踪方法 | |
CN109886242A (zh) | 一种行人重识别的方法及系统 | |
CN105184229A (zh) | 一种动态场景下基于在线学习的实时行人检测方法 | |
CN110348492A (zh) | 一种基于上下文信息及多特征融合的相关滤波目标跟踪方法 | |
CN111428650B (zh) | 一种基于sp-pggan风格迁移的行人重识别方法 | |
Zhang et al. | HVS revisited: A comprehensive video quality assessment framework | |
CN113569726B (zh) | 一种联合自动数据增广和损失函数搜索的行人检测方法 | |
CN117542121B (zh) | 基于计算机视觉的智能化训练考核系统及方法 | |
Yanmin et al. | Research on ear recognition based on SSD_MobileNet_v1 network | |
CN113616209A (zh) | 基于时空注意力机制的精神分裂症患者甄别方法 | |
CN108717522A (zh) | 一种基于深度学习和相关滤波的人体目标跟踪方法 | |
CN106934339A (zh) | 一种目标跟踪、跟踪目标识别特征的提取方法和装置 | |
CN116596915A (zh) | 基于多尺度特征和长距离依赖的盲图像质量评价方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 210032 No. 219 Ning six road, Jiangbei new district, Nanjing, Jiangsu Applicant after: Nanjing University of Information Science and Technology Address before: 211500 Yuting Square, 59 Wangqiao Road, Liuhe District, Nanjing City, Jiangsu Province Applicant before: Nanjing University of Information Science and Technology |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |