CN109801311A - 一种基于深度残差网络特征的视觉目标跟踪方法 - Google Patents

一种基于深度残差网络特征的视觉目标跟踪方法 Download PDF

Info

Publication number
CN109801311A
CN109801311A CN201910095621.5A CN201910095621A CN109801311A CN 109801311 A CN109801311 A CN 109801311A CN 201910095621 A CN201910095621 A CN 201910095621A CN 109801311 A CN109801311 A CN 109801311A
Authority
CN
China
Prior art keywords
target
image
feature
frame
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910095621.5A
Other languages
English (en)
Other versions
CN109801311B (zh
Inventor
马素刚
赵祥模
侯志强
王忠民
惠飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changan University
Xian University of Posts and Telecommunications
Original Assignee
Changan University
Xian University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changan University, Xian University of Posts and Telecommunications filed Critical Changan University
Priority to CN201910095621.5A priority Critical patent/CN109801311B/zh
Publication of CN109801311A publication Critical patent/CN109801311A/zh
Application granted granted Critical
Publication of CN109801311B publication Critical patent/CN109801311B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度残差网络特征的视觉目标跟踪方法,包括步骤:一、选取深度残差网络的特征层并计算权重;二、第一帧实际输入图像的特征提取;三、构建第一帧实际输入图像的特征的响应和初始位置滤波器;四、第一帧实际输入图像的尺度采样及fHOG特征提取;五、构建初始尺度滤波器;六、第二帧实际输入图像的特征提取;七、位置滤波;八、位置滤波响应图的加权及目标定位;九、目标图像的尺度采样及fHOG特征提取;十、目标特征向量的尺度滤波及尺度估计;十一、滤波器更新;十二、输入下一帧实际输入图像,将下一帧实际输入图像视为第二帧实际输入图像后循环步骤六。本发明跟踪精确度和成功率高,适应目标尺度变化,实现目标的鲁棒跟踪。

Description

一种基于深度残差网络特征的视觉目标跟踪方法
技术领域
本发明属于目标跟踪技术领域,具体涉及一种基于深度残差网络特征的视觉目标跟踪方法。
背景技术
人工智能的应用非常广泛,涵盖很多技术领域,主要包括计算机视觉、自然语言处理、认知与推理、机器人学、博弈与伦理、机器学习等。视觉是人脑最主要的信息来源,也是进入人工智能这个殿堂的大门。人的大脑皮层活动,大约70%是在处理视觉相关信息。计算机视觉是以图像(视频)为输入,研究图像信息组织、物体和场景识别等内容,进而对事件给予解释,从而实现对环境的表达和理解。
目标跟踪作为计算机视觉领域的基础问题之一,一直是计算机视觉领域研究的热点。目标跟踪是指对图像序列中运动目标进行检测、提取和识别,获得运动目标的运动参数,如位置、速度、加速度和运动轨迹等,从而对运动目标的行为进行理解,以完成更高一级的任务。根据观测模型不同,目标跟踪算法可分为生成式(Generat ive)模型算法和判别式(Discriminative)模型算法两类。生成式模型算法通过模板匹配,选取最相似的候选区域作为跟踪结果,该方法着眼于对目标本身的刻画,忽略背景信息,在目标自身变化剧烈或者被遮挡时容易产生漂移。判别式模型算法通过训练一个分类器来区分目标与背景,选择置信度最高的候选样本作为预测结果,由于跟踪算法精度和速度的限制,仍然制约着跟踪算法在实际场景中的应用。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于深度残差网络特征的视觉目标跟踪方法,通过深度残差网络的特征层提取目标特征,自适应地对权重参数进行选择,从而对提取的目标特征进行加权,算法精确度和成功率较高,易于在实际场景中推广应用,实现目标的鲁棒跟踪。
为解决上述技术问题,本发明采用的技术方案是:一种基于深度残差网络特征的视觉目标跟踪方法,其特征在于,该方法包括以下步骤:
步骤一、选取深度残差网络的特征层并计算每个特征层对应的权重:在经过标注的公开数据集中,利用深度残差网络ResNet-N中的每一层分别对经过标注的公开数据集中视频进行特征提取,计算跟踪重叠率,选取跟踪重叠率位于前三的层构造第一训练样本,训练卷积神经网络CNN1,卷积神经网络CNN1由输入层I1、卷积层C1、池化层P1、卷积层C2、池化层P2、卷积层C3、池化层P3、全连接层F和输出层O1构成,待跟踪图像序列经过卷积神经网络CNN1后,输出值即为特征层L1、特征层L2和特征层L3
利用经过标注的公开数据集、特征层L1、特征层L2和特征层L3构造第二训练样本,训练全连接网络FC1,全连接网络FC1由输入层I′1、全连接层F1、全连接层F2、全连接层F3和输出层O′1构成,待跟踪图像序列、特征层L1、特征层L2和特征层L3经过全连接网络FC1后,输出值即为特征层L1对应的权重γ1、特征层L2对应的权重γ2和特征层L3对应的权重γ3
步骤二、第一帧实际输入图像的特征提取:利用人工框选目标的方式对第一帧实际输入图像的目标进行框选,将实际拍摄且经过框选后的第一帧实际输入图像利用深度残差网络ResNet-N进行特征提取,提取出深度残差网络ResNet-N中特征层L1输出的特征x11、深度残差网络ResNet-N中特征层L2输出的特征x12和深度残差网络ResNet-N中特征层L3输出的特征 x13
步骤三、构建第一帧实际输入图像的特征的响应和初始位置滤波器:通过高斯函数构建特征x11的响应值y11,通过高斯函数构建特征x12的响应值 y12,通过高斯函数构建特征x13的响应值y13
根据公式构建初始位置滤波器其中,i为特征的对应编号且i=1,2,3,为y1i的傅里叶变换,z1i为第二帧实际输入图像对应特征x1i的估计特征且z1i=x1i||·||表示 2-范数,F-1为傅里叶逆变换,为x1i的共轭,的傅里叶变换,为 z1i的傅里叶变换,⊙为点乘运算,σ和λ为常数;
步骤四、第一帧实际输入图像的尺度采样及fHOG特征提取:依据经过框选后的第一帧实际输入图像的目标中心位置,对第一帧实际输入图像的框选目标图像进行尺度采样,得到第一帧实际输入图像的M种不同尺度的目标样本,并将第一帧实际输入图像的M种不同尺度的目标样本的大小变换为大小统一的目标样本,对每个大小统一的目标样本进行31维fHOG 特征提取,并把每个大小统一的目标样本的所有fHOG特征串联成一个特征向量,该特征向量的长度为Lf,其中,M为不小于3的奇数;
步骤五、构建初始尺度滤波器:根据公式构建初始尺度滤波器其中,l为特征向量的维度编号且l=1,2,...,Lf,G1为通过高斯函数构建的第一帧实际输入图像的响应值的傅里叶变换,为G1的共轭,为第一帧实际输入图像的目标样本的第l维特征的傅里叶变换,λ' 为常数;
步骤六、第二帧实际输入图像的特征提取:将实际拍摄的第二帧实际输入图像利用深度残差网络ResNet-N进行特征提取,提取出深度残差网络ResNet-N中特征层L1输出的特征x21、深度残差网络ResNet-N中特征层 L2输出的特征x22和深度残差网络ResNet-N中特征层L3输出的特征x23
步骤七、位置滤波:利用初始位置滤波器对深度残差网络ResNet-N 中特征层L1输出的特征x21、深度残差网络ResNet-N中特征层L2输出的特征x22和深度残差网络ResNet-N中特征层L3输出的特征x23进行位置滤波,获取特征x2i的位置滤波响应图,特征x2i的位置滤波响应图的大小为s×t,s 为位置滤波响应图的行向像素数,t为位置滤波响应图的列向像素数;
步骤八、位置滤波响应图的加权及目标定位:根据公式对三个特征的位置滤波响应图进行加权得到加权后的位置滤波响应图并计算目标的中心位置cuv,获取以目标的中心位置cuv为中心的目标图像,实现目标定位,其中,c为像素点的响应值,为第 i个特征的位置滤波响应图中第p行第q列像素点的响应值,p=1,2,...,s, q=1,2,...,t;
步骤九、目标图像的尺度采样及fHOG特征提取:依据目标的中心位置cuv,对目标图像进行尺度采样,得到目标图像的M种不同尺度的目标样本,并将目标图像的M种不同尺度的目标样本的大小变换为大小统一的目标图像样本,对每个大小统一的目标图像样本进行31维fHOG特征提取,并把每个大小统一的目标图像样本的所有fHOG特征串联成一个目标特征向量,该目标特征向量的长度为Lf
步骤十、目标特征向量的尺度滤波及尺度估计:利用初始尺度滤波器分别对M个目标特征向量进行尺度滤波,响应值最大的点即对应当前实际输入图像中目标的精确尺度,实现当前实际输入图像的尺度估计;
步骤十一、初始位置滤波器和初始尺度滤波器的更新:对步骤七中的初始位置滤波器进行更新,并将更新后的位置滤波器带入步骤七,同时对步骤十中的初始尺度滤波器进行更新,并将更新后的尺度滤波器带入步骤十;
步骤十二、输入下一帧实际输入图像,将下一帧实际输入图像视为第二帧实际输入图像后循环步骤六。
上述的一种基于深度残差网络特征的视觉目标跟踪方法,其特征在于:步骤十一中将(1-η)x1i+ηx2i的值赋予x2i后,得到更新的x2i,将更新后的 x2i带入公式得到初始位置滤波器的更新参考位置滤波器然后根据算式得到更新后的位置滤波器,其中,η为位置滤波器的学习率,y2i为通过高斯函数构建特征x2i的响应值,为y2i的傅里叶变换,z2i为第三帧实际输入图像对应特征x2i的估计特征且z2i=x2i
上述的一种基于深度残差网络特征的视觉目标跟踪方法,其特征在于:步骤十一中令其中,的分子部分, B1的分母中除去常数λ'的部分;
根据公式构建初始尺度滤波器的更新参考尺度滤波器的分子部分G2为通过高斯函数构建的第二帧实际输入图像的目标样本的傅里叶变换,为G2的共轭,为第二帧实际输入图像的目标样本的第l维特征的傅里叶变换;
根据公式构建初始尺度滤波器的更新参考尺度滤波器的分母中除去常数λ'的部分B20
根据公式获取初始尺度滤波器的更新参考尺度滤波器
根据公式得到更新后的尺度滤波器其中,η'为尺度滤波器的学习率。
上述的一种基于深度残差网络特征的视觉目标跟踪方法,其特征在于:步骤一中卷积层C1、卷积层C2和卷积层C3均采用5×5的卷积核,池化层P1和池化层P2均采用4×4的池化窗口,池化层P3采用2×2的池化窗口;全连接层F1中的节点个数为1024,全连接层F2中的节点个数为256,全连接层F3中的节点个数为64。
上述的一种基于深度残差网络特征的视觉目标跟踪方法,其特征在于:步骤一中跟踪重叠率用overlap表示且其中,S1为跟踪计算得到的目标框面积,S2为手工标定的准确目标框面积。
上述的一种基于深度残差网络特征的视觉目标跟踪方法,其特征在于:所述位置滤波器的学习率η的取值范围为0<η<0.2。
上述的一种基于深度残差网络特征的视觉目标跟踪方法,其特征在于:所述尺度滤波器的学习率η'的取值范围为0<η'<0.2。
本发明与现有技术相比具有以下优点:
1、本发明利用深度残差网络ResNet-N中的每一层分别对经过标注的公开数据集中视频进行特征提取,计算跟踪重叠率,选取跟踪重叠率位于前三的层构造第一训练样本,训练卷积神经网络CNN1,待跟踪图像序列经过卷积神经网络CNN1后,输出值即为特征层L1、特征层L2和特征层L3,特征层L1、特征层L2和特征层L3不在每组卷积层的分界处,适应性更强,提高跟踪效果,便于推广使用。
2、本发明利用经过标注的公开数据集、特征层L1、特征层L2和特征层 L3构造第二训练样本,训练全连接网络FC1,全连接网络FC1由输入层I′1、全连接层F1、全连接层F2、全连接层F3和输出层O′1构成,待跟踪图像序列、特征层L1、特征层L2和特征层L3经过全连接网络FC1后,输出值即为特征层 L1对应的权重γ1、特征层L2对应的权重γ2和特征层L3对应的权重γ3,能够针对不同视频,自适应地选取不同的特征层和对应的权重,可靠稳定,使用效果好。
3、本发明方法步骤简单,通过首帧实际输入图像构建初始位置滤波器和初始尺度滤波器,采用多尺度采样技术,在跟踪过程中,能够适应目标尺度变化,实现对目标尺度的精确估计,便于推广使用。
综上所述,本发明通过深度残差网络的特征层提取目标特征,自适应地对权重参数进行选择,从而对提取的目标特征进行加权,算法精确度和成功率较高,易于在实际场景中推广应用,实现目标的鲁棒跟踪,便于推广使用。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明方法的流程框图。
具体实施方式
如图1所示,本发明的一种基于深度残差网络特征的视觉目标跟踪方法,包括以下步骤:
步骤一、选取深度残差网络的特征层并计算每个特征层对应的权重:在经过标注的公开数据集中,利用深度残差网络ResNet-N中的每一层分别对经过标注的公开数据集中视频进行特征提取,计算跟踪重叠率,选取跟踪重叠率位于前三的层构造第一训练样本,训练卷积神经网络CNN1,卷积神经网络CNN1由输入层I1、卷积层C1、池化层P1、卷积层C2、池化层P2、卷积层C3、池化层P3、全连接层F和输出层O1构成,待跟踪图像序列经过卷积神经网络CNN1后,输出值即为特征层L1、特征层L2和特征层L3
利用经过标注的公开数据集、特征层L1、特征层L2和特征层L3构造第二训练样本,训练全连接网络FC1,全连接网络FC1由输入层I′1、全连接层F1、全连接层F2、全连接层F3和输出层O′1构成,待跟踪图像序列、特征层L1、特征层L2和特征层L3经过全连接网络FC1后,输出值即为特征层L1对应的权重γ1、特征层L2对应的权重γ2和特征层L3对应的权重γ3
需要说明的是,不同视频具有的属性可能不同,包括SV(尺度变化)、 IV(光照变化)、OCC(目标遮挡)、DEF(目标形变)、MB(运动模糊)、FM(快速运动)、IPR(平面内旋转)、OPR(平面外旋转)、OV(目标超出视野)、BC(背景杂波)和LR(低分辨率)等。因此,针对不同视频应该在ResNet网络中选取不同的层进行特征提取,而且响应值融合时也应该选取不同的权重,这样才能保证每个视频的跟踪效果均为最好,利用深度残差网络ResNet-N 中的每一层分别对经过标注的公开数据集中视频进行特征提取,计算跟踪重叠率,选取跟踪重叠率位于前三的层构造第一训练样本,训练卷积神经网络CNN1,待跟踪图像序列经过卷积神经网络CNN1后,输出值即为特征层 L1、特征层L2和特征层L3,特征层L1、特征层L2和特征层L3不在每组卷积层的分界处,适应性更强,提高跟踪效果,利用经过标注的公开数据集、特征层L1、特征层L2和特征层L3构造第二训练样本,训练全连接网络FC1,全连接网络FC1由输入层I′1、全连接层F1、全连接层F2、全连接层F3和输出层O′1构成,待跟踪图像序列、特征层L1、特征层L2和特征层L3经过全连接网络FC1后,输出值即为特征层L1对应的权重γ1、特征层L2对应的权重γ2和特征层L3对应的权重γ3,能够针对不同视频,自适应地选取不同的特征层和对应的权重,可靠稳定;公开数据集采用经过标注的公开数据集OTB2015 或VOT2017。
本实施例中,步骤一中卷积层C1、卷积层C2和卷积层C3均采用5×5的卷积核,池化层P1和池化层P2均采用4×4的池化窗口,池化层P3采用2×2的池化窗口;全连接层F1中的节点个数为1024,全连接层F2中的节点个数为 256,全连接层F3中的节点个数为64。
本实施例中,步骤一中跟踪重叠率用overlap表示且其中,S1为跟踪计算得到的目标框面积,S2为手工标定的准确目标框面积。
步骤二、第一帧实际输入图像的特征提取:利用人工框选目标的方式对第一帧实际输入图像的目标进行框选,将实际拍摄且经过框选后的第一帧实际输入图像利用深度残差网络ResNet-N进行特征提取,提取出深度残差网络ResNet-N中特征层L1输出的特征x11、深度残差网络ResNet-N中特征层L2输出的特征x12和深度残差网络ResNet-N中特征层L3输出的特征 x13
步骤三、构建第一帧实际输入图像的特征的响应和初始位置滤波器:通过高斯函数构建特征x11的响应值y11,通过高斯函数构建特征x12的响应值 y12,通过高斯函数构建特征x13的响应值y13
根据公式构建初始位置滤波器其中,i为特征的对应编号且i=1,2,3,为y1i的傅里叶变换,z1i为第二帧实际输入图像对应特征x1i的估计特征且z1i=x1i||·||表示 2-范数,F-1为傅里叶逆变换,为x1i的共轭,的傅里叶变换,为 z1i的傅里叶变换,⊙为点乘运算,σ和λ为常数;
需要说明的是,位置滤波器采用核相关滤波器,可以判别被跟踪区域是目标还是背景,核函数的本质就是通过映射关系将特征从低维空间映射到高维空间,从而将低维空间中的线性不可分变为高维空间中的线性可分。核相关滤波器还引入循环矩阵实现了密集采样,同时利用矩阵循环矩阵在傅立叶空间可对角化等性质简化计算,显著提高跟踪速度。
步骤四、第一帧实际输入图像的尺度采样及fHOG特征提取:依据经过框选后的第一帧实际输入图像的目标中心位置,对第一帧实际输入图像的框选目标图像进行尺度采样,得到第一帧实际输入图像的M种不同尺度的目标样本,并将第一帧实际输入图像的M种不同尺度的目标样本的大小变换为大小统一的目标样本,对每个大小统一的目标样本进行31维fHOG 特征提取,并把每个大小统一的目标样本的所有fHOG特征串联成一个特征向量,该特征向量的长度为Lf,其中,M为不小于3的奇数;
步骤五、构建初始尺度滤波器:根据公式构建初始尺度滤波器其中,l为特征向量的维度编号且l=1,2,...,Lf,G1为通过高斯函数构建的第一帧实际输入图像的响应值的傅里叶变换,为G1的共轭,为第一帧实际输入图像的目标样本的第l维特征的傅里叶变换,λ' 为常数;
需要说明的是,通过首帧实际输入图像构建初始位置滤波器和初始尺度滤波器,采用多尺度采样技术,在跟踪过程中,能够适应目标尺度变化,实现对目标尺度的精确估计。
步骤六、第二帧实际输入图像的特征提取:将实际拍摄的第二帧实际输入图像利用深度残差网络ResNet-N进行特征提取,提取出深度残差网络ResNet-N中特征层L1输出的特征x21、深度残差网络ResNet-N中特征层L2输出的特征x22和深度残差网络ResNet-N中特征层L3输出的特征x23
步骤七、位置滤波:利用初始位置滤波器对深度残差网络ResNet-N 中特征层L1输出的特征x21、深度残差网络ResNet-N中特征层L2输出的特征x22和深度残差网络ResNet-N中特征层L3输出的特征x23进行位置滤波,获取特征x2i的位置滤波响应图,特征x2i的位置滤波响应图的大小为s×t,s 为位置滤波响应图的行向像素数,t为位置滤波响应图的列向像素数;
步骤八、位置滤波响应图的加权及目标定位:根据公式对三个特征的位置滤波响应图进行加权得到加权后的位置滤波响应图并计算目标的中心位置cuv,获取以目标的中心位置cuv为中心的目标图像,实现目标定位,其中,c为像素点的响应值,为第 i个特征的位置滤波响应图中第p行第q列像素点的响应值,p=1,2,...,s, q=1,2,...,t;
步骤九、目标图像的尺度采样及fHOG特征提取:依据目标的中心位置cuv,对目标图像进行尺度采样,得到目标图像的M种不同尺度的目标样本,并将目标图像的M种不同尺度的目标样本的大小变换为大小统一的目标图像样本,对每个大小统一的目标图像样本进行31维fHOG特征提取,并把每个大小统一的目标图像样本的所有fHOG特征串联成一个目标特征向量,该目标特征向量的长度为Lf
步骤十、目标特征向量的尺度滤波及尺度估计:利用初始尺度滤波器分别对M个目标特征向量进行尺度滤波,响应值最大的点即对应当前实际输入图像中目标的精确尺度,实现当前实际输入图像的尺度估计;
步骤十一、初始位置滤波器和初始尺度滤波器的更新:对步骤七中的初始位置滤波器进行更新,并将更新后的位置滤波器带入步骤七,同时对步骤十中的初始尺度滤波器进行更新,并将更新后的尺度滤波器带入步骤十;
本实施例中,步骤十一中将(1-η)x1i+ηx2i的值赋予x2i后,得到更新的x2i,将更新后的x2i带入公式得到初始位置滤波器的更新参考位置滤波器然后根据算式得到更新后的位置滤波器,其中,η为位置滤波器的学习率,y2i为通过高斯函数构建特征x2i的响应值,为y2i的傅里叶变换,z2i为第三帧实际输入图像对应特征x2i的估计特征且 z2i=x2i
本实施例中,所述位置滤波器的学习率η的取值范围为0<η<0.2。
本实施例中,步骤十一中令其中,的分子部分,B1的分母中除去常数λ'的部分;
根据公式构建初始尺度滤波器的更新参考尺度滤波器的分子部分G2为通过高斯函数构建的第二帧实际输入图像的目标样本的傅里叶变换,为G2的共轭,为第二帧实际输入图像的目标样本的第l维特征的傅里叶变换;
根据公式构建初始尺度滤波器的更新参考尺度滤波器的分母中除去常数λ'的部分B20
根据公式获取初始尺度滤波器的更新参考尺度滤波器
根据公式得到更新后的尺度滤波器其中,η'为尺度滤波器的学习率。
本实施例中,所述尺度滤波器的学习率η'的取值范围为0<η'<0.2。
步骤十二、输入下一帧实际输入图像,将下一帧实际输入图像视为第二帧实际输入图像后循环步骤六。
本发明使用时,通过深度残差网络的特征层提取目标特征,自适应地对权重参数进行选择,从而对提取的目标特征进行加权,算法精确度和成功率较高,易于在实际场景中推广应用,实现目标的鲁棒跟踪。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何限制,凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化,均仍属于本发明技术方案的保护范围内。

Claims (7)

1.一种基于深度残差网络特征的视觉目标跟踪方法,其特征在于,该方法包括以下步骤:
步骤一、选取深度残差网络的特征层并计算每个特征层对应的权重:在经过标注的公开数据集中,利用深度残差网络ResNet-N中的每一层分别对经过标注的公开数据集中视频进行特征提取,计算跟踪重叠率,选取跟踪重叠率位于前三的层构造第一训练样本,训练卷积神经网络CNN1,卷积神经网络CNN1由输入层I1、卷积层C1、池化层P1、卷积层C2、池化层P2、卷积层C3、池化层P3、全连接层F和输出层O1构成,待跟踪图像序列经过卷积神经网络CNN1后,输出值即为特征层L1、特征层L2和特征层L3
利用经过标注的公开数据集、特征层L1、特征层L2和特征层L3构造第二训练样本,训练全连接网络FC1,全连接网络FC1由输入层I′1、全连接层F1、全连接层F2、全连接层F3和输出层O′1构成,待跟踪图像序列、特征层L1、特征层L2和特征层L3经过全连接网络FC1后,输出值即为特征层L1对应的权重γ1、特征层L2对应的权重γ2和特征层L3对应的权重γ3
步骤二、第一帧实际输入图像的特征提取:利用人工框选目标的方式对第一帧实际输入图像的目标进行框选,将实际拍摄且经过框选后的第一帧实际输入图像利用深度残差网络ResNet-N进行特征提取,提取出深度残差网络ResNet-N中特征层L1输出的特征x11、深度残差网络ResNet-N中特征层L2输出的特征x12和深度残差网络ResNet-N中特征层L3输出的特征x13
步骤三、构建第一帧实际输入图像的特征的响应和初始位置滤波器:通过高斯函数构建特征x11的响应值y11,通过高斯函数构建特征x12的响应值y12,通过高斯函数构建特征x13的响应值y13
根据公式构建初始位置滤波器其中,i为特征的对应编号且i=1,2,3,为y1i的傅里叶变换,z1i为第二帧实际输入图像对应特征x1i的估计特征且z1i=x1i||·||表示2-范数,F-1为傅里叶逆变换,为x1i的共轭,的傅里叶变换,为z1i的傅里叶变换,⊙为点乘运算,σ和λ为常数;
步骤四、第一帧实际输入图像的尺度采样及fHOG特征提取:依据经过框选后的第一帧实际输入图像的目标中心位置,对第一帧实际输入图像的框选目标图像进行尺度采样,得到第一帧实际输入图像的M种不同尺度的目标样本,并将第一帧实际输入图像的M种不同尺度的目标样本的大小变换为大小统一的目标样本,对每个大小统一的目标样本进行31维fHOG特征提取,并把每个大小统一的目标样本的所有fHOG特征串联成一个特征向量,该特征向量的长度为Lf,其中,M为不小于3的奇数;
步骤五、构建初始尺度滤波器:根据公式构建初始尺度滤波器其中,l为特征向量的维度编号且l=1,2,...,Lf,G1为通过高斯函数构建的第一帧实际输入图像的响应值的傅里叶变换,为G1的共轭,F1 l为第一帧实际输入图像的目标样本的第l维特征的傅里叶变换,λ'为常数;
步骤六、第二帧实际输入图像的特征提取:将实际拍摄的第二帧实际输入图像利用深度残差网络ResNet-N进行特征提取,提取出深度残差网络ResNet-N中特征层L1输出的特征x21、深度残差网络ResNet-N中特征层L2输出的特征x22和深度残差网络ResNet-N中特征层L3输出的特征x23
步骤七、位置滤波:利用初始位置滤波器对深度残差网络ResNet-N中特征层L1输出的特征x21、深度残差网络ResNet-N中特征层L2输出的特征x22和深度残差网络ResNet-N中特征层L3输出的特征x23进行位置滤波,获取特征x2i的位置滤波响应图,特征x2i的位置滤波响应图的大小为s×t,s为位置滤波响应图的行向像素数,t为位置滤波响应图的列向像素数;
步骤八、位置滤波响应图的加权及目标定位:根据公式对三个特征的位置滤波响应图进行加权得到加权后的位置滤波响应图并计算目标的中心位置cuv,获取以目标的中心位置cuv为中心的目标图像,实现目标定位,其中,c为像素点的响应值,为第i个特征的位置滤波响应图中第p行第q列像素点的响应值,p=1,2,...,s,q=1,2,...,t;
步骤九、目标图像的尺度采样及fHOG特征提取:依据目标的中心位置cuv,对目标图像进行尺度采样,得到目标图像的M种不同尺度的目标样本,并将目标图像的M种不同尺度的目标样本的大小变换为大小统一的目标图像样本,对每个大小统一的目标图像样本进行31维fHOG特征提取,并把每个大小统一的目标图像样本的所有fHOG特征串联成一个目标特征向量,该目标特征向量的长度为Lf
步骤十、目标特征向量的尺度滤波及尺度估计:利用初始尺度滤波器分别对M个目标特征向量进行尺度滤波,响应值最大的点即对应当前实际输入图像中目标的精确尺度,实现当前实际输入图像的尺度估计;
步骤十一、初始位置滤波器和初始尺度滤波器的更新:对步骤七中的初始位置滤波器进行更新,并将更新后的位置滤波器带入步骤七,同时对步骤十中的初始尺度滤波器进行更新,并将更新后的尺度滤波器带入步骤十;
步骤十二、输入下一帧实际输入图像,将下一帧实际输入图像视为第二帧实际输入图像后循环步骤六。
2.按照权利要求1所述的一种基于深度残差网络特征的视觉目标跟踪方法,其特征在于:步骤十一中将(1-η)x1i+ηx2i的值赋予x2i后,得到更新的x2i,将更新后的x2i带入公式得到初始位置滤波器的更新参考位置滤波器然后根据算式得到更新后的位置滤波器,其中,η为位置滤波器的学习率,y2i为通过高斯函数构建特征x2i的响应值,为y2i的傅里叶变换,z2i为第三帧实际输入图像对应特征x2i的估计特征且z2i=x2i
3.按照权利要求1所述的一种基于深度残差网络特征的视觉目标跟踪方法,其特征在于:步骤十一中令其中,的分子部分,B1的分母中除去常数λ'的部分;
根据公式构建初始尺度滤波器的更新参考尺度滤波器的分子部分G2为通过高斯函数构建的第二帧实际输入图像的目标样本的傅里叶变换,为G2的共轭,为第二帧实际输入图像的目标样本的第l维特征的傅里叶变换;
根据公式构建初始尺度滤波器的更新参考尺度滤波器的分母中除去常数λ'的部分B20
根据公式获取初始尺度滤波器的更新参考尺度滤波器
根据公式得到更新后的尺度滤波器其中,η'为尺度滤波器的学习率。
4.按照权利要求1所述的一种基于深度残差网络特征的视觉目标跟踪方法,其特征在于:步骤一中卷积层C1、卷积层C2和卷积层C3均采用5×5的卷积核,池化层P1和池化层P2均采用4×4的池化窗口,池化层P3采用2×2的池化窗口;全连接层F1中的节点个数为1024,全连接层F2中的节点个数为256,全连接层F3中的节点个数为64。
5.按照权利要求1所述的一种基于深度残差网络特征的视觉目标跟踪方法,其特征在于:步骤一中跟踪重叠率用overlap表示且其中,S1为跟踪计算得到的目标框面积,S2为手工标定的准确目标框面积。
6.按照权利要求2所述的一种基于深度残差网络特征的视觉目标跟踪方法,其特征在于:所述位置滤波器的学习率η的取值范围为0<η<0.2。
7.按照权利要求3所述的一种基于深度残差网络特征的视觉目标跟踪方法,其特征在于:所述尺度滤波器的学习率η'的取值范围为0<η'<0.2。
CN201910095621.5A 2019-01-31 2019-01-31 一种基于深度残差网络特征的视觉目标跟踪方法 Active CN109801311B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910095621.5A CN109801311B (zh) 2019-01-31 2019-01-31 一种基于深度残差网络特征的视觉目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910095621.5A CN109801311B (zh) 2019-01-31 2019-01-31 一种基于深度残差网络特征的视觉目标跟踪方法

Publications (2)

Publication Number Publication Date
CN109801311A true CN109801311A (zh) 2019-05-24
CN109801311B CN109801311B (zh) 2021-07-16

Family

ID=66559237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910095621.5A Active CN109801311B (zh) 2019-01-31 2019-01-31 一种基于深度残差网络特征的视觉目标跟踪方法

Country Status (1)

Country Link
CN (1) CN109801311B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378938A (zh) * 2019-06-24 2019-10-25 杭州电子科技大学 一种基于残差回归网络的单目标跟踪方法
CN110689559A (zh) * 2019-09-30 2020-01-14 长安大学 一种基于密集卷积网络特征的视觉目标跟踪方法
CN110889864A (zh) * 2019-09-03 2020-03-17 河南理工大学 一种基于双层深度特征感知的目标跟踪方法
CN111210461A (zh) * 2019-12-30 2020-05-29 成都慧视光电技术有限公司 一种自适应尺度变化的实时相关滤波跟踪算法
CN111968156A (zh) * 2020-07-28 2020-11-20 国网福建省电力有限公司 一种自适应超特征融合的视觉跟踪方法
CN113592899A (zh) * 2021-05-28 2021-11-02 北京理工大学重庆创新中心 一种相关滤波目标跟踪深度特征的提取方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105741316A (zh) * 2016-01-20 2016-07-06 西北工业大学 基于深度学习和多尺度相关滤波的鲁棒目标跟踪方法
CN106887011A (zh) * 2017-01-20 2017-06-23 北京理工大学 一种基于cnn和cf的多模板目标跟踪方法
CN107154024A (zh) * 2017-05-19 2017-09-12 南京理工大学 基于深度特征核相关滤波器的尺度自适应目标跟踪方法
CN107369166A (zh) * 2017-07-13 2017-11-21 深圳大学 一种基于多分辨率神经网络的目标跟踪方法及系统
CN107578423A (zh) * 2017-09-15 2018-01-12 杭州电子科技大学 多特征分层融合的相关滤波鲁棒跟踪方法
WO2018084942A1 (en) * 2016-11-07 2018-05-11 Qualcomm Incorporated Deep cross-correlation learning for object tracking
CN108596951A (zh) * 2018-03-30 2018-09-28 西安电子科技大学 一种融合特征的目标跟踪方法
CN109272036A (zh) * 2018-09-14 2019-01-25 西南交通大学 一种基于深度残差网络的随机蕨目标跟踪方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105741316A (zh) * 2016-01-20 2016-07-06 西北工业大学 基于深度学习和多尺度相关滤波的鲁棒目标跟踪方法
WO2018084942A1 (en) * 2016-11-07 2018-05-11 Qualcomm Incorporated Deep cross-correlation learning for object tracking
CN106887011A (zh) * 2017-01-20 2017-06-23 北京理工大学 一种基于cnn和cf的多模板目标跟踪方法
CN107154024A (zh) * 2017-05-19 2017-09-12 南京理工大学 基于深度特征核相关滤波器的尺度自适应目标跟踪方法
CN107369166A (zh) * 2017-07-13 2017-11-21 深圳大学 一种基于多分辨率神经网络的目标跟踪方法及系统
CN107578423A (zh) * 2017-09-15 2018-01-12 杭州电子科技大学 多特征分层融合的相关滤波鲁棒跟踪方法
CN108596951A (zh) * 2018-03-30 2018-09-28 西安电子科技大学 一种融合特征的目标跟踪方法
CN109272036A (zh) * 2018-09-14 2019-01-25 西南交通大学 一种基于深度残差网络的随机蕨目标跟踪方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BING LIU等: "MSST-ResNet: Deep multi-scale spatiotemporal features for robust visual object tracking", 《KNOWLEDGE-BASED SYSTEMS》 *
LONG CHAOYANG等: "Robust real-time visual object tracking via multi-scale fully convolutional Siamese networks", 《SPRINGER》 *
XIN WANG等: "Online Scale Adaptive Visual Tracking Based on Multilayer Convolutional Features", 《IEEE TRANSACTIONS ON CYBERNETICS》 *
ZHONGMIN WANG等: "Long-term visual tracking based on adaptive correlation filters", 《JOURNAL OF ELECTRONIC IMAGING》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378938A (zh) * 2019-06-24 2019-10-25 杭州电子科技大学 一种基于残差回归网络的单目标跟踪方法
CN110889864A (zh) * 2019-09-03 2020-03-17 河南理工大学 一种基于双层深度特征感知的目标跟踪方法
CN110889864B (zh) * 2019-09-03 2023-04-18 河南理工大学 一种基于双层深度特征感知的目标跟踪方法
CN110689559A (zh) * 2019-09-30 2020-01-14 长安大学 一种基于密集卷积网络特征的视觉目标跟踪方法
CN110689559B (zh) * 2019-09-30 2022-08-12 长安大学 一种基于密集卷积网络特征的视觉目标跟踪方法
CN111210461A (zh) * 2019-12-30 2020-05-29 成都慧视光电技术有限公司 一种自适应尺度变化的实时相关滤波跟踪算法
CN111210461B (zh) * 2019-12-30 2023-06-02 成都慧视光电技术有限公司 一种自适应尺度变化的实时相关滤波跟踪算法
CN111968156A (zh) * 2020-07-28 2020-11-20 国网福建省电力有限公司 一种自适应超特征融合的视觉跟踪方法
CN113592899A (zh) * 2021-05-28 2021-11-02 北京理工大学重庆创新中心 一种相关滤波目标跟踪深度特征的提取方法

Also Published As

Publication number Publication date
CN109801311B (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN109801311A (zh) 一种基于深度残差网络特征的视觉目标跟踪方法
CN109816689A (zh) 一种多层卷积特征自适应融合的运动目标跟踪方法
CN108665481A (zh) 多层深度特征融合的自适应抗遮挡红外目标跟踪方法
CN111311647B (zh) 一种基于全局-局部及卡尔曼滤波的目标跟踪方法及装置
Huang et al. Development and validation of a deep learning algorithm for the recognition of plant disease
CN107330357A (zh) 基于深度神经网络的视觉slam闭环检测方法
CN107316316A (zh) 基于多特征自适应融合和核相关滤波技术的目标跟踪方法
CN107481264A (zh) 一种自适应尺度的视频目标跟踪方法
CN105550678A (zh) 基于全局显著边缘区域的人体动作特征提取方法
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
CN110276785B (zh) 一种抗遮挡红外目标跟踪方法
CN107657233A (zh) 基于改进型单次多目标检测器的静态手语实时识别方法
CN107452022A (zh) 一种视频目标跟踪方法
CN105956517A (zh) 一种基于密集轨迹的动作识别方法
CN103985143A (zh) 基于字典学习的视频中判别性在线目标跟踪方法
CN109948646A (zh) 一种时序数据相似度度量方法及度量系统
CN111161271A (zh) 一种超声图像分割方法
Liu et al. CAFFNet: channel attention and feature fusion network for multi-target traffic sign detection
CN110334566A (zh) 一种基于三维全卷积神经网络的oct内外指纹提取方法
CN111027586A (zh) 一种基于新型响应图融合的目标跟踪方法
Feng Mask RCNN-based single shot multibox detector for gesture recognition in physical education
Luo et al. SiamSMDFFF: Siamese network tracker based on shallow-middle-deep three-level feature fusion and clustering-based adaptive rectangular window filtering
Wang Neural network-oriented big data model for yoga movement recognition
CN107679487A (zh) 失踪人口鉴别方法和系统
Zhang et al. Air-GR: An Over-the-Air Handwritten Character Recognition System Based on Coordinate Correction YOLOv5 Algorithm and LGR-CNN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant