CN109801311A

CN109801311A - 一种基于深度残差网络特征的视觉目标跟踪方法

Info

Publication number: CN109801311A
Application number: CN201910095621.5A
Authority: CN
Inventors: 马素刚; 赵祥模; 侯志强; 王忠民; 惠飞
Original assignee: Changan University; Xian University of Posts and Telecommunications
Current assignee: Changan University; Xian University of Posts and Telecommunications
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2019-05-24
Anticipated expiration: 2039-01-31
Also published as: CN109801311B

Abstract

本发明公开了一种基于深度残差网络特征的视觉目标跟踪方法，包括步骤：一、选取深度残差网络的特征层并计算权重；二、第一帧实际输入图像的特征提取；三、构建第一帧实际输入图像的特征的响应和初始位置滤波器；四、第一帧实际输入图像的尺度采样及fHOG特征提取；五、构建初始尺度滤波器；六、第二帧实际输入图像的特征提取；七、位置滤波；八、位置滤波响应图的加权及目标定位；九、目标图像的尺度采样及fHOG特征提取；十、目标特征向量的尺度滤波及尺度估计；十一、滤波器更新；十二、输入下一帧实际输入图像，将下一帧实际输入图像视为第二帧实际输入图像后循环步骤六。本发明跟踪精确度和成功率高，适应目标尺度变化，实现目标的鲁棒跟踪。

Description

一种基于深度残差网络特征的视觉目标跟踪方法

技术领域

本发明属于目标跟踪技术领域，具体涉及一种基于深度残差网络特征的视觉目标跟踪方法。

背景技术

人工智能的应用非常广泛，涵盖很多技术领域，主要包括计算机视觉、自然语言处理、认知与推理、机器人学、博弈与伦理、机器学习等。视觉是人脑最主要的信息来源，也是进入人工智能这个殿堂的大门。人的大脑皮层活动，大约70％是在处理视觉相关信息。计算机视觉是以图像(视频)为输入，研究图像信息组织、物体和场景识别等内容，进而对事件给予解释，从而实现对环境的表达和理解。

目标跟踪作为计算机视觉领域的基础问题之一，一直是计算机视觉领域研究的热点。目标跟踪是指对图像序列中运动目标进行检测、提取和识别，获得运动目标的运动参数，如位置、速度、加速度和运动轨迹等，从而对运动目标的行为进行理解，以完成更高一级的任务。根据观测模型不同，目标跟踪算法可分为生成式(Generat ive)模型算法和判别式(Discriminative)模型算法两类。生成式模型算法通过模板匹配，选取最相似的候选区域作为跟踪结果，该方法着眼于对目标本身的刻画，忽略背景信息，在目标自身变化剧烈或者被遮挡时容易产生漂移。判别式模型算法通过训练一个分类器来区分目标与背景，选择置信度最高的候选样本作为预测结果，由于跟踪算法精度和速度的限制，仍然制约着跟踪算法在实际场景中的应用。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于深度残差网络特征的视觉目标跟踪方法，通过深度残差网络的特征层提取目标特征，自适应地对权重参数进行选择，从而对提取的目标特征进行加权，算法精确度和成功率较高，易于在实际场景中推广应用，实现目标的鲁棒跟踪。

为解决上述技术问题，本发明采用的技术方案是：一种基于深度残差网络特征的视觉目标跟踪方法，其特征在于，该方法包括以下步骤：

步骤一、选取深度残差网络的特征层并计算每个特征层对应的权重：在经过标注的公开数据集中，利用深度残差网络ResNet-N中的每一层分别对经过标注的公开数据集中视频进行特征提取，计算跟踪重叠率，选取跟踪重叠率位于前三的层构造第一训练样本，训练卷积神经网络CNN₁，卷积神经网络CNN₁由输入层I₁、卷积层C₁、池化层P₁、卷积层C₂、池化层P₂、卷积层C₃、池化层P₃、全连接层F和输出层O₁构成，待跟踪图像序列经过卷积神经网络CNN₁后，输出值即为特征层L₁、特征层L₂和特征层L₃；

利用经过标注的公开数据集、特征层L₁、特征层L₂和特征层L₃构造第二训练样本，训练全连接网络FC₁，全连接网络FC₁由输入层I′₁、全连接层F₁、全连接层F₂、全连接层F₃和输出层O′₁构成，待跟踪图像序列、特征层L₁、特征层L₂和特征层L₃经过全连接网络FC₁后，输出值即为特征层L₁对应的权重γ₁、特征层L₂对应的权重γ₂和特征层L₃对应的权重γ₃；

步骤二、第一帧实际输入图像的特征提取：利用人工框选目标的方式对第一帧实际输入图像的目标进行框选，将实际拍摄且经过框选后的第一帧实际输入图像利用深度残差网络ResNet-N进行特征提取，提取出深度残差网络ResNet-N中特征层L₁输出的特征x₁₁、深度残差网络ResNet-N中特征层L₂输出的特征x₁₂和深度残差网络ResNet-N中特征层L₃输出的特征 x₁₃；

步骤三、构建第一帧实际输入图像的特征的响应和初始位置滤波器：通过高斯函数构建特征x₁₁的响应值y₁₁，通过高斯函数构建特征x₁₂的响应值 y₁₂，通过高斯函数构建特征x₁₃的响应值y₁₃；

根据公式构建初始位置滤波器其中，i为特征的对应编号且i＝1,2,3，为y_1i的傅里叶变换，z_1i为第二帧实际输入图像对应特征x_1i的估计特征且z_1i＝x_1i，||·||表示 2-范数，F^-1为傅里叶逆变换，为x_1i的共轭，为的傅里叶变换，为 z_1i的傅里叶变换，⊙为点乘运算，σ和λ为常数；

步骤四、第一帧实际输入图像的尺度采样及fHOG特征提取：依据经过框选后的第一帧实际输入图像的目标中心位置，对第一帧实际输入图像的框选目标图像进行尺度采样，得到第一帧实际输入图像的M种不同尺度的目标样本，并将第一帧实际输入图像的M种不同尺度的目标样本的大小变换为大小统一的目标样本，对每个大小统一的目标样本进行31维fHOG 特征提取，并把每个大小统一的目标样本的所有fHOG特征串联成一个特征向量，该特征向量的长度为L_f，其中，M为不小于3的奇数；

步骤五、构建初始尺度滤波器：根据公式构建初始尺度滤波器其中，l为特征向量的维度编号且l＝1,2,...,L_f，G₁为通过高斯函数构建的第一帧实际输入图像的响应值的傅里叶变换，为G₁的共轭，为第一帧实际输入图像的目标样本的第l维特征的傅里叶变换，λ' 为常数；

步骤六、第二帧实际输入图像的特征提取：将实际拍摄的第二帧实际输入图像利用深度残差网络ResNet-N进行特征提取，提取出深度残差网络ResNet-N中特征层L₁输出的特征x₂₁、深度残差网络ResNet-N中特征层 L₂输出的特征x₂₂和深度残差网络ResNet-N中特征层L₃输出的特征x₂₃；

步骤七、位置滤波：利用初始位置滤波器对深度残差网络ResNet-N 中特征层L₁输出的特征x₂₁、深度残差网络ResNet-N中特征层L₂输出的特征x₂₂和深度残差网络ResNet-N中特征层L₃输出的特征x₂₃进行位置滤波，获取特征x_2i的位置滤波响应图，特征x_2i的位置滤波响应图的大小为s×t，s 为位置滤波响应图的行向像素数，t为位置滤波响应图的列向像素数；

步骤八、位置滤波响应图的加权及目标定位：根据公式对三个特征的位置滤波响应图进行加权得到加权后的位置滤波响应图并计算目标的中心位置c_uv，获取以目标的中心位置c_uv为中心的目标图像，实现目标定位，其中，c为像素点的响应值，为第 i个特征的位置滤波响应图中第p行第q列像素点的响应值，p＝1,2,...,s， q＝1,2,...,t；

步骤九、目标图像的尺度采样及fHOG特征提取：依据目标的中心位置c_uv，对目标图像进行尺度采样，得到目标图像的M种不同尺度的目标样本，并将目标图像的M种不同尺度的目标样本的大小变换为大小统一的目标图像样本，对每个大小统一的目标图像样本进行31维fHOG特征提取，并把每个大小统一的目标图像样本的所有fHOG特征串联成一个目标特征向量，该目标特征向量的长度为L_f；

步骤十、目标特征向量的尺度滤波及尺度估计：利用初始尺度滤波器分别对M个目标特征向量进行尺度滤波，响应值最大的点即对应当前实际输入图像中目标的精确尺度，实现当前实际输入图像的尺度估计；

步骤十一、初始位置滤波器和初始尺度滤波器的更新：对步骤七中的初始位置滤波器进行更新，并将更新后的位置滤波器带入步骤七，同时对步骤十中的初始尺度滤波器进行更新，并将更新后的尺度滤波器带入步骤十；

步骤十二、输入下一帧实际输入图像，将下一帧实际输入图像视为第二帧实际输入图像后循环步骤六。

上述的一种基于深度残差网络特征的视觉目标跟踪方法，其特征在于：步骤十一中将(1-η)x_1i+ηx_2i的值赋予x_2i后，得到更新的x_2i，将更新后的 x_2i带入公式得到初始位置滤波器的更新参考位置滤波器然后根据算式得到更新后的位置滤波器，其中，η为位置滤波器的学习率，y_2i为通过高斯函数构建特征x_2i的响应值，为y_2i的傅里叶变换，z_2i为第三帧实际输入图像对应特征x_2i的估计特征且z_2i＝x_2i，

上述的一种基于深度残差网络特征的视觉目标跟踪方法，其特征在于：步骤十一中令其中，为的分子部分， B₁为的分母中除去常数λ'的部分；

根据公式构建初始尺度滤波器的更新参考尺度滤波器的分子部分G₂为通过高斯函数构建的第二帧实际输入图像的目标样本的傅里叶变换，为G₂的共轭，为第二帧实际输入图像的目标样本的第l维特征的傅里叶变换；

根据公式构建初始尺度滤波器的更新参考尺度滤波器的分母中除去常数λ'的部分B₂₀；

根据公式获取初始尺度滤波器的更新参考尺度滤波器

根据公式得到更新后的尺度滤波器其中，η'为尺度滤波器的学习率。

上述的一种基于深度残差网络特征的视觉目标跟踪方法，其特征在于：步骤一中卷积层C₁、卷积层C₂和卷积层C₃均采用5×5的卷积核，池化层P₁和池化层P₂均采用4×4的池化窗口，池化层P₃采用2×2的池化窗口；全连接层F₁中的节点个数为1024，全连接层F₂中的节点个数为256，全连接层F₃中的节点个数为64。

上述的一种基于深度残差网络特征的视觉目标跟踪方法，其特征在于：步骤一中跟踪重叠率用overlap表示且其中，S₁为跟踪计算得到的目标框面积，S₂为手工标定的准确目标框面积。

上述的一种基于深度残差网络特征的视觉目标跟踪方法，其特征在于：所述位置滤波器的学习率η的取值范围为0＜η＜0.2。

上述的一种基于深度残差网络特征的视觉目标跟踪方法，其特征在于：所述尺度滤波器的学习率η'的取值范围为0＜η'＜0.2。

本发明与现有技术相比具有以下优点：

1、本发明利用深度残差网络ResNet-N中的每一层分别对经过标注的公开数据集中视频进行特征提取，计算跟踪重叠率，选取跟踪重叠率位于前三的层构造第一训练样本，训练卷积神经网络CNN₁，待跟踪图像序列经过卷积神经网络CNN₁后，输出值即为特征层L₁、特征层L₂和特征层L₃，特征层L₁、特征层L₂和特征层L₃不在每组卷积层的分界处，适应性更强，提高跟踪效果，便于推广使用。

2、本发明利用经过标注的公开数据集、特征层L₁、特征层L₂和特征层 L₃构造第二训练样本，训练全连接网络FC₁，全连接网络FC₁由输入层I′₁、全连接层F₁、全连接层F₂、全连接层F₃和输出层O′₁构成，待跟踪图像序列、特征层L₁、特征层L₂和特征层L₃经过全连接网络FC₁后，输出值即为特征层 L₁对应的权重γ₁、特征层L₂对应的权重γ₂和特征层L₃对应的权重γ₃，能够针对不同视频，自适应地选取不同的特征层和对应的权重，可靠稳定，使用效果好。

3、本发明方法步骤简单，通过首帧实际输入图像构建初始位置滤波器和初始尺度滤波器，采用多尺度采样技术，在跟踪过程中，能够适应目标尺度变化，实现对目标尺度的精确估计，便于推广使用。

综上所述，本发明通过深度残差网络的特征层提取目标特征，自适应地对权重参数进行选择，从而对提取的目标特征进行加权，算法精确度和成功率较高，易于在实际场景中推广应用，实现目标的鲁棒跟踪，便于推广使用。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明方法的流程框图。

具体实施方式

如图1所示，本发明的一种基于深度残差网络特征的视觉目标跟踪方法，包括以下步骤：

需要说明的是，不同视频具有的属性可能不同，包括SV(尺度变化)、 IV(光照变化)、OCC(目标遮挡)、DEF(目标形变)、MB(运动模糊)、FM(快速运动)、IPR(平面内旋转)、OPR(平面外旋转)、OV(目标超出视野)、BC(背景杂波)和LR(低分辨率)等。因此，针对不同视频应该在ResNet网络中选取不同的层进行特征提取，而且响应值融合时也应该选取不同的权重，这样才能保证每个视频的跟踪效果均为最好，利用深度残差网络ResNet-N 中的每一层分别对经过标注的公开数据集中视频进行特征提取，计算跟踪重叠率，选取跟踪重叠率位于前三的层构造第一训练样本，训练卷积神经网络CNN₁，待跟踪图像序列经过卷积神经网络CNN₁后，输出值即为特征层 L₁、特征层L₂和特征层L₃，特征层L₁、特征层L₂和特征层L₃不在每组卷积层的分界处，适应性更强，提高跟踪效果，利用经过标注的公开数据集、特征层L₁、特征层L₂和特征层L₃构造第二训练样本，训练全连接网络FC₁，全连接网络FC₁由输入层I′₁、全连接层F₁、全连接层F₂、全连接层F₃和输出层O′₁构成，待跟踪图像序列、特征层L₁、特征层L₂和特征层L₃经过全连接网络FC₁后，输出值即为特征层L₁对应的权重γ₁、特征层L₂对应的权重γ₂和特征层L₃对应的权重γ₃，能够针对不同视频，自适应地选取不同的特征层和对应的权重，可靠稳定；公开数据集采用经过标注的公开数据集OTB2015 或VOT2017。

本实施例中，步骤一中卷积层C₁、卷积层C₂和卷积层C₃均采用5×5的卷积核，池化层P₁和池化层P₂均采用4×4的池化窗口，池化层P₃采用2×2的池化窗口；全连接层F₁中的节点个数为1024，全连接层F₂中的节点个数为 256，全连接层F₃中的节点个数为64。

本实施例中，步骤一中跟踪重叠率用overlap表示且其中，S₁为跟踪计算得到的目标框面积，S₂为手工标定的准确目标框面积。

需要说明的是，位置滤波器采用核相关滤波器，可以判别被跟踪区域是目标还是背景，核函数的本质就是通过映射关系将特征从低维空间映射到高维空间，从而将低维空间中的线性不可分变为高维空间中的线性可分。核相关滤波器还引入循环矩阵实现了密集采样，同时利用矩阵循环矩阵在傅立叶空间可对角化等性质简化计算，显著提高跟踪速度。

需要说明的是，通过首帧实际输入图像构建初始位置滤波器和初始尺度滤波器，采用多尺度采样技术，在跟踪过程中，能够适应目标尺度变化，实现对目标尺度的精确估计。

步骤六、第二帧实际输入图像的特征提取：将实际拍摄的第二帧实际输入图像利用深度残差网络ResNet-N进行特征提取，提取出深度残差网络ResNet-N中特征层L₁输出的特征x₂₁、深度残差网络ResNet-N中特征层L₂输出的特征x₂₂和深度残差网络ResNet-N中特征层L₃输出的特征x₂₃；

本实施例中，步骤十一中将(1-η)x_1i+ηx_2i的值赋予x_2i后，得到更新的x_2i，将更新后的x_2i带入公式得到初始位置滤波器的更新参考位置滤波器然后根据算式得到更新后的位置滤波器，其中，η为位置滤波器的学习率，y_2i为通过高斯函数构建特征x_2i的响应值，为y_2i的傅里叶变换，z_2i为第三帧实际输入图像对应特征x_2i的估计特征且 z_2i＝x_2i，

本实施例中，所述位置滤波器的学习率η的取值范围为0＜η＜0.2。

本实施例中，步骤十一中令其中，为的分子部分，B₁为的分母中除去常数λ'的部分；

根据公式获取初始尺度滤波器的更新参考尺度滤波器

本实施例中，所述尺度滤波器的学习率η'的取值范围为0＜η'＜0.2。

本发明使用时，通过深度残差网络的特征层提取目标特征，自适应地对权重参数进行选择，从而对提取的目标特征进行加权，算法精确度和成功率较高，易于在实际场景中推广应用，实现目标的鲁棒跟踪。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何限制，凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化，均仍属于本发明技术方案的保护范围内。

Claims

1.一种基于深度残差网络特征的视觉目标跟踪方法，其特征在于，该方法包括以下步骤：

步骤二、第一帧实际输入图像的特征提取：利用人工框选目标的方式对第一帧实际输入图像的目标进行框选，将实际拍摄且经过框选后的第一帧实际输入图像利用深度残差网络ResNet-N进行特征提取，提取出深度残差网络ResNet-N中特征层L₁输出的特征x₁₁、深度残差网络ResNet-N中特征层L₂输出的特征x₁₂和深度残差网络ResNet-N中特征层L₃输出的特征x₁₃；

步骤三、构建第一帧实际输入图像的特征的响应和初始位置滤波器：通过高斯函数构建特征x₁₁的响应值y₁₁，通过高斯函数构建特征x₁₂的响应值y₁₂，通过高斯函数构建特征x₁₃的响应值y₁₃；

根据公式构建初始位置滤波器其中，i为特征的对应编号且i＝1,2,3，为y_1i的傅里叶变换，z_1i为第二帧实际输入图像对应特征x_1i的估计特征且z_1i＝x_1i，||·||表示2-范数，F^-1为傅里叶逆变换，为x_1i的共轭，为的傅里叶变换，为z_1i的傅里叶变换，⊙为点乘运算，σ和λ为常数；

步骤四、第一帧实际输入图像的尺度采样及fHOG特征提取：依据经过框选后的第一帧实际输入图像的目标中心位置，对第一帧实际输入图像的框选目标图像进行尺度采样，得到第一帧实际输入图像的M种不同尺度的目标样本，并将第一帧实际输入图像的M种不同尺度的目标样本的大小变换为大小统一的目标样本，对每个大小统一的目标样本进行31维fHOG特征提取，并把每个大小统一的目标样本的所有fHOG特征串联成一个特征向量，该特征向量的长度为L_f，其中，M为不小于3的奇数；

步骤五、构建初始尺度滤波器：根据公式构建初始尺度滤波器其中，l为特征向量的维度编号且l＝1,2,...,L_f，G₁为通过高斯函数构建的第一帧实际输入图像的响应值的傅里叶变换，为G₁的共轭，F₁ ^l为第一帧实际输入图像的目标样本的第l维特征的傅里叶变换，λ'为常数；

步骤七、位置滤波：利用初始位置滤波器对深度残差网络ResNet-N中特征层L₁输出的特征x₂₁、深度残差网络ResNet-N中特征层L₂输出的特征x₂₂和深度残差网络ResNet-N中特征层L₃输出的特征x₂₃进行位置滤波，获取特征x_2i的位置滤波响应图，特征x_2i的位置滤波响应图的大小为s×t，s为位置滤波响应图的行向像素数，t为位置滤波响应图的列向像素数；

步骤八、位置滤波响应图的加权及目标定位：根据公式对三个特征的位置滤波响应图进行加权得到加权后的位置滤波响应图并计算目标的中心位置c_uv，获取以目标的中心位置c_uv为中心的目标图像，实现目标定位，其中，c为像素点的响应值，为第i个特征的位置滤波响应图中第p行第q列像素点的响应值，p＝1,2,...,s，q＝1,2,...,t；

2.按照权利要求1所述的一种基于深度残差网络特征的视觉目标跟踪方法，其特征在于：步骤十一中将(1-η)x_1i+ηx_2i的值赋予x_2i后，得到更新的x_2i，将更新后的x_2i带入公式得到初始位置滤波器的更新参考位置滤波器然后根据算式得到更新后的位置滤波器，其中，η为位置滤波器的学习率，y_2i为通过高斯函数构建特征x_2i的响应值，为y_2i的傅里叶变换，z_2i为第三帧实际输入图像对应特征x_2i的估计特征且z_2i＝x_2i，

3.按照权利要求1所述的一种基于深度残差网络特征的视觉目标跟踪方法，其特征在于：步骤十一中令其中，为的分子部分，B₁为的分母中除去常数λ'的部分；

根据公式获取初始尺度滤波器的更新参考尺度滤波器

4.按照权利要求1所述的一种基于深度残差网络特征的视觉目标跟踪方法，其特征在于：步骤一中卷积层C₁、卷积层C₂和卷积层C₃均采用5×5的卷积核，池化层P₁和池化层P₂均采用4×4的池化窗口，池化层P₃采用2×2的池化窗口；全连接层F₁中的节点个数为1024，全连接层F₂中的节点个数为256，全连接层F₃中的节点个数为64。

5.按照权利要求1所述的一种基于深度残差网络特征的视觉目标跟踪方法，其特征在于：步骤一中跟踪重叠率用overlap表示且其中，S₁为跟踪计算得到的目标框面积，S₂为手工标定的准确目标框面积。

6.按照权利要求2所述的一种基于深度残差网络特征的视觉目标跟踪方法，其特征在于：所述位置滤波器的学习率η的取值范围为0＜η＜0.2。

7.按照权利要求3所述的一种基于深度残差网络特征的视觉目标跟踪方法，其特征在于：所述尺度滤波器的学习率η'的取值范围为0＜η'＜0.2。