CN113793359A

CN113793359A - 一种融合孪生网络与相关滤波的目标跟踪方法

Info

Publication number: CN113793359A
Application number: CN202110982258.6A
Authority: CN
Inventors: 胡秀华; 陈媛; 刘焕; 惠燕; 梁颖宇; 吴玺
Original assignee: Xian Technological University
Current assignee: Xian Technological University
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2021-12-14
Anticipated expiration: 2041-08-25
Also published as: CN113793359B

Abstract

本发明提供了一种融合孪生网络与相关滤波的目标跟踪方法包括如下：步骤一、利用ResNet50网络提取图像特征；步骤二、通过注意力机制，将不同网络层次的特征进行融合，得到融合边缘与语义特性的判别性特征；步骤三、将自适应尺度与学习速率调整的背景感知相关滤波模型引入网络结构，设计更新策略，实现对目标模板信息进行有效更新；该方法能够通过利用注意力机制方法优化目标表观特征信息的描述，利用自适应尺度与学习速率调整的背景感知相关滤波模型设计模型更新策略，并通过相似性判定准则与置信图得到目标最佳位置，最终有效适应遮挡、尺度变化、快速运动、旋转形变及运动模糊等多种复杂因素的影响，实现准确的目标运动状态估计。

Description

一种融合孪生网络与相关滤波的目标跟踪方法

技术领域

本发明属于目标跟踪技术领域，具体涉及一种融合孪生网络与相关滤波的目标跟踪方法。

背景技术

随着深度学习技术的发展，诸多研究学者将深度学习技术应用于目标跟踪框架中，并且取得了较为优异的跟踪结果。现阶段基于深度学习理论的目标跟踪方法成为目标跟踪技术研究方案的主流，一般由于神经网络的卷积特征能够更为鲁棒性的描述目标外观信息变化，目标模型在应用中更具有广泛性。

有文献利用全卷积孪生神经网络结构学习目标相关特征，通过计算搜索区域与模板区域之间的相似性，得到目标区域的响应图，但是网络实现过程未考虑到跟踪过程中模板更新策略，面对复杂环境的影响，跟踪模型易产生漂移。有文献将深度神经网络与相关滤波相结合，提出端到端的目标跟踪框架，在相关滤波模型机制中利用深度特征对目标信息进行有效描述，从而提高了模型性能且模型实时性也存在保障。有文献通过融合浅层特征与深层特征构建目标外观模型，复杂环境下能够有效的区分被跟踪目标信息与背景信息。网络训练过程中引入光流信息，可以在一定程度上提高特征表达能力，同时加入了时空注意力机制充分利用目标的前景信息，从而达到精确定位。有文献将循环神经网络产生的深度特征作用于卷积神经网络构建的目标外观模型中，从而提高了外观模型的表达能力。有文献利用循环神经网络构建序列关联模型，完成信息之间的转换，将有遮挡的环境信息转换为无遮挡的环境信息，从而降低了跟踪过程中遮挡因素的影响。有文献基于目标检测思想将目标跟踪任务划分为两个阶段，即目标分类和目标评价，该方法实现过程中利用深度回归网络构建目标分类模块，以达到粗略的获取目标位置的目的，其中，目标估计网络中引入交并比最大化概念，从而使得矩形框与目标真实位置更加吻合。

为了更好地解决目标在具有遮挡、光照变化、形变、运动模糊等多种复杂环境下容易出现跟踪漂移的问题，本发明设计提出一种融合孪生网络与相关滤波的目标跟踪方法。首先，引入数据增强算法，通过旋转、光照变化等处理手段增强模型训练数据集，然后，引入相关滤波模型，将其视为网络模型中的一层，从而设计模型更新更新策略，最后，通过相似性判定准则得到和目标模板最相似的候选样本，通过响应图的置信度选择目标当前位置，实现目标的准确的跟踪。

发明内容

为了更好地解决目标在具有遮挡、光照变化、形变、运动模糊等多种复杂环境下容易出现跟踪漂移的问题，本发明设计提出一种融合孪生网络与相关滤波的目标跟踪方法。

首先，引入数据增强算法，通过旋转、光照变化等处理手段增强模型训练数据集，然后，引入相关滤波模型，将其视为网络模型中的一层，从而设计模型更新更新策略，最后，通过相似性判定准则得到和目标模板最相似的候选样本，通过响应图的置信度选择目标当前位置，实现目标的准确的跟踪。

如图1所示，一种融合孪生网络与相关滤波的目标跟踪方法，包括如下步骤：

步骤一、利用ResNet50网络提取图像特征；

步骤二、通过注意力机制，将不同网络层次的特征进行融合，得到融合边缘与语义特性的判别性特征；

步骤三、将自适应尺度与学习速率调整的背景感知相关滤波模型引入网络结构，设计更新策略，实现对目标模板信息进行有效更新。

进一步的，所述步骤一、利用ResNet50网络提取图像特征的具体过程是:

S201、输入图像经过7*7卷积层，步长为2，生成64通道图像；

S202、进行归一化及步长为2的池化处理；

S203、依次传入4个Bottleneck子网络，输出图像大小逐层递减至原始参数的1/32，通道数为2048；

S204、通过全连接层设计得到预期维度的目标特征。

进一步的，所述注意力机制包括通道注意力模块、空间注意力模块以及交叉注意力模块。

进一步的，如图2所示，所述通道注意力模块的处理过程是：

首先，利用全局平均池化操作对目标特征图

进行处理，将大小为w×h×n的特征图转换成大小为1×1×n的向量b_k，即

其中，k为向量个数，k＝1,2,3...n表示特征图通道数量，向量b_k中各元素值每个通道内特征值的平均和；

其次，将向量b_k作为全连接层的输入，利用激活函数ReLU进行激活操作，为将通道权重参数归一化，提高网络训练速度；

再次，连接全连接层并用激活函数sigmoid进行处理，使得通道权重位于[0，1]，通过网络迭代训练得到通道权重系数ε，其中单个元素计算方式ε_k如下：

其中，σ_i和σ_j分别表示网络权重，对其赋予随机初始值；最后，将单个元素权重系数ε_k与目标特征图单个通道

进行点乘运算，获取通道注意力模块优化的特征图：

其中，·表示点乘。

进一步的，所述空间注意力模块的处理过程是：

首先，以目标特征图

作为输入，为提高空间注意力模块运算速度，模型设计中首先利用1×1尺寸卷积核对输入特征进行降维操作，其次利用不同残差块对降维特征

进行优化，如残差块1特征c₁，残差块2特征c₂，残差块3特征c₃：

其中，μ₁、μ₂、μ₃表示不同的卷积核，卷积核大小依次为3×3，3×3，5×5；

将残差块2特征c₂进行转置操作，同时与残差块1特征c₁进行点乘操作，利用softmax激活函数对相似结果进行归一化处理；值得注意的是，计算过程中，i和j均取不同数值，同时a和b均取不同数值，从而获得大小与特征图等同的空间注意力图，其元素值表示特征图中不同位置的重要性程度，即

其中，T表示特征图的转置操作，Y_i,j表示特征图中第i个与第j个位置的相关性；

将空间注意力图Y_i,j与残差块3特征c₃进行点乘操作，获取经空间注意力机制优化后的目标特征图，即

进一步的，如图3所示，所述交叉注意力模块的处理过程是：记搜索区域特征图为

利用全局平均池化操作降低搜索区域特征维度，从而获得通道特征向量v＝[v₁,v₂,...v_n]，其中n表示特征图

的通道数量；进而传入全连接层，利用ReLu激活函数对其进行处理，并将激活后的特征图作为下一全连接层的输入，进而利用Sigmoid函数对其进行非线性处理获得权重向量；最终将搜索区域特征图

与通道权重系数ε进行相乘，获取最终的交叉注意力机制特征图

进一步的，所述融合边缘与语义特性的判别性特征为

其中，

表示通道注意力模块优化的特征，

表示空间注意力模块优化特征，

表示交叉注意力模块优化特征，ζ₁，ζ₂，ζ₃分别表示各个模块权重，依次初始化为0.4,0.4,0.2。

进一步的，所述背步骤三、将自适应尺度与学习速率调整的背景感知相关滤波模型引入网络结构，设计更新策略，实现目标模板信息的有效更新的具体过程是：

首先，获得最佳尺度相关滤波器，估计目标尺度：

其中，w_scale为尺度相关滤波器，λ为正则化系数，

其次，利用目标尺度变化调整搜索区域比例大小，从而有效调整目标搜索区域大小：

其中，init_tsz表示初始目标大小，featureR表示细胞单元大小，search_as_old为上一帧目标的搜索区域比例，s_new为当前帧对应的目标尺度，s_old为上一帧对应的目标尺度；

为准确估计目标遮挡程度，由G_apce量化置信图整体波动情况：

其中：max(v(i))，min(v(i))，v(i)分别表示置信图中最大置信值、最小置信值和每一个位置的置信值；

再次，利用最大置信值与置信图的波动情况调整学习速率：

其中，a，b，α₁和ζ为经验值，η_old为上一帧的学习速率，t为视频序列帧数；

最终，利用自适应学习速率更新背景感知相关滤波以及尺度滤波模型。

进一步的，所述更新策略的具体过程是：将模板分支特征图与搜索区域特征图进行卷积运算操作，计算目标模板与搜索区域的相似性，获得相似度置信图，其相关性计算公式为：

其中，

为利用图像特征学习的相关滤波模块；

为优化目标跟踪性能，自适应尺度与学习速率调整的背景感知相关滤波模型应与目标的期望响应y_i实现最小化，即：

其中，w_cx表示自适应尺度与学习速率调整的背景感知相关滤波模型参数；

引入拉格朗日对偶性求得网络中的最优解为

其中，x^*表示复数共轭。

本发明的优点是：本发明提供这种融合孪生网络与相关滤波的目标跟踪方法，能够通过利用注意力机制方法优化目标表观特征信息的描述，利用自适应尺度与学习速率调整的背景感知相关滤波模型设计模型更新策略，并通过相似性判定准则与置信图得到目标最佳位置，最终有效适应遮挡、尺度变化、快速运动、旋转形变及运动模糊等多种复杂因素的影响，实现准确的目标运动状态估计。

下面结合附图和实施例对本发明做详细说明。

附图说明

图1是本发明方法实现原理框图。

图2是通道注意力模块和空间注意力模块设计框图。

图3是交叉注意力模块原理图。

图4不同方法对于典型视频序列中目标的部分时刻跟踪效果示意图。

图5a不同方法在典型测试序列集上的性能评价结果准确率示意图。

图5b不同方法在典型测试序列集上的性能评价结果成功率示意图。

具体实施方式

为进一步阐述本发明达成预定目的所采取的技术手段及功效，以下结合附图及实施例对本发明的具体实施方式、结构特征的功效，详细说明如下。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“垂直”、“水平”、“对齐”、“重叠”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征；在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

实施例1

一种融合孪生网络与相关滤波的目标跟踪方法，包括如下步骤：

步骤一、利用ResNet50网络提取图像特征；

进一步的，所述步骤一、利用ResNet50网络提取图像特征中的ResNet50网络为提取图像特征的典型结构，在本实施例提取图像特征的具体过程是:

S201、输入图像经过7*7卷积层，步长为2，生成64通道图像；

S202、进行归一化及步长为2的池化处理；

S204、通过全连接层设计得到预期维度的目标特征。

进一步的，所述通道注意力模块的处理过程是：

首先，利用全局平均池化操作对目标特征图

其中，k为向量个数，k＝1,2,3...n表示特征图通道数量，向量b_k中各元素值为每个通道内特征值的平均和；

其次，将向量b_k作为全连接层的输入，利用激活函数ReLU进行激活操作，为将通道权重参数归一化；

进行点乘运算，获取通道注意力模块优化的特征图：

其中，·表示点乘。

进一步的，上述激活函数ReLU、激活函数sigmoid均为常用函数，激活函数ReLU定义式为f(x)＝max(0,x)；激活函数sigmoid的定义式为f(x)＝1/(1+exp(-x))。

进一步的，所述空间注意力模块的处理过程是：

首先，以目标特征图

将残差块2特征c₂进行转置操作，同时与残差块1特征c₁进行点乘操作，利用softmax激活函数对相似结果进行归一化处理；计算过程中，i和j均取不同数值，同时a和b均取不同数值，从而获得大小与特征图等同的空间注意力图，其元素值表示特征图中不同位置的重要性程度，即

进一步的，softmax激活函数是常用函数，公式为

即在softmax的作用下会计算出相似结果的概率，加和为1。

进一步的，所述交叉注意力模块的处理过程是：记搜索区域特征图为

进一步的，所述融合边缘与语义特性的判别性特征为

其中，

表示通道注意力模块优化的特征，

表示空间注意力模块优化特征，

首先，获得最佳尺度相关滤波器，估计目标尺度：

其中，w_scale为尺度相关滤波器，λ为正则化系数，

再次，利用最大置信值与置信图的波动情况调整学习速率：

其中，

为利用图像特征学习的相关滤波模块；

引入拉格朗日对偶性求得网络中的最优解为

其中，x^*表示复数共轭。

实施例2

首先初始化训练模型参数，预训练网络模型，确定初始帧目标信息，实现目标位置预测，利用注意力机制融合多层特征，进而自适应目标外观信息变化，并结合自适应尺度与学习速率调整的背景感知相关滤波算法，将其视为网络中的一层，利用相似性计算预测目标位置。具体实现如下：

输入：第t(t>1)帧视频序列以及相应参数。

输出：目标位置。

目标跟踪模型预训练：

Step1.利用ImageNet数据集对结合注意力机制与相关滤波理论的目标跟踪算法进行预训练；

Step2.利用ResNet50网络对图像特征进行处理；

Step2.训练过程中迭代次数为20，每次迭代样本数量为50000；

Step3.采用SGD梯度下降方法对模型进行调整，学习速率为10^-2～10^-5。

目标跟踪：

Step4.将模板区域与搜索区域作为输入数据，并提取两者特征；

Step5.分别利用公式(3)和公式(6)获取通道注意力优化特征和空间注意力优化特征，并利用公式(7)进行特征融合处理；

Step6.利用公式(14)求解相关滤波模型；

Step7.通过置信图获取目标位置。

实施例3

本方法的实现平台及参数：以PyTorch框架构建卷积神经网络，Matlab2017b，pycharm编译器，Ubuntu操作系统为开发环境。网络实现过程中，目标模板大小为127*127*3，候选区域大小为255*255*3，模型权重参数衰减率为0.00001，动量值设置为0.9，训练周期数设置为20，初始化学习速率为0.01，池化步长为2，相关滤波层学习速率初始值为0.006，正则化参数λ设置为0.0001，尺度参数s初始化为0.97，a为0.1，b为0.083，ζ为60。

在实验验证阶段，选择典型的OTB100数据集进行测试，为验证本设计方法的有效性，选取8种典型跟踪方法进行对比分析，包括未添加注意力机制的融合孪生网络与自适应尺度与学习速率调整的背景感知相关滤波算法(our1)，全卷积孪生网络目标跟踪算法(SiamFC)，孪生候选区域生成网络(SIAMRPN)，深度特征处理的SRDCF模型(DeepSRDCF)，端到端目标跟踪算法之第一层特征模型(CFNet1camera)，端到端目标跟踪算法之第二层特征模型(CFNet2camera)，端到端目标跟踪算法之第五层特征模型(CFNet5camera)，改进的孪生候选区域生成网络(TADT)。选择8种具有多种复杂影响因素的典型测试序列定性分析实验结果，并采用中心位置误差、边界框重叠率与跟踪速度定量评价各跟踪算法性能。

定性分析

为了更加直观的描述不同方法的跟踪性能，选取并给出明显受尺度变化、遮挡干扰和形变等因素影响的Deer等8个测试序列依据不同跟踪方法得到的部分时刻跟踪效果，具体如图4所示。

从图4中(a)和(b)可以看出，Deer测试序列存在运动模糊、快速运动、背景干扰等，目标在跟踪视野内受到背景干扰以及快速运动等因素的影响，CFNet1camera方法利用第一层卷积特征进行目标外观描述，当目标受到复杂因素影响的时候产生明显的跟踪漂移现象，SiamFC及本发明方法能够完成整个视频的跟踪。Skating1测试序列受尺度变化、遮挡、形变、快速运动等影响，在目标受到的强烈光照变化因素影响时，CFNet1camera方法产生较为明显的跟踪误差，但是本发明方法和SIAMRPN等多种方法均能够准确跟踪目标，当目标受到相似物遮挡时，本发明方法能够比其他方法更为准确地跟踪目标。

从图4中(c)和(d)可以看出，Tiger1测试序列存在尺度变化、平面内旋转、平面外旋转、快速运动与遮挡等属性，当目标尺度发生明显变化，CFNet1camera和TADT方法产生较小的跟踪误差，当目标受到不同程度的遮挡因素以及尺度变化的影响时，CFNet2camera等多种方法均产生较为明显的跟踪误差，本发明方法利用不同层次的特征特点对图像信息进行描述，能够更加适应复杂环境变化。Singer1测试序列存在光照变化、尺度变化、平面外旋转等属性，在整个运动过程中，目标发生不同层次的尺度变化与强烈的光照变化，SIAMRPN等方法都产生了一定的跟踪误差，而利用交叉注意力模块结合目标特征以及搜索区域特征构建观测模型的本方法取得了更高的鲁棒性。

从图4中(e)和(f)可以看出，FaceOcc1测试序列存在明显的遮挡干扰，当目标受到更为严重的遮挡因素影响时，CFNet5camera方法与SiamFC方法产生明显的跟踪漂移现象，本发明方法利用交叉注意力模块处理搜索区域特征对模板特征的影响，使得跟踪模型能够准确的跟踪目标，直至整个跟踪序列。Sylvester测试序列存在尺度变化、遮挡、形变、快速运动等属性，当目标受到平面内旋转以及尺度变化因素的影响时，目标外观发生明显变化，SiamFC等方法发生明显的跟踪误差，本发明方法利用搜索区域特征对目标模板特征进行更新，能够准确的跟踪目标直至整个跟踪序列的完成。

从图4中(g)和(h)可以看出，Trellis序列存在光照变化、尺度变化、遮挡等属性，目标在光照变化因素的影响下，SiamFC算法产生较小的跟踪误差，当目标发生形变及尺寸变化时，CFNet1camera方法产生明显的跟踪漂移，CFNet2camera和本发明方法利用融合特征描述目标外观变化，能够更为鲁棒地跟踪目标。Skater2测试序列存在尺度变化、快速运动、运动模糊等属性，当目标受到尺度变化以及形变因素的影响时，CFNet5camera和CFNet1camera方法产生较为明显的跟踪漂移，而本发明方法能够较为准确地跟踪目标。

定量分析

为了验证本发明设计方法的跟踪性能，采用典型的跟踪性能评估方法(One-PassEvaluation,OPE)完成定量评价，针对不同方法数据集上各测试序列的跟踪结果绘制精确率和成功率曲线，具体如图5a、图5b所示。

由图5a、图5b可知，在整体准确率与成功率方面，本发明方法综合性能明显优于SiamFC等其他方法，相较于SiamFC方法在准确率方面至少提升16.2％，成功率方面至少提升16％。由此可见，该新发明方法利用注意力机制对图像特征进行优化处理，从而丰富了图像信息的判别性描述，为达到优化模型更新的目的，该方法引入自适应尺度与学习速率调整的背景感知相关滤波模型，从而实现有效的稳定跟踪。

综合以上定性定量评价结果可以得出，本发明新给出的一种融合孪生网络与相关滤波的目标跟踪方法能够通过利用注意力机制方法优化目标表观特征信息的描述，利用自适应尺度与学习速率调整的背景感知相关滤波模型设计模型更新策略，并通过相似性判定准则与置信图得到目标最佳位置，最终有效适应遮挡、尺度变化、快速运动、旋转形变及运动模糊等多种复杂因素的影响，实现准确的目标运动状态估计。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。