CN116030095B

CN116030095B - 一种基于双分支孪生网络结构的视觉目标跟踪方法

Info

Publication number: CN116030095B
Application number: CN202310049832.1A
Authority: CN
Inventors: 周文俊; 王楠; 王一帆; 彭博; 贺宇航
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2023-02-01
Filing date: 2023-02-01
Publication date: 2023-06-20
Anticipated expiration: 2043-02-01
Also published as: CN116030095A

Abstract

本发明涉及一种基于双分支孪生网络结构的视觉目标跟踪方法，属于图形图像处理领域；它解决了目前目标跟踪方法中遮挡、形变、模糊运动以及相似物干扰等常见的问题；其技术方案是：向双分支孪生网络结构同时输入模板帧和搜索帧图像，然后将经过双分支孪生网络结构的模板帧和搜索帧图像进行互相关操作，得到一张响应图，取出响应图中值最大的点即为待跟踪目标的中心位置；本发明具有以下有益效果：通过双分支网络结构中的浅层分支能精确捕捉目标位置信息；深层分支通过提取目标抽象的语义信息，能很好的应对跟踪过程中目标出现的遮挡、尺度变化等问题；将经过两个分支的结果进行自适应融合，能够达到很好的综合效果。

Description

一种基于双分支孪生网络结构的视觉目标跟踪方法

技术领域

本发明涉及一种基于双分支孪生网络结构的视觉目标跟踪方法，属于图形图像处理领域。

背景技术

视觉目标跟踪一直是人工智能和计算机视觉领域一项基本而富有挑战性的任务，在视频监控、智能交通、无人驾驶等方面具有广泛的应用。然而，由于各种挑战，例如目标被遮挡、尺度变化及背景杂乱等，目标跟踪算法在实时性和准确性方面难以做到较好的平衡，因此如何实现实时、准确的目标跟踪算法具有很大的研究价值。目前的目标跟踪方法主要分为：基于相关滤波类的方法，如KCF、DSST；基于孪生网络类的方法，如SiamFC、SiamRPN、SiamDW；而随着计算机计算能力的大幅提升，基于深度学习的孪生网络类算法逐渐成为主流。

基于相关滤波类的目标跟踪算法通过提取目标特征训练滤波器，并对下一帧图像作滤波运算，以结果响应峰值所在位置作为目标位置。在特征构建方面，早期的相关滤波方法主要使用手工特征构建目标模型，而手工特征的构建方法相对简单，仅由统计计算完成，虽然使用此类特征的跟踪器的跟踪速度较快，但对目标特征的建模能力较弱，从而使得跟踪器鲁棒性不强，难以应对复杂场景下的跟踪任务。基于深度学习的孪生网络类目标跟踪算法，以SiamFC为代表，其在初始离线阶段训练一个全卷积网络以解决更一般的相似性学习问题，然后在推理期间对学习到的匹配函数进行简单的在线评估，该方法在具有极强的实时性的同时达到了极具竞争力的性能。但是该算法使用较浅的特征提取网络AlexNet，提取到的仅仅是目标的浅层特征，在应对遮挡、尺度变化等复杂场景时精度不高。而近两年来基于孪生网络类的跟踪算法如SiamDW探索出如何将深层网络作为骨干网络应用于目标跟踪任务中；但深层网络随着层数的加深会抑制浅层特征的利用，而浅层特征对于跟踪过程中目标位置的定位能力较强，因此浅层特征的利用也十分重要。

总体而言，目前基于孪生网络类的目标跟踪算法大致只利用目标的浅层特征或只利用目标深层的语义特征进行跟踪，亦或者在骨干网络后面嵌入一系列模块，虽然性能有所提升，但实时性却大幅下降。

发明内容

本发明目的是：为了解决现如今孪生网络类目标跟踪算法在精度与实时性之间难以平衡的问题，同时使得整个算法的结构简单明了，实现在满足实时性的前提下获得较好的跟踪准确率和精度。

为实现上述目的，本发明设计出一种基于双分支孪生网络结构的视觉目标跟踪方法。该方法包括以下步骤：

S100、训练阶段，获取原始模板图像z和原始搜索图像x；对所述原始模板图像和原始搜索图像进行预处理，得到模板图像z_sz和搜索图像x_sz，并将所述模板图像z_sz和搜索图像x_sz作为训练数据并构建训练数据集；训练时，所有图像的Bounding Box均已知；

S101、所述对原始模板图像进行预处理，包括以下步骤：以目标为中心，构建出对应的模板区域，如果超出范围则使用RGB均值进行填充；构建方式如下：

；

；

其中A=127×127，

和/>

代表Bounding Box的长宽，Z_sz为模板图像边长，

；

S102、所述对原始搜索图像进行预处理，包括以下步骤：在构建之前已知其上一帧Bounding box的信息，以上一帧Bounding box的中心为中心，构建出对应的搜索区域，如果超出范围则使用RGB均值进行填充；构建方式如下：

；

；

其中A=255×255，

和/>

代表Bounding Box的长宽，X_sz为搜索图像边长，

。

S200、将所述模板图像z_sz和搜索图像x_sz输入到双分支孪生网络结构进行特征提取，具体为：将所述模板图像z_sz通过浅层分支进行特征提取，得到浅层分支提取出的模板图像特征图；将所述模板图像z_sz通过深层分支进行特征提取，得到深层分支提取出的模板图像特征图；将所述搜索图像x_sz通过浅层分支进行特征提取，得到浅层分支提取出的搜索图像特征图；将所述搜索图像x_sz通过深层分支进行特征提取，得到深层分支提取出的搜索图像特征图；

S300、将分别经过深浅两个分支得到的特征图进行互相关操作，即经过所述浅层分支的模板图像z_sz和搜索图像x_sz的特征图进行互相关操作，经过所述深层分支的模板图像z_sz和搜索图像x_sz的特征图进行互相关操作，得到对应的两个分支响应图；得到分支响应图的表达公式为：

；

总响应图的计算公式为：

；

其中

代表S200的特征提取操作，f(z,x)为最终的响应图，f_i(z,x)为分支响应图，z和x分别代表模板图像和搜索图像，i=1,2分别代表浅层和深层分支，m和n代表权重系数，在训练过程中通过不断学习自适应的调整比重，b为偏置；

S400、通过分数矩阵进行训练，通过损失函数计算的损失不断优化模型；

S401、首先构建正负样本对，其构建公式表示为：

,

其中， c为物体在响应图的中心，u为响应图中任意一点，y为该点在响应图中构建出的样本值，y∈{+1，-1}，‖u-c‖是u与c的欧氏距离，k是网络总步长，R是定义的一个阈值；

S402、使用交叉熵作为损失函数，对于响应图中每个点，损失函数为：

；

其中

是响应图中任一点的真实值，y∈{+1，-1}是这个点所对应的样本值，即S401中得到的样本值；将响应图的损失定义为所有单点损失的平均值，表示为：

；

式中：D为响应图中总点数，u∈D为响应图中的位置，l(·,·)为响应图中单个点的损失,

和/>

分别代表u位置处响应图的样本值和真实值；

S403、通过计算损失值，使用随机梯度下降方法不断更新模型参数，对模型进行优化；参数的初始化使用一个高斯分布，范围遵循Xavier方法；

S404、最终将响应图中数值最高的点作为预测的下一帧的目标位置的中心；

S500、跟踪阶段，准备两路输入图像，已知第一帧模板图像的Bounding Box，后续搜索图像的Bounding Box未知；按照要求构建出模板图像和搜索图像；

S600、将模板图像和第二帧搜索图像输入到双分支孪生网络结构中，分别得到对应的四种特征图；

S700、分别将经过浅层分支提取到的模板图像和搜索图像的特征图进行互相关，将深层分支提取到的模板图像和搜索图像的特征图进行互相关，得到两个分支响应图；得到分支响应图的表达公式为：

；

其中

代表S200的特征提取操作，f_i(z,x)为分支响应图，z和x分别代表模板图像和搜索图像，b代表偏置，i=1,2分别代表浅层和深层分支；

S800、将分支响应图通过训练阶段学习到的最优权重比进行融合，得到最终响应图；融合公式为：

；

f(z,x)为最终的响应图，m和n代表权重系数，范围为(0,1)，b为偏置；

S900、针对搜索图像，为了应对跟踪过程中的尺度变化，将在三种尺度上对搜索图像进行处理，三种尺度分别为1.0375^{{[-2,-0.5,1]}}，因此最终会生成这三种尺度的响应图；

S1000、使用双三次线性插值将响应图映射为搜索图像的尺寸，取出三种尺度中数值最高点的位置(x,y)，并将其作为预测目标的中心；同时根据数值最高点的位置(x,y)所在尺度的响应图更新目标的尺寸，具体为：target×scale，其中

；

target表示待跟踪物体的原始尺寸。

上述的一种基于双分支孪生网络结构的视觉目标跟踪方法，其主要优势在于：该方法能够在兼顾跟踪实时性的同时很好的应对跟踪过程中出现的各种挑战，在面对背景杂乱、尺度变化、遮挡等复杂场景也能使得跟踪成功率和精度有所保障。同时整个方法的流程简洁明了。

与现有发明相比，本发明具有以下有益效果：（1）通过双分支孪生网络结构充分结合深浅层特征，最大限度的挖掘并利用了目标的特征信息，使其能够很好的应对遮挡、尺度变化以及背景杂乱等复杂情况；（2）将设计出的多尺度特征融合模块嵌入浅层分支，使得浅层分支对于定位目标位置的能力更强；（3）整个跟踪流程简洁明了；（4）跟踪实时性很强。

附图说明

图1是本发明的技术流程图。

图2是深层分支的两种主要结构图。

图3是多尺度特征融合模块图。

图4(a)和图4(b)分别是本发明在OTB数据集下与其他方法的精度与成功率对比图。

实施方式

为使本发明的目的、技术方案和优势更加清楚明白，下面结合实施方式和附图，对本发明进一步详细说明。在此，本发明的示意性实施方式以及其说明用于解释本发明，但并不作为本发明的限定。

如图1所示，是一种基于双分支孪生网络结构的视觉目标跟踪方法的技术流程图，该方法包括以下步骤：

；

；

其中A=127×127，

和/>

代表Bounding Box的长宽，Z_sz为模板图像边长，

；

；

；

其中A=255×255，

和/>

代表Bounding Box的长宽，X_sz为搜索图像边长，

。

；

总响应图的计算公式为：

；

其中

S401、首先构建正负样本对，其构建公式表示为：

,

；

其中v是响应图中任一点的真实值，y∈{+1，-1}是这个点所对应的样本值，即S401中得到的样本值；将响应图的损失定义为所有单点损失的平均值，表示为：

；

和/>

分别代表u位置处响应图的样本值和真实值；

；

其中

；

；

target表示待跟踪物体的原始尺寸。

进一步的对比其他算法与本方法在大型基准测试数据集OTB下的表现，选取以下八种常见的算法：SiamFC、CFNet、Staple、SRDCF、SiamDW、SiamRPN、DeepSRDCF、GradNet，本方法与这八种算法的精度和成功率对比如图4(a)和图4(b)所示。由图可知，本发明所公开方法相比于其他算法，在应对实际跟踪环境出现的各种挑战方面效果更显著。

最后所应说明的是：以上实施例仅用以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应该理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于双分支孪生网络结构的视觉目标跟踪方法，其特征在于，所述方法包括以下步骤：

所述双分支孪生网络结构由一个深层分支和一个浅层分支构成，所述浅层分支用于定位目标的位置信息；所述浅层分支由一个AlexNet网络构成，同时使用多尺度特征融合模块进一步精确定位目标的位置信息；

所述多尺度特征融合模块将特征图输入3×3以及5×5的最大池化层，筛选出不同尺度下的显著特征值点，同时将通道注意力模块作用于原始特征图以及经过池化层的特征图，然后将经过通道注意力模块的特征图与对应经过池化层以及原始的特征图进行融合，得到三个不同尺度下的增强特征，接下来将三个尺度的增强特征进行融合，得到最终的多尺度特征图；

所述深层分支能够提取到目标的语义信息，包括目标的行为特征以及运动轨迹特征；所述深层分支由一个去掉全连接层的VGG网络构成；在该VGG网络中，在涉及填充操作的卷积层后嵌入一个边缘裁剪单元，同时在通道数发生变化的卷积层后嵌入ECA模块，学习变化的通道特征；在所述深层分支提取模板图像的一侧，加入双重注意力模块；