CN113129345A

CN113129345A - 一种基于多特征图融合和多尺度膨胀卷积的目标跟踪方法

Info

Publication number: CN113129345A
Application number: CN202110417474.6A
Authority: CN
Inventors: 李伟生; 朱俊烨
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2021-07-16

Abstract

本发明请求保护一种基于多特征图融合和多尺度膨胀卷积的目标跟踪方法，包括步骤：S1将初始帧中已经标注好位置的待跟踪目标区域图像和当前帧搜索区域图像送入同一个特征提取网络，分别得到三个输出特征图；S2分别对两张图像的三个输出特征图进行融合；S3将融合后的两张图像进行互相关操作得两张特征响应图；S4分别对两张特征响应图通过三个不同尺度的膨胀卷积层得到不同感受野的特征响应图；S5将相关特征进行逐点求融合；S6将融合后特征图分别送入分类分支和回归分支；S7结合分类分支的最大响应区域与回归分支的目标移动量，预测表示出待跟踪目标在当前帧的位置。本发明提高了跟踪方法在目标尺度变化较大等复杂情况下的鲁棒性与准确率。

Description

一种基于多特征图融合和多尺度膨胀卷积的目标跟踪方法

技术领域

本发明属于图像处理技术领域，特别涉及基于卷积神经网络的多特征图融合和多尺度膨胀卷积的目标跟踪方法。

背景技术

目标跟踪方法属于计算机视觉领域，并在军事安防娱乐等众多方面有着广泛的应用。目标跟踪方法主要分为基于传统方法的跟踪方法和基于卷积神经网络的跟踪方法两类。

基于传统方法的跟踪方法中，相关滤波最具有代表性。核心思想是训练时使用目标周围区域的循环矩阵制作正负样本集，并利用岭回归训练一个目标检测器，在跟踪时通过检测器判别出目标的位置。因为是离线训练，所以实际跟踪时计算量小，速度较之前的方法有很大的提升，可以满足实时性的要求。

基于卷积神经网络的目标跟踪方法中，主要有基于分类的卷积神经网络跟踪方法，基于回归的卷积神经网络跟踪方法，基于相似度匹配的卷积神经网络跟踪方法，其中基于相似度匹配的方法最有代表性。最初此方法是在搜索区域中划分出多个候选区域，再分别与目标区域进行相似度计算，找到相似度最高的区域。之后思路直接通过特征提取网络，将目标区域和候选区域进行卷积，得到对应的特征图，然后再在特征图上进行卷积，得到相似度的响应图，最大响应区域映射回搜索区域，即为目标的预测位置。

虽然跟踪方法很多，但是在实际场景下仍然存在很多挑战，例如光照变化，背景的相似性干扰，遮挡，目标形变问题等。之前的基于卷积神经网络的跟踪方法，虽然在实时性上有很大的提高，但是对于目标的形变问题与预测准确度仍存在一定问题。

我们采用的的多尺度特征融合可以使输出的特征图能表示更多的语义信息和结构及信息有利于后面的相似度计算。对每个分支我们采用的多尺度膨胀卷积有增强模型在多个方向上的感知能力。增加了DioU损失函数能进一步提升对目标预测的精确度。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种基于多特征图融合和多尺度膨胀卷积的目标跟踪方法。本发明的技术方案如下：

一种基于多特征图融合和多尺度膨胀卷积的目标跟踪方法，其包括以下步骤：

S1、将视频初始帧中已经标注好位置的待跟踪目标区域图像和当前帧搜索区域图像送入同一个特征提取网络，并在网络的第16层，第19层和第22层分别输出模板图像的三张特征图z₁、z₂、z₃以及搜索图像的三张特征图x₁、x₂、x₃

S2、将模板图像与搜索图像各自的三个输出特征图进行卷积融合，分别得到融合后的特征图；

S3、将步骤S2融合后的两张特征图进行互相关操作得两张特征响应图；

S4、将两张特征响应图分别通过三个平行的不同尺度膨胀卷积层，输出不同感受野的三张特征响应图；

S5、将不同感受野的三张特征响应图进行逐点融合，输出融合后的特征响应图；

S6、将两个融合后的特征响应图送入对应的分类分支和回归分支；在分类分支中通过特征图卷积操作，计算两个特征图对应位置间的交叉互相关性，得到特征响应图；在回归分支中分别表示当前位置与目标位置下标的相关偏移量；

S7、将分类分支特征相应图最大响应区域与回归分支对应区域的偏移量结果相结合，预测表示出待跟踪目标在当前帧的位置。

进一步的，所述步骤S1的特征提取网络以残差模块为基础进行网络搭建，并在网络的第16层，第19层和第22层分别输出模板图像的三张特征图z₁、z₂、z₃以及搜索图像的三张特征图x₁、x₂、x₃

进一步的，所述步骤S2的卷积融合直接通过卷积操作得到融合后的模板图像特征图z以及融合后的搜索图像特征图x计算公式为：

进一步的，步骤S3中的两张特征响应图是将融合后的搜索图像特征图和融合后的模板图像特征图进行互相关操作得到，计算公式如下：

f(z，x)＝z*x+b

进一步的，所述S4的两张特征响应图是经过膨胀系数的膨胀卷积层卷积得到的，其中膨胀卷积

的膨胀系数分别是(1，2)、(1，1)、(2，1)。

进一步的，所述步骤S3将步骤S2融合后的两张特征图采用逐通道进行互相关操作的深度互相关操作得两张特征响应图。

进一步的，所述S6的分类分支中的特征响应图是将融合后的响应图降低通道数得到；所述S6的回归分支是将融合后的响应图降低通道数后，通过对两个区域的中心位置坐标及长宽进行L1的损失函数和DIoU的距离损失函数回归得到，其中DioU距离损失函数定义如下：

其中，b，b^gt分别代表预测框和目标框的中心点，ρ代表的是计算两个中心点间的欧式距离，c代表可以覆盖预测框和目标框的最小矩形的对角线距离。

进一步的，在分类分支中通过卷积操作，得到分类分支的最大响应区域；在回归分支中通过卷积操作得到当前位置与目标位置相关偏移量。

进一步的，所述S7的结果结合是在分类分支中得到的最大响应点映射回原图，并根据回归分支的坐标回归，对目标进行尺度变换与偏移。

本发明的优点及有益效果如下：

本发明将特征提取网络进行多个特征图输出，并将多个特征图进行卷积融合，使得到的融合特征图能表示不同尺度目标的语义信息和结构信息，有利于后面的相似度计算；对每个分支的特征图我们采用了多尺度膨胀卷积模块，使用不同膨胀系数的卷积层，并将输出的特征图通过深度互相关方法进行融合，使得到的特征图对不同方向上的语义信息和结构信息有更强的感知能力；并且我们在回归分支中增加距离损失函数，使得预测目标的准确度又得到进一步的提升。其中DioU距离损失函数定义如下：

最终我们的方法可以很好的适应目标的形变问题并且提高跟踪的准确率。

附图说明

图1是本发明提供优选实施例基于多特征图融合和多尺度膨胀卷积的目标跟踪方法流程图；

表1是与其他主流方法比较的结果。可以看到我们的跟踪器在公开数据集OTB2013和OTB2015上都要优于目前的跟踪器在AUC指标上大约提升了2个百分点。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

具体步骤：

S1、将视频初始帧中已经标注好位置的待跟踪目标区域图像和当前帧搜索区域图像送入同一个特征提取网络，分别得到三个输出特征图；

S2、将目标区域图像与带搜索区域图像各自的三个输出特征图进行卷积融合，分别得到融合后的特征图；

S3、将融合后的两张图像进行互相关操作得两张特征响应图；

S4、将两张特征图分别通过三个平行的不同尺度膨胀卷积层输出不同感受野的三张特征响应图；

S5、将不同感受野的三张特征响应图的逐点融合输出融合后的特征响应图；

表1

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于多特征图融合和多尺度膨胀卷积的目标跟踪方法，其特征在于，包括以下步骤：

S1、将视频初始帧中已经标注好目标位置的模板图像和搜索图像送入同一个特征提取网络，分别获取特征提取网络中最后三层的特征图。

S2、将模板图像和搜索图像各自的三个输出特征图进行卷积融合，分别得到融合后的特征图；

S6、将两个融合后的特征响应图送入对应的分类分支和回归分支；在分类分支中通过卷积操作，得到分类分支的最大响应区域；在回归分支中通过卷积操作得到当前位置与目标位置相关偏移量；

2.根据权利要求1所述的基于多特征图融合和多尺度膨胀卷积的目标跟踪方法，其特征在于，所述步骤S1的特征提取网络以残差模块为基础进行网络搭建，并在网络的第16层，第19层和第22层分别输出模板图像的三张特征图z₁、z₂、z₃以及搜索图像的三张特征图x₁、x₂、x₃。

3.根据权利要求2所述的基于多特征图融合和多尺度膨胀卷积的目标跟踪方法，其特征在于，所述步骤S2的卷积融合直接通过卷积操作得到融合后的模板图像特征图z以及融合后的搜索图像特征图x计算公式为：

其中公式中

代表的是融合操作。

4.根据权利要求3所述的基于多特征图融合和多尺度膨胀卷积的目标跟踪方法，其特征在于，所述步骤S3中的两张特征响应图是将融合后的搜索图像特征图和融合后的模板图像特征图进行互相关操作得到，计算公式如下：

f(z,x)＝z*x+b

其中符号*代表互相关操作，b代表偏移量。

5.根据权利要求4所述的基于多特征图融合和多尺度膨胀卷积的目标跟踪方法，其特征在于，所述S4的两张特征响应图是经过膨胀系数的膨胀卷积层卷积得到的，其中膨胀卷积

的膨胀系数分别是(1，2)、(1，1)、(2，1)。

6.根据权利要求4所述的基于多特征图融合和多尺度膨胀卷积的目标跟踪方法，其特征在于，所述步骤S3将步骤S2融合后的两张特征图采用逐通道进行互相关操作的深度互相关操作得两张特征响应图。

7.根据权利要求6所述的基于多特征图融合和多尺度膨胀卷积的目标跟踪方法，其特征在于，所述S6的分类分支中的特征响应图是将融合后的响应图降低通道数得到；所述S6的回归分支是将融合后的响应图降低通道数后，通过对两个区域的中心位置坐标及长宽进行L1的损失函数约束和DIoU的距离约束回归得到，其中DioU距离损失函数定义如下：

其中，b,b^gt分别代表预测框和目标框的中心点，ρ代表的是计算两个中心点间的欧式距离，c代表可以覆盖预测框和目标框的最小矩形的对角线距离。

8.根据权利要求6所述的基于多特征图融合和多尺度膨胀卷积的目标跟踪方法，其特征在于，在分类分支中通过卷积操作，得到分类分支的最大响应区域；在回归分支中通过卷积操作得到当前位置与目标位置相关偏移量。

9.根据权利要求8所述的基于多特征图融合和多尺度膨胀卷积的目标跟踪方法，其特征在于，所述S7的结果结合是在分类分支中得到的最大响应点映射回原图，并根据回归分支的坐标回归，对目标进行尺度变换与偏移。