CN116052025A

CN116052025A - 一种基于孪生网络的无人机视频图像小目标跟踪方法

Info

Publication number: CN116052025A
Application number: CN202310048920.XA
Authority: CN
Inventors: 丁勇; 汪常建; 聂志诚
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-01-11
Filing date: 2023-01-11
Publication date: 2023-05-02

Abstract

本发明提供了一种基于孪生网络的无人机视频图像小目标跟踪方法，所述方法利用改进的VGG16网络对模板区域和搜索区域进行特征提取，得到模板区域和搜索区域特征图，提高特征的表达能力；将模板区域特征图依次经过通道注意力和空间注意力通道提高有效特征比重，得到加强后的模板区域特征图；将加强后的模板区域特征图和搜索区域特征图输入至RPN网络，在分类分支和回归分支分别进行卷积操作，获取目标的分类响应图得分和回归响应图得分；最后按照得分大小生成目标在下一帧中的位置信息，实现对目标跟踪。该发明可使目标特征表征能力更强，能够适应视频图像小目标存在姿态、光照变化和相似背景干扰情况，实现对无人机视频图像小目标的有效稳定跟踪。

Description

一种基于孪生网络的无人机视频图像小目标跟踪方法

技术领域

本发明属于视觉目标跟踪技术领域，特别是一种基于孪生网络的无人机视频图像小目标跟踪方法。

技术背景

无人机在进行高空飞行时，采集到的视频图像中存在小目标，且目标易受背景和光照变化等干扰的情况。对于无人机拍摄到的小目标进行跟踪定位，采用传统手工特征进行跟踪效果并不理想，因为目标所占像素块较小，表层特征语义信息较少。基于深度学习的目标跟踪方法可以通过神经网络提取到更深层次的特征信息，推动了无人机视角下视频目标跟踪技术的发展。

随着深度学习技术的发展，卷积神经网络由于其较好的特征提取能力在目标跟踪领域得到了广泛地应用。Jie H等人提出一种SENet结构，将特征图按通道方向进行压缩，学习通道间的关系，对不同通道赋予不同权重参数，增强了特征图在通道方向上的关键信息。Liu JiangJiang等人提出SCNet网络，通过扩张卷积感受野增强输出特征的多样性，帮助卷积神经网络生成更具有判别性的特征表达，使网络生成的特征更丰富。Misra D等人提出一种TripletAttention结构，通过旋转操作和残差变化等建立特征不同维度之间的依存关系，强调了多维交互，不降低维度的重要性，在不增加模块复杂度的基础上对注意权重进行了重新分配。近年来，孪生全卷积网络由于其端到端的训练方式和跟踪实时性良好的特点备受关注。SiamFC采用两个完全相同的神经网络结构对输入模板和输出模板进行特征提取，分别输出对应的特征向量，通过设定的损失函数计算两个区域之间的相似度，相似度最大的地方即为目标所在位置。虽然SiamFC跟踪速度较快，但是对目标尺度变化问题效果较差。SiamRPN算法在此基础上引入了Faster R-CNN中的RPN网络进行标定框的回归，节省了SiamFC多尺度测试的损耗时间。虽然孪生跟踪网络通过模板分支与搜索分支进行相似对比确定目标位置，在一定程度上提高了算法跟踪速度和成功率，但是此类方法对无人机视角下的小目标跟踪效果并不好，这是由于当待跟踪小目标处于存在光照变化、相似目标干扰、形变等复杂场景时，由于目标较小，网络无法提取到充足的信息以实现目标跟踪任务。

发明内容

本发明的目的在于提供一种基于孪生网络的无人机视频图像小目标跟踪方法，该方法可以使目标特征表征能力更强，降低姿态光照变化和相似背景干扰，有效提高对无人机视频图像小目标的跟踪能力。

为实现上述目的，本发明采用以下技术方案：

一种基于孪生网络的无人机视频图像小目标跟踪方法，包括：

步骤一，选取包括光照变换、相似目标干扰和形变等复杂情况下的小目标视频图像，输入标记待跟踪目标的初始帧图像和下一帧图像；

步骤二，在初始帧图像中以待跟踪目标为中心截取127×127区域作为模板区域{x_T}；

步骤三，在下一帧图像中以模板区域{x_T}为中心截取255×255区域作为搜索区域{x_S}；

步骤四，将{x_T}、{x_S}输入至改进的VGG16网络进行特征提取，分别生成模板区域特征图{F_T}和搜索区域特征图{f_S}；

步骤五，对模板区域特征图{F_T}进一步处理，分别经过通道注意力和空间注意力模块进行特征增强，得到增强后的模板区域特征图{f_T}；

步骤六，以模板区域特征图{f_T}为卷积核对搜索区域特征图{f_S}进行卷积操作，生成分类响应图

和回归响应图

步骤七，按照生成响应图上响应值的大小对位置预测值进行回归，生成待跟踪目标的位置信息PRO＝{(x^Pro，y^pro，w^pro，h^pro)}；

步骤八，判断是否为最后一帧，否，视频帧数加一，回到步骤二；是，确定出无人机视频图像待跟踪的小目标。

本发明具有以下优点：

1.本发明针对目标跟踪中浅层骨干网络提取特征较浅的问题，采用一种改进的VGG16网络作为孪生网络两条分支的骨干网络，利用更深层次的卷积网络对目标特征进行提取，提高了特征的表征能力。

2.本发明针对模板分支中特征权重分布问题，采用通道注意力和空间注意力对模板分支提取到的特征信息进行特征权重重分布，提高有效特征的比重，增强了特征提取效果。

附图表说明

图1为本发明框图。

图2为加入本发明方法与未加入本发明方法的热力图可视化效果对比。

图3为本发明方法与其他方法不同属性下跟踪成功率和精确度比较。

图4为复杂场景下本发明方法与其他方法的跟踪效果比较。

具体实施方式

结合所附图表，对本发明技术方案做具体说明。

如图1所示，本发明的一种基于孪生网络的无人机视频图像小目标跟踪方法，具体包括以下步骤：

步骤一，选取包括光照变换、相似目标干扰和形变等复杂情况下的小目标视频图像，输入标记待跟踪目标的初始帧图像和下一帧图像。

步骤二，在初始帧图像中以待跟踪目标为中心截取127×127区域作为模板区域{x_T}。

步骤三，在下一帧图像中以模板区域{x_T}为中心截取255×255区域作为搜索区域{x_S}。

步骤四，为了使VGG16网络适用于小目标跟踪任务，对其网络结构进行改进，将网络结构分为4组卷积块，其中第一组卷积块包括Conv1_1、Conv1_2两个卷积层和最大池化层maxpool_1，第二组卷积块包括Conv2_1、Conv2_2两个卷积层和最大池化层maxpool_2，第三组卷积块包括Conv3_1、Conv3_2、Conv3_3三个卷积层和最大池化层maxpool_3，第四组卷积块包括Conv4_1、Conv4_2、Conv4_3三个卷积层。

步骤五，设置改进后的VGG16网络的卷积层参数，其中卷积核的大小均为3×3，卷积核的个数随着组数增加，分别为64、128、256、512，滑动步长为2，为了不破坏网络的平移不变性，取消对传统VGG16网络特征图的填充，即尺度填充为0，池化核大小均为2×2。

步骤六，将{x_T}、{x_S}输入至改进后的VGG16网络中，经过4组10个卷积层和3个最大池化层，分别生成模板区域特征图{F_T}和搜索区域特征图{F_S}。

步骤七，对模板区域特征图F_T利用通道注意力模块进行特征增强，实现对特征图进行通道上的注意力重分配，得到经通道注意力处理后得到的特征图F_T′，具体过程为：

(7.1)对输入特征图F_T分别采用最大池化和均值池化提取特征图的空间信息，生成最大池化特征图

和均值池化特征图

(7.2)将获取到的两个特征图输入由两个卷积层和一个ReLU激活层构成的感知器模型中，聚合不同通道的特征信息；

(7.3)将聚合了通道信息的两个特征向量经过非线性映射生成通道注意力权重M_c(F_T)；

(7.4)将该权重M_c(F_T)与输入特征图F_T相乘，得到经通道注意力处理后得到的特征图F_T′，其中，通道注意力权重M_c(F_T)计算公式为：

式中，σ(·)表示sigmoid激活函数，W₀、W₁分别表示感知器的两个卷积层参数，

分别表示通道注意力模型中的最大池化特征图和平均池化特征图。

步骤八，将特征图F_T′利用空间注意力模块进行特征增强，得到空间注意力权重M_s(F′_T)，实现对特征进行空间通道上的注意力重分配，得到增强后的模板区域最终生成的特征图f_T，具体过程为：

(8.1)对经通道注意力处理后得到的特征图F_T′分别进行最大池化和均值池化操作，生成最大池化特征图

和均值池化特征图

(8.2)将其利用Concat(·)操作对特征图在通道层面进行相加，随后利用3×3卷积核对通道特征图进行融合；

(8.3)将融合后的特征图经过sigmoid函数进行激活处理得到空间注意力权重M_s(F_T′)；

(8.4)将该权重M_s(F_T′)与特征图F_T′相乘，得到经空间注意力增强后的模板区域特征图{f_T}。其中，空间注意力权重M_s(F_T′)计算公式为：

式中，F_T′表示经通道注意力处理后得到的特征图，σ(·)表示sigmoid函数，f^3×3表示3×3的卷积核，Concat(·)表示特征连接方式，在通道层面对特征进行叠加，AvgPool(·)、MaxPool(·)分别表示平均池化操作和最大池化操作，

分别表示空间注意力模块中提取的均值池化特征图和最大池化特征图。

步骤九，在RPN网络中，以模板区域特征图{f_T}为卷积核对搜索区域特征图{f_S}经过两个3×3卷积核，分别生成分类分支的模板帧特征

和检测帧特征

回归分支的模板帧特征

和检测帧特征

步骤十，在分类分支中，以模板帧特征

作为卷积核，对检测帧特征

进行卷积运算，生成分类响应图

在回归分支中，以模板帧特征

作为卷积核，对检测帧

进行卷积运算，生成回归响应图

具体为：

其中，w、h表示响应图长和宽，k表示生成的锚框个数，*表示卷积运算。

步骤十一，由分类响应图

得到分类输出信息

由回归响应图

得到回归输出信息

表示在位置(i，j)处的偏移预测值，其中，p∈[0，k)。

步骤十二，经过对位置偏移预测值进行回归，得到待跟踪目标的位置信息

具体为：

其中，i∈[0，w)，j∈[0，h)，l∈[0，2k)，

表示anchor坐标位置信息。

步骤十三，判断是否为最后一帧，否，视频帧数加一，回到步骤二；是，确定出无人机视频图像待跟踪的小目标。

为了验证本发明的可行性和有效性，下面结合实例对本发明做进一步详细的描述。

本次验证在Intel(R)Core(TM)i5-9400F CPU@2.9GHZ、6GB内存、NVIDIA GeForceGTX 1660台式机上完成，通过Pycharm、CUDA9.0、CUDNN7.0实现，实验从本发明方法与未加入本发明方法的热力图可视化效果对比、本发明方法与其他方法跟踪性能比较和复杂场景下本发明方法的跟踪效果三个方面进行验证。

图2为加入本发明方法与未加入本发明方法的热力图可视化效果对比。每组对比的第一幅图像为输入原图，第二幅为图像经过卷积处理后的热力图可视化结果，第三幅为对卷积特征图二值化的结果。由图2中(a)可知，未加入本发明方法前，神经网络提取到的目标特征包含较多背景干扰信息，如斑马线、人行道等信息，由二值化图像可以看出，对待跟踪目标主体虽能进行定位，但是容易出现定位不精确等问题。图2中(b)为加入本发明方法的效果图，由图可知待跟踪目标区域特征增强效果明显，加强了特征的表达能力。由二值化图像可以看出改进后的算法对目标区域识别更加准确。因此，采用本发明方法可以对待跟踪目标区域进行特征增强操作，可以帮助卷积神经网络更好地定位目标所在位置，实现目标跟踪。

图3所示为本发明方法与其他方法在不同属性下跟踪成功率和精确度比较。由图可知，从跟踪精度曲线来看，在目标发生快速运动时，本发明跟踪精度高于SiamDWfc1.8％，在目标发生形变时，本发明精度高于SiamRPN 6.7％。在跟踪成功率曲线中，三种不同属性下，本发明与SiamRPN算法相比，跟踪成功率分别提升了2.7％、1.2％以及5.4％。由对比结果可知，本发明方法能够较好适应不同环境下的目标跟踪任务。良好的跟踪精确度保证了对目标位置的准确估计，较高的成功率保证了对目标位置的正确定位，能有效改善方法在跟踪过程中出现跟踪漂移的情况。

图4所示为复杂场景下本发明方法与其他方法的跟踪效果比较。其中，红色为本发明方法，蓝色为SiamRPN_Alex方法，绿色为SiamRPN_ResNet50方法。在图4中(a)、(d)中，bike1和group1视频序列中的车和行人发生较大姿态变化，其中bike1第269帧SiamRPN_ResNet50跟踪框出现了明显的偏移，本发明方法对模板帧对象特征进行了进一步提取，实现了对目标的准确定位，没有出现跟踪框漂移的情况；在图4中(b)中，boat4视频序列出现明显的光照变化，受光照变化干扰，在第367帧，SiamRPN_Alex与SiamRPN_ResNet50的跟踪结果均出现一定误差，对目标尺度估计出现偏差，而本发明方法能够较好实现光照变化下的目标跟踪；在图4中(c)和4中(d)中，car1和group1视频序列均存在与目标相似的干扰对象。如car1中，第1248帧时车辆位置附近出现相似目标，且存在一定遮挡，此时，SiamRPN_Alex与SiamRPN_ResNet50均将干扰目标包括在内；在group1中，在第2823帧，受旁边行人影响，SiamRPN_Alex与SiamRPN_ResNet50已经逐渐偏离目标位置；本发明方法采用注意力机制能够对待跟踪目标特征进行选择性加强，确保在进行相似度对比的过程中获取到目标的最大响应位置，实现较为精准的跟踪。

Claims

1.一种基于孪生网络的无人机视频图像小目标跟踪方法，其特征在于，包括以下步骤：

步骤三，在下一帧图像中，以模板区域{x_T}为中心截取255×255区域作为搜索区域{x_S}；

和回归响应图

步骤七，按照生成的响应图上响应值大小对位置预测值进行回归，生成待跟踪目标的位置信息PRO＝{(x^pro，y^pro，w^pro，h^pro)}；

2.根据权利要求1所述的一种基于孪生网络的无人机视频图像小目标跟踪方法，其特征在于，所述步骤四将{x_T}、{x_S}输入至改进的VGG16网络进行特征提取，分别生成模板区域特征图{F_T}和搜索区域特征图{f_S}，具体为：

(2.1)为了使VGG16网络适用于小目标跟踪任务，对其网络结构进行调整，将网络结构分为4组卷积块，其中第一组卷积块包括Conv1_1、Conv1_2两个卷积层和最大池化层maxpool_1，第二组卷积块包括Conv2_1、Conv2_2两个卷积层和最大池化层maxpool_2，第三组卷积块包括Conv3_1、Conv3_2、Conv3_3三个卷积层和最大池化层maxpool_3，第四组卷积块包括Conv4_1、Conv4_2、Conv4_3三个卷积层；

(2.2)设置改进后的VGG16网络的卷积层参数，其中卷积核的大小均为3×3，卷积核的个数随着组数增加，分别为64、128、256、512，滑动步长为2，为了不破坏网络的平移不变性，取消对传统VGG16网络特征图的填充，即尺度填充为0，池化核大小均为2×2；

(2.3)将{x_T}、{x_S}输入至改进后的VGG16网络中，经过4组10个卷积层和3个最大池化层，生成模板区域特征图{F_T}和搜索区域特征图{f_S}。

3.根据权利要求1所述的一种基于孪生网络的无人机视频图像小目标跟踪方法，其特征在于，所述步骤五中对模板区域特征图{F_T}进一步处理，分别经过通道注意力和空间注意力模块进行特征增强，得到增强后的模板区域特征图{f_T}，具体为：

(3.1)对模板区域特征图F_T利用通道注意力模块进行特征增强，实现对特征图进行通道上的注意力重分配，得到经通道注意力处理后得到的特征图F_T′，具体过程为：

首先，对输入特征图F_T分别采用最大池化和均值池化提取特征图的空间信息，生成最大池化特征图

和均值池化特征图

其次，将获取到的两个特征图输入由两个卷积层和一个ReLU激活层构成的感知器模型中，聚合不同通道的特征信息；

然后，将聚合了通道信息的两个特征向量经过非线性映射生成通道注意力权重M_c(F_T)；

最后，将该权重M_c(F_T)与输入特征图F_T相乘，得到经通道注意力处理后得到的特征图F_T′，其中，通道注意力权重M_c(F_T)可表示为：

分别表示通道注意力模型中的最大池化特征图和平均池化特征图；

(3.2)将特征图F_T′利用空间注意力模块进行特征增强，得到空间注意力权重M_s(F_T′)，实现对特征图进行空间通道上的注意力重分配，得到增强后的模板区域特征图{f_T}，具体过程为：

首先，对经通道注意力处理后得到的特征图F_T′分别进行最大池化和均值池化操作，生成最大池化特征图

和均值池化特征图

其次，将其利用Concat(·)操作对特征图在通道层面进行相加，随后利用3×3卷积核对通道特征图进行融合；

然后，将融合后的特征图经过sigmoid函数进行激活处理得到空间注意力权重M_s(F_T′)；

最后，将该权重M_s(F_T′)与特征图F_T′相乘，得到经空间注意力增强后的模板区域特征图{f_T}，其中，空间注意力权重M_s(F_T′)可表示为：