CN113962281A

CN113962281A - 基于Siamese-RFB的无人机目标跟踪方法

Info

Publication number: CN113962281A
Application number: CN202110958598.5A
Authority: CN
Inventors: 刘芳; 温芷媛
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2022-01-21

Abstract

本发明公开了基于Siamese‑RFB网络的无人机视频目标跟踪方法，包括以下步骤：基于RFB残差网络构建深度网络模型，能够有效提取目标特征并增强特征的有效感受野；采用多尺度自适应融合策略，能够自适应地高效融合深层网络的语义特征和浅层网络的细节特征，增强特征的表达能力；由RF‑ResNet网络和目标融合网络组成Siamese结构的模板分支和检测分支。基于Siamese‑RFB的无人机目标跟踪算法，本发明在跟踪成功率和精确率方面都达到了较高水平，有效提升了无人机目标跟踪性能。

Description

基于Siamese-RFB的无人机目标跟踪方法

技术领域

本发明涉及一种视频目标跟踪方法，融合了图像处理、特征融合以及计算机等许多领域的先进技术，特别涉及一种Siamese-RFB网络的无人机视频目标跟踪算法。

背景技术

无人机因其操作简便、精准作业、节省大量人力成本、适应多种环境和天气等优势，无人机性能的提高需要目标跟踪技术，它能极大的增强监控能力，因此基于无人机视觉的目标跟踪技术已成为一项重要的研究课题。在无人机视频中，由于无人机拍摄角度有限且视角较高、飞行姿态经常变化，导致目标在图像中的占比较小并且容易发生形变、遮挡等复杂情况，难以提取到关键信息，影响跟踪算法的性能，因此解决目标跟踪技术中小目标特征提取困难的问题是增强无人机性能的关键。近年来，由于深度卷积神经网络具有强大的目标特征提取能力，能够高质量地完成图像分类、目标检测和目标跟踪等任务，因此深度学习技术在计算机视觉领域的应用越来越广泛。Wang等人首次将深度卷积神经网络应用到目标跟踪领域，提出了DLT跟踪算法，对速度鲁棒，对姿态鲁棒，但对于多目标且部分重叠下的场景，跟踪效果不甚理想。Hong等人提出的CNN-SVM跟踪算法，利用SVM代替卷积神经网络中的全连接层，可以提高网络识别精度，但只适合小数量级的图像分类。上述基于深度学习的目标跟踪算法，虽然整体上提高了目标跟踪性能，但针对小目标特点的处理能力还有待提高，从而难以有效地应用在无人机视觉任务中。

综上所述，提出了一种基于Siamese结构的自适应融合无人机目标跟踪算法。首先，结合RFB-Net的感受野增强特性和残差网络(Residual Network，ResNet)结构的梯度优化特点，构建了一个感受野增强残差网络(Receptive Field-Residual Network，RF-ResNet)，能够有效提取目标特征并增强其有效感受野区域。然后将RF-ResNet网络的浅层、中层和深层的三个尺度特征分别输入对应的RFB模块，增强特征图感受野强度，再利用反卷积操作将特征尺度对齐，并由深层至浅层逐步进行融合，以实现深层语义特征和浅层细节特征的高效融合。其次，将跟踪模板图像与目标搜索图像分别输入到各自的Siamese-RFB分支中，提取孪生结构特征。最后，将2个网络的输出特征进行卷积得到响应图(Response map)从而预测目标位置。仿真实验结果表明，本算法在成功率和精确率方面都达到了较高水平，能够有效提升无人机小目标跟踪性能。

现有的方法存在的不足：一方面，基于深度学习的跟踪算法在跟踪精度上有很大的提升，基本可以达到95％以上的精度，可是算法结构复杂度高，运算量大，不能满足高帧率无人机视频实时性的要求。另一方面，经典的跟踪算法对于特定目标的跟踪效果很好，而且可以达到实时性，但不具有泛化性，不能应用于各种场合中，且对于长时跟踪、相似物体干扰、光照问题解决不好，容易导致跟踪失败。

发明内容

本发明针对无人机视频中目标占比小、易发生形态变化、易被遮挡等问题，设计一种基于Siamese结构的无人机目标跟踪网络，并针对无人机视频中目标占比小、易受复杂背景信息干扰等问题，结合Siamese结构构建了Siamese-RFB网络模型，将RF-ResNet网络模型提取的多层特征进行多尺度自适应融合，获得表达能力更强的目标特征，较好地提升了网络对目标变化的适应性，提升了预测准确度和精确度，降低了周围背景对网络性能的影响。

为达到上述目的，本发明提出基于Siamese-RFB网络的无人机视频自适应目标跟踪算法，包括以下步骤：

S1：选取大量无人机采集的与所要跟踪目标有关的图像序列，对RF-ResNet网络进行预训练，训练方法如下：

S1.1：三层ResNet残差网络和一个RFB模块构建RF-ResNet网络；

S1.2：将Conv4层输出的特征图C4进行转置卷积运算，使其与前一层特征图C3的空间尺寸一致，将特征图C3输入到RFB模块，并按照通道维度与特征图C4转置卷积后的结果进行矩阵求和操作，得到融合特征图F1；同理，得到与特征图C2相同尺度的融合特征图F2；

S1.3：将C4、F1、F2特征进行融合，得到融合目标特征图y；

S2：设计了由RF-ResNet网络和目标融合网络组成Siamese结构的模板分支与检测分支，构造有效的损失函数，对响应图的位置点进行了正负样本区分，设计了针对于每个点的损失函数；

S3：采用全部点的损失均值作为对于Siamese结构响应图的整体损失，并输入的已标注图像，利用损失均值计算损失并采用SGD算法进行网络权重优化；

S4：将视频转化为图像帧输入系统，并读入第1帧；

S5：利用模板分支提取第1帧目标图像特征f_exemplar；

S6：读取下一帧，利用检测分支提取当前帧目标特征f_instance；

S7：对特征f_exemplar和f_instance通过相似度函数f(z,x)＝φ(z)*φ(x)+b进行互相关计算得到响应图,其中*表示将两个特征图矩阵进行互相关计算，b表示一个偏置，其在各个位置上都相同；

S8：在每一帧图像中，取该帧图像的上一帧图像的目标位置周围的n个窗口进行多尺度变换、特征提取、降维工作，并使用上一帧图像训练好的分类器进行分类，分类分数最大的窗口即为跟踪目标；

S9：重复S4-S8直到处理完全部无人机视频帧，得到并输出视频跟踪结果。

有益效果

根据本发明针对无人机视频中目标占比小、易发生形态变化、易被遮挡等问题，需要提取小目标特征，结合Siamese结构和RFB网络构建了Siamese-RFB网络模型。结合RFB-Net 的感受野增强特性和残差网络结构梯度优化特点，构建了一个残差感受野卷积神经网络 RF-ResNet，能够有效提取小目标特征并增强其有效感受野区域，提出了一种多尺度自适应融合策略，能够高效将深层网络语义特征和浅层网络的细节特征相融合。仿真实验表明，所提算法在视角变化、遮挡、形变、尺度变化等场景下具有较好的性能，能够较好地处理这些视频，并对于其他场景下的测试视频，所提算法的性能也是较好的，这也充分验证所提算法在跟踪准确性、稳定性和鲁棒性方面具有优异的整体性能。本文提出的自适应融合方法的跟踪精确率达到了0.702，分别比维度连接融合方法和直接利用Conv4特征进行目标跟踪的精确率提高了1.3％和4.5％；跟踪成功率分别达到了0.475，分别比维度连接融合方法和直接利用 Conv4特征进行目标跟踪的精确率提高了5.4％和9.3％。

附图说明

本发明上述和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例的基于Siamese结构的无人机视频目标跟踪算法方法的流程图；

图2为本发明实施例的RF-ResNet残差网络结构图；

图3为本发明实施例的RFB网络结构图；

图4为本发明一个实施例的一个Siamese-RFB网络模型示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的原件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

根据本发明基于Siamese-RFB网络的无人机视频目标跟踪方法，包括以下几个步骤：

S1.1：由三层ResNet残差网络和一个RFB模块构建RF-ResNet网络；

ResNet残差网络如图2所示。共有二层，F＝W₂σ(W₁x)，y＝G(x,{W_i})+x，其中σ 代表非线性函数ReLU，然后通过一个shortcut和第2个ReLU，获得输出y。考虑计算的成本，对残差块做了计算优化，第一层卷积层为1x1、中间层卷积层为3x3、第三层卷积层为 1x1。中间3x3的卷积层首先在一个降维1x1卷积层下减少了计算，然后在另一个1x1的卷积层下做了还原，既保持了精度又减少了计算量。

RFB网络设计了一种含有三个分支的网络结构，如图3所示，每个分支分别采用1×1 标准卷积、扩张系数为1的3×3空洞卷积，1×1标准卷积、3×3标准卷积、扩张系数为3 的5×5空洞卷积和1×1标准卷积、5×5标准卷积、扩张系数为5的3×3空洞卷积。此外， RFB网络还采用了ResNet中的直连(shortcut)结构，使得梯度能够很好地传递到浅层，减轻深层网络的训练负担。空洞卷积(Dilated Convolution)在标准卷积层中加入了一个新的参数-扩张率(dilation rate)，该参数决定了卷积核在处理数据时各像素之间的距离，将卷积核扩张到规定的尺度，并将原卷积核中未被占用的像素区域填充为0，因而能够在不增加额外运算量的同时，增大特征图的感受野。如图3所示的RFB结构，在每一个分支的1×1标准卷积之后都添加一个不同扩张率的空洞卷积层。

针对梯度消失或爆炸导致的网络模型退化问题，提出了ResNet残差网络结构，通过 shortcut连接方式有效的减少了网络梯度传播时经过的层数，使得损失值发生爆炸和消失的问题得到缓解，加快网络模型训练速度，提升网络模型表达能力。因此，结合RFB的感受野增强特性和ResNet的梯度优化特点，构建了RF-ResNet网络用于提取跟踪目标的图像特征。

S1.3：将C4、F1、F2特征进行融合，得到融合目标特征图y；

设置三个权重系数，让RF-ResNet网络学习C4、F1、F2特征图对跟踪任务的贡献程度，按照公式F1＝D(C4)+C3、F2＝D(F1)+C2、

自适应地调节权重系数将三个特征进行融合得到当前帧目标特征f_instance，其中，D()为转置卷积函数，

和

分别为各特征图的权重系数，且

网络共有2个分支，如图4所示。其中网络右半部分为模板分支，左半部分为检测分支，并通过学习相似度函数f(z,x)在空间

中比较目标模板图像z和当前帧图像x，从中找出与目标模板图像最相似的样本作为预测目标，表达式为

式中：＊表示将两个特征图矩阵进行互相关计算；b为一个偏置，并在每个位置都是相同的。

为了构造有效的损失函数，对响应图的位置点进行了正负样本的区分，即目标一定范围内的点作为正样本，范围外的点作为负样本。对于响应图中每个点的损失函数为l(y,v)＝ log(1+exp(-yv))。式中，v为每个点的真实值，y∈{+1，-1}为这个点所对应的标签。

对于相应图的整体损失则采用全部点的损失均值，即：

式中u∈D为响应图中的位置。y[u]表示为：

式中，k为网络步长， c为中心点，R为搜索区域半径。

卷积网络的参数θ使用SGD(Stochastic Gradient Descent)即随机梯度下降优化算法对损失进行优化计算：

网络的最大池化层分别部署在前两个卷积层之后，ReLU非线性激活函数部署在除了最后一层外的每个卷积层之后，BN(Batch Normalization) 层被嵌入每个线性层之后，网络中没有填充(Padding)操作。网络分为2个输入，一个输入目标图像，大小为127×127×3，另一个输入当前帧搜索区域图像，大小为255×255×3，搜索区域为上一帧目标大小的4倍，并将余弦窗添加到响应图中以惩罚最大位移。

S4：将视频转化为图像帧输入系统，并读入第1帧；

S5：利用模板分支提取第1帧目标图像特征f_exemplar；

S9：重复S5-S9直到处理完全部无人机视频帧，得到并输出视频跟踪结果。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改替换和变形，本发明的范围有所附权利要求及其等同限定。

Claims

1.基于Siamese-RFB网络的无人机视频目标跟踪方法，其特征在于：该方法包括以下步骤，

S1：选取大量无人机采集的与所要跟踪目标有关的图像序列，对RF-ResNet网络进行预训练；

S2：设计由RF-ResNet网络和目标融合网络组成Siamese结构的模板分支与检测分支，构造有效的损失函数，对响应图的位置点进行了正负样本区分，设计了针对于每个点的损失函数；

S4：将视频转化为图像帧输入系统，并读入第1帧；

S5：利用模板分支提取第1帧目标图像特征f_exemplar；

S7：对特征f_exemplar和f_instance通过相似度函数

进行互相关计算得到响应图，其中*表示将两个特征图矩阵进行互相关计算，b表示一个偏置，其在各个位置上都相同；

2.根据权利要求1所述的基于RF-ResNet网络的目标跟踪方法，其特征在于：对RF-ResNet网络进行预训练，训练方法如下：

S1.1：由三层ResNet残差网络和一个RFB模块构建RF-ResNet网络；

RFB网络设计了一种含有三个分支的网络结构，每个分支分别采用1×1标准卷积、扩张系数为1的3×3空洞卷积，1×1标准卷积、3×3标准卷积、扩张系数为3的5×5空洞卷积和1×1标准卷积、5×5标准卷积、扩张系数为5的3×3空洞卷积；RFB网络采用了ResNet中的直连结构，使得梯度能够很好地传递到浅层，减轻深层网络的训练负担；空洞卷积在标准卷积层中加入了一个新的参数—扩张率，该参数决定卷积核在处理数据时各像素之间的距离，将卷积核扩张到规定的尺度，并将原卷积核中未被占用的像素区域填充为0，因而能够在不增加额外运算量的同时，增大特征图的感受野；RFB结构在每一个分支的1×1标准卷积之后都添加一个不同扩张率的空洞卷积层；

ResNet残差网络共有二层，F＝W₂σ(W₁x)，y＝F(x，{W_i})+x，其中σ代表非线性函数ReLU，然后通过一个shortcut和第2个ReLU，获得输出y；考虑计算的成本，对残差块做计算优化，第一层卷积层为1x1、中间层卷积层为3x3、第三层卷积层为1x1；中间3x3的卷积层首先在一个降维1x1卷积层下减少了计算，然后在另一个1x1的卷积层下做了还原，既保持精度又减少计算量；

ResNet残差网络结构中，通过shortcut连接方式有效的减少了网络梯度传播时经过的层数，使得损失值发生爆炸和消失的问题得到缓解，加快网络模型训练速度，提升网络模型表达能力；结合RFB的感受野增强特性和ResNet的梯度优化特点，构建了RF-ResNet网络用于提取跟踪目标的图像特征；

S1.3：将C4、F1、F2特征进行融合，得到融合目标特征图y；

和

分别为各特征图的权重系数，且

3.根据权利要求1所述的基于RF-ResNet网络的目标跟踪方法，其特征在于：S3中采用全部点的损失均值作为对于Siamese结构响应图的整体损失，并输入的已标注图像，利用损失均值计算损失并采用SGD算法进行网络权重优化；

网络共有2个分支，分别为模板分支和检测分支，为了构造有效的损失函数，对响应图的位置点进行了正负样本的区分，即目标一定范围内的点作为正样本，范围外的点作为负样本；对于响应图中每个点的损失函数为l(y，v)＝log(1+exp(-yv))；式中，v为每个点的真实值，y∈{+1，-1}为这个点所对应的标签；通过学习相似度函数f(z，x)在空间

式中：＊表示将两个特征图矩阵进行互相关计算；b为一个偏置，并在每个位置都是相同的；

对于相应图的整体损失则采用全部点的损失均值，即：

式中u∈D为响应图中的位置；y[u]表示为：

式中，k为网络步长，c为中心点，R为搜索区域半径；

卷积网络的参数θ使用SGD即随机梯度下降优化算法对损失进行优化计算：

网络的最大池化层分别部署在前两个卷积层之后，ReLU非线性激活函数部署在除了最后一层外的每个卷积层之后，BN层被嵌入每个线性层之后，网络中没有填充操作；网络分为2个输入，一个输入目标图像，大小为127×127×3，另一个输入当前帧搜索区域图像，大小为255×255×3，搜索区域为上一帧目标大小的4倍，并将余弦窗添加到响应图中以惩罚最大位移。