CN114820712A

CN114820712A - 一种自适应目标框优化的无人机跟踪方法

Info

Publication number: CN114820712A
Application number: CN202210525565.6A
Authority: CN
Inventors: 张�雄; 李晏隆; 上官宏; 武晓嘉; 宁爱平; 王安红
Original assignee: Taiyuan University of Science and Technology
Current assignee: Taiyuan University of Science and Technology
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2022-07-29
Anticipated expiration: 2042-05-16
Also published as: CN114820712B

Abstract

本发明属于图像处理技术领域，具体涉及一种针对无人机视角下选定目标进行准确跟踪的图像方法，具体技术方案为：一种自适应目标框优化的无人机跟踪方法，孪生跟踪网络由特征提取骨干网络模块、锚点候选模块、多尺度特征提取模块、特征融合模块和自适应分类回归模块组成；本发明一方面引入了一个全新的多尺度通道注意力机制—MSCA模块，通过此模块提高了用于锚点生成的模板特征的表达能力，另一方面引入了可变形卷积的思想，利用锚框信息作为偏移量参数，用于提高自适应分类和回归网络的信息获取能力，在UAV123、UAV20L、GOT‑10K等三个公开基准数据集上的实验表明，与传统的算法相比，我们提出的方法拥有更好的跟踪性能。

Description

一种自适应目标框优化的无人机跟踪方法

技术领域

本发明属于图像处理技术领域，具体涉及一种针对无人机视角下选定目标进行准确跟踪的图像方法。

背景技术

目标跟踪是一项基础性的计算机视觉任务，通过第一帧确定的目标信息逐帧定位所选定的目标实现跟踪，在无人控制、工业制造、交通监测等方面都有着举足轻重的作用。

近年来，由于无人机具有强大的灵活性，并且用于广泛的工业领域，如航拍技术、地图测绘、灾后救援等，所以无人机目标跟踪受到了广泛的关注。它有广泛的应用前景，其优势是摄像机可以根据视觉反馈跟踪目标，并且可以通过改变跟踪角度去跟踪目标的方向和位置来优化跟踪性能。然而在无人机跟踪中，也会伴随着一些传统跟踪问题中难以遇到的困难：跟踪对象的环境多变(如遇到突变的光照变化)、背景杂波和严重遮挡等；此外，无人机的跟踪姿态也会发生极端变化，使目标外观极端形变。由于当前嵌入式移动平台的计算能力有限，如何设计出一种跟踪速度快、精度高的无人机跟踪器仍然是一项极具挑战性的任务。

在卷积神经网络的跟踪器中，孪生网络类跟踪器由其独特的网络结构从而表现出优越的性能。2016年，SiamFC提出了孪生跟踪网络的结构，通过选定第一帧的跟踪对象作为模板，计算与视频序列的搜索分支的相似度来进行跟踪。之后，SiamRPN引入了目标检测领域的区域候选网络，将跟踪转化为“一次检测”任务，得到更加精确的目标边界框。在之后RPN网络的基础上，SiamRPN++、DaSiamRPN进一步提高了网络的跟踪性能。然而传统的锚点生成机制中对于锚框是预定义的(如锚框的纵横比、数量、大小等)，不能适应跟踪场景下的突变的运动模式和尺度，特别是在出现快速运动和尺度变化较大时容易发生跟踪漂移。因此，基于RPN网络跟踪算法需要通过对这些超参数的不断调优来提高其性能。2021年，Wenzhang Zhou,Longyin Wen等人对SiamRPN++进行改进，设计了一个鲁棒性更强的孪生跟踪网络SiamCan，它对RPN网络增加了一个新的分支—定位分支，并将一个全局上下文模块引入到定位分支中用于捕获特征的上下文信息。通过定位分支帮助回归分支生成更准确的位置信息，从而对目标的大位移具有更强的鲁棒性。同时，SiamCan还利用多尺度注意力模块来引导这三个分支，增强三层特征之间的差异性使网络获得更好的性能，然而这种设计计算复杂度高，一般的计算平台难以满足实时跟踪的需求。2020年，Yinda Xu,Zeyu Wang等人提出了一种无锚点的跟踪算法SiamFC++，通过计算预测目标的中心位置与真实边界框四个边的偏移量从而得到跟踪对象的预测位置信息。然而SiamFC++虽然通过无锚点的跟踪方法省去了锚点超参数的调优过程，但没有解决训练过程中正负样本不平衡的问题。

航空场景下的跟踪相比于其他传统的跟踪场景具有更加苛刻的要求，更看重跟踪器对快速运动、低分辨率和严重遮挡等场景下的性能体现。如果目标的位置依然由传统预定义的纵横比边界框(如SiamFC)或者通过预定义锚框纵横比的区域候选网络得到的回归位置(SiamRPN)来确定，当目标被完全遮挡或者部分遮挡时，目标所在的图像帧无法提供有效的目标信息，从而容易产生跟踪漂移。Changhong Fu,Ziang Cao等提出的SiamAPN通过重新设计锚点生成机制—自适应锚点候选网络，在充分利用锚点的优势的同时，还大大减少了模型的超参数，提高了模型的跟踪速度，此时学习到的锚框的纵横比例是可变而不是预设定的，因此可以更准确的跟踪到所选对象，减少了负样本信息，增强了分类网络的样本平衡性。但对于不同的特征图像学习到的特征表示方式是一致的，没有充分利用到自适应锚点生成模块的优势，导致得到的特征信息无法充分适应复杂的跟踪场景。此外，在自适应锚点候选网络的设计阶段，SiamAPN仅仅使用了简单的特征提取方式，没有对特征进行深度的信息挖掘，无法学习到更加丰富的多尺度空间信息，也难以捕捉到远距离下的通道依赖关系，导致自适应锚点网络的探索度不深、自适应性不够灵活。上述的大多数孪生跟踪算法都是基于分类和回归两个问题展开设计的，仍然利用传统的特征提取方式对用于分类回归任务的特征进行信息提取，没有考虑到锚点对分类和回归中特征提取的影响。

发明内容

为解决现有技术存在的传统孪生网络模型对跟踪队形的多尺度空间信息不够敏感、SiamAPN网络中提出的自适应锚点候选模块所采用的模板特征太过单一、没有挖掘更深层次的信息、特征信息生成的候选区域无法满足跟踪视角下目标发生极端变化时的分类与定位、跟踪器难以适应复杂跟踪场景的技术问题，本发明增加了一个引导式卷积模块，提出了一种自适应分类回归模块，该模块利用可变形卷积的思想，将锚框候选模块中自适应锚框的纵横比作为可变形卷积的偏移参数变量，去抽取到更有利于分类和回归的有效特征，使分类回归模块中所生成的候选区域更接近于目标所在的真实区域，从而保证跟踪器对跟踪目标具有更强的鲁棒性。

为实现上述目的，本发明所采用的技术方案为：一种自适应目标框优化的无人机跟踪方法，包括孪生跟踪网络，孪生网络由特征提取骨干网络模块、锚点候选模块、多尺度特征提取模块、特征融合模块和自适应分类回归模块组成。

特征提取骨干网络模块主要用于图像的特征提取，该模块包括两个共享参数的分支，即模块分支与搜索分支，模块分支输入模板图像Z，模板图像Z经过5层卷积后，得到一个模板图像Z输出特征图

通道数为256；搜索分支输入视频序列中的某一帧搜索图像X，搜索图像X经过5层卷积后，得到一个模板图像X输出特征图

通道数为256。

锚点候选模块将模块特征与搜索特征进行卷积运算得到相应特征R4中的每一个点生成一个锚，用于预测目标位置。为了保证跟踪的鲁棒性，锚点候选模块需要包含更多的空间和位置信息。在锚点候选模块前增加一个多尺度信息模块，使用由模板分支经过特征提取骨干网络中的第四层特征图

作为该模块的输入。

多尺度信息模块不仅可以挖掘到模板特征所包含的多尺度空间信息，还考虑到了多尺度空间特征中每个远距离通道之间的依赖关系，能够为自适应锚点生成模块提供更加丰富的目标信息。多尺度特征提取模块用于建立分类回归模块与锚点候选网络模块之间的信息关系。

特征融合模块由响应特征R₅与用于锚点候选模块的响应特征R₄进行融合构成，模板特征

与搜索特征

进行互相关操作得到响应特征R₅。

自适应分类回归模块是在SiamAPN网络的分类回归模块基础上增加了一个引导式卷积模块，用于训练跟踪器的分类能力与定位能力。

将

作为输入特征x送入多尺度通道注意力机制中，

经过四个大小为(C/4，H，W，C为通道数，H和W为特征的高和宽)的卷积核后被分为四个大小为C/4×H×W的特征x₁、x₂、x₃、x₄，之后对这四个特征进行分布式处理。

对x₁保持不变，用来保留原始特征的基本信息。

将x₂送入一个大小为3×3的卷积核a，得到特征y₁，之后对特征y₁进行平均池化，再经过上采样得到一个与x₂大小相同的特征z₁。

将x₃送入一个大小为5×5的卷积核b，得到特征y₂，之后对特征y₂进行平均池化，再经过上采样得到一个与x₃大小相同的特征z₂。

将x₄送入一个大小为7×7的卷积核c，得到特征y₃，之后对特征y₃进行平均池化，再经过上采样得到一个与x₄大小相同的特征z₃。

将x₁、z₁送入ECA1注意力模块中，z₂、z₃送入ECA2注意力模块中，分别得到各个特征的注意力权重α₁、α₂、α₃、α₄。这种ECA注意力模块避免了维度缩减，并通过一种高效的方式来挖掘通道间的信息交互。在经过没有降维的全局平均池化之后，ECA模块通过挖掘每个通道及其k个卷积核来捕获相关的通道信息，由大小为k的快速一维卷积有效地实现，k的数量表示有多少区域参与同一个通道的注意力挖掘。ECA1和ECA2的区别在于对特征全局平均池化后进行卷积处理时卷积核的大小不同，其中，ECA1的卷积核K的大小为3，ECA2的卷积核K的大小为5。

将α₁、α₂、α₃、α₄进行级联得到注意力权重α₅，再对α₅进行softmax处理，得到最终的多尺度通道交互注意力权值矩阵α_all。

将得到的多尺度通道交互注意力权值矩阵α_all与原始特征X进行相乘，最终得到一个具有多尺度通道交互信息的特征Y。

引导式卷积利用了可变形卷积思想，使分类回归模块通过锚框的纵横比信息自适应的获取到不同于传统卷积的相关特征，因此使分类回归模块获取到与锚框信息更加契合的分类特征与回归特征。

传统卷积提取特征时感受野保持不变，然而在候选区域的每个感受野所覆盖的范围中对应着不同尺度和形状的目标块，所以传统的卷积方式在面对一些非刚性目标时获取到的信息容易产生偏差。可变形卷积是在标准传统卷积的基础上对每个卷积核的采样点增加了一个二维偏移量，从而获得不规则的采样位置，抽取到与产生二维偏移量的信息相关的特征。引导式卷积模块利用了可变形卷积的方式，将自适应锚点候选网络中锚框的纵横比设定为引导可变形卷积感受野变化的偏移参数。不同的锚框产生的偏移量不同，因此获取到的特征更容易对应于具有不同尺度变换的目标。

当锚框越大，引导式卷积模块中感受野的偏移程度越大，整个特征提取过程中的感受野范围越大，因此获取到的特征信息更加完整与准确，反之，锚框越小，引导式卷积模块在特征提取的过程中感受野范围越小，获取到的特征细节更多，从而生成的候选区域越精确。

自适应分类回归网络的分支结构与SiamAPN的结构保持一致，采用SiamAPN的损失函数，具体如下：

L_cls＝λ_cls1l_cls1+λ_cls2l_cls2+λ_cls3l_cls3 (1)

L_cls为分类分支的总分类损失，由三个子分类损失构成，其中，l_cls1为交叉熵损失函数，用于调节锚框与真实边界框的IOU；l_cls2为二元交叉熵损失函数，集中于选择落在真实边界框中的锚点；l_cls3为二元交叉熵损失函数，用于优化每个对应点与地面真实值的中心距离；λ_cls1、λ_cls2、λ_cls3为预定义的超参数；

L_loc＝λ_loc1l_IOU+λ_1oc2l_loc (2)

L_loc为回归分支的总回归损失，l_loc为L1损失函数，用于预测框回归；其中l_Io为IOU损失函数，用于预测框与真实框的IOU损失优化，帮助模型获得更鲁棒的回归结果；λ_loc1、λ_loc2为预定义的超参数；

L＝L_apn+L_cls+L_loc (3)

整个网络的损失函数如式(3)中所示，其中L_apn为自适应锚点模块的损失函数，用于自适应锚点的优化。

本发明提出了一种新的全卷积孪生网络，引入了一个全新的多尺度通道注意力机制，通过多尺度通道注意力机制提高了用于锚点生成的模板特征的表达能力；本发明引入了可变形卷积的思想，利用锚框信息作为偏移量参数，用于提高自适应分类和回归网络的信息获取能力。

附图说明

图1为本发明的网络框架图。

图2为本发明的多尺度通道注意力模块结构图。

图3为本发明的多尺度通道注意力模块结构中引用的ECA注意力。

图4为本发明的引导式卷积模块图。

图5为UAV123上跟踪器的性能对比图。

图6为UAV123多种跟踪属性下的量化表现图。

图7为UAV123的可视化表现图。

图8为UAV20L上各跟踪器的性能对比图。

图9为UAV20L多种跟踪属性下的量化表现图。

图10为GOT-10K上跟踪器的成功率对比图。

图11为VOT2016上跟踪器的EAO排名示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，一种自适应目标框优化的无人机跟踪方法，包括孪生跟踪网络，孪生网络由特征提取骨干网络模块、锚点候选模块、多尺度特征提取模块、特征融合模块和自适应分类回归模块组成。

特征提取骨干网络模块主要用于图像的特征提取，该模块包括两个共享参数的分支，即模块分支与搜索分支，模块分支输入模板图像Z，模板图像Z经过5层卷积后，得到输出

通道数为256；搜索分支输入视频序列中的某一帧搜索图像X，搜索图像X经过5层卷积后，得到输出

通道数为256。

锚点候选模块将模块特征与搜索特征进行卷积运算得到相应特征R4中的每一个点生成一个锚，用于预测目标位置。为了保证跟踪的鲁棒性，锚点候选模块需要包含更多的空间和位置信息。在锚点候选模块前增加一个多尺度信息模块，使用第四层特征

作为该模块的输入。

与搜索特征

进行互相关操作得到响应特征R₅。

如图2-3所示，将

作为输入特征X送入多尺度通道注意力机制中，

经过四个大小为(C/4，H，W，C为通道数，H和W为特征的高和宽)的卷积核后被分为四个大小为C/4×H×W的特征x₁、X₂、x₃、x₄，之后对这四个特征进行分布式处理；

对x₁保持不变，用来保留原始特征的基本信息。

将x₁、z₁送入ECA1注意力模块中，z₂、z₃送入ECA2注意力模块中，ECA1和ECA2的区别在于对特征全局平均池化后进行卷积处理时卷积核的大小不同，其中ECA1的卷积核K的大小为3，ECA2的卷积核K的大小为5，分别得到各个特征的注意力权重α₁、α₂、α₃、α₄。

如图4所示，引导式卷积利用了可变形卷积思想，使分类回归模块通过锚框的纵横比信息自适应的获取到不同于传统卷积的相关特征，因此使分类回归模块获取到与锚框信息更加契合的分类特征与回归特征。

L_cls＝λ_cls1l_cls1+λ_cls2l_cls2+λ_cls3l_cls3 (1)

L_loc＝λ_loc1l_IOU+λ_loc2l_loc (2)

L＝L_apn+L_cls+L_loc (3)

UAV123数据集包含总计123个视频序列和超过110K帧，这些视频序列包含各种各样的场景、目标和活动。这些视频序列还包含了十二种跟踪挑战属性，包括完全遮挡、部分遮挡、纵横比变化、光照变化、视点变化、背景杂波、摄像机运动、低分辨率、快速运动、相似目标、尺度变化、超出视野外等。跟踪最困难的属性是尺度变化和纵横比变化，而这两种属性是航空跟踪数据集中最主要的属性，因此具有尺度自适应的跟踪器通常表现最好。

UAV123基准评价策略沿用了OTB50的评估策略，使用精度和成功率两类性能指标对跟踪器进行比较。跟踪精度是通过给定的阈值距离范围，内跟踪器预测边界框与真实值边界框之间所占的像素百分比来定义的。成功率是通过跟踪器预测边界框中的像素和真实值边界框中的像素的交集和并集来衡量的。成功率图显示了跟踪器预测边界框和真实值边界框重叠分数大于给定阈值的百分比。

将提出的全卷积孪生网络与其他9种跟踪器(SiamAPN、SiamRPN、DaSiamRPN、ECO、CCOT、ECO-HC、SRDCF、Struck、CSK)在UAV123测试基准上进行比较，包括DaSiamRPN、SiamAPN、DaSiamRPN和ECO等。采用OPE(一次性)的成功图和精度图作为评价跟踪器性能的指标。如图5所示，全卷积孪生网络在这两种指标上的表现优于其他跟踪器。与经典的RPN类跟踪器相比，全卷积孪生网络依然具有良好的竞争力。相比于基准跟踪器SiamAPN，全卷积孪生网络精度提高了2.4％，成功率提高了1％。

如图6所示，当跟踪器在每一个属性下的标定点在越远离圆心，则表示跟踪器在当前属性下的性能表现越好。每个跟踪属性下的括号中所代表的数字所表示的含义是：在当前跟踪属性下所有跟踪器中最差的量化结果和最优的量化结果。由此可以看出，本发明的全卷积孪生网络在绝大多数的跟踪属性下有着最好的性能表现。

在UAV123上的一些测试序列的定性表现如图7所示，通过多尺度通道注意力机制模块和引导式卷积模块的综合作用，全卷积孪生网络最终获得了优异的跟踪性能。

UAV20L是UAV基准中一个用于长期航拍跟踪的测试子集，是专为长时的实时跟踪而设计的。该测试子集包含了20个长期序列(平均每个序列2934帧)，这些长期序列仍然包含了十二种跟踪属性。

在UAV20L基准上大多数跟踪器的表现都比在UAV123上差很多，说明长期跟踪仍然是一个困难的挑战。在长期跟踪时，跟踪器漂移更有可能导致目标完全丢失，目标长期不出现导致跟踪器的搜索区域难以搜索到目标。因此，跟踪器在UAV20L上的性能体现比在UAV123上的性能体现更加严苛。

将本发明提出的全卷积孪生网络与其他9种跟踪器(SiamAPN、SiamRPN、SiamRPN++、SRDCF、SAMF、MEEM、Struck、DSST、KCF)在UAV20L上进行性能的量化对比，如图8所示，全卷积孪生网络相比于其他跟踪器表现出更加良好的性能。一方面，即使与使用了Resnet骨干特征提取网络的SiamRPN++相比，全卷积孪生网络依然具有更好的表现；另一方面，全卷积孪生网络在精度与成功率上相比于基准模型SiamAPN分别提高了2.3％、1.6％。

在UAV20L的十二个跟踪属性中，全卷积孪生网络也表现出不错的跟踪性能，尤其是在完全遮挡和背景杂波的跟踪属性下，全卷积孪生网络比其他跟踪器具有更突出的跟踪性能。全卷积孪生网络与其他跟踪器具体表现如图9所示。

GOT-10K是一个大型的多样性基准，它包含了1万多个真实世界移动物体的视频片段。所有的跟踪器都使用由GOT-10K平台提供的完全相同的训练数据所训练的，训练数据集和测试数据集的视频序列的类别是零重叠的。

使用GOT-10K提供的训练数据训练得到的跟踪器模型在GOT-10K的测试集上进行测试，将得到的测试结果上传到GOT-10K官网，由官方网站自动进行分析。GOT-10K所提供的评价指标包括成功率、平均重叠度和成功率。AO表示所有预测边界框与真实边界框之间的平均重叠。其中，SR_0.5表示重叠度超过0.5的帧的成功率，而SR_0.75表示重叠度超过0.75的成功率。

如图10所示，将全卷积孪生网络并与其他十一个跟踪器(SiamMask、SiamRPN、SiamFC等)在GOT-10K测试工具上进行了对比。所有算法的测试结果均由GOT-10K官网提供。如表1可知全卷积孪生网络在GOT-10K上的性能总体上优于其他跟踪器，并列出了不同指标的比较细节，全卷积孪生网络在成功率指标中排名第一。与SiamAPN相比，全卷积孪生网络在AO、SR_0.5和SR_0.75等性能指标方面分别提高了2.5％、3.9％和4.8％。由于跟踪器使用相同的训练数据，且测试数据集的ground-truth box对跟踪器来说是不可见的，因此在GOT-10K上的跟踪结果比其他基准上的跟踪结果更可信、更有说服力。

表1 GOT-10K上跟踪器的量化信息

VOT(视觉目标跟踪)是一个针对单目标跟踪的测试平台，由于其独特的评测标准与机制已经成为单目标跟踪领域主流的测试平台之一。

VOT评测工具具有一个独特的评测机制：跟踪器跟踪失败以后，在跟踪丢失的第5帧(因为如果跟踪失败立马初始化可能会导致再次失败，对遮挡等跟踪场景无法保证得到目标位置，而VOT数据集中的遮挡场景一般都不超过5帧)对跟踪器进行初始化，达到充分利用数据集的目的。由于这种评测机制更贴近于现实场景中无人机跟踪的工作模式，因此本发明采用了VOT2016测试工具对全卷积孪生网络和其他跟踪器进行了性能测试与对比。VOT2016基准的主要评价指标为准确性(A)、鲁棒性(R)和预期平均重叠(EAO)，其中EAO分数对跟踪器的性能评估具有重要的参考意义。

VOT2016包含了60个视频序列，这些序列包含了最主流的跟踪挑战场景。使用VOT2016基准将全卷积孪生网络与其他九个跟踪器(SiamAPN、SiamRPN、SSAT、CCOT、Staple、SiamFC、SiamRN、SSKCF)在准确性(A)、鲁棒性(R)和预期平均重叠(EAO)等评价指标上进行对比。准确性是通过预测位置与实际位置的交并比来定义的；而EAO是跟踪器通过判定跟踪成功后的跟踪精度来定义的；鲁棒性是根据跟踪器在上一次跟踪失败后能够持续跟踪100帧的概率，数值越大，鲁棒性越差。图11所示为包含本文方法在内的十种算法在VOT2016上的EAO排序。如表2所示，本发明所提出的全卷积孪生网络相比于SiamAPN在准确率、鲁棒性、预期平均重叠度方面分别提高了1.2％、11.9％、4.9％，即使相比与预设定锚框信息的SiamRPN，全卷积孪生网络也表现出略胜一筹的稳定性。

表2 VOT2016上跟踪器的性能表现

本发明模型的性能主要依据多尺度通道注意力机制模块和引导式卷积模块来进行提升的。为了研究两个模块的有效性，本发明在VOT2016上对网络模型进行了消融实验。如表3所示，多尺度通道注意力机制模块和引导式卷积模块对于性能的提升都贡献了很大的作用。当用于锚点信息提取的多尺度通道注意力机制模块与用于分类回归网络的引导式卷积模块单独作用于SiamAPN时，由实验得到的数据发现，这两个模块都对跟踪器的性能做出了良好的贡献。

表3消融实验

本发明提出了一个新的全卷积孪生跟踪网络—自适应目标框优化网络，能够更好地处理无人机跟踪时所面对的各种挑战。本发明在锚点候选网络的模板特征提取阶段加入了一个新的多尺度通道注意力，引导式卷积深度挖掘了用于锚点生成的特征，使锚点能够生成更加准确的候选区域。与此同时，我们还在分类回归网络模块加入了一个引导式卷积引导式卷积，利用自适应锚框的纵横比信息来指导候选区域的生成，显著的提高了分类网络的精度。在UAV123、UAV20L、GOT-10K、VOT2016等四个权威测试基准上的综合实验，有力地证明了全卷积孪生网络的跟踪性能。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包在本发明范围内。